Data Shuffling: tasowanie danych zgodnie z prawem

Computerworld 7 lipca 2008 10:20 Wiesław Pawłowicz
Technika Data Shuffling umożliwia udostępnianie i analizę wrażliwych informacji przy zachowaniu wymagań prawnych dotyczących ochrony danych.
Innowacyjna technologia umożliwiająca ochronę przed wyciekiem wrażliwych informacji być może już wkrótce znajdzie praktyczne zastosowania. Naukowcy z Department of Management Science & Information Systems na uniwersytecie stanowym w Oklahoma uzyskali finansowanie nowego projektu, którego zadaniem jest opracowanie oprogramowania umożliwiającego praktyczne wykorzystanie opatentowanej przez nich już wcześniej techniki Data Shuffling (tasowanie danych).

Co to jest Data Shuffling

Jak wyjaśnia prof. Rathindra Sarathy, kierujący grupą badawczą, Data Shuffling to technika maskowania danych numerycznych umożliwiająca ich wykorzystanie do celów analitycznych przy jednoczesnym zapewnieniu poufności informacji. Jako przykład podaje on problem z udostępnianiem danych o zarobkach pracowników analitykom przygotowującym ogólne raporty. Regulacje prawne nie pozwalają na ujawnienie takich informacji, bo nawet jeśli dane osobiste zostaną usunięte z pliku, to możliwa jest prosta analiza umożliwiająca odtworzenie powiązań liczb z dotyczącymi ich osobami. Klasyczne metody szyfrowania nie są tu pomocne, bo - aby skorzystać z danych - analityk i tak musi być w stanie je odszyfrować.

Natomiast Data Shuffling umożliwia inteligentną modyfikację informacji w praktyce uniemożliwiającą identyfikację oryginalnych liczb, a jednocześnie zapewniającą, że wyniki zbiorczej analizy są prawidłowe. Jej koncepcja jest względnie prosta, a można ją wyjaśnić na przykładzie zbioru danych zawierających tysiące informacji o wieku, wykształceniu, zarobkach, nazwiskach itp. określonych osób, które nie mogą być dowolnie udostępniane. Tasowanie danych umożliwia ich wymieszanie, tzn. przypisanie zarobków 55. osoby na liście tej, która jest na pozycji 500 itd. W ten sposób następuje takie przetasowanie informacji, że relacje m.in. stają się całkowicie zamaskowane i niemożliwe do odtworzenia przez osobę nieuprawnioną. W praktyce pozwala to na ujawnienie poufnych liczb i relacji przy zachowaniu wymagań prawnych dotyczących ochrony informacji osobistych.

"Prawdziwa użyteczność tej techniki ujawnia się w sytuacjach, gdy analizowane są skomplikowane zależności między wieloma różnymi parametrami zawierającymi zarówno informacje poufne, jak i jawne" - mówi Rathindra Sarathy.

Gorąca technologia?

Koncepcje tego typu są badane przez wielu naukowców. Opatentowana technika tasowania danych jest tylko jednym z przykładów technologii maskowania wrażliwych danych. Na razie jest to jednak technika wyraźnie niedoceniana przez firmy i organizacje, które wciąż nie zdają sobie sprawy jak potężne może to być narzędzie. "Dlatego jej promocja i edukacja to najważniejsze zadania, które chcemy podjąć" - mówi Rathindra Sarathy.

Jeśli chodzi o komercyjne aplikacje, to obecnie na rynku jest już przynajmniej kilka ofert tego typu produktów, ale są to względnie proste rozwiązania, których funkcjonalność jest znacznie mniejsza w porównaniu do Data Shuffling. W praktyce technika ta może zostać wykorzystana w niezależnych aplikacjach, jako dodatkowy moduł uzupełniający funkcjonalność innych programów (np. arkusza kalkulacyjnego) lub też nawet jako webowa usługa XML. Przeprowadzone testy prototypowych tego typu rozwiązań potwierdzają praktyczne możliwości takich zastosowań.


Komentarze (3)

  • ~gość
  • 2008-07-07 11:19:46

Dobra dobra a skąd ta osoba-analityk wie jak te dane przypisać poprawnie ? Znowu jest problem sysrybucji tajnego klucza

  • tad
  • 2008-07-07 11:37:46

a mnie ciekawi, czy takie pozamienianie wartości kluczy obcych między różnymi tabelami bazy danych (czy to już ten cały shuffling, czy coś jeszcze mądrego tam jest?) to zabezpiecza przez wykryciem jakie są najwyższe zarobki w firmie/dziale/oddziale oraz czy zabezpiecza przez wykryciem jaka jest średnia zarobków wśród mających dane wykształcenie lub staż lub stanowisko lub zaszeregowanie (level). Albo choćby wykrycie dobrego przybliżenia jakie są zarobki średnie specjalistów przez: pominięcie takiego procentu najwyższych zarobków jaki procent stanowi kadra kierownicza w stosunku do wszystkich zatrudnionych, itd. Podobnie z innymi ciekawymi/ciekawszymi danymi właśnie do uzyskania w wystarczającym przybliżeniu na tejże to drodze statystycznej w powiązaniu z konkretną wiedzą o organizacji firmy (a zwykle i bez tej wiedzy wszystko co warto było wiedzieć było osiągalne). Myśmy takie rzeczy robili jeszcze dawno temu, bez patentu, a pensja prezesa i wiceprezesów były minimalne, ułamek przeciętnej - faktycznie zarabiali na procencie od zysku i na wykonaniu innych wskaźników dla rady nadzorczej, co pokazaliśmy dla kierownictwa jako zabawę dla naiwnych. Teraz nawet to będzie to nielegalne, bo jest patent i nie będzie wolno mieszać danych :)

  • tad
  • 2008-07-07 12:06:48

@Gość - ale tam nie ma szyfrowania za pomocą klucza a jedynie za pomocą pozamieniania miejscami (zapewne) konkretnych relacji między rekordami w tabelach bazy danych, nie ma potrzeby wiedzieć jak to zostało zamienione. Czyli sortuje się klucze obce w ramach wybranych tabel bazy danych (np. z tabeli o zarobkach sortuje się klucz obcy wiążący wiersze tej tabeli z wierszami tabeli o danych personalnych, itd.) Jak za daleko pujdzie to sortowanie (np. zarobki względem wykształcenia) to nie będzie można tego odtworzyć. Ciekawe czy to już jest ten patent, bo to była bardzo elementarna operacja i w praktyce niewystarczająco skuteczna dla ochrony informacji o elitach danych grup.

reklama

Popularne produkty

Nokaut

PC World z prezentem!

Tak, zamawiam 12 wydań PC World po 14,09 zł każde (zamiast 19,90 zł) od numeru 6/2012.
Dodatkowo program Panda Antyvirus Pro 2012,
chroniący aż 3 komputery, dostanę za darmo.

PC World 6/2012
Nowy numer PC World 6/2011
Razem: 169


  • Z darmową wysyłką
Wyrażam zgodę na wykorzystywanie mojego adresu email do celów marketingowych. rozwiń »

Pobierz bezpłatnego e-booka

20 lat polskiej sieci
Ebook 20 lat polskiej sieci to kompletna charakterystyka polskiego internetu (oraz polskiego internauty). Odpowiadamy na pytanie, jak wygląda nasz kraj na tle bliższych i dalszych europejskich sąsiadów pod względem popularyzacji szerokopasmowych łączy internetowych i rynku mobilnego. Wymieniamy również wady i zalety korzystania z bezpłatnych punktów dostępowych.
Jeśli chcesz otrzymać darmowego e-booka, wpisz swój adres e-mail. Wyślemy Ci go natychmiast!
Wyrażam zgodę na wykorzystywanie mojego adresu email do celów marketingowych. rozwiń »

  Kariera w IT 2012

Kariera w IT 2012
Uczelnie, rynek pracy, rekrutacja, pracodawcy, rozwój zawodowy - czyli wszystko, co chcielibyście wiedzieć o pracy specjalistów IT w Polsce. Piszemy jakie uczelnie wybrać, dlaczego warto studiować informatykę i kierunki techniczne, jak wygląda proces rekrutacji i jak dobrze wypaść przed pracodawcą, opisujemy pracodawców - firmy IT - i możliwe ścieżki kariery.

  Rekomendacje

reklama
reklama
Warunki obsługi - Kontakt - Regulamin - Polityka prywatności
Serwis zgodny z ASME - Serwisy IDG - Reklama -

Prenumerata: PC World, Computerworld, Networld
© Copyright 2012 International Data Group Poland S.A.
04-204 Warszawa ul. Jordanowska 12
tel.(+4822)321-78-00   fax(+4822)321-78-88
Archiwum wiadomości: 2011 2010 2009 2008 2007 2006 2005 2004 2003 2002 2001