1. Koncept maskiranja podataka
Maskiranje podataka poznato je i kao maskiranje podataka. To je tehnička metoda pretvaranja, mijenjanja ili prekrivanja osjetljivih podataka kao što su broj mobitela, broj bankovne kartice i druge informacije kada smo dali pravila i politike maskiranja. Ova se tehnika prvenstveno koristi kako bi se spriječilo izravno korištenje osjetljivih podataka u nepouzdanim okruženjima.
Načelo maskiranja podataka: Maskiranje podataka treba održati izvorne karakteristike podataka, poslovna pravila i relevantnost podataka kako bi se osiguralo da maskiranje neće utjecati na kasniji razvoj, testiranje i analizu podataka. Osigurajte konzistentnost i valjanost podataka prije i nakon maskiranja.
2. Klasifikacija maskiranja podataka
Maskiranje podataka može se podijeliti na statičko maskiranje podataka (SDM) i dinamičko maskiranje podataka (DDM).
Statičko maskiranje podataka (SDM)Maskiranje statičkih podataka zahtijeva uspostavu nove baze podataka neprodukcijskog okruženja radi izolacije od produkcijskog okruženja. Osjetljivi podaci se izdvajaju iz produkcijske baze podataka, a zatim pohranjuju u neprodukcijsku bazu podataka. Na taj način, desenzibilizirani podaci se izoliraju od produkcijskog okruženja, što zadovoljava poslovne potrebe i osigurava sigurnost produkcijskih podataka.
Dinamičko maskiranje podataka (DDM)Općenito se koristi u produkcijskom okruženju za desenzibilizaciju osjetljivih podataka u stvarnom vremenu. Ponekad su potrebne različite razine maskiranja za čitanje istih osjetljivih podataka u različitim situacijama. Na primjer, različite uloge i dopuštenja mogu implementirati različite sheme maskiranja.
Aplikacija za izvještavanje o podacima i maskiranje podatkovnih proizvoda
Takvi scenariji uglavnom uključuju interne proizvode za praćenje podataka ili billboard, vanjske podatke o uslugama i izvješća temeljena na analizi podataka, kao što su poslovna izvješća i pregledi projekata.
3. Rješenje za maskiranje podataka
Uobičajene sheme maskiranja podataka uključuju: poništavanje, slučajnu vrijednost, zamjenu podataka, simetrično šifriranje, prosječnu vrijednost, pomak i zaokruživanje itd.
PoništenjePoništavanje valjanosti odnosi se na šifriranje, skraćivanje ili skrivanje osjetljivih podataka. Ova shema obično zamjenjuje stvarne podatke posebnim simbolima (kao što je *). Operacija je jednostavna, ali korisnici ne mogu znati format izvornih podataka, što može utjecati na kasnije primjene podataka.
Slučajna vrijednostSlučajna vrijednost odnosi se na slučajnu zamjenu osjetljivih podataka (brojevi zamjenjuju znamenke, slova zamjenjuju slova, a znakovi zamjenjuju znakove). Ova metoda maskiranja osigurat će format osjetljivih podataka do određene mjere i olakšati naknadnu primjenu podataka. Rječnici maskiranja mogu biti potrebni za neke značajne riječi, poput imena ljudi i mjesta.
Zamjena podatakaZamjena podataka slična je maskiranju null i slučajnih vrijednosti, osim što se umjesto korištenja posebnih znakova ili slučajnih vrijednosti, podaci maskiranja zamjenjuju određenom vrijednošću.
Simetrično šifriranjeSimetrično šifriranje je posebna metoda reverzibilnog maskiranja. Šifrira osjetljive podatke pomoću ključeva za šifriranje i algoritama. Format šifriranog teksta je u skladu s izvornim podacima u logičkim pravilima.
ProsječnoShema prosjeka često se koristi u statističkim scenarijima. Za numeričke podatke prvo izračunavamo njihovu srednju vrijednost, a zatim nasumično raspoređujemo desenzibilizirane vrijednosti oko srednje vrijednosti, čime se zbroj podataka održava konstantnim.
Pomak i zaokruživanjeOva metoda mijenja digitalne podatke slučajnim pomakom. Zaokruživanje pomaka osigurava približnu autentičnost raspona uz održavanje sigurnosti podataka, koji su bliži stvarnim podacima nego prethodne sheme, te ima veliko značenje u scenariju analize velikih podataka.
Preporučeni modelML-NPB-5660"za maskiranje podataka"
4. Uobičajeno korištene tehnike maskiranja podataka
(1). Statističke tehnike
Uzorkovanje podataka i agregacija podataka
- Uzorkovanje podataka: Analiza i evaluacija izvornog skupa podataka odabirom reprezentativnog podskupa skupa podataka važna je metoda za poboljšanje učinkovitosti tehnika deidentifikacije.
- Agregacija podataka: Kao skup statističkih tehnika (kao što su zbrajanje, brojanje, usrednjavanje, maksimum i minimum) primijenjenih na atribute u mikropodacima, rezultat je reprezentativan za sve zapise u izvornom skupu podataka.
(2). Kriptografija
Kriptografija je uobičajena metoda za desenzibilizaciju ili poboljšanje učinkovitosti desenzibilizacije. Različite vrste algoritama za šifriranje mogu postići različite učinke desenzibilizacije.
- Determinističko šifriranje: Nenasumično simetrično šifriranje. Obično obrađuje ID podatke i može dešifrirati i vratiti šifrirani tekst na izvorni ID kada je to potrebno, ali ključ mora biti pravilno zaštićen.
- Ireverzibilno šifriranje: Za obradu podataka koristi se hash funkcija, koja se obično koristi za ID podatke. Ne može se izravno dešifrirati i odnos mapiranja mora se spremiti. Osim toga, zbog značajke hash funkcije može doći do kolizije podataka.
- Homomorfno šifriranje: Koristi se homomorfni algoritam šifriranog teksta. Njegova je karakteristika da je rezultat operacije šifriranog teksta isti kao i rezultat operacije otvorenog teksta nakon dešifriranja. Stoga se obično koristi za obradu numeričkih polja, ali se ne koristi široko zbog performansi.
(3). Tehnologija sustava
Tehnologija suzbijanja briše ili štiti podatke koji ne zadovoljavaju zaštitu privatnosti, ali ih ne objavljuje.
- Maskiranje: odnosi se na najčešću metodu desenzibilizacije za maskiranje vrijednosti atributa, kao što je broj protivnika, identifikacijska kartica označena zvjezdicom ili skraćena adresa.
- Lokalno supresija: odnosi se na proces brisanja određenih vrijednosti atributa (stupaca), uklanjanje nebitnih podatkovnih polja;
- Potiskivanje zapisa: odnosi se na proces brisanja određenih zapisa (redova), brisanje nebitnih podatkovnih zapisa.
(4). Tehnologija pseudonima
Pseudomanning je tehnika deidentifikacije koja koristi pseudonim kao zamjenu za izravni identifikator (ili drugi osjetljivi identifikator). Tehnike pseudonima stvaraju jedinstvene identifikatore za svaku pojedinu osobu o kojoj se radi, umjesto izravnih ili osjetljivih identifikatora.
- Može neovisno generirati slučajne vrijednosti kako bi odgovarale izvornom ID-u, spremiti tablicu mapiranja i strogo kontrolirati pristup tablici mapiranja.
- Također možete koristiti šifriranje za izradu pseudonima, ali morate pravilno čuvati ključ za dešifriranje;
Ova se tehnologija široko koristi u slučaju velikog broja neovisnih korisnika podataka, kao što je OpenID u scenariju otvorene platforme, gdje različiti programeri dobivaju različite OpenID-ove za istog korisnika.
(5). Tehnike generalizacije
Tehnika generalizacije odnosi se na tehniku deidentifikacije koja smanjuje granularnost odabranih atributa u skupu podataka i pruža općenitiji i apstraktniji opis podataka. Tehnologija generalizacije jednostavna je za implementaciju i može zaštititi autentičnost podataka na razini zapisa. Obično se koristi u podatkovnim proizvodima ili izvješćima o podacima.
- Zaokruživanje: uključuje odabir baze zaokruživanja za odabrani atribut, kao što je forenzika prema gore ili dolje, što daje rezultate 100, 500, 1K i 10K
- Tehnike gornjeg i donjeg kodiranja: Zamijenite vrijednosti iznad (ili ispod) praga pragom koji predstavlja gornju (ili donju) razinu, što daje rezultat "iznad X" ili "ispod X"
(6). Tehnike randomizacije
Kao vrsta tehnike deidentifikacije, tehnologija randomizacije odnosi se na modificiranje vrijednosti atributa putem randomizacije, tako da vrijednost nakon randomizacije bude drugačija od izvorne stvarne vrijednosti. Ovaj proces smanjuje mogućnost napadača da izvede vrijednost atributa iz drugih vrijednosti atributa u istom zapisu podataka, ali utječe na autentičnost rezultirajućih podataka, što je uobičajeno s podacima produkcijskog testiranja.
Vrijeme objave: 27. rujna 2022.