1. Koncept maskiranja podataka
Maskiranje podataka također je poznato kao maskiranje podataka. To je tehnička metoda za pretvorbu, izmjenu ili pokrivanje osjetljivih podataka kao što su broj mobilnog telefona, broj bankovne kartice i druge informacije kada smo dali pravila i politike maskiranja. Ova se tehnika prvenstveno koristi za sprječavanje izravne upotrebe osjetljivih podataka u nepouzdanim okruženjima.
Načelo maskiranja podataka: maskiranje podataka treba zadržati izvorne karakteristike podataka, poslovna pravila i relevantnost podataka kako bi se osiguralo da kasniji razvoj, testiranje i analiza podataka neće biti pod utjecajem maskiranja. Osigurajte dosljednost i valjanost podataka prije i nakon maskiranja.
2. Klasifikacija maskiranja podataka
Maskiranje podataka može se podijeliti na statično maskiranje podataka (SDM) i dinamičko maskiranje podataka (DDM).
Statičko maskiranje podataka (SDM): Maskiranje statičkih podataka zahtijeva uspostavljanje nove baze podataka neproizvodnog okruženja za izolaciju od proizvodnog okruženja. Osjetljivi podaci izvlače se iz proizvodne baze podataka i zatim pohranjuju u neproizvodnu bazu podataka. Na taj se način desenzibilizirani podaci izoliraju od proizvodnog okruženja, što zadovoljava poslovne potrebe i osigurava sigurnost proizvodnih podataka.
Dinamičko maskiranje podataka (DDM): Općenito se koristi u proizvodnom okruženju za desenzibilizaciju osjetljivih podataka u stvarnom vremenu. Ponekad su potrebne različite razine maskiranja za čitanje istih osjetljivih podataka u različitim situacijama. Na primjer, različite uloge i dopuštenja mogu implementirati različite sheme maskiranja.
Prijava podataka i aplikacija za maskiranje podatkovnih proizvoda
Takvi scenariji uglavnom uključuju interne proizvode za praćenje podataka ili reklamne ploče, vanjske servisne podatkovne proizvode i izvješća temeljena na analizi podataka, kao što su poslovna izvješća i pregled projekta.
3. Rješenje za maskiranje podataka
Uobičajene sheme maskiranja podataka uključuju: poništavanje, slučajnu vrijednost, zamjenu podataka, simetričnu enkripciju, prosječnu vrijednost, pomak i zaokruživanje itd.
Poništavanje: Poništavanje se odnosi na enkripciju, skraćivanje ili skrivanje osjetljivih podataka. Ova shema obično zamjenjuje stvarne podatke posebnim simbolima (kao što je *). Operacija je jednostavna, ali korisnici ne mogu znati format izvornih podataka, što može utjecati na naknadne aplikacije podataka.
Slučajna vrijednost: Slučajna vrijednost odnosi se na slučajnu zamjenu osjetljivih podataka (brojevi zamjenjuju znamenke, slova zamjenjuju slova, a znakovi zamjenjuju znakove). Ova metoda maskiranja će u određenoj mjeri osigurati format osjetljivih podataka i olakšati naknadnu primjenu podataka. Maskirni rječnici mogu biti potrebni za neke smislene riječi, kao što su imena ljudi i mjesta.
Zamjena podataka: Zamjena podataka slična je maskiranju nultih i slučajnih vrijednosti, osim što se umjesto upotrebe posebnih znakova ili slučajnih vrijednosti, maskirani podaci zamjenjuju specifičnom vrijednošću.
Simetrično šifriranje: Simetrična enkripcija je posebna reverzibilna metoda maskiranja. Šifrira osjetljive podatke putem ključeva i algoritama za šifriranje. Format šifriranog teksta u skladu je s izvornim podacima u logičkim pravilima.
Prosjek: Prosječna shema često se koristi u statističkim scenarijima. Za numeričke podatke, prvo izračunavamo njihovu srednju vrijednost, a zatim nasumično distribuiramo desenzibilizirane vrijednosti oko srednje vrijednosti, održavajući tako zbroj podataka konstantnim.
Pomak i zaokruživanje: Ova metoda mijenja digitalne podatke nasumičnim pomakom. Offset zaokruživanje osigurava približnu autentičnost raspona uz zadržavanje sigurnosti podataka, koji je bliži stvarnim podacima od prethodnih shema i ima veliko značenje u scenariju analize velikih podataka.
Model za preporuku "ML-NPB-5660" za maskiranje podataka
4. Često korištene tehnike maskiranja podataka
(1). Statističke tehnike
Uzorkovanje podataka i agregacija podataka
- Uzorkovanje podataka: Analiza i procjena izvornog skupa podataka odabirom reprezentativnog podskupa skupa podataka važna je metoda za poboljšanje učinkovitosti tehnika deidentifikacije.
- Agregacija podataka: Kao zbirka statističkih tehnika (kao što su zbrajanje, brojanje, prosjek, maksimum i minimum) primijenjenih na atribute u mikropodacima, rezultat je reprezentativan za sve zapise u izvornom skupu podataka.
(2). Kriptografija
Kriptografija je uobičajena metoda desenzibilizacije ili povećanja učinkovitosti desenzibilizacije. Različite vrste algoritama šifriranja mogu postići različite učinke desenzibilizacije.
- Deterministička enkripcija: nenasumična simetrična enkripcija. Obično obrađuje ID podatke i može dekriptirati i vratiti šifrirani tekst na izvorni ID kada je to potrebno, ali ključ mora biti pravilno zaštićen.
- Nepovratna enkripcija: hash funkcija se koristi za obradu podataka, koja se obično koristi za ID podatke. Ne može se izravno dešifrirati i odnos preslikavanja mora se spremiti. Osim toga, zbog značajke hash funkcije može doći do kolizije podataka.
- Homomorfna enkripcija: Koristi se homomorfni algoritam šifriranog teksta. Njegova je karakteristika da je rezultat operacije šifriranog teksta isti kao i operacije otvorenog teksta nakon dešifriranja. Stoga se obično koristi za obradu numeričkih polja, ali se ne koristi široko zbog performansi.
(3). Tehnologija sustava
Tehnologija suzbijanja briše ili štiti podatke koji ne zadovoljavaju zaštitu privatnosti, ali ih ne objavljuje.
- Maskiranje: odnosi se na najčešću metodu desenzibilizacije za maskiranje vrijednosti atributa, kao što je protivnički broj, osobna iskaznica označena zvjezdicom ili skraćena adresa.
- Lokalno potiskivanje: odnosi se na proces brisanja specifičnih vrijednosti atributa (stupaca), uklanjanje nebitnih podatkovnih polja;
- Suzbijanje zapisa: odnosi se na proces brisanja određenih zapisa (redova), brisanje nebitnih zapisa podataka.
(4). Tehnologija pseudonima
Pseudonimiranje je tehnika deidentifikacije koja koristi pseudonim da zamijeni izravni identifikator (ili drugi osjetljivi identifikator). Tehnike pseudonima stvaraju jedinstvene identifikatore za svaki pojedinačni subjekt informacija, umjesto izravnih ili osjetljivih identifikatora.
- Može neovisno generirati nasumične vrijednosti koje odgovaraju izvornom ID-u, spremiti tablicu mapiranja i strogo kontrolirati pristup tablici mapiranja.
- Također možete koristiti enkripciju za izradu pseudonima, ali morate ispravno čuvati ključ za dešifriranje;
Ova se tehnologija široko koristi u slučaju velikog broja neovisnih korisnika podataka, kao što je OpenID u scenariju otvorene platforme, gdje različiti programeri dobivaju različite Openid-ove za istog korisnika.
(5). Tehnike generalizacije
Tehnika generalizacije odnosi se na tehniku deidentifikacije koja smanjuje granularnost odabranih atributa u skupu podataka i pruža općenitiji i apstraktni opis podataka. Tehnologija generalizacije jednostavna je za implementaciju i može zaštititi autentičnost podataka na razini zapisa. Obično se koristi u podatkovnim proizvodima ili podatkovnim izvješćima.
- Zaokruživanje: uključuje odabir baze zaokruživanja za odabrani atribut, kao što je forenzika prema gore ili prema dolje, dajući rezultate 100, 500, 1K i 10K
- Tehnike kodiranja na vrhu i dnu: Zamijenite vrijednosti iznad (ili ispod) praga s pragom koji predstavlja najvišu (ili donju) razinu, dajući rezultat "iznad X" ili "ispod X"
(6). Tehnike randomizacije
Kao vrsta tehnike deidentifikacije, tehnologija randomizacije odnosi se na modificiranje vrijednosti atributa putem randomizacije, tako da se vrijednost nakon randomizacije razlikuje od izvorne stvarne vrijednosti. Ovaj proces smanjuje sposobnost napadača da izvede vrijednost atributa iz drugih vrijednosti atributa u istom zapisu podataka, ali utječe na autentičnost rezultirajućih podataka, što je uobičajeno s podacima proizvodnog testiranja.
Vrijeme objave: 27. rujna 2022