Blogs

Afscherming persoonsgebonden gegevens een onderschat probleem

Probleem van anonimiseren zeker niet voorbehouden aan overheden

Bij overheden is het probleem van gegevens anonimiseren iets duidelijker geworden, dankzij het Nationaal WOB-onderzoek (november, 2019) door VakWereld. Maar in hoeverre het probleem speelt bij het bedrijfsleven en wat eraan gedaan wordt, is een stuk minder duidelijk. Eén ding is volgens Patrick van Vulpen, Manager Business Development bij Docspro, wél zeker: ‘Het is een onderschat aspect van het zorgvuldig omgaan met gevoelige informatie. Maar er zijn wel degelijk passende en goed werkende (semi-geautomatiseerde) oplossingen, zoals de Docspro Anonymizer.’

Uit het Nationale WOB-onderzoek blijkt dat één van de grootste struikelblokken bij het adequaat afhandelen van een WOB-verzoek (een vraag om documenten in het kader van de Wet Openbaarheid van Bestuur) het zogenaamde ‘onleesbaar maken’ van gevoelige informatie en anonimiseren van gegevens is. Dat gebeurt blijkbaar grotendeels handmatig. Van Vulpen: ‘Dat betekent veel tijdrovende handelingen: het verzamelen van informatie, het printen van documenten, dan met de zwarte stift strepen, alles controleren en vervolgens die geanonimiseerde documenten opnieuw digitaliseren voor opslag, (online) publicatie of toezending per e-mail. Je bent misschien geneigd te denken dat het vooral/alleen bij overheden speelt. Maar niets is minder waar. Verzekeringen, banken, zorginstellingen, ze beschikken allemaal over veel persoonlijke informatie. Al waren het alleen al de personeelsdossiers.’

Automatiseren

Volgens Patrick worden de consequenties bij anonimiseren behoorlijk onderschat. ‘Bij veel organisaties en bedrijven leeft het idee dat je het anonimiseren of pseudonimiseren (neutrale naam geven in plaat van de werkelijke) van informatie volledig geautomatiseerd kunt laten verlopen. Dat gaat nooit gebeuren. Daarvoor is het te complex. Het blijft dus de verantwoordelijkheid van deskundige medewerkers om het laatste akkoord te geven op datgene wat is geanonimiseerd en hoe het wordt gepubliceerd of geleverd aan de vraagsteller. Belangrijk is om een onderscheid te maken tussen gegevens – patronen – die heel exact zijn, zoals BSN-nummers, bankrekeningnummers, factuurnummers, telefoonnummers et cetera. Je kunt software heel gericht inrichten om specifiek die gegevens op te sporen en die dan vervolgens onleesbaar te maken. Het gaat in generieke zin echter om alle tot ‘personen herleidbare informatie’ (PHI): dat gaat veel verder dan die patronen. Het is ook iets anders dan simpelweg een dataset kopiëren en die kopieset vervolgens anonimiseren. Er staan veel meer gevoelige gegevens in ongestructureerde informatie. Dat is een stuk lastiger te doorzoeken. Wanneer is sprake van een naam en wanneer van een beroep of gereedschap bij het woord timmerman of hamer of…? Interpretatie is belangrijk om het goede eruit te halen om te kunnen anonimiseren. Daarvoor is een goede context analyse nodig. Denk er dus niet te makkelijk over. Het is echt een lastig probleem waar behoorlijk werk aan zit. Maar je kunt het werk wel vereenvoudigen.’

Lastig, maar niet onmogelijk

Het is zeker niet onmogelijk om oplossingen te vinden, of desnoods zelf te ontwikkelen. Dat laatste heeft Docspro gedaan, met als resultaat de Docspro Anonymizer. Patrick: ‘Normaal maken we gebruik van bestaande technologie voor onze oplossingen. Die passen we dan aan al naar gelang de behoefte en wensen van de klant. Belangrijk nadeel van de beschikbare anonimiseringsoplossingen vinden wij dat er veelal geen gebruikersinterface is: het is een soort black box oplossing en je hebt geen idee van wat of waarom en hoe je dat zou kunnen beïnvloeden. Daar is dan weer een consultant voor nodig. Je moet het toch zelf kunnen doen?’

Flexibel inrichten via user interface

Patrick over de Docspro Anonymizer: ‘Eigenlijk werken dergelijke oplossingen allemaal met referentielijsten die worden vergeleken met datgene wat in een document wordt aangetroffen. Onze Docspro Anonymizer heeft echter wél een gebruikersinterface. Daarmee kan de gebruiker eenvoudig en flexibel instellingen aanpassen. Zo kunnen diverse kenmerken, zoals een plaatsnaam of straatnaam via tabellen direct worden geïmporteerd. Door de intelligentie in de oplossing kunnen zogenaamde patroongegevens, zoals postcodes, e-mailadressen of IBAN-nummers als te herkennen en anonimiseren kenmerk eenvoudig worden toegevoegd. De gebruiker kan zelf databases met relevante (gevoelige) gegevens waarover hij beschikt importeren en toevoegen aan de lijst van kenmerken die geanonimiseerd moeten worden. Met de Context Analyzer controleert hij desgewenst of het inderdaad gaat om de juiste betekenis van een kenmerk.’ Per zoek- en anonimiseeractie kunnen de sets kenmerken worden opgeslagen. Bij herhaling van een vergelijkbare opdracht kun je er dus sneller doorheen. Het inladen van een document of set documenten gebeurt aan de hand van het importeren van een pdf naar de Docspro Anonymizer via het menu ‘Bestand’. Aan de hand van de kenmerken die de gebruiker heeft ingesteld wordt op het document direct aangegeven waar ze staan. Dan controleert de gebruiker of dat het goede is en kan ze vervolgens onleesbaar maken. Wil je nog kenmerken toevoegen dan kun je die heel eenvoudig selecteren op het document en met twee muisklikken staan ze eenmalig in de kenmerkenlijst of je voegt ze toe aan de ‘standaard referentielijst’.

Niet beïnvloedbaar resultaat

Uiteindelijk worden de documenten allemaal op deze manier bewerkt en levert de Docspro Anonymizer een set documenten waarin gevoelige gegevens onleesbaar zijn gemaakt. Het grote verschil is echter dat je nu als applicatiegebruiker of -beheerder precies weet waarom. Patrick: ‘Het probleem is heel overzichtelijk: er staan gegevens in een document die niet mogen worden gepubliceerd en dus moeten worden geanonimiseerd. De oplossing is echter een stuk complexer dan de meesten denken. Het resultaat mag ook niet meer beïnvloedbaar zijn. Met andere woorden: iemand die over hetzelfde pakket beschikt moet niet heel eenvoudig een anonimisering ongedaan kunnen maken. Daar zijn wij, denken wij, heel goed in geslaagd.’

Blijft overeind dat ergens aan het eind van het proces altijd een mens met kennis van zaken de eindcontrole moet doen. Patrick: ‘Het zal nooit zo zijn dat het hele proces volledig geautomatiseerd zal kunnen worden. Inhoudelijke vakkennis bepaalt of iets daadwerkelijk wordt geanonimiseerd.’

Gerelateerde artikelen