Jan Scholtes, Chief Strategy Officer bij ZyLAB:

“Lokaliseer privacygevoelige gegevens in big data”

Het onderzoeken, analyseren en beheren van de groeiende berg aan informatie, oftewel big data, is voor een toenemend aantal bedrijven een uitdaging. Jan Scholtes, Chief Strategy Officer bij softwareleverancier ZyLAB, is een internationaal ervaren specialist op dit terrein. Tijdschrift Privacy legde hem een aantal vragen voor over ZyLAB en big data.  

                                                                                                                              Tekst: René Schellingerhout / ZyLAB
                                                                                                                              Fotografie: ZyLAB

46 47 48 en 49 Jan Scholtes ZyLAB 1Scholtes is van huis uit ingenieur. Hij studeerde Informatica aan de Technische Universiteit Delft en is doctor in ‘Computational Linguistics’ aan de Universiteit van Amsterdam. Sinds 2009 bekleedt hij de buitengewone leerstoel ‘Text Mining’ van de faculteit ‘Knowledge Engineering’ aan de Universiteit van Maastricht.

Voordat hij verantwoordelijk werd voor het strategische beleid bij ZyLAB, was hij luitenant bij de inlichtingendienst van de Koninklijke Nederlandse Marine. Scholtes is vanaf de oprichting van ZyLAB, ruim dertig jaar geleden, betrokken bij het toepassen van in-house  eDiscovery software. Hij was op dit terrein actief voor onder meer oorlogsmisdadentribunalen van de Verenigde Naties, de FBI-onderzoeken over Enron, het Witte Huis en multinationals over de hele wereld.

Op welke terreinen is ZyLAB actief?
“ZyLAB is een van origine Nederlandse, wereldwijd actieve softwareleverancier met hoofdkantoren in Amsterdam en het Amerikaanse McLean, Virginia. We werken al ruim dertig jaar samen met professionals uit de rechtspraak en met opsporings- en inlichtingendiensten aan oplossingen voor het onderzoeken van grote hoeveelheden data. Deze gezamenlijke expertise heeft geleid tot onze eDiscovery en Information Governance toepassingen. Deze helpen juridische professionals, IT’ers en onderzoekers bij bedrijven, overheidsinstanties, rechtbanken en advocatenkantoren om de uitdagingen die de hedendaagse overvloed aan informatie met zich meebrengt het hoofd te bieden.”

Welke zoektechnieken gebruikt ZyLAB voor het onderzoek in grote hoeveelheden data?
46 47 48 en 49 ZyLAB kantoor 3“Al onze oplossingen zijn gebaseerd op ZyLAB’s geavanceerde zoek- en ontsluitingstechniek voor meer dan zevenhonderd verschillende bestandsformaten en meer dan vierhonderd talen. Daarnaast hebben we text-mining technologie en modules voor het zoeken in audio-, multimedia- en visuele bestanden. Onze ‘visual classification’ technologie herkent automatisch afbeeldingen. Daarmee kunnen gebruikers snel vaststellen of het gaat om bijvoorbeeld volwassenen, baby’s, bloemen, auto’s, vliegtuigen, binnen- en buitentaferelen of één van de vele andere categorieën.”

“Onze ‘visual classification’ technologie herkent automatisch afbeeldingen”

U noemde text-mining. Hoe werkt deze toepassing?
“Text-mining of tekstanalyse is ontwikkeld omdat bij juridisch, strafrechtelijk en veel commercieel onderzoek traditioneel zoeken met ‘gewone’ zoektermen niet meer leidt tot goede resultaten. Om uit de enorme hoeveelheid gegevens die moeten worden doorzocht relevante informatie te verkrijgen, is het nodig deze gegevens automatisch te verrijken. Vervolgens kun je zoeken op verborgen patronen en verbanden. Tot slot kun je de gegevens filteren, sorteren, visualiseren en prioriteren op ontdekte onderwerpen en categorieën. Het grote verschil met traditioneel zoeken is dat je niet precies hoeft te weten waarnaar je zoekt. Text-mining probeert informatie te destilleren uit patronen en semantische relaties die niet van tevoren bekend hoeven te zijn.”

ZyLAB biedt ook een geavanceerde archiveringsoplossing. Waarom?
“Omdat bij archiveren veel meer komt kijken dan het simpelweg opslaan van documenten. Allereerst heeft het alleen zin gegevens te archiveren die nog waarde hebben. Informatie die niet gebruikt wordt in bedrijfsprocessen en wettelijk niet bewaard hoeft te worden, kan het beste op verantwoorde wijze worden vernietigd. Want het is juist informatie in verborgen opslagruimten en verouderde databases en –systemen die juridische risico’s met zich meebrengen. Zo moet in het geval van een rechtszaak alle elektronisch opgeslagen data op tafel worden gelegd, ook data die niet bewaard had hoeven worden. Daarnaast moet je voor een effectieve archivering volledig zijn. Bij het archiveren van een e-mail bijvoorbeeld moeten alle elementen van die e-mail worden opgeslagen; bijlagen, metadata, publieke folders, .pst files, kalenders, contacten, enzovoort. De softwaresystemen van ZyLAB gebruiken het standaard archiveringsformaat open XML. Daarmee zorgen we voor de digitale houdbaarheid en volledige doorzoekbaarheid van alle actuele content, inclusief e-mail, in een overzichtelijk en databasevrij archief.”

Wat kunnen bedrijven doen om verantwoord om te gaan met persoonsgegevens?
“Bijna elk bedrijf slaat gegevens over klanten en werknemers op. Veel bedrijven slaan ook informatie op over de gezondheid van hun werknemers of de creditcard van hun klanten. Om die gegevens te beschermen, hebben bedrijven een hoog niveau van IT-beveiliging nodig. In sommige gevallen is het noodzakelijk om die gegevens te anonimiseren. Het beschermen van persoonsgegevens moet worden verankerd in de dagelijkse bedrijfsvoering.”

“Het beschermen van persoonsgegevens moet worden verankerd in de dagelijkse bedrijfsvoering”

Hoe kan ZyLAB bedrijven hierbij ondersteunen?
“We bieden organisaties de eerder genoemde text-mining en modules voor het zoeken in audio, multimedia en visuele bestanden om persoonlijke identificeerbare informatie, oftewel PII, te identificeren en te lokaliseren. Zo kunnen bedrijven incidenten die kunnen leiden tot ongewenste of ongeautoriseerde openbaarmaking van persoonsgegevens, vroegtijdig opsporen. Vooral de ‘visual classification’ functionaliteit is zeer geschikt voor de identificatie van PII-afbeeldingen, potentieel intellectueel eigendom, handgeschreven aantekeningen, cheques, identiteitsbewijzen en andere informatie die anders niet automatisch wordt herkend.”

Hoe kijken bedrijven naar de ontwikkelingen rond big data?
“Veel bedrijven zien vooral de kansen die big data hen biedt. Ze gebruiken de enorme hoeveelheid beschikbare informatie om patronen en gedrag te herkennen en te voorspellen. Daarmee kunnen bedrijven hun inkomsten verhogen en hun bedrijfsprocessen versnellen. Dat is commercieel natuurlijk heel interessant, mits de privacygevoelige informatie die zich ook in big data ophoudt, vroegtijdig wordt gelokaliseerd om afdoende beschermd te kunnen worden.”

 Staan big data en privacy niet onvermijdelijk op gespannen voet met elkaar?
“Nee, niet automatisch. Een voorwaarde hiervoor is wel dat bedrijven die big data beheren zich ervan bewust zijn dat zij over een grote hoeveelheid informatie beschikken die onderworpen is aan steeds strengere privacyregels.”

Jan Scholtes 2Waarop moeten Functionarissen Gegevensbescherming, IT’ers en Data Protection Officers letten in de omgang met big data?
“Er komt steeds meer wetgeving over de bescherming van persoonsgegevens. Ook de complexiteit van deze wet- en regelgeving neemt toe. Dit verhoogt de druk op de genoemde professionals om hun activiteiten te automatiseren. Deze verantwoordelijkheid moet over meerdere afdelingen worden verdeeld zodat zowel de juridische als de technische aspecten worden afgedekt. Juridische professionals en IT-afdelingen hebben nu eenmaal hun eigen expertise en prioriteiten en dat bepaalt hoe zij tegen data aankijken. Bij het beschermen van persoonsgegevens en andere gevoelige informatie is het van groot belang dat deze afdelingen vlekkeloos met elkaar samenwerken. Bijvoorbeeld met het oog op een mogelijke rechtszaak.”

Wat is een zwak punt in organisaties als het gaat om big data?
“In de meeste organisaties blijkt dat big data door niemand actief wordt beheerd. Niemand lijkt te weten welke gegevens zich waar bevinden, of welke informatie die gegevens bevatten. En wanneer er geen controle is over die gegevens, neemt het risico op ongeoorloofde verspreiding van PPI enorm toe. Dit zal, wanneer het tot een rechtszaak komt, op zijn minst leiden tot hoge kosten en enorme risico’s.”

Wat zijn die risico’s?
“Er staat voor een organisatie meer op het spel dan het verlies van kostbare informatie en eventuele boetes van toezichthouders. Ook het imago van de organisatie en daarmee de omzet lopen gevaar. Krantenkoppen als ‘Klantgegevens van bedrijf X liggen op straat’, doen het goed in de media. Bovendien lijkt de consument bereid actie te ondernemen. Uit een onderzoek dat ZyLAB vorig jaar lieten uitvoeren, bleek dat een groot deel van de Nederlanders het er niet bij laat zitten als bedrijven onzorgvuldig omgaan met hun persoonlijke gegevens.”

 

Aanbevelingen Jan Scholtes

Besef dat technologie onmisbaar is bij het beheren van big data. Het handmatig doorzoeken van een gemiddelde corporate e-mailhuishouding is onbegonnen werk. Het standaard Windows zoekmechanisme is hier niet op ingesteld. In de meeste gevallen zit het verborgen gevaar in de bijlage van die ene verkeerd opgeslagen e-mail.

Begin met het goed en verantwoord opschonen van data in verouderde systemen (legacy data). Zorg daarna voor het ordenen van documenten volgens een juridisch verantwoord archiveringsplan en het invoeren van een strikt beleid voor retentie en vernietiging.

Doorzoek regelmatig big data, inclusief audio, multimedia en visuele bestanden om PII te identificeren en te lokaliseren. Maak hiervoor gebruik van de beschikbare technologie.

Besef dat voor een effectieve archivering alle elementen van bestanden en documenten moeten worden opgeslagen. Let daarbij op de metadata. Bij Excell bijvoorbeeld op de formules en bij e-mail op bijlagen, publieke folders, .pst files, kalenders, contacten, notes, et cetera.

Kies voor opslag in een duurzaam, open format als XML. Zo voorkom je afhankelijkheid van een leverancier (‘vendor lock-in’) en kun je in de toekomst nog bij je data.