BLOG. Vi kan få rigtig meget ny viden gennem analyser af big data. Med ophobninger af big data har vi fået adgang til enorme mængder data, der indsamles fra en flerhed af kilder og med stor hastighed – så høj, at vi også kan analysere på dataene i realtid. Det lader sig kun gøre ved brug af algoritmer.
Mange af de data, der indgår i big data analyser, er persondata og omfatter både almindelige og følsomme oplysninger om de personer, de angår. Og her ligger den første udfordring. De oplysninger, vi kalder almindelige, vil nemlig, når de kombineres med andre og forskellige, almindelige oplysninger om os, kunne give indsigt i vores private sfære, ind i et rum, som vi både har behov for og ret til at have for os selv.
Privatlivets fred er under pres
Ved at sammenstille persondata fra virksomheders kundekort, cookies og kundens egne oplysninger med data fra virksomhedens egne eller andres databaser, fra offentlige registre og berige det hele med data fra apps og sociale medier, kan vi ikke bare klassificere og beskrive segmenter og befolkningsgrupper, men også udarbejde detaljerede personprofiler på individniveau.
Det er alle dele af vores liv, der på den måde kan afdækkes: vores forbrug, præferencer og vaner, vores familie, venner og andre personlige relationer, vores sexliv og seksuelle orientering, de miljøer og foreninger, vi er knyttet til, vores uddannelse og arbejde, vores opholdssteder og geografiske bevægelsesmønstre, vores brug af mobiler og digitale gadgets. Listen er uudtømmelig.
Blandt de virksomheder, der er ved at få øjnene op for, at det er økonomisk interessant at beskæftige sig med sådanne profiler er forsikringsselskaber og banker. Vurderingen af forsikringskundens risiko og bankkundens kreditværdighed kan nemlig ske med inddragelse af væsentlig flere oplysninger og dermed blive mere præcis. Tyske forsikringsselskaber tilbyder fx kunder med sundhedsforsikring en app, som de kan bruge til at registrere deres daglige motion og så dele dataene med forsikringsselskabet. Hvis træningen er stabil, giver det adgang til en lavere forsikringspræmie. Vi tror med andre ord på, at de mange data vi indsamler, giver os et bedre beslutningsgrundlag.
I takt med digitaliseringen af den offentlige forvaltning og den overgang til automatiserede afgørelser, der følger med, vil vi også i stigende omfang sætte vores lid til big data analyserne. Fordi de gør sagsbehandlingen effektiv og øger afgørelsens kvalitet. Afgørelsen bliver jo mere forudsigelig og kan træffes hurtigere, tænker vi.
Fra kausalitet til korrelation
Men big data analyser er grundlæggende anderledes end de vurderinger, vi er vant til at foretage, når vi vurderer kunder og borgeres adgang til serviceydelser. Og det er den anden store udfordring.
Big data analyser er baseret på algorimter. Med algoritmen kan vi lede efter bestemte kendetegn i en datamængde, som vi ikke nødvendigvis kender omfanget af. Det vi ønsker at vide noget om, fx forekomsten af skader anmeldt til forsikringsselskabet eller hjemløses brug af herberg, bruges som variable og kan i de nævnte tilfælde fx kombineres med alder, CPR-nummer, adresse eller postnummer, uddannelse og indkomst. På den baggrund kan vi se korrelationer mellem data, som giver os ny indsigt. Vi kan på den måde lære mere om, hvilke kundegrupper, der hyppigst anmelder skader eller hvilken type borgere, der benytter herberg.
Det er smart. Så kan vi nemlig undgå at tegne dårlige kunder ind – dem med mange skader og dem, der bor i områder med mange skadeanmeldelser. Planlægning af herbergenes drift kan gøres mere effektiv, når vi kender de personer, der er mest udsat og områder, de opholder sig i.
Mangel på transparens og retfærdighed
Vi kan også bruge data til at forudsige grupper eller individers adfærd. Vores data viser jo, at der er en bestemt adfærd – skader og brug af herberg – knyttet til bestemte CPR-numre, postnumre, alder osv. Vi kan altså planlægge fremadrettet og også iværksætte forebyggende tiltag, der kan forhindre skader og hjemløshed. Det er også smart – og til gavn for os alle sammen.
Men vi er endnu ikke bevidste om de ulemper, der knytter sig til analyser af big data og de resultater, der kommer ud af dem. Vi træffer i dag typisk beslutninger i både virksomheder og myndigheder på et vidensbaseret grundlag, et grundlag som kan udstyre os med nogle forklaringer på, hvordan adfærd og dens konsekvenser hænger sammen, altså kausalitet. Disse forklaringer forsvinder med algoritmen. Den viser kun en sammenhæng mellem forskellige variable, men forklarer ikke, hvorfor sammenhængen er der – eller om den er reel og har betydning i den virkelige verden. Det skaber en risiko for forkerte vurderinger og afgørelser.
En anden risiko er knyttet til formuleringen eller valget af variable. Hvis der i den variable er indlejret en fordom, fx at sammenhængen mellem postnummer og skadehyppighed eller brug af herberg er forbundet med kundens etniske baggrund, gentages denne fordom i både analyser og den måde, de anvendes på efterfølgende. Det kan føre til eksklusion i form af udelukkelse fra brug af servicen eller til diskrimination. Algoritmen byder med andre ord på uigennemsigtighed i forhold til den måde, man som kunde eller borger klassificeres på, og dermed på det grundlag, en afgørelse træffes på. Algoritmen er med andre ord hverken objektiv eller fair. Den giver os ikke automatisk korrekte eller retfærdige resultater.
Dataetiske overvejelser er nødvendige
Og hvad skal vi så gøre ved det? En løsning består i at indføre kontrol med de algoritmer, der benyttes af offentlige myndigheder og af virksomheder, når der er risiko for, at privatlivets fred krænkes, for diskrimination eller social eksklusion, og for at der skabes adgang til data for personer, som data ikke er relevante og nødvendige for. Det kunne være en opgave for Datatilsynet og lægger sig fint op ad den kommende EU forordnings krav om at udføre data protection impact assessment, når der anvendes en teknologi til behandling af høj risiko data.
En anden løsning udgøres af erkendelsen af, at der til udvikling af algoritmer knytter sig dataetiske overvejelser. Den opgave skal løftes på flere niveauer: hos direktøren eller embedsmanden, der bestiller big data analysen, hos den leverandør, der påtager sig opgaven med at udføre den, hos den ingeniør eller matematiker, der udvikler algoritmen, og hos den sagsbehandler, der ser på resultatet af analysen og anvender den til at afgøre, om en kunde eller borger har krav på en bestemt service.
De retlige rammer, principper og krav er snart på plads i forhold til at sikre privatlivs- og persondatabeskyttelse for kunder og borgere. Men beskyttelsen bliver først effektiv, når den også slår igennem i praksis. Det kan systematiske og kontinuerlige dataetiske overvejelse bidrage til. Så fremover bør vi arbejde med princippet: ingen algoritme til big data analyser af persondata uden dataetiske overvejelser!