Når kunstig intelligens utpeker svindlere og hjelper skoleleie

Se opptak fra personvernseminaret 30. januar her.

Denne artikkelen er en del av rapporten «Personvern 2017 – Persontilpasning og kunstig intelligens» som Teknologirådet og Datatilsynet har laget i samarbeid.

I 2015 ble svindel for mer enn 302 millioner kroner anmeldt av NAV. I løpet av de siste årene har Skatteetaten avdekket flere svindelnettverk, som hver har fått flere hundre millioner kroner i uberettigede fradrag. NAV og Skatteetaten har ikke mulighet til å kontrollere hver eneste selvangivelse eller sak manuelt. Ved å ta i bruk mer data og avanserte analyseteknikker, kan feil og svindel avdekkes med større presisjon.

Flertallet vil at algoritmer skal hjelpe kontrollørene

De fleste vi har spurt i undersøkelsen er positive til å ta i bruk datadrevne metoder for å gjøre kontroller. Mens 19 prosent er skeptiske til at Skatteetaten bruker denne typen metoder, er 25 prosent skeptiske til at NAV gjør det samme. Det kan tenkes å ha sammenheng med at NAV vil trenge mer personopplysninger for å gjøre sine analyser, eller at folk har lavere tillit til hvordan NAV behandler personopplysninger (66 prosent har tillit til hvordan NAV behandler personopplysninger, mens 79 prosent har tillitt til Skatteetaten, ifølge Personvernundersøkelsen 2013/2014.

Modellene som oppdager avvik

Ved å bruke maskinlæring kan man lage modeller og algoritmer som gjør det mulig å oppdage skjulte mønstre og sammenhenger i store datasett. Denne typen analyser egner seg godt for å avdekke svindel, og det brukes allerede aktivt i bank- og forsikringsbransjen.

I offentlig sektor kan Skatteetaten og NAV ha nytte av å bruke samme type verktøy. Det finnes forskjellige måter å avsløre svindel på, og metodene kan kombineres med hverandre:

Nettverksanalyser kan si noe om sannsynligheten for negativ påvirkning: hvis én person i ditt sosiale- eller forretningsnettverk svindler, er det større risiko for at du gjør det selv. Dette tilsvarer metoder som i dag brukes i markedsføring på sosiale medier, hvor man ser på hvordan folk påvirkes av nøkkelpersoner i sitt nettverk.
Forutseende modeller kan brukes til å analysere kontobevegelser og oppdage avvik. Dette kan blant annet brukes til å identifisere hvitvasking av penger, for eksempel ved at det er uvanlige mønstre mellom penger som går inn og ut av en konto.

Skatteetaten er allerede i gang

Skatteetaten bruker allerede i dag forutseende modeller for å avsløre feil i selvangivelsen. Under utviklingen av en av modellene, startet de med å undersøke 500 variabler, blant annet om demografi, hendelser i livet og informasjon om økonomiske forhold. De endte opp med en modell med 30 variabler, som de bruker i dag for å rangere en persons risiko for feil i selvangivelsen. Man vet allerede at risikoen for feil øker med antall fradrag en person fører i selvangivelsen. Oppgaver med mange fradrag blir derfor ofte plukket ut til manuell kontroll.

Den største gruppen av selvangivelser har derimot to eller færre fradrag, og i denne gruppen er det derfor langt vanskeligere å identifisere oppgaver med stor risiko for feil. De forutseende modellene brukes derfor til å identifisere risikopersoner i denne gruppen. Man antar at det i denne gruppen er ca. 17 prosent av oppgavene som har feil. Av de oppgavene som ble valgt ut til kontroll fant Skatteetaten feil hos 71 prosent. De traff med andre ord svært godt i vurderingen av hvilke oppgaver som skulle kontrolleres.

Skatteetaten skrev i fjor at de da ikke visste nøyaktig hvorfor modellen velger ut enkelte til kontroll. Som de sier: «Rangeringen er et resultat av komplekse sammenhenger av dataene i modellen.»

Dersom vi ikke forstår hvordan en datamodell fungerer, hva kan vi da bruke den til? I dette tilfellet plukkes personer kun ut til manuell kontroll, men hva om tilsvarende modeller brukes i forbindelse med avgjørelser som vil få stor betydning for folk? Det finnes mange eksempler på hvordan ugjennomsiktige modeller har blitt brukt i rettssystemet, i skolen eller til å avgjøre om folk skal få komme på jobbintervju.

Når Skatteetaten sier at de ikke vet hvorfor modellen velger ut enkelte personer til kontroll, på grunn av komplekse sammenhenger, er dette en typisk «svart boks»-problematikk. Det vil si at mellom dataene man gir inn og resultatene man får ut, har en prosess som ikke er forklart.

Svindelavsløring krever store datamengder om oss

Big Insight er et norsk forskningsdrevet senter, som arbeider med forutseende og persontilpassede stordatametoder, og utvikler modeller både for offentlig og privat sektor. NAV og Skatteetaten er blant samarbeidspartnerne. Prosjektet med å utvikle modeller for å avsløre trygdesvindel for NAV har ennå ikke blitt godkjent, ettersom det krever sammenstilling av mye og sensitiv informasjon om mange personer.

BigInsight ønsker å sammenstille informasjon om statsborgerskap, yrkeshistorikk, diagnoser, bosted, alder på barn, med mer. De søkte i første omgang om å få tilgang til data om opptil tre millioner nordmenn som hadde mottatt trygd og sykepenger i perioden 2000-2015. Etter avslag fra Datatilsynet, har de nå søkt om å få tilgang til data om 100 000 innbyggere istedenfor.^[2]

Skjeve data kan gi diskriminerende modeller

Når man tar i bruk forutseende modeller kan dette være med henvisning til at de er nøytrale og vitenskapelige. I USA har imidlertid slike modeller ved flere anledninger blitt kritisert for å basere seg på et skjevt utvalg, slik at modellene reproduserer diskriminering i samfunnet. Et eksempel er bruk av forutseende algoritmer ved vurdering av prøveløslatelse.

I 2016 ble det avdekket svindlernettverk i Norge, hvor enkelte av nettverkene i stor grad bestod av personer av utenlandsk opprinnelse. Kan hendelser som dette prege hvordan svindelavsløringsmodellene fungerer? Dersom modellene «trenes» opp til å oftere undersøke svindel blant enkelte grupper i befolkningen eller ved enkelte typer fradrag, vil kanskje andre former for svindel slippe lettere unna.

Selv om man ikke bruker variabler som sier noe direkte om etnisk opprinnelse, vil det ofte kunne finnes relevante sammenhenger i bosted, typer fradrag og annet. Innvendingen er at denne typen databruk først og fremst rammer de minst privilegerte, mens for eksempel hvitsnippkriminelle går fri. Dersom man bruker en modell man ikke forstår, vil man heller ikke kunne avdekke om den rammer skjevt.

Inkludering: Skole og arbeidsliv

Man kan også bruke kunstig intelligens i velferdsstaten på andre måter enn å jakte jukserne.

Frafall er et stort problem i norske videregående skoler. Tre av ti har fortsatt ikke fullført etter fem år. Og arbeidsledigheten er på det høyeste nivået siden 1996. Men kunstig intelligens kan hjelpe både skoleleie og arbeidsledige. Informasjon fra digitale læremidler kan brukes av lærere i kampen mot frafall, og informasjon fra algoritmer kan gi arbeidsledige bedre oversikt over sine muligheter på arbeidsmarkedet.

Flertallet av de spurte i undersøkelsen vår er positive både til å bruke data for å identifisere elever som står i fare for å droppe ut, så vel som å hjelpe folk ut i arbeid. En del er likevel skeptiske til å bruke data i forbindelse med frafall i skolen, noe som kan skyldes risikoen for at ungdom får et stempel om å være i faresonen uten nødvendigvis å få tilstrekkelig hjelp. Selv om persontilpassede arbeidsledighetstiltak kan kreve en del informasjon om folk, gjøres det med en åpenbar hensikt om å hjelpe, ikke for å straffe eller stigmatisere.

Persontilpassede tiltak mot frafall i skolen

Digitale læremidler gir mulighet for utstrakt analyse av elever og studenters arbeidsvaner. Læringsprogrammet Knewton, som er i bruk i norske skoler, kan samle inn så mye som 5 til 10 millioner datapunkter om hver elev per dag. Når disse dataene tas i bruk sammen med informasjon om elevenes privatliv og fritidsinteresser, gir det gode muligheter til individuelt tilpasset undervisning og til å forutsi hvordan en elev vil klare seg fremover.

Suksess med forutseende analyser i kampen mot frafall

Arizona State University (ASU) startet for ti år siden å bruke forutseende analyser for å identifisere studenter som står i fare for å falle fra. Data fra tilsvarende læringsprogrammer som brukes på norske skoler, ble tatt i bruk for å fange opp studenter som sliter tidlig. Informasjon om studentenes sosiale aktiviteter og interesser, kan for eksempel brukes til å foreslå de beste øyeblikkene for å lese til en prøve, eller hvilke fag som passer best for dem og graden de ønsker å ta. Etter at ASU startet med slike analyser, har antallet studenter som fullfører steget med 20 prosent.

Digitale læremidler og smartere bruk av data kan gi mer individuelt tilpasset oppfølging, og varsle om elever som står i fare for å falle fra. Slik persontilpassing kan gjøre undervisning og skolegang mer inkluderende.

Intelligent matchmaking for arbeidsledige

Datadrevne metoder har også et potensiale for bruk til å få folk raskere ut i arbeid. Det ligger mye statistikk i tidligere arbeidssøkeres historikk, og i tillegg har arbeidssøkere et stort og uoversiktlig marked de må holde oversikt over. Kan dataanalyser gjøre det lettere for arbeidssøkere og arbeidsplasser å finne hverandre?

Algoritmen som veileder i arbeidsmarkedet

I Frankrike har arbeidsmarkedsetaten Pôle emploi (tilsvarende NAV) inngått et samarbeid med databedriften Bayes Impact, som har utviklet et digitalt verktøy for å hjelpe arbeidssøkere med å finne jobb. Ved å få tilgang til store offentlige datasett som tidligere hadde vært lite utnyttet eller sammenstilt, lagde de et sett med algoritmer som analyserer arbeidsmarkedet og kommer med persontilpassede forslag til hver enkelt bruker. De håper at tiltaket vil redusere arbeidsledigheten med 10 prosent.

Bob Emploi fungerer som et digitalt tillegg til andre arbeidsledighetstiltak. Det gir persontilpassede vurderinger av hver enkelt arbeidssøkers situasjon, som årsaker til at det kan være vanskelig å finne jobb og hvor lang tid ulike ønskede stillinger vil ta å finne. Arbeidssøkeren får hjelp til å sette personlige mål og kontinuerlig oppfølging og tips til bedrifter som kan kontaktes. Søkeren velger selv om han eller hun vil dele dataene sine med en rådgiver.

Mange av kildekodene Bob Emploi bruker, ligger åpent tilgjengelig på GitHub (en nettside for deling av prosjekter med åpen kildekode). Pôle emploi tar del i et Open Data-prosjekt og gir åpen tilgang til en del av sine data, slik at private tilbydere kan komme med forslag til nye tiltak.

Hjelp eller stigma?

Måten tiltakene brukes, blir svært viktig. Hvis tiltakene gir flere muligheter til arbeidsledige og skoletrøtte elever slik at de kan inkluderes bedre i samfunnet, vil det være positivt. Samtidig er ikke disse typene modeller utelukkende positive. De kan for eksempel bidra til å gi folk færre muligheter, for eksempel ved å definere dem som risikopersoner og dermed snevre inn mulighetene for jobb og studier.

Når data utpeker svindlere og hjelper skoleleie og arbeidsledige

Flertallet vil at algoritmer skal hjelpe kontrollørene

Modellene som oppdager avvik

Skatteetaten er allerede i gang

Skjeve data kan gi diskriminerende modeller

Inkludering: Skole og arbeidsliv

Persontilpassede tiltak mot frafall i skolen

Intelligent matchmaking for arbeidsledige

Hjelp eller stigma?

Nyhetsbrev

AktueltDETTE JOBBER VI MED NÅ

Teknologien som lærer deg å kjenne

Når den svarte boksen sier nei

Dine helsedata kan snart bli «alles» helsedata

Personvern 2017 – tilstand og trender