Generativ KI utfordrer personvernet på nye måter

Kunstig intelligens har flere kjente personvernutfordringer. Datatilsynets sandkasse for kunstig intelligens har tidligere vurdert flere av dem, blant annet rettslig grunnlag i personvernforordningen (Simplifai og NVE, NAV), hvordan sikre at algoritmer gir rettferdige resultat (NAV, Helse Bergen) og hvordan legge til rette for dataminimering (Finterai).

Generativ kunstig intelligens (generativ KI) er en fellesbetegnelse på en ny type kunstig intelligens som kan lage unikt innhold – både tekst, lyd, bilder og video – ved å få enkle instrukser i naturlig språk. Store språkmodeller som er trent på enorme mengder data blant annet fra internett, gjør dette mulig. Dette utfordrer personvernet på nye måter, og vi ser helt nye problemstillinger vi ikke vet hvordan skal håndteres. Flere av de nye utfordringene har ikke en parallell i dagens situasjon, ei heller etablert praksis med utgangspunkt i eksisterende lovverk. Og ikke minst kan ulike verdier og prioriteringer være i strid med hverandre.

Hva som er riktig tilnærming til godt personvern, har ikke nødvendigvis opplagte ja- eller nei-svar. Vi trenger en debatt om de nye utfordringene, basert på god forståelse av teknologien og jussen kombinert med verdivurderinger.

Nye personvernutfordringer med generativ KI:

Dataskraping av massive mengder med data

For å trene opp en stor språkmodell, «skrapes» (samles) det gjerne inn massive mengder data fra internett. Foruten mulige brudd på opphavsrettigheter, kan dataskraping også inkludere personlige data.

I USA er det flere rettssaker mot blant andre OpenAI, Microsoft og Google for brudd på personvern. Saksøkerne hevder at ved å skrape data fra nettsider, har selskapene brutt deres personvern og rettigheter. Dette handler om innhold som bøker, kunst og kildekode, men også personlige data fra sosiale media og blogposter. Eksempelvis har OpenAI brukt fem ulike datasett for å trene ChatGPT. Et av disse settene, WebText2, samlet data fra sosiale media som Reddit, Youtube, Facebook, TikTok, SnapChat og Instagram, uten samtykke fra bidragsyterne.

Tek-selskapene svarer at de har brukt data som er publisert på åpent nett. Dette er nødvendig for å trene språkmodellene. Google hevder at å bruke offentlig tilgjengelig informasjon for å lære, er ikke å stjele. Det er verken en invadering av personvern eller andre rettigheter.

OpenAI sier at de kun bruker åpent tilgjengelig informasjon. Informasjonen brukes til å lære en språkmodell om sammenhenger mellom ord. Modellen har ikke tilgang til treningsdataene etter at den er trent. En stor mengde data på internett er relatert til personer, så derfor vil også treningsdata kunne inkludere persondata. Nytteverdien av store språkmodeller kan ikke oppnås, uten en stor mengde informasjon å trene på.

Viktige spørsmål:

Kan man lovlig bruke data fra det offentlige internett (som sosiale media som Reddit, TikTok, Facebook, Instagram etc.) for treningsformål?
Hvordan håndterer man persondata som inngår i slike datasett? Trenger man samtykke?
Hvordan skal norske virksomheter forholde seg til de amerikanske språkmodellene som nå er anklaget for brudd på personvernet?

Finjustering av en modell med egne virksomhetsdata

Å trene en stor språkmodell krever betydelige mengder med data, regnekraft og kompetanse, noe de færreste har ressurser til. En fordel med store språkmodeller er imidlertid at det tunge arbeidet med forhåndstrening allerede er gjort. De kan nå tilpasses til spesifikke formål gjennom å finjustere modellen med et mindre, høykvalitets datasett. For eksempel kan dette være nyttig for å trene en modell på helsedata til bruk i legepraksis, lovdata for advokatkontorer eller som Nasjonalbiblioteket har gjort – finjustert OpenAIs Whisper med norsk tekst og tale.

Imidlertid kan finjustering også representere en potensiell utfordring for personvernet. Når man finjusterer en språkmodell med et nytt datasett, kan modellen implisitt få med seg nyanser, terminologi og eventuelt personopplysninger fra sensitive data. Man kan da risikere at modellen kan avsløre disse opplysningene i sine svar til brukere som ikke skal ha tilgang til dette. Denne utfordringen kan beskrives som «datamemorering».

Viktige spørsmål:

Sørg for data som skal brukes til finjustering av en språkmodell er av god kvalitet. Inneholder datasettet sensitive data? Kan de fjernes eller anonymiseres?

Avsløring av persondata i prompts

I brukervilkårene til OpenAI samtykker man til at selskapet kan bruke innholdet brukeren skriver inn (typisk i «promptet», dvs. instruksen) til å forbedre og videreutvikle tjenesten. Dersom promptet inneholder persondata, kan man anta at denne informasjonen ikke lenger er begrenset til virksomhetens interne systemer. Det er riktignok mulig å reservere seg mot dette.

En slik datalekkasje skjedde da Samsung-ansatte delte konfidensielle data med ChatGPT. En utvikler skulle løse en feil i en software-kode, og delte kildekoden med ChatGPT for å få hjelp til å finne en løsning. Å uforvarende skrive sensitive data inn i en språkmodell, har fått et navn: «conversational AI leak». Vi kan også risikere at vår informasjon leses av mennesker, eksempelvis slik Google opplyser om ved bruk av deres chatbot Bard. Formålet er også her å forbedre chatbotens samtaler og tilbakemeldinger fra KI-systemet.

Det generelle rådet ved bruk av generativ KI, er å være varsom med bruk av sensitiv informasjon i «prompts», slik blant andre Digitaliseringsdirektoratet anbefaler i sin veileder.

Samtidig jobber tek-selskapene med å finne løsninger på denne type utfordringer. Eksempelvis har OpenAI lansert ChatGPT Enterprise som en løsning som skal ivareta sikkerhet og personvern. Virksomheten eier og kontrollerer selv data når de bruker denne løsningen. OpenAI sier de ikke trener sin modell på virksomhetens data eller samtaler, og at deres modeller ikke vil lære fra virksomhetens bruk. Tilsvarende informerer Microsoft at deres Copilot for Microsoft 365 ikke bruker virksomhetens data eller prompts for å trene de store språkmodellene. I Norge har Universitetet i Oslo tilpasset OpenAIs GPT-modell til kravene UiO setter til personvern. Ved bruk av deres GPT UiO blir alle data nå lagret på UiOs servere.

Viktige spørsmål er:

Før man ev. legger inn personlig info i en tjeneste, sjekk bruksvilkår
Sørg for klare retningslinjer for virksomhetens bruk av denne typen tjenester
Vurder løsninger som ikke sender data til tredjeparter

Modellen genererer nye personopplysninger

Generative KI-systemer er kjent for å hallusinere eller fabulere – altså finne opp noe som ikke alltid er sant. Samtidig som kreativitet og evne til å skape nytt innhold er det som kjennetegner generativ KI, så er det uheldig dersom språkmodellen genererer nye personopplysninger. Ikke minst når chatboten setter ut falske rykter om deg.

Eksempelvis ble en juss-professor i California feilaktig anklaget for seksuell trakassering med henvisning til en artikkel i The Washington Post. Men artikkelen fantes ikke. Også den nederlandske politikeren Marietje Schaake, tidligere medlem av Europaparlamentet, ble utsatt for alvorlige anklager. Chatboten BlenderBot3 satte opp Schaake på en terroristliste, og listet detaljert opp hennes politiske bakgrunn. Mens den politiske CV-en var korrekt, kunne ikke Shcaake skjønne hvorfor hun ble merket som terrorist.

Feil personopplysninger er fortsatt personopplysninger. Men det er vanskelig å få fjernet slik informasjon.

Viktige spørsmål:

Hvordan kan språkmodellene fortsatt hjelpe oss til å til å være kreative og skape nytt innhold, og samtidig forhindre falske personopplysninger?
Hva kan enkeltpersoner som er utsatt for alvorlige og feilaktige personopplysninger gjøre? Flere tek-selskaper gir mulighet til å protestere på behandling av deres persondata.
Hvordan vil dette vurderes juridisk? Det er foreløpig få rettssaker, og uklart hvordan dette vil håndteres.

Chatboten kan utlede personlige informasjon basert på samtaler

Måten du snakker på, kan avsløre mye om deg, særlig når du snakker til en chatbot. Forskere i Zurich har vist at store språkmodeller er i stand til å utlede personlige data fra store samlinger av ustrukturert tekst (f.eks. offentlige forum eller sosiale nettverksinnlegg).

Siden store språkmodeller er trent opp på store mengder med data, har de lært ulike dialekter og utrykk knyttet til steder og til demografi. Slike mønstre gjør det mulig for en språkmodell å utlede antakelser om en person basert på hva de skriver, uten at personen er bevisst på dette. Eksempelvis hvis en person skriver i en samtale at de akkurat rakk morgentrikken, kan modellen utlede at personen er i Europa, hvor trikker er vanlige og fordi det er morgen i Europa på det aktuelle tidspunktet. Tilsvarende kan modellen plukke opp og kombinere mange tilsynelatende uskyldige hint, som hvor en person bor, kjønn, alder og etnisitet.

Forskerne konkluderer med at dagens store språkmodeller kan trekke ut personlige data i et omfang som tidligere ikke var mulig, og at det er et presserende behov for å utvikle mer effektive mekanismer for å beskytte brukernes personvern.

Viktige spørsmål:

Vil denne evnen til å utlede personopplysninger blir brukt til å målrette reklame eller svindle enkeltpersoner?

Hvordan ivareta retten til sletting eller korrigering?

I enkelte tilfeller kan man kreve at personopplysninger slettes. Dette kalles «retten til å bli glemt». Språkmodeller kan hallusinere eller gjøre feil, og det kan også gjelde informasjon om personer slik som juss-professoren i California som ble anklaget for seksuell trakassering, eller politikeren Schaake som ble påstått å være terrorist. Denne type falske personopplysninger ønsker man selvsagt fjernet.

Det er imidlertid ikke enkelt å korrigere eller slette data i en språkmodell. Dataene er ikke lagret noe sted, som i en tradisjonell database. Språkmodeller lærer ved å gjenkjenne mønster i treningsdata og bruker mønstrene for å lage nytt innhold. Dersom persondata er inkludert i språkmodellen, inngår de i opplæringen, og det hjelper ikke å slette selve dataene. Dette er beskrevet av Microsoft som «like enkelt som å fjerne en ingrediens fra en kake man har bakt».

«Maskinavlæring» – det vil si teknikker for å fjerne data uten ut over KI-modellens ytelse og kvalitet – er blitt aktualisert. Microsoft er blant dem som jobber med teknikker for avlæring, og har lykkes i å avlære sin språkmodell informasjon om Harry Potter. Fagfeltet er imidlertid svært umodent.

Viktige spørsmål:

Er det per dag i det hele tatt realistisk å kreve retten til å bli glemt?
Hvilket ansvar har virksomheter dersom deres chatboter og språkmodeller generer falske personopplysninger?

Opptak fra møtet hvor dette temaet ble diskutert, kan du se nedenfor:

Generativ KI utfordrer personvernet på nye måter

Nye personvernutfordringer med generativ KI:

Dataskraping av massive mengder med data

Finjustering av en modell med egne virksomhetsdata

Avsløring av persondata i prompts

Modellen genererer nye personopplysninger

Chatboten kan utlede personlige informasjon basert på samtaler

Hvordan ivareta retten til sletting eller korrigering?

Nyhetsbrev

AktueltDETTE JOBBER VI MED NÅ

Sikkerhet i smarthus – Undersøkelse av produkter på det norske markedet

Offentlige nettsteder deler data om deg

Gjennombruddet for generativ kunstig intelligens – en tidslinje