Teknologi som kan tolke hva mennesker sier og snakke selv, blir mer avansert for hver dag som går. Den kan lese opp tekst, utføre kommandoer, styre bilutstyr, alarmer og velferdsteknologi, og transkribere alt fra intervjuer og avhør til innhold i pasientjournaler.

Driveren er smartere kunstig intelligens. For eksempel blir digitale assistenter som Siri på iPhone og Amazon Alexa stadig mer overbevisende, og i industrien finnes allerede fabrikkmaskiner med taleteknologi som kan veilede sine egne operatører.

Norge har 320 000 synshemmede og 250 000 dyslektikere, og halvparten av dem uten jobb har lesevansker.

– Ny taleteknologi kan bli et vannskille for universell utforming og muligheten til å delta i arbeidslivet, sier Tore Tennøe, direktør i Teknologirådet.

Teknologien kan også effektivisere mange oppgaver. VG og Schibsted sparte 1000 arbeidstimer på tre uker da de lot maskiner transkribere intervjuer og podcaster. I Microsoft Teams innføres nå funksjonen «intelligent recap» som tar notater og lager oppfølgingspunkter fra møter.

Rapport:

Taleteknologi med kunstig intelligens

Last ned

Utviklingen kan både styrke og svekke norske språk

Taleteknologi vil i årene som kommer bli en del av de fleste digitale systemer, fra kjøleskap til PC-er. I dag dominerer engelsk. Det er fordi kundebasen og tilgang på taledata å trene teknologien med er størst på store språk.

–Vi kan ende opp med at maskinene kan noe norsk, men ikke forstår fagspråk, dialekter, eller minoritetsspråk. Det kan ekskludere mange brukere, eller få dem til å snakke engelsk i stedet, sier Tennøe.

Med en utvikling som favoriserer engelsk vil maskinene få problemer med å forstå hvilke ytringer og meninger som er aksepterte i Norge, og med å snakke om for eksempel bøker, aviser og forskning som ikke ligger åpent tilgjengelig på nett.

– På sikt kan dette svekke små språk og Norges konkurranseevne, sier Teknologirådets prosjektleder Jonas E. Wettre.

– For nynorsk, dialekter og samiske språk er risikoen eksistensiell. Teknologirådets ekspertgruppe påpeker at det å fungere i hverdagen, bruke internett og uttrykke identitet og kultur fremover vil henge tett sammen med evnen til å bruke nye digitale tjenester på eget språk, fortsetter Wettre.

Forutsetninger for å lykkes med norsk taleteknologi

Rapporten beskriver hvordan det å utvikle teknologi på alle norske språk krever økt tilgang på taledata og gode rammer for næringen som skal utvikle teknologien.

I Finland samarbeider kringkasteren YLE, den finske språkbanken og flere universiteter om en nettdugnad der finner kan donere prat via nett og app.

– Finnene har samlet inn rundt 4000 timer taleopptak på dugnad, og noe liknende kan også gjøres i Norge, sier Wettre.

I tillegg trengs nok tilgang på datakraft og maskinlæring til å få trent og vedlikeholdt språkmodellene som teknologien bygger på.

– Et viktig spørsmål fremover blir hvordan Norges nasjonale datakraft- og maskinlæringsressurser skal brukes og hvilke prosjekter som skal prioriteres. Utvikling av norsk tale- og språkteknologi bør være blant kandidatene, sier Wettre. 

Stemmeanalyse kan utfordre personvern og demokrati

Bruken av stemmeanalyse til kommersielle formål øker. Eksempelvis fikk Spotify i 2021 godkjent et patent for å gi brukerne musikkanbefalinger basert på stemmeanalyse som kategoriserer lytterne etter sinnsstemning, kjønn, alder og dialekt. Mens Amazon Alexa kan høre om noen er forkjølet – for så å bestille hostemedisin.

Teknologien blir også dyktigere til å identifisere mønstre i stemmen som potensielt kan oppdage sykdommer som Alzheimer og Parkinson, og det blir også stadig vanligere å bruke stemmen som passord.

En stemme er en biometrisk personopplysning – et unikt kroppslig kjennetegn – og derfor strengt regulert i EUs Personvernforordning (GDPR). Rammene for hvordan taledata kan samles inn, brukes og deles for teknologiutvikling er stramme, og stemmens eier må alltid samtykke til behandlingen.

Det betyr ikke at det er umulig å utvikle taleteknologi. Den finske språkinnsamlingen er hjemlet i et unntak i GDPR som åpner for deling av biometriske data for enkelte politiske formål.

Taleteknologi kan også brukes til å klone stemmer, eller skape helt originale taleklipp basert på opptak av en enkeltstemme. Slik kan det bli enklere å svindle folk og lage falskt innhold – såkalte «deepfakes». Et kjent eksempel er at det i mars 2022 sirkulerte en video der Ukrainas president Volodymyr Zelenskyj ba ukrainerne overgi seg. Zelenskyj måtte selv gå ut og si at videoen var falsk.

– Med fremveksten av generative kunstig intelligente programmer som ChatGPT vil mengden maskinskapt innhold i offentligheten bare øke, og bli stadig mer overbevisende. Dette vil også gjelde for tale. I rapporten anbefaler Teknologirådets ekspertgruppe derfor å avklare eierskapet til klonede og kunstig genererte stemmer, sier Wettre.

Ekspertgruppen for prosjektet:

  • Knut Kvale (Telenor Research)
  • Jon Atle Gulla (NTNU og NorwAI)
  • Line Adde (Aidn AS)
  • Per Erik Solberg (Nasjonalbiblioteket)
  • Torbjørn Karl Svendsen (NTNU)
  • Sjur Nørstebø Moshagen (Divvun og Universitetet i Tromsø)

Nyhetsbrev

Med nyhetsbrevet vårt får du med deg det siste innen teknologiutvikling