To nye udtalelser om datasæt til udvikling af sprogteknologi

Dato: 07-02-2024

Datatilsynet har på baggrund af to konkrete henvendelser vurderet, i hvilket omfang etablering og deling af datasæt til brug for udvikling af sprogteknologi kan ske inden for rammerne af databeskyttelsesreglerne.

Datatilsynet har i to udtalelser taget stilling til muligheden for at etablere og dele datasæt (samt en grundmodel), der skal bruges til udvikling af dansk sprogteknologi.

”Det er en meget udbredt opfattelse, at GDPR står i vejen for udvikling og brug af ny teknologi. Den opfattelse deler vi ikke i Datatilsynet. Vi mener derimod, at databeskyttelsesreglerne er en forudsætning for en hensigtsmæssig teknologisk udvikling af vores samfund.” siger Makar Holst-Andersen, enhedschef i Datatilsynet, og fortsætter:

”Sprogteknologi er et område i rivende udvikling og forventes af mange at få stor betydning for fremtidens samfund og mulighederne for at løse samfundsopgaver og drive virksomhed. Det skal dog naturligvis ske med respekt for borgernes rettigheder, hvilket sagtens kan lade sig gøre, hvis man tænker databeskyttelse ind fra begyndelsen. Det viser disse to udtalelser.”

Offentliggørelse af datasæt og AI-model

Sønderborg Kommune har anmodet om Datatilsynets vurdering af, om kommunen inden for rammerne af databeskyttelsesreglerne kan offentliggøre et datasæt, som kommunen har etableret og benyttet til udvikling af en AI-model, samt om kommunen kan offentliggøre den udviklede model.

Datatilsynet har i den forbindelse vurderet, at databeskyttelsesreglerne ikke er til hinder for, at grundmodellen offentliggøres.

Med hensyn til offentliggørelse af datasættet er forudsætningen for, at datasættet lovligt kan offentliggøres, at de personoplysninger, der indgår i datasættet, er lovligt indsamlet og behandlet.

Datatilsynets vurdering er, at Sønderborg Kommune lovligt har kunnet indsamle og behandle de pågældende oplysninger, og at kommunen lovligt kan offentliggøre datasættet. Kommunen skal dog som led i sin eventuelle offentliggørelse være opmærksom på særligt kravene om dataminimering, rigtighed og lovlighed.

Du kan læse Datatilsynets udtalelse til Sønderborg Kommune her.

Etablering og deling af datasæt

Datatilsynet har herudover modtaget en henvendelse fra Alexandra Instituttet, som har ønsket tilsynets vurdering af muligheden for at etablere og dele et datasæt, der skal bruges til udvikling af dansk sprogteknologi.

Datatilsynet har i den forbindelse bl.a. taget stilling til spørgsmål om behandlingsgrundlag i relation til etablering og deling af sådanne datasæt, om anonymisering samt om, hvorvidt der er tale om behandling af særlige kategorier af personoplysninger (link: https://www.datatilsynet.dk/hvad-siger-reglerne/grundlaeggende-begreber/hvad-er-personoplysninger), når der sker behandling af personoplysninger i form af en persons stemme.

Datatilsynet har i det konkrete tilfælde vurderet, at indsamling og behandling af personoplysninger som led i etableringen og offentliggørelsen af datasættet kan ske under henvisning til opfyldelsen af en kontrakt.

Datatilsynet har desuden vurderet, at datasættet ikke kan anses for at være anonymiseret i databeskyttelsesretlig forstand. Det skyldes, at der findes hjælpemidler, der med rimelighed kan tænkes bragt i anvendelse med henblik på at identificere de personer, der fremgår af datasættet.

Endelig har Datatilsynet vurderet, at behandlingen – uanset at der kan være tale om biometriske data – ikke er omfattet af forbuddet mod behandling af særlige kategorier af personoplysninger i GDPR. Det skyldes, at Alexandra Instituttets behandling af oplysningerne ikke sker med det formål entydigt at identificere en fysisk person.

Du kan læse Datatilsynets udtalelse til Alexandra Instituttet her.

Vil du vide mere?

Læs om behandlingsgrundlag her.