Etablering og deling af datasæt

Dato: 30-01-2024

Datatilsynet har modtaget en henvendelse fra Alexandra Instituttet, som har ønsket tilsynets vurdering af muligheden for at etablere og dele et datasæt, der skal bruges til udvikling af dansk sprogteknologi.

Journalnummer: 2023-211-0004.

Resumé

Datatilsynet har modtaget en henvendelse fra Alexandra Instituttet, som har ønsket tilsynets vurdering af muligheden for at etablere og dele et datasæt, der skal bruges til udvikling af dansk sprogteknologi.

Datatilsynet har i den forbindelse bl.a. taget stilling til spørgsmål om behandlingsgrundlag i relation til etablering og deling af sådanne datasæt, om anonymisering samt om, hvorvidt der er tale om behandling af særlige kategorier af personoplysninger (link: https://www.datatilsynet.dk/hvad-siger-reglerne/grundlaeggende-begreber/hvad-er-personoplysninger), når der sker behandling af personoplysninger i form af en persons stemme.

Datatilsynet har i det konkrete tilfælde vurderet, at indsamling og behandling af personoplysninger som led i etableringen og offentliggørelsen af datasættet kan ske under henvisning til opfyldelsen af en kontrakt (link: https://www.datatilsynet.dk/hvad-siger-reglerne/grundlaeggende-begreber/hvornaar-maa-du-behandle-personoplysninger).

Datatilsynet har desuden vurderet, at datasættet ikke kan anses for at være anonymiseret i databeskyttelsesretlig forstand. Det skyldes, at der findes hjælpemidler, der med rimelighed kan tænkes bragt i anvendelse med henblik på at identificere de personer, der fremgår af datasættet.

Endelig har Datatilsynet vurderet, at behandlingen – uanset at der kan være tale om biometriske data – ikke er omfattet af forbuddet mod behandling af særlige kategorier af personoplysninger i GDPR. Det skyldes, at Alexandra Instituttets behandling af oplysningerne ikke sker med det formål entydigt at identificere en fysisk person.

Du kan læse Datatilsynets udtalelse til Alexandra Instituttet nedenfor.

1. Henvendelsen

Du har på vegne af Alexandra Instituttet den 21. juni 2023 rettet henvendelse til Datatilsynet vedrørende muligheden for at etablere og dele et datasæt, der skal bruges til udvikling af dansk taleteknologi.

Etablering af datasættet vil ske ved, at personer af forskellige køn, aldre og geografiske ophav oplæser og indtaler danske tekster.

Du har navnlig spurgt, om der i situationen vil være tale om behandling af særlige kategorier af personoplysninger efter databeskyttelsesforordningens artikel 9, samt om der er andre forhold omkring indsamlingen og behandlingen af datasættet, som Datatilsynet finder anledning til at kommentere.

Henvendelsen giver efter Datatilsynets opfattelse anledning til spørgsmål om behandlingsgrundlag i relation til etablering og deling af sådanne datasæt samt om anonymisering.

2. Datatilsynets vurdering

Det er – efter at sagen har været forelagt Datarådet – Datatilsynets vurdering, at indsamling og behandling af personoplysninger som led i etableringen og offentliggørelsen af datasættet kan ske med hjemmel i databeskyttelsesforordningens artikel 6, stk. 1, litra b, om opfyldelse af kontrakt.

Det er endvidere Datatilsynets vurdering, at lydoptagelserne – også efter at datasættet er renset for eventuelle metadata – i det konkrete tilfælde udgør personoplysninger, og at databeskyttelsesreglerne derfor finder anvendelse.

Endelig er det Datatilsynets vurdering, at oplysningerne i datasættet kan udgøre biometriske data. Behandlingen af oplysningerne bliver imidlertid ikke omfattet af forbuddet mod behandling af særlige kategorier af personoplysninger i databeskyttelsesforordningens artikel 9, idet behandlingen ikke vil ske med det formål entydigt at identificere en person.

En begrundelse for Datatilsynets vurdering fremgår nedenfor.

3. Baggrunden for vurderingen

3.1. Om projektet

Alexandra Instituttet deltager i et projekt, der har til formål at udvikle og forbedre dansk taleteknologi. I projektet deltager også to private virksomheder samt Datalogisk Institut på Københavns Universitet og Digitaliseringsstyrelsen.

Som et led i projektet skal der i løbet af de næste to år udvikles et taledatasæt ved navn CoRal, der står for Danish Conversational and read-aloud speech dataset. Datasættet skal indeholde 1000-1500 timers samtale og oplæst tale fra et bredt og repræsentativt udsnit af befolkningen i forhold til køn, alder, danske dialekter og udenlandske accenter. Samtidig skal der udvikles sprogmodeller, der kan genkende dansk tale og læse dansk tekst højt. Alle data og modeller vil blive testet og offentliggjort løbende, så tredjemand, herunder bl.a. udviklere, virksomheder og offentlige institutioner kan drage nytte af dem.

Ambitionen er at rekruttere mere end 2000 personer af forskellige køn, aldre og geografiske ophav til at oplæse og indtale danske tekster og dermed skabe datasættet. Indtalingen vil ske på baggrund af en skriftlig aftale med de enkelte oplæsere og Alexandra Instituttet.  

Aftalen vil indeholde oplysninger om borgerens navn, alder, nuværende postnummer, postnummer ved fødsel, dialekt, e-mailadresse og telefonnummer. Teksten, der indtales, vil ikke indeholde personoplysninger. Lydfilerne vil dog indeholde vedkommendes stemme.

Datasættet vil blive renset, så oplysninger, der er direkte personhenførbare, f.eks. navn og adresse, slettes. De enkelte lydfiler vil dog være tilknyttet overordnet information om oplæseren, herunder køn, alder og omtrentlig geografisk placering (f.eks. kvinde, 60-70 år, Østjylland). Hvis antallet af oplæsere i en gruppe, f.eks. en aldersgruppe, er få, vil oplysningerne ikke blive medtaget i datasættet for at undgå eventuel identifikation af enkeltpersoner.

3.2. Behandlingsgrundlag

Spørgsmålet er først og fremmest, om Alexandra Instituttet kan behandle oplysningerne i form af lydoptagelser om de personer, der frivilligt melder sig til at indtale danske tekster, på baggrund af databeskyttelsesforordningens artikel 6, stk. 1, litra b, om opfyldelse af kontrakt.

Databeskyttelsesforordningens artikel 6, stk. 1, litra b, giver mulighed for, at organisationer kan behandle oplysninger om en person, når det er nødvendigt for at opfylde en kontrakt med vedkommende.

EU-Domstolen har i sin dom af 4. juli 2023 i sagen C-252/21, Meta Platforms m.fl., taget stilling til spørgsmålet om, hvornår behandling af personoplysninger kan anses for at være nødvendig af hensyn til opfyldelsen af en kontrakt, som den registrerede er part i.

Behandling af personoplysninger skal ifølge EU-Domstolen være ”objektivt uundværlig for at gennemføre et formål, som er en integrerende del af den kontraktlige ydelse til den registrerede. Den dataansvarlige skal således kunne påvise, på hvilken måde kontraktens hovedformål ikke vil kunne opfyldes uden den pågældende behandling.”[1]

I nærværende tilfælde angår kontrakten oplæsning og indtale af en række tekster. Ydelsen, som den registrerede skal levere er en eller flere lydoptagelser, hvoraf navnlig vedkommendes stemme vil fremgå. Lydoptagelserne vil efterfølgende blive frigivet under en licens, som giver tilladelse til, at alle må kopiere og videredistribuere materialet. Som modydelse modtager den registrerede et gavekort på et bestemt beløb.

På den baggrund er det Datatilsynets vurdering, at databeskyttelsesforordningens artikel 6, stk. 1, litra b, kan danne baggrund for den omhandlede behandlingsaktivitet i form af oplæsning og indtale af danske tekster.

Datatilsynet lægger herved navnlig vægt på, at indspilning af de omhandlede lydoptagelser er den primære kontraktlige ydelse, som den registrerede skal erlægge, og udgør hovedformålet med kontrakten. Kontraktens hovedformål vil således ikke kunne opfyldes uden indspilningen af lydoptagelserne.

Datatilsynet forudsætter i den forbindelse, at de oplysninger, der fremgår af selve kontrakten i form af navn, e-mail, telefonnummer mv., ligeledes er nødvendige for opfyldelsen af kontrakten, f.eks. levering af gavekort.

3.3. Er der tale om anonymisering?

Henvendelsen giver derudover anledning til spørgsmål om, hvorvidt der er tale om reel anonymisering, når optagelserne i øvrigt renses for alle direkte identifikatorer, og optagelsen i sig selv ikke derudover indeholder personoplysninger, eller om lydoptagelser med en persons stemme i sig selv skal anses som personoplysninger.

3.1.1. Databeskyttelsesforordningen mv.

Databeskyttelsesforordningens artikel 4, nr. 1, definerer begrebet personoplysninger som enhver form for information om en identificeret eller identificerbar fysisk person. Ved identificerbar fysisk person forstås en fysisk person, der direkte eller indirekte kan identificeres, navnlig ved en identifikator som f.eks. et navn, et identifikationsnummer, lokaliseringsdata, en onlineidentifikator eller et eller flere elementer, der er særlige for denne fysiske persons fysiske, fysiologiske, genetiske, psykiske, økonomiske, kulturelle eller sociale identitet.

Præambelbetragtning nr. 26 til databeskyttelsesforordningen angiver følgende om begrebet personoplysninger:

”Personoplysninger, der har været genstand for pseudonymisering, og som kan henføres til en fysisk person ved brug af supplerende oplysninger, bør anses for at være oplysninger om en identificerbar fysisk person. For at afgøre, om en fysisk person er identificerbar, bør alle midler tages i betragtning, der med rimelighed kan tænkes bragt i anvendelse af den dataansvarlige eller en anden person til direkte eller indirekte at identificere, herunder udpege, den pågældende. For at fastslå, om midler med rimelighed kan tænkes bragt i anvendelse til at identificere en fysisk person, bør alle objektive forhold tages i betragtning, såsom omkostninger ved og tid der er nødvendig til identifikation, under hensyntagen til den tilgængelige teknologi på behandlingstidspunktet og den teknologiske udvikling. Databeskyttelsesprincipperne bør derfor ikke gælde for anonyme oplysninger, dvs. oplysninger, der ikke vedrører en identificeret eller identificerbar fysisk person, eller for personoplysninger, som er gjort anonyme på en sådan måde, at den registrerede ikke eller ikke længere kan identificeres.” (Datatilsynets understregning)

Af Justitsministeriets betænkning nr. 1565/2017, s. 44, fremgår:

”Af bemærkningerne til persondatalovens § 3, nr. 1, fremgår det bl.a., at der ved udtrykket identificerbar person skal forstås en person, der direkte eller indirekte kan identificeres, bl.a. ved et identifikationsnummer eller et eller flere elementer, der er særlige for en given persons fysiske, fysiologiske, psykiske, økonomiske, kulturelle eller sociale identitet.

Omfattet af begrebet personoplysninger er ifølge bemærkningerne herefter oplysninger, som kan henføres til en fysisk person, selv om dette forudsætter kendskab til personnummer, registreringsnummer eller lignende særlige identifikationer som f.eks. løbenummer. Omfattet vil ligeledes bl.a. være oplysninger, som foreligger i form af billede, personens stemme, fingeraftryk eller genetiske kendetegn.

Det er uden betydning, hvorvidt identifikationsoplysningen er alment kendt eller umiddelbart tilgængelig, hvorfor også de tilfælde, hvor det kun for den indviede vil være muligt at forstå, hvem en oplysning vedrører, er omfattet af definitionen.” (Datatilsynets understregning)

Det bemærkes for en god ordens skyld, at definitionen i databeskyttelsesforordningens artikel 4, nr. 1, og databeskyttelseslovens § 3, nr. 1, svarer til definitionen af personoplysninger i den tidligere gældende persondatalovs § 3, nr. 1, og det bagvedliggende tidligere databeskyttelsesdirektivs artikel 2, litra a.

Af Artikel 29-gruppens udtalelse om personoplysningsbegrebet[2] (WP 136, nr. 4/2007) følger bl.a. følgende vedrørende identifikationskravet (s. 13): 

”Generelt kan en person betragtes som "identificeret", når den pågældende inden for en gruppe af personer kan "skelnes" fra alle de andre medlemmer af gruppen. Den fysiske person er således "identificerbar", når det er muligt at identificere den pågældende (det er betydningen af endelsen "-bar"), selv om det endnu ikke er sket. Dette andet alternativ er derfor i praksis den grænsebetingelse, som afgør, om oplysningerne ligger inden for anvendelsesområdet for det tredje element.

Identifikationen foretages normalt ved hjælp af særlige oplysninger, som vi kan kalde "identifikatorer", og som har en særligt privilegeret og tæt forbindelse med den pågældende person. Eksempler herpå er den pågældendes ydre træk, såsom højde, hårfarve og påklædning, eller en egenskab ved den pågældende, som man ikke umiddelbart kan se, såsom erhverv, stilling og navn. I direktivet nævnes disse "identifikatorer" i definitionen af personoplysninger i artikel 2, hvor det hedder, at en fysisk person "direkte eller indirekte kan identificeres, bl.a. ved et identifikationsnummer eller et eller flere elementer, der er særlige for denne persons fysiske, fysiologiske, psykiske, økonomiske, kulturelle eller sociale identitet".”

”Direkte” eller ”indirekte” kan identificeres

Bemærkningerne til artiklerne i Kommissionens ændrede forslag indeholder yderligere præciseringer, idet det fastslås, at "en person kan identificeres direkte med navn eller indirekte med et telefonnummer, et indregistreringsnummer for en bil, et socialsikringsnummer, et pasnummer eller en kombination af væsentlige kriterier, som gør det muligt at genkende ham ved at indsnævre den gruppe, han tilhører (alder, erhverv, bopæl mv.)". Denne formulering viser klart, at spørgsmålet om, hvorvidt visse identifikatorer er nok til at sikre en identifikation, afhænger af forholdene i den bestemte situation. Et meget almindeligt efternavn vil ikke være nok til at identificere en person – dvs. udskille den pågældende – når man ser på et lands samlede befolkning, mens det formodentlig vil være nok til at sikre identifikation af en elev i et klasseværelse. Selv mindre væsentlige oplysninger, såsom "manden i sort jakkesæt", kan identificere en person blandt de forbipasserende, der står i et lyskryds. Så spørgsmålet om, hvorvidt den person, som oplysningerne vedrører, er identificeret eller ej, afhænger af omstændighederne i det pågældende tilfælde.

For at fastslå denne identitet skal personens navn sommetider kombineres med andre oplysninger (fødselsdato, forældrenes navne, adresse eller et ansigtsbillede) for at undgå sammenblanding mellem den pågældende og eventuelle navnefæller. For eksempel kan den oplysning, at Titius skylder et bestemt beløb, anses for at vedrøre en identificeret person, fordi den er forbundet med personens navn. Navnet er en oplysning, som viser, at den pågældende bruger den kombination af bogstaver og lyde til at adskille sig fra andre og gøre det muligt for andre personer, som han etablerer forbindelser med, at adskille ham fra andre. Navnet kan også være et udgangspunkt, som fører til oplysninger om, hvor den pågældende bor eller kan findes, og kan også give oplysninger om personer i hans familie (gennem efternavnet) og et antal forskellige juridiske og sociale forbindelser, der er knyttet til navnet (uddannelse, patientjournal, bankkonti). Det kan endda være muligt at finde ud af, hvordan en person ser ud, hvis hans billede knyttes sammen med det pågældende navn. Alle disse nye oplysninger, som er knyttet til navnet, kan gøre det muligt at zoome ind på en person af kød og blod, og gennem identifikatorerne knyttes de oprindelige oplysninger således sammen med en fysisk person, der kan adskilles fra andre personer.

Med hensyn til "indirekte" identificerede eller identificerbare personer vedrører denne kategori typisk fænomenet "entydige kombinationer", uanset om de er små eller store. I tilfælde, hvor de foreliggende identifikatorers omfang i første omgang ikke gør det muligt at finde frem til en bestemt person, kan den pågældende stadig være "identificerbar", fordi disse oplysninger kombineret med andre oplysninger (uanset om registerføreren har sidstnævnte oplysninger eller ej) vil gøre det muligt at adskille den pågældende fra andre. Her kommer direktivet ind med "et eller flere elementer, der er særlige for denne persons fysiske, fysiologiske, psykiske, økonomiske, kulturelle eller sociale identitet". Nogle karakteristika er så entydige, at en person kan identificeres uden problemer ("den nuværende spanske premierminister"), men en kombination af oplysninger på kategoriniveau (alderskategori, regional oprindelse osv.) kan også være temmelig entydige under visse omstændigheder, specielt hvis man har adgang til en eller anden slags supplerende oplysninger. Dette fænomen er blevet nøje undersøgt af statistikere, der altid bestræber sig på at undgå brud på fortroligheden.

Det skal her bemærkes, at et navn i sig selv ikke i alle tilfælde er nødvendigt for at identificere en person, selv om identifikation ved hjælp af navnet er den mest almindelige metode i praksis. Dette kan forekomme, når der anvendes andre "identifikatorer" til at indkredse en person. I edb-registre, som indeholder personoplysninger, anvendes der som regel en entydig identifikator for de registrerede personer for at undgå sammenblanding af to personer i registret. På internettet gør redskaber til overvågning af internettrafikken det også let at identificere en maskines adfærd og, bag ved maskinen, brugerens adfærd. Den enkeltes personlighed stykkes således sammen, så visse beslutninger kan tillægges den pågældende. Uden overhovedet at spørge om personens navn og adresse er det muligt at kategorisere den pågældende på grundlag af socioøkonomiske, psykologiske, filosofiske eller andre kriterier og tillægge den pågældende visse beslutninger, da vedkommendes kontaktpunkt (en computer) ikke længere nødvendigvis kræver, at vedkommendes identitet i snæver forstand afsløres. Med andre ord er muligheden for at identificere en person ikke længere nødvendigvis lig med muligheden for at finde frem til den

pågældendes navn. Definitionen af personoplysninger afspejler dette forhold.

De Europæiske Fællesskabers Domstol har bekræftet dette, idet den har udtalt, at "en operation, der består i på en internetside at henvise til forskellige personer, og i at identificere dem ved navn eller på anden måde, f.eks. ved at oplyse deres telefonnummer eller ved at give oplysninger om deres arbejdsforhold og fritidsinteresser, udgør en behandling af personoplysninger […] i den forstand, hvori udtrykket er anvendt i direktiv 95/46/EF".” (Datatilsynets understregning)

Derudover har EU-Domstolen i sin dom af 19. oktober 2016 i sagen C-582/14, Breyer, præmis 41-49, forholdt sig til spørgsmålet om, i hvilket omfang og under hvilke omstændigheder en dynamisk IP-adresse kan betragtes som personoplysninger.

EU-Domstolen udtalte følgende:

”EU-lovgivers brug af ordet »indirekte« synes at indikere, at det for at kvalificere en oplysning som personoplysning ikke er nødvendigt, at denne oplysning i sig selv gør det muligt at identificere den registrerede.

Det er desuden anført i 26. betragtning til direktiv 95/46, at der for at afgøre, om en person er identificerbar, tages alle de hjælpemidler, der med rimelighed kan tænkes bragt i anvendelse for at identificere den pågældende enten af den registeransvarlige eller af enhver anden person, i betragtning.

For så vidt som der i denne betragtning henvises til hjælpemidler, der med rimelighed kan tænkes bragt i anvendelse, både af den registeransvarlige og af »enhver anden person«, synes det at følge af dens ordlyd, at det, for at en oplysning kan kvalificeres som »personoplysning« som omhandlet i nævnte direktivs artikel 2, litra a), ikke er påkrævet, at alle de oplysninger, der gør det muligt at identificere den registrerede, skal befinde sig hos en enkelt person.

Det forhold, at den yderligere viden, som kræves for at identificere brugeren af en internetside, indehaves, ikke af udbyderen af online-medietjenester, men af denne brugers internetudbyder, synes således ikke at kunne udelukke, at de dynamiske ip-adresser, der er registreret af udbyderen af online-medietjenester, for denne udgør personoplysninger som omhandlet i artikel 2, litra a), i direktiv 95/46.

Det skal imidlertid afgøres, om muligheden for at kombinere en dynamisk ip-adresse med den nævnte yderligere viden, som denne internetudbyder har, udgør et hjælpemiddel, der med rimelighed kan tænkes bragt i anvendelse for at identificere den registrerede.

Som generaladvokaten i det væsentlige har anført i punkt 68 i forslaget til afgørelse, er dette ikke tilfældet, hvis identificeringen af den registrerede er forbudt ved lov eller praktisk ugennemførlig, f.eks. på grund af det forhold, at den vil indebære en større indsats i tid, omkostninger og arbejde, således at risikoen for en identificering i virkeligheden synes ubetydelig.

Selv om den forelæggende ret har præciseret i sin forelæggelsesafgørelse, at den tyske lovgivning ikke tillader internetudbyderen direkte at overføre den yderligere viden, der er nødvendig for identificeringen af den registrerede, til udbyderen af online-medietjenester, synes der imidlertid under forbehold af de efterprøvelser, der i denne henseende skal foretages af den forelæggende ret, at findes lovlige veje, der gør det muligt for udbyderen af online-medietjenester, bl.a. i tilfælde af angreb på netværk, at henvende sig til den kompetente myndighed, for at denne kan tage de nødvendige skridt for at opnå disse oplysninger hos internetudbyderen og for at foranledige strafferetlig forfølgning.

Udbyderen af online-medietjenester synes således at råde over hjælpemidler, der med rimelighed kan tænkes bragt i anvendelse for ved hjælp af andre personer, dvs. den kompetente myndighed og internetudbyderen, at få identificeret den registrerede på grundlag af de opbevarede ip-adresser.

Henset til alle de ovenstående betragtninger skal det første spørgsmål besvares med, at artikel 2, litra a), i direktiv 95/46 skal fortolkes således, at en dynamisk ip-adresse, som en udbyder af online-medietjenester registrerer i forbindelse med en søgning foretaget af en person på en internetside, som denne udbyder gør tilgængelig for offentligheden, i forhold til den nævnte udbyder udgør en personoplysning som omhandlet i denne bestemmelse, når udbyderen råder over lovlige hjælpemidler, der gør det muligt for denne at få identificeret den registrerede gennem den yderligere viden, som denne persons internetudbyder råder over.” (Datatilsynets understregning)

3.1.2. Vurdering

Definitionen i forordningens artikel 4, nr. 1, indeholder fire elementer, der indgår i vurderingen af, om der er tale om personoplysninger. Der skal være tale om (i) ”enhver information”, (ii) ”om”, (iii) ”identificeret eller identificerbar” samt (iv) ”fysisk person”.

I nærværende tilfælde er spørgsmålet navnlig, om kravet om identificeret eller identificerbar er opfyldt.

”Identificeret”

Det skal først og fremmest vurderes, hvorvidt en person kan anses for at være identificeret gennem sin stemme alene.

Databeskyttelsesreglerne indeholder ikke en nærmere præcisering af, hvad det vil sige, at en person er identificeret, som følger af definitionen i artikel 4, nr. 1.

Ifølge Artikel 29-gruppen skal identificeret forstås i overensstemmelse med ordets naturlige forståelse, navnlig at en person er identificeret, ”når den pågældende inden for en gruppe af personer kan ”skelnes” fra alle de andre medlemmer af gruppen”. Identifikation kan ifølge Artikel 29-gruppen ske gennem identifikatorer, som er oplysninger der har en særlig privilegeret og tæt forbindelse med den pågældende person, f.eks. fysiske træk.

Artikel 29-gruppen henviser til, at en persons navn er den mest almindelige identifikator, og at begrebet identificeret person som oftest indebærer en henvisning til den pågældendes navn. Samtidig præciserer Artikel 29-gruppen, at et navn i sig selv dog ikke i alle tilfælde er nødvendigt for at identificere en person. Der kan også anvendes andre identifikatorer til at indkredse en person.

Artikel 29-gruppen bemærker derudover, at spørgsmålet om, hvorvidt en identifikator er tilstrækkelig unik til at sikre identifikation beror på en konkret vurdering af den bestemte situation:

”Et meget almindeligt efternavn vil ikke være nok til at identificere en person – dvs. udskille den pågældende – når man ser på et lands samlede befolkning, mens det formodentlig vil være nok til at sikre identifikation af en elev i et klasseværelse. Selv mindre væsentlige oplysninger, såsom "manden i sort jakkesæt", kan identificere en person blandt de forbipasserende, der står i et lyskryds. Så spørgsmålet om, hvorvidt den person, som oplysningerne vedrører, er identificeret eller ej, afhænger af omstændighederne i det pågældende tilfælde.”

En stemme kan derfor også udgøre en identifikator, der gør det muligt at udpege en person inden for en gruppe af personer og derved betyde, at personen er identificeret. Spørgsmålet er, i hvilket omfang en persons stemme kan anses som tilstrækkelig unik identifikator til, at personen er direkte identificeret, når vedkommende optræder som del af det datasæt, som Alexandra Instituttet har til henblik at etablere.

Datatilsynet lægger herunder til grund, at kvaliteten af lydoptagelsen vil være høj, og at der derfor ikke skal tages hensyn til, at stemmen på optagelsen vil lyde forvrænget eller lign.

Stemmer har mange karakteristika og kan være unikke på grund af forskelle i talemønster, tonehøjde, rytme, udtalelse, psykiske tilstand, sprog og dialekt. En stemme kan dermed siges at være særlig for en given persons identitet, og disse særlige karakteristika kan bruges til at differentiere én stemme fra en anden. Forskning har endvidere vist, at det kan være muligt at udlede oplysninger om alder, køn eller etnicitet ud fra en persons stemme.[3]

Genkendelse af stemmen må imidlertid også forudsætte et forudgående kendskab til stemmen og personen bag. Venner, familie og øvrige nære relationer vil således med en vis sandsynlighed kunne identificere, hvem stemmen tilhører alene ved at lytte til denne. For den uindviede vil identificeringen være sværere.

I overensstemmelse med Datatilsynets praksis kan den omstændighed, at enkelte personer kan identificere en registrerede, f.eks. ud fra en beskrivelse af et hændelsesforløb, dog ikke isoleret set føre til, at behandling af oplysningerne skal anses for at være omfattet af databeskyttelsesreglerne.

Datatilsynet kan imidlertid ikke på baggrund de foreliggende oplysninger med tilstrækkelig sikkerhed fastslå, i hvilket omfang det er muligt for en bredere kreds af personer at identificere en person ud fra de omhandlede lydoptagelser, og at stemmen allerede derfor udgør en unik identifikator, der fører til, at de pågældende lydoptagelser skal anses som personoplysninger om en identificeret person.

”Identificerbar”

Spørgsmålet bliver derfor, hvorvidt personen er indirekte identificerbar, dvs. om der er yderligere oplysninger, der gør det muligt at udpege den pågældende person. Dette beror på en konkret vurdering af omstændighederne i den bestemte situation.

For at afgøre, om en fysisk person er identificerbar, bør alle midler tages i betragtning, der med rimelighed kan tænkes bragt i anvendelse af den dataansvarlige eller en anden person til direkte eller indirekte at identificere, herunder udpege, den pågældende.

For at fastslå, om midler med rimelighed kan tænkes bragt i anvendelse til at identificere en fysisk person, bør alle objektive forhold tages i betragtning, såsom omkostninger ved og tid der er nødvendig til identifikation, under hensyntagen til den tilgængelige teknologi på behandlingstidspunktet og den teknologiske udvikling. Det fremgår af præambelbetragtning nr. 26 til databeskyttelsesforordningen.

Det er ikke en forudsætning, at den yderligere viden, som kræves for at identificere den pågældende, er i den dataansvarliges besiddelse. Det skal vurderes, om der findes hjælpemidler, for den dataansvarlige, som med rimelighed kan tænkes bragt i anvendelse. EU-Domstolen har præciseret, at det ikke er tilfældet, hvis identificeringen af den registrerede er forbudt eller praktisk ugennemførlig, f.eks. på grund af det forhold, at identificering vil indebære en større indsats i tid, omkostninger og arbejde, således at risikoen for en identificering i virkeligheden synes ubetydelig.[4]

I dette tilfælde skal vurderingen af, om en stemme i sig selv udgør personoplysninger foretages i lyset af, at alle vil have adgang til oplysningerne, da de offentliggøres på internettet. Det skyldes, at Alexandra Instituttet forventer at offentliggøre datasættet.

Den nuværende teknologi og den teknologiske udvikling synes i den konkrete sag at være af afgørende betydning for vurderingen af, hvorvidt datasættet udgør personoplysninger, da stemmegenkendelsesværktøjer de senere år er blevet mere almindelige og lettilgængelige. Det forudsætter dermed ikke adgang til særlige værktøjer at kunne gennemføre sådanne analyser. Derudover kan det bl.a. nævnes, at stemmeanalyse allerede bliver brugt til identificering f.eks. i straffesager, hvor det anvendes til at identificere mulige gerningsmænd og andre personer ud fra deres stemme.

På sociale medier som f.eks. Instagram, TikTok og YouTube uploades hver dag timevis af videoklip, hvor folks stemmer indgår. Disse videoer er ofte tilgængelige for en bred skare af personer og kan muligvis bruges som sammenligningsgrundlag ved ønsket om identificering.

Derudover har den teknologiske udvikling, herunder udbredelsen af kunstig intelligens, muliggjort efterligning af en persons stemme bl.a. til ondsindede formål. Der kan derfor være en interesse i for en ondsindet aktør at identificere personen bag lydoptagelsen med henblik på at bruge stemmeoptagelsen til at gennemføre målrettede it-sikkerhedsangreb (phishing) eller svindel.

Datasættet er endvidere ledsaget af metadata om køn, alder og omtrentlig geografisk placering, hvilket indsnævrer kredsen af mulige personer bag lydoptagelsen.

Det er på den baggrund Datatilsynets vurdering, at der findes hjælpemidler, der med rimelighed kan tænkes bragt i anvendelse, med henblik på at identificere de personer, der fremgår af datasættet, og at lydoptagelserne derfor skal anses som personoplysninger.

Databeskyttelsesreglerne finder derfor anvendelse ved behandling af datasættet, også efter at datasættet er renset for eventuelle metadata.

3.3 Biometriske data

Endelig giver henvendelsen anledning til overvejelser om, hvorvidt behandling af oplysningerne i det omhandlede datasæt vil være omfattet af databeskyttelsesforordningens artikel 9, herunder om stemmerne i datasættet skal betragtes som biometriske data, og – i bekræftende fald – om en af undtagelserne i artikel 9, stk. 2, finder anvendelse i situationen.

Databeskyttelsesforordningens artikel 4, nr. 14, definerer biometriske data, som personoplysninger, der som følge af specifik teknisk behandling vedrørende en fysisk persons fysiske, fysiologiske eller adfærdsmæssige karakteristika muliggør eller bekræfter en entydig identifikation af vedkommende, f.eks. ansigtsbillede eller fingeraftryksoplysninger.

Databeskyttelsesforordningens artikel 9, stk. 1, indeholder et generelt forbud mod at behandle særlige kategorier af personoplysninger. Det omfatter bl.a. biometriske data med det formål entydigt at identificere en fysisk person.

Af præambelbetragtning nr. 51 fremgår derudover følgende:

”Behandling af fotografier bør ikke systematisk anses for at være behandling af særlige kategorier af personoplysninger, eftersom de kun vil være omfattet af definitionen af biometriske data, når de behandles ved en specifik teknisk fremgangsmåde, der muliggør entydig identifikation eller autentifikation af en fysisk person.”

Alexandra Instituttet har oplyst, at formålet med projektet er at udvikle og forbedre dansk taleteknologi. Instituttet vil i den forbindelse udvikle og offentliggøre et taledatasæt, som tredjemand kan anvende til at udvikle dansk taleteknologi.

Stemmer kan som nævnt være unikke på grund af forskelle i talemønster, tonehøjde, rytme, udtalelse, sprog og dialekt. Disse karakteristika kan bruges til at differentiere én persons stemme fra en anden.

Det er Datatilsynets vurdering, at oplysningerne i datasættet kan udgøre biometriske data. Det afhænger af, hvordan Alexandra Instituttet konkret forventer at behandle datasættet, og det vil være tilfældet, hvis lydoptagelserne underlægges en specifik teknisk behandling som muliggør en entydig identifikation af personen bag stemmen.

Det er dog Datatilsynets vurdering, at behandlingen – uanset at der kan være tale om biometriske data – ikke er omfattet af forbuddet mod behandling i databeskyttelsesforordningens artikel 9, stk. 1.

Datatilsynet lægger herved navnlig vægt på, at Alexandra Instituttets behandling af oplysningerne ikke sker med det formål entydigt at identificere en fysisk person.[5]

 

[1]   C-252/21, Meta Platforms m.fl., præmis 98.

[2]   WP 136 – Udtalelse nr. 4/2007 om begrebet personoplysninger.

[3]   The GDPR & Speech Data: Reflections of Legal and Technology Communities, First Steps towards a Common Understanding, A. Nautsch et.al. Electrical Engineering and Systems Science - Audio and Speech Processing, Computer Science - Computers and Society, 2019: https://doi.org/10.48550/arXiv.1907.03458

[4]   C-582/14, Breyer, præmis 46.

[5]   Der henvises i øvrigt til afsnit 3.2. i Datatilsynets udtalelse i sagen med j.nr. 2018-211-01350, som kan findes her: https://www.datatilsynet.dk/afgoerelser/afgoerelser/2019/maj/vejledende-udtalelse-om-anvendelsen-af-fingeraftryk-til-brug-for-registrering-af-ansattes-komme-gaa-tider