Offentliggørelse af datasæt og AI-model

Dato: 19-01-2024

Sønderborg Kommune har anmodet om Datatilsynets vurdering af, om kommunen inden for rammerne af databeskyttelsesreglerne kan offentliggøre et datasæt, som kommunen har etableret og benyttet til udvikling af en AI-model, samt om kommunen kan offentliggøre den udviklede model.

Journalnummer: 2023-212-0021.

Resumé

Sønderborg Kommune har anmodet om Datatilsynets vurdering af, om kommunen inden for rammerne af databeskyttelsesreglerne kan offentliggøre et datasæt, som kommunen har etableret og benyttet til udvikling af en AI-model, samt om kommunen kan offentliggøre den udviklede model.

Datatilsynet har i den forbindelse vurderet, at databeskyttelsesreglerne ikke er til hinder for, at grundmodellen offentliggøres.

Med hensyn til offentliggørelse af datasættet er forudsætningen for, at datasættet lovligt kan offentliggøres, at de personoplysninger, der indgår i datasættet, er lovligt indsamlet og behandlet.

Datatilsynets vurdering er, at Sønderborg Kommune lovligt har kunnet indsamle og behandle de pågældende oplysninger, og at kommunen lovligt kan offentliggøre datasættet. Kommunen skal dog som led i sin eventuelle offentliggørelse være opmærksom på særligt kravene om dataminimering, rigtighed og lovlighed.

Du kan læse Datatilsynets udtalelse til Sønderborg Kommune nedenfor. 

 

1. Henvendelsen

Sønderborg Kommune har den 8. juni 2023 anmodet om Datatilsynets vurdering af, om kommunen inden for rammerne af databeskyttelsesreglerne kan offentliggøre et datasæt, som kommunen har etableret og benyttet til udvikling af en AI-model, samt om kommunen kan offentliggøre den udviklede model.

2. Datatilsynets vurdering

Det er – efter at sagen har været forelagt Datarådet – Datatilsynets vurdering, at den udviklede AI-model ikke i sig selv udgør personoplysninger, og at udstillingen af grundmodellen derfor som udgangspunkt ikke er omfattet af databeskyttelsesreglerne.

Det betyder, at databeskyttelsesreglerne ikke er til hinder for, at grundmodellen offentliggøres.

Med hensyn til offentliggørelse af datasættet er forudsætningen for, at datasættet lovligt kan offentliggøres, at de personoplysninger, der indgår i datasættet, er lovligt indsamlet og behandlet.

Det er i den forbindelse Datatilsynets vurdering, at indsamling og behandling af personoplysninger som led i etablering af et datasæt til udvikling af en AI-løsning, der skal understøtte den kommunale behandling af aktindsigtssager, kan ske under henvisning til aktindsigtsbestemmelserne i offentligheds- og forvaltningsloven, jf. databeskyttelsesforordningens artikel 6, stk. 1, litra e, og artikel 9, stk. 2, litra g, i smh. med artikel 6, stk. 2 og 3.

Endvidere er det Datatilsynets vurdering, at datasættet kan offentliggøres på sprogteknologi.dk under henvisning til databeskyttelsesforordningens artikel 6, stk. 1, litra e, og artikel 9, stk. 2, litra g, med henvisning til offentligheds- og forvaltningsloven som supplerende retsgrundlag.

Datatilsynet bemærker dog, at kommunen som led i offentliggørelsen skal være opmærksom på kravene om dataminimering, jf. artikel 5, stk. 1, litra c, rigtigheden af oplysningerne, jf. artikel 5, stk. 1, litra d, samt lovligheden af oplysningerne, jf. artikel 5, stk. 1, litra a, som nærmere beskrevet i pkt. 3.4.2.

3. Baggrunden for vurderingen

3.1. Om projektet

Sønderborg Kommune indgår i et tværkommunalt samarbejde om udvikling og anvendelse af et AI-værktøj, der skal understøtte den kommunale behandling af aktindsigtssager.

Formålet med samarbejdet er at udvikle sprogmodeller, der kan identificere oplysninger i sagsakter, som eventuelt skal ekstraheres som led i besvarelsen af aktindsigtsanmodninger. Det kan f.eks. være oplysninger om personnummer eller andre fortrolige oplysninger.

Når sprogmodellerne er udviklet, skal modellerne integreres i en it-løsning, som benyttes til behandling af aktindsigtsanmodninger. Sprogmodellerne vil dermed blive anvendt som beslutningsstøtte til sagsbehandlerne. Modellerne vil f.eks. kunne identificere navne på tværs af et stort antal dokumenter og foreslå, at disse ekstraheres. Det er dog i sidste ende sagsbehandleren, der træffer afgørelse om, hvorvidt oplysningerne skal ekstraheres.

I det tværkommunale samarbejde er der udviklet tre typer af modeller – to komplekse modeller og en grundmodel – samt et datasæt.

Datasættet er dannet på baggrund af offentligt tilgængelige data fra danske kommuners hjemmesider (dataskrab). Der indgår derfor f.eks. navne på kommunale medarbejdere og kommunalpolitikere, stillingsbetegneler, adresser, e-mails, telefonnumre, oplysninger der fremgår af referater fra byråds- og udvalgsmøder mv.

Som led i projektet ønsker Sønderborg Kommune at gøre såvel grundmodellen som datasættet offentligt tilgængeligt på sprogteknologi.dk. Om baggrunden for sprogteknologi.dk fremgår bl.a. følgende[1]:

”Den digitale platform sprogteknologi.dk samler metadata om danske sprogressourcer ét sted. Det primære formål er at understøtte udviklingen af kunstig intelligens på dansk og dermed bidrage til at sikre, at det digitale sprog i Danmark er dansk.

Platformen sprogteknologi.dk indeholder bl.a. metadata om tale- og tekstkorpora, ordbøger, termbaser, sprogteknologiske supportværktøjer og infrastrukturkomponenter. Den digitale platform vil løbende blive udbygget med nye metadata om relevante, eksisterende sprogressourcer. På sigt vil der desuden blive udviklet og udstillet nye sprogressourcer, som kan mindske [barriererne] og styrke udviklingen af sprogteknologiske løsninger til understøttelse af kunstig intelligens på dansk af høj kvalitet.”

Af Sønderborg Kommunes konsekvensanalyse af værktøjet fremgår, at behandling af personoplysninger til udvikling af værktøjet sker på baggrund af databeskyttelsesforordningens artikel 6, stk. 1, litra e. Særlige kategorier af personoplysninger behandles på baggrund af undtagelserne i artikel 9, stk. 2, litra a, b, c, f, g, h og j, mens oplysninger om strafbare forhold behandles på baggrund af databeskyttelseslovens § 8, stk. 1. Oplysninger om personnummer behandles på baggrund af databeskyttelseslovens § 11, stk. 1. Konsekvensanalysen er offentligt tilgængelig.[2]

3.2. Deling af grundmodellen

Spørgsmålet er først og fremmest, i hvilket omfang Sønderborg Kommune kan gøre grundmodellen offentligt tilgængelig.

Af Datatilsynets vejledning om offentlige myndigheders brug af kunstig intelligens (Inden I går i gang) fra oktober 2023 fremgår følgende:

”Datatilsynet lægger til grund, at en AI-model som et klart udgangspunkt ikke i sig selv udgør personoplysninger, men alene er resultatet af behandlingen af personoplysninger. Det svarer til, at en statistisk rapport ligeledes ikke vil anses som personoplysninger, hvis rapporten alene indeholder konklusioner og aggregerede data, der er resultaterne af den statistiske analyse.

Visse maskinlæringsmodeller kan dog angribes på forskellige måder (såkaldte model inversion attacks og membership inference attacks), der gør det muligt at re-identificere de borgere, hvis oplysninger har indgået i modellens træningsdata. Et vellykket angreb, som resulterer i re-identifikation af borgernes oplysninger i træningsdata, kan være et brud på persondatasikkerheden og skal håndteres derefter.

Risikoen for, at en ondsindet aktør genidentificerer borgere ved bevidst at gennemføre et angreb for at udlede data, der har indgået i træningsdata, indebærer efter Datatilsynets opfattelse således ikke, at modellen skal anses som personoplysninger i sig selv.”

Denne opfattelse er navnlig baseret på den forståelse, at AI-løsninger udgør systemer, der ved brug af træningsdata trænes til at identificere bestemte mønstre, hvorefter løsningen kan identificere de samme mønstre i nye data. Systemerne indeholder dermed – modsat egentlige databaser – ikke oplysninger i selv, men indeholder alene logikken og sammenhængen i de mønstre, som løsningen er blevet trænet til at genkende.

På den baggrund er det Datatilsynets vurdering, at udstilling af grundmodellen som udgangspunkt ikke er omfattet af databeskyttelsesreglerne.

Datatilsynet bemærker imidlertid, at Sønderborg Kommune skal være opmærksom på den ovennævnte risiko for angreb, der har til formål at re-identificere borgere, hvis oplysninger har indgået i træningsdata. Hvis kommunen bliver opmærksom på sådanne angreb, bør kommunen tage passende skridt til at sikre modellen eller fjerne den fra internettet.

3.3. Etablering af datasættet

Forudsætningen for, at datasættet lovligt kan offentliggøres på sprogteknologi.dk er, at de personoplysninger, der indgår i datasættet, er lovligt indsamlet og behandlet. Henvendelsen giver derfor – for det andet – anledning til at overveje, om personoplysningerne er lovligt indsamlet og behandlet.

3.3.1. Databeskyttelsesforordningen

Efter Datatilsynets opfattelse er det navnlig databeskyttelsesforordningens artikel 6, stk. 1, litra e, om offentlig myndighedsudøvelse, der er et relevant grundlag for indsamling og behandling af personoplysninger som led i etablering af datasættet.

Behandling af personoplysninger på baggrund af databeskyttelsesforordningens artikel 6, stk. 1, litra e, kræver, at der foreligger et såkaldt supplerende retsgrundlag, som forpligter eller berettiger myndigheden til at udføre en bestemt myndighedsopgave. Det følger af forordningens artikel 6, stk. 2 og 3.

Endvidere er det Datatilsynets opfattelse, at forbuddet mod behandling af særlige kategorier af personoplysninger i databeskyttelsesforordningens artikel 9, stk. 1, vil kunne fraviges efter databeskyttelsesforordningens artikel 9, stk. 2, litra g. Bestemmelsen angiver, at forbuddet efter stk. 1, ikke finder anvendelse, hvis behandling er nødvendig af hensyn til væsentlige samfundsinteresser på grundlag af EU-retten eller medlemsstaternes nationale ret og står i rimeligt forhold til det mål, der forfølges, respekterer det væsentligste indhold af retten til databeskyttelse og sikrer passende og specifikke foranstaltninger til beskyttelse af den registreredes grundlæggende rettigheder og interesser.

En fravigelse af forbuddet i databeskyttelsesforordningens artikel 9, stk. 1, efter forordningens artikel 9, stk. 2, litra g, forudsætter, som det er tilfældet med artikel 6, stk. 1, litra e, at der foreligger et supplerende retsgrundlag.

Datatilsynet har i sin udtalelse af 17. november 2023 til Københavns Kommune nærmere redegjort for kravene til det supplerende retsgrundlag til behandling af personoplysninger som led i udvikling, drift og gentræning af AI-løsninger.[3] Der henvises til afsnit 3.2. i udtalelsen.

3.3.2. Offentligheds- og forvaltningsloven

Sønderborg Kommune har i sin konsekvensanalyse overordnet henvist til, at kommunen som offentlig myndighed er forpligtet til at behandle personoplysninger som led i håndtering af aktindsigtsanmodninger efter offentligheds- og forvaltningsloven.

Efter Datatilsynets opfattelse gælder der ikke et krav om, at der skal findes hjemmel i databeskyttelsesforordningens artikel 6 eller 9 for at kunne videregive oplysninger i forbindelse med besvarelse af aktindsigtsanmodninger, ligesom der bl.a. ikke gælder et (yderligere) krav om dataminimering, idet spørgsmålet om aktindsigt alene reguleres af forvaltningslovens, offentlighedslovens eller miljøoplysningslovens regler. Lovgiver har lagt til grund, at aktindsigtsreglerne i disse love er forenelige med forordningen, jf. dennes artikel 86.[4]

Etablering af et datasæt, der består af offentligt tilgængelige oplysninger, til brug for udvikling af en AI-løsning til at understøtte behandling af aktindsigtsanmodninger, må dog efter Datatilsynets opfattelse anses for at være et særskilt og separat formål fra selve sagsbehandlingen af konkrete aktindsigtsanmodninger.

Der henvises til Datatilsynets vejledning om offentlige myndigheders brug af kunstig intelligens (Inden I går i gang), s. 9, hvoraf følgende fremgår:

”Udviklingen af en AI-løsning skal efter Datatilsynets opfattelse anses som et formål i sig selv i konteksten af databeskyttelsesreglerne. Behandling af personoplysninger med henblik på at udvikle nye teknologiske løsninger tjener i sagens natur et andet formål end behandling af personoplysninger som led i myndighedens daglige drift, f.eks. som led i kommunens sagsbehandling eller regionens sundhedsfaglige tiltag over for konkrete borgere. Det gælder også, selv om det langsigtede formål med at udvikle løsningen er at anvende den i myndighedens daglige drift.”

Mens vurderingen af, om der – som led i meddelelse af aktindsigt – er sket uberettiget videregivelse af personoplysninger, skal foretages ud fra en ”ren” anvendelse af reglerne i offentligheds- og forvaltningsloven, må det antages, at offentligheds- og forvaltningsloven kan udgøre et supplerende nationalt retsgrundlag efter databeskyttelsesforordningens artikel 6, stk. 2 og 3, for behandling af personoplysninger som led i udvikling af f.eks. AI-løsninger.

Det er i den forbindelse Datatilsynets opfattelse, at indsamling og behandling af personoplysninger som led i etablering af et datasæt til udvikling af en AI-løsning, der skal understøtte den kommunale behandling af aktindsigtssager, kan ske under henvisning til aktindsigtsbestemmelserne i offentligheds- og forvaltningsloven, jf. databeskyttelsesforordningens artikel 6, stk. 1, litra e, og artikel 9, stk. 2, litra g, i smh. med artikel 6, stk. 2 og 3.

Datatilsynet har herved navnlig lagt vægt på, at etablering af datasættet og udviklingen af løsningen i øvrigt sker i direkte tilknytning til de opgaver, som kommunen er forpligtet til at udføre, navnlig meddelelse af aktindsigt. Derudover indebærer den omhandlede behandling af personoplysninger ikke direkte konsekvenser for borgerne, da der er tale om udvikling af en løsning.

3.4. Deling af datasæt

Endelig er spørgsmålet, i hvilket omfang Sønderborg Kommune kan dele det etablerede datasæt på sprogteknologi.dk med henblik på, at andre myndigheder kan benytte datasættet til udvikling af lignende løsninger.

3.4.1. Behandlingsgrundlag

Efter Datatilsynets opfattelse er det ligeledes databeskyttelsesforordningens artikel 6, stk. 1, litra e, samt eventuelt undtagelsen i forordningens artikel 9, stk. 2, litra g, der er relevant behandlingsgrundlag for kommunens deling eller offentliggørelse af datasættet.

Sønderborg Kommune har anført, at kommunen ønsker at gøre datasættet offentligt tilgængeligt på sprogteknologi.dk. Datatilsynet lægger derfor til grund, at formålet med offentliggørelsen mere specifikt er at bidrage til og understøtte bl.a. andre offentlige myndigheders udvikling af AI-løsninger på dansk.

Det er almindeligt anerkendt, at offentlige myndigheder – på linje med private virksomheder – også kan udvikle nye teknologiske løsninger til at understøtte sin myndighedsudøvelse.

Det fremgår således bl.a. af § 1, stk. 2, i offentlighedsloven, at myndigheder ”skal sørge for, at det i stk. 1 nævnte hensyn til åbenhed i videst muligt omfang varetages ved valg, etablering og udvikling af nye it-løsninger.”  

Om baggrunden for denne bestemmelse fremgår følgende af kapitel 11, pkt. 4.5. i Offentlighedskommissionens betænkning nr. 1510/2009, bind I:

”Som det fremgår af pkt. 1 ovenfor har den teknologiske udvikling medført, at den offentlige forvaltning i stigende grad anvender forskellige typer af databaser som grundlag for deres virksomhed, herunder i forbindelse med administrativ sagsbehandling.

Det er kommissionens opfattelse, at den fortsatte teknologiske udvikling må forventes at indebære, at forvaltningsmyndighederne vil anvende nye typer af digitale værktøjer i forbindelse med den administrative sagsbehandling. Det er derfor kommissionens opfattelse, at den offentlige forvaltning ved valg af teknologi i videst muligt omfang bør tage højde for de formål, som offentlighedsloven tilsigter at understøtte, jf. herom lovudkastets § 1, stk. 1, nr. 1-5.

Forvaltningsmyndighederne bør derfor ved etableringen og udviklingen af nye digitale værktøjer holde sig for øje, at de indrettes på en sådan måde, at de er fremmende for offentlighedsprincippets virkeliggørelse, herunder således, at aktindsigt i givet fald kan meddeles ved e-mail.

Forvaltningsmyndighederne bør endvidere ved etablering og udvikling af (nye) databaser holde sig for øje, at den enkelte database indrettes på en sådan måde, at det er muligt ved enkle kommandoer at få foretaget et dataudtræk i overensstemmelse med lovudkastets § 11. […]”

I den forvaltningsretlige litteratur anlægges samme vurdering. Det fremgår således bl.a. af ”Fra forvaltningsjurist til udviklingsjurist”, Hanne Marie Motzfeldt m.fl., 1. udg., 2020, s. 59:

”For så vidt angår hjemmelskravet, kan der som det ene yderpunkt ikke kræves hjemmel i formel lov for at købe og bruge simple arbejdsredskaber såsom tekstbehandlingssystemer, journalsystemer mv. Etablering af budgetmæssig hjemmel er tilstrækkelig. Som det andet yderpunkt kan omfattende digitaliseringsprojekter føre til betydelige ændringer i forvaltningens organisation, styrings- og ansvarsforhold og arbejdsgange, samt for ”mødet” med borgerne. Er der tale om en sådan omfattende påvirkning af forvaltningens måde at fungere på, taler ideelle og principielle betragtninger om forvaltningens underordnede placering i statsstyret for, at den demokratisk legitimerede lovgiver inddrages.”[5]

Datatilsynet har igennem sin praksis også anerkendt, at offentlige myndigheder – inden for rammerne af deres myndighedsudøvelse – kan udvikle nye it-værktøjer og behandle personoplysninger som led i udviklingen. Der kan bl.a. henvises til Datatilsynets vejledende tekst om brug af personoplysninger i testøjemed, hvor det er forudsat, at bl.a. myndigheder kan behandle personoplysninger som led i udviklingsarbejde.[6]

Der er efter Datatilsynets praksis ikke grundlag for at fravige dette udgangspunkt med hensyn til Sønderborg Kommunes deling af datasættet.

Det må efter Datatilsynets opfattelse siges at ligge inden for rammerne af almindeligt udviklingsarbejde at dele f.eks. datasæt som det pågældende, herunder i lyset af at udvikling af AI-løsninger i høj grad beror på brug af (flere) datasæt, og at kvaliteten af de udviklede løsninger i vidt omfang afhænger af de data, der bruges til udvikling af løsningen.

På den baggrund og henset navnlig til, at der er tale om oplysninger, som i forvejen er offentligt tilgængelige, er det Datatilsynets opfattelse, at datasættet kan deles på sprogteknologi.dk under henvisning til databeskyttelsesforordningens artikel 6, stk. 1, litra e, og artikel 9, stk. 2, litra g, med henvisning til offentligheds- og forvaltningsloven som supplerende retsgrundlag.

3.4.2. Grundlæggende principper

Deling af datasættet, herunder særligt offentliggørelse heraf, giver dog samtidig anledning til en række overvejelser i relation til de grundlæggende principper i databeskyttelsesforordningens artikel 5. Det drejer sig bl.a. om spørgsmålet om dataminimering, jf. artikel 5, stk. 1, litra c, om rigtigheden af oplysningerne, jf. artikel 5, stk. 1, litra d, samt om lovligheden af oplysningerne, jf. artikel 5, stk. 1, litra a.

Dataminimering

Af Datatilsynets retningslinjer for brug af personoplysninger ved udvikling og test af it-systemer fremgår bl.a. følgende:

”Det kan efter omstændighederne være velbegrundet og nødvendigt at bruge personoplysninger ved udvikling og test af it-systemer.

Det vil f.eks. være i orden at bruge personoplysninger i forbindelse med afsluttende tests af integrationer til andre (eksterne) it-systemer. Det vil også være i orden at bruge personoplysninger i tilfælde, hvor det er forbundet med betydelige vanskeligheder at skabe retvisende (anonymiserede) testdata, navnlig fordi det kan være vanskeligt at afspejle alle de fejl og uregelmæssigheder, der kan forekomme i et produktionsmiljø. Det kan herudover være velbegrundet at anvende et begrænset antal personoplysninger i forbindelse med fejlsøgning og fejlretning.

Brug af personoplysninger i testøjemed kan derfor ske i begrænset omfang. Jo tættere du (som virksomhed eller som myndighed) kommer på produktionsfasen, jo mere velbegrundet kan det være, at du anvender (flere) produktionsdata – herunder personoplysninger. [Nogle] gange vil det endda være et udtryk for manglende sikkerhed at sætte et system i produktion uden at have testet med produktionsdata – herunder personoplysninger – først. […]

Dataminimering

Personoplysninger skal være tilstrækkelige, relevante og begrænset til, hvad der er nødvendigt i forhold til de formål, hvortil de behandles.

Det betyder bl.a., at selv hvor det er velbegrundet og nødvendigt at bruge personoplysninger i forbindelse med test af it-systemer, så må du ikke bruge flere personoplysninger i testøjemed, end hvad der er nødvendigt for at opnå testformålet.

Det er også vigtigt, at du ikke anvender personoplysninger til at udføre tests, hvis samme tests kunne udføres uden brug af (rigtige) personoplysninger.”

Tilsvarende fremgår af Datatilsynets vejledning om offentlige myndigheders brug af kunstig intelligens (Inden I går i gang), s. 10:

”Proportionalitetsvurderingen indebærer dernæst, at I skal overveje, hvordan AI-løsningen kan udvikles, trænes og drives ved brug af færrest mulige personoplysninger – og om muligt helt uden personoplysninger. Databeskyttelsesreglerne indeholder som nævnt ikke et egentligt forbud mod at behandle personoplysninger i forbindelse med udvikling og test af nye teknologiske løsninger, men udgangspunktet er, at der i videst muligt omfang bør anvendes anonymiserede data.

I en AI-kontekst findes der flere teknikker, der kan benyttes for at behandle færre personoplysninger. Det omfatter bl.a. brug af syntetiske data og fødereret læring. Når I udvikler en AI-løsning, skal I overveje brugen af sådanne teknikker allerede i designfasen. I skal gøre jer bestræbelser på at sikre, at I behandler færrest mulige oplysninger ved design og udvikling af løsningen. Der kan være saglige grunde til at fravige dette udgangspunkt, men I skal beskrive, hvorfor udgangspunktet fraviges. Begrundelsen skal bl.a. beskrive, hvorfor det ikke er muligt at brug syntetiske eller anonymiserede data. En begrundelse kunne bl.a. være, at konstruktionen af egnede syntetiske testdata er umulig, eller at der uden brug af personoplysningerne vil være en risiko for, at den kommende løsning vil generere urigtige output efterfølgende. Derimod kan eventuelle omkostninger forbundet med at udvikle f.eks. syntetiske data ikke i sig selv begrunde, at udgangspunktet kan fraviges. Hvis I konstaterer, at dette ikke er muligt, da personoplysninger er nødvendige for udviklingen af AI-løsningen, skal I som det klare udgangspunkt alene anvende pseudonymiserede oplysninger.”

Det gælder efter Datatilsynets opfattelse også i denne situation, hvor Sønderborg Kommune ønsker at dele det datasæt, der bl.a. ligger til grund for udvikling af kommunens egne modeller.

Kommunen skal derfor i videst muligt omfang anonymisere de oplysninger, der fremgår af datasættet inden deling, medmindre der er saglige grunde til, at personoplysninger skal bruges til udvikling af fremtidige modeller og derfor skal indgå i datasættet. I givet fald skal kommunen overveje, om det er muligt at pseudonymisere oplysningerne, uden at formålet med delingen af datasættet herved forspildes.                         

Rigtighed

Hvis det er nødvendigt, at det omhandlede datasæt indeholder personoplysninger til brug for udvikling af fremtidige modeller, skal det efter Datatilsynets opfattelse overvejes, i hvilket omfang kommunen er forpligtet til at tage skridt for at sikre, at oplysningerne er ajourførte.

Oplysninger, der er indsamlet fra internettet, kan i sagens natur blive forældet i takt med, at de originale oplysninger på internettet ændres eller fjernes.

Efter Datatilsynets opfattelse skal Sønderborg Kommune – for at tage fornøden højde for princippet om rigtighed – i forbindelse med delingen af datasættet, herunder særligt offentliggørelsen heraf, deklarere, hvornår de omhandlede personoplysninger er indsamlet.

Det er herefter op til den virksomhed eller myndighed, der ønsker at bruge datasættet, at vurdere, om den påtænkte brug lever op til databeskyttelsesreglerne, f.eks. om det er lovligt og retvisende at udvikle en ny AI-model på baggrund af et datasæt af den pågældende dato.

Lovlighed

Endelig kan oplysninger, der findes på internettet, være offentliggjort utilsigtet. Der kan være tale om brud på persondatasikkerheden, der skyldes ondsindede aktører, eller blotte menneskelige fejl, som indebærer, at oplysningerne er blevet offentliggjort (lækket).

Efter Datatilsynets opfattelse indebærer princippet om lovlighed i forordningens artikel 5, stk. 1, litra a, at virksomheder og myndigheder ikke som led i udvikling og drift af it-systemer lovligt kan behandle oplysninger, der er ulovligt indsamlet. Det kan bl.a. være tilfældet, hvis oplysningerne er offentliggjort som følge af et brud på persondatasikkerheden.

Sønderborg Kommune skal derfor som led i bl.a. deling af datasættet sikre sig, at der ikke indgår oplysninger, som er resultatet af utilsigtet offentliggørelse. Det kan i praksis ske ved at sikre sig:

  • At kommunen ikke gennem offentligt tilgængelige kilder kan fastslå, at oplysningerne stammer fra en utilsigtet offentliggørelse, og
  • At kommunen ikke på baggrund af afgørelser fra myndigheder mv. kan fastslå, at oplysningerne er offentliggjort ulovligt.

Det indebærer ikke, at kommunen er forpligtet til at gennemgå hver enkelt oplysning for at sikre, at oplysningen er lovligt offentliggjort, ligesom kommunen ikke er forpligtet til at efterprøve, hvorvidt virksomheden eller myndigheden har haft det fornødne behandlingsgrundlag for at offentliggøre oplysningerne. Kommunen skal derimod på et mere overordnet niveau fastslå, at der som led i etableringen af datasættet ikke er indhentet data fra kilder, som er resultatet af utilsigtet eller ulovlig offentliggørelse.

 

[1]   Baggrund, Hvad er sprogteknologi.dk? https://sprogteknologi.dk/pages/baggrund

[2]   Konsekvensanalysen kan tilgås her: https://ai-aktindsigt.dk/wp-content/uploads/2023/05/Til-offentliggoerelse-DPIA-Signaturprojekt-AI-aktindsigt.pdf 

[3]   Datatilsynets udtalelse til Københavns Kommune af 17. november 2023, j.nr. 2023-212-0015: https://www.datatilsynet.dk/afgoerelser/afgoerelser/2023/nov/udtalelse-om-behandlingsgrundlag-til-udvikling-og-drift-af-ai-loesning-inden-for-sundheds-og-omsorgsomraadet

[4]   Kristian Korfits Nielsen og Anders Lotterup, Databeskyttelsesforordningen og databeskyttelsesloven med kommentarer, 2020, særligt s. 179f.

[5]   Se i samme retning Hanne Marie Motzfeldt og Azad Taheri Abkenar, Digital forvaltning, 2019, s. 76 med yderligere henvisninger til den forvaltningsretlige litteratur; Nikolaj Aarø-Hansen i Niels Fenger (red.): Forvaltningsret, 2018, s. 626.

[6]   Datatilsynet, Testdata – brug af personoplysninger ved udvikling og test af it-systemer: https://www.datatilsynet.dk/hvad-siger-reglerne/vejledning/sikkerhed/testdata-brug-af-personoplysninger-ved-udvikling-og-test-af-it-systemer