Personvern, miljø og etikk

Personvern

Når man sender en beskjed inn til en språkmodell som f.eks. chatGPT, sendes det til en dataserver. Denne serveren kan befinne seg hvor som helst i verden. Dette gjør at man må tenke nøye gjennom hvilke data man gir fra seg.

Er det så farlig da?

NRK skrev 26. september 2024 om Irene Knardal. Irene fikk en melding fra sønnen som trengte hjelp til å betale en regning. Sønnen stod i butikken og skulle kjøpe mac han hadde bestilt, men siden han hadde en ny telefon fikk han ikke brukt Bank-ID. For å unngå gebyrer og forsinkelser i betalingen hjalp Irene, men det var et problem – det var ikke sønnen som hadde sendt melding og pengene var borte for godt.

Det er lett å være etterpåklok. Kanskje burde Irene ant ugler i mosen da sønnen sendte melding fra et nytt nummer, ringt for å dobbeltsjekke, eller stilt noen kontrollspørsmål?

Kanskje. Men jo mer persondata som ligger tilgjengelig på nett, desto enklere blir det for svindlere å utgi seg for deg. Og i de verste tilfellene kan lekket personiformasjon bli brukt til itdentitetstyveri, noe kjendiser ofte opplever på grunn av all personinformasjonen som ligger ute om dem.

Irenes historie illustrerer hvordan lekkede personopplysninger gjør det lettere for svindlere å manipulere oss. Men dette er bare én av mange måter uvøren håndtering av persondata kan skade oss. Her er noen andre eksempler:

  • Diskriminering eller trakassering: Lekkede opplysninger som helsehistorikk, seksuell orientering eller politiske overbevisninger kan føre til diskriminering. For eksempel kan et forsikringsselskap nekte deg forsikring basert på lekkede opplysninger om din helsehistorikk.
  • Tap av privatliv: Når personlige opplysninger lekker, kan det føre til ubehag og i verste fall utpressing fra svindlere under trussel om å spre sjenerende opplysninger til dine nærmeste.
  • Autoritære regimer: Vi lever godt i Norge, men i mer lukkede samfunn brukes personopplysninger til å holde oppsyn og kontroll med befolkningen. Det kan være lurt å fikse huset for lekkasjer før det begynner å pøsregne.

Klassifisering av data

En nyttig måte å tenke om persondata er å følge oppdelingen etter grønn-gul-rød-svart-modellen, som brukes av mange organisasjoner, blant annet Universitetet i Oslo. Den går ut på å skille data etter hvor stort behov de har for vern:

Grønne data:

Data som er åpent tilgjengelig og krever ingen beskyttelse. F.eks. faglige spørsmål.

Trygge tjenester:

Alt er trygt. F.eks.:

  • chatGPT
  • MidJourney

Gule data:

Data som ikke er sensitive, men som ikke skal deles med hvem som helst. F.eks. elevbesvarelser, forskningsdata.

Trygge tjenester:

Forhåndsgodkjente tjenester. F.eks.:

Røde data:

Sensitive opplysninger som bare skal deles med det som har behov. F.eks. sykehistorie.

Trygge tjenester:

Spesialtjenester. F.eks.:

  • Programvare anvendt på et legekontor.

Svarte data:

Spesielt sensitive opplysninger. F.eks. store mengder sensitiev personopplysninger eller statshemmeligheter.

Trygge tjenester:

Svarte data skal kun behandles i samråd med organisasjonens jurister og IT-avdeling.

Her kan du lese om klassifisering av data i henhold til reglene ved Universitetet i Oslo.

Hvorfor kan noen KI-tjenester håndtere gule data og andre ikke?

De fleste av de store språkmodellene som chatGPT 4o, Claude osv. er ikke åpent tilgjengelige. Det vil si at dersom man skal bruke dem, så kan man ikke bare laste ned parameterne og kjøre dem selv. Så hva skjer når en tjeneste hevder å være «GDPR-godkjent»? Figuren under viser dataflyten fra når du bruker en tjeneste som er utviklet av din organisasjon, f.eks. GPT UiO.

Som vi ser, er poenget at disse spesiallagde tjenestene sørger både for å anonymisere data før det sendes til serverne som kjører språkmodellen, og dataene slettes etter å ha blitt analysert og brukes ikke til f.eks. å trene modellen.

Miljø

Strøm

Kommer.

Vann

Kommer.

Ressursforbruk.

Kommer.

Internettforsøpling

Naturen er en felles ressurs vi har et felles ansvar for å holde fri for forurensning og søppel. Men med ankomsten av KI har vi i tillegg fått et problem med at stadig mer av internett fylles av KI-generert tekst og bilder. I en studie gjort av Thompson et al. (2024) ble det argumentert for at så mye som 57% av internett (ved artikkelens publiseringsdato) kan være KI-generert på grunn av KI-genererte oversettelser mellom språk. Vær dog veldig forsiktig med slike statistikker – de er lette å spre, men sjelden spesielt presise. Les for eksempel denne artikkelen fra Reason.com, hvor artikkelforfatter Jesse Walker prøver å finne opphavet til en mye spredt statistikk om andelen KI-generert materiale på internett.

Kompleksiteter med statistikk til side, det er klart at nettet fylles med stadig mer KI-generert innhold. Dette er et problem av flere grunner. For det første kan det bli vanskelig for oss å finne nyttig og presis informasjon (Freya Holmér, 2025). For det andre behøver KI store mengder data å trene på. Tidligere versjoner av chatGPT (f.eks. 3.5 og 4) har hatt stor nytte av å bruke tekst fra nettet. Etterhvert som mer og mer av tekst på internett er produsert av KI selv, kan de ende opp å trene på sitt eget produkt. Det blir litt som å ta den ene fotokopien etter den andre av det samme bilde. Forskning viser at kvaliteten til KI-modellene blir dårligere som følge av dette (Shumailov et al., 2024). Alle disse problemene er like ille, og kanskje verre, når man tenker på mengden KI-genererte bilder.

Bilde generert av Midjourney.

Det faktum at internett blir fylt opp av stadig mindre pålitelig informasjon fører til at behovet for «rene» kilder øker. I morgendagens samfunn vil kanskje flere jobber bestå i å produsere innhold som KI kan trene på. Ikke ulikt hvordan mennesker ble til batterier i den populære filmen The Matrix.

Etikk

Hvem er kunstner?

I 2022 deltok Jason M. Allen i Colorados delstatsmesses (Colorado state fair) kunstkonkurranse. Han sendte inn 3 bilder til konkurransen, hvorav det mest kjente, Théâtre D’opéra Spatial, så slik ut.

Théâtre D’opéra Spatial. Copyright? Jason M. Allen.

Bildet vant førsteplassen i kategorien «digital arts/digitally-manipulated photography»-kategorien og Jason kunne tusle hjem med 300 dollar.

Det gikk rolig for seg på messen, men når brukere på twitter fikk tak i nyheten spredde det seg raskt og ble gjenstand for stor debatt. Det viste seg nemlig at verktøyet Jason hadde brukt for å produsere bildet var MidJourney – et KI-verktøy for å generere bilder. Det må nevnes at Jason selv ikke gjorde noe forsøk på å skjule dette – han deklarerte det da han la fra bildene sine.

Mange mener at å bruke KI til å generere bilder eller tekst ikke er det samme som å faktisk være en kunstner og eie verket som kommer ut.

Det kan være lett å si seg enig i det. Men samtidig – hvor går grensen?

Har man opphavsrett på inspirasjon?

Referanser

Thompson, B., Dhaliwal, M. P., Frisch, P., Domhan, T., & Federico, M. (2024). A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism (arXiv:2401.05749). arXiv. https://doi.org/10.48550/arXiv.2401.05749

Shumailov, I., Shumaylov, Z., Zhao, Y., Papernot, N., Anderson, R., & Gal, Y. (2024). AI models collapse when trained on recursively generated data. Nature, 631(8022), 755–759. https://doi.org/10.1038/s41586-024-07566-y

Freya Holmér (Regissør). (2025). Generative AI is a Parasitic Cancer [Videoopptak]. https://www.youtube.com/watch?v=-opBifFfsMY