# AI & Data Ethics (notater) — bachelor-vennlig

Dette er strukturerte notater du kan bruke direkte i bachelortekst.

## Innhold

- Hva er AI-etikk? (etikk vs lov)
- AI-livssyklusen: hvor etikk kommer inn
- Kjerneprinsipper: privacy, transparency, accountability, fairness
- Utvidede prinsipper: safety, explainability, non-maleficence, human oversight
- Etisk datainnsamling (proprietær/offentlig/web-skrapet)
- Etisk modellutvikling (labeled/unlabeled, SFT, RLHF)
- Foundation model-risiko (hallusinasjon, inkonsistens, monitoring)
- Regulering: GDPR + EU AI Act (risikobasert)
- Praktisk sjekkliste + “paste-ready” formuleringer


## 1) Hva er AI-etikk – og hvorfor trenger vi det?

**AI-etikk** handler om å utvikle og bruke AI slik at vi **maksimerer nytte** for samfunnet og **minimerer skade**.

### Etikk vs lov

- **Lover**: minimumskrav (juridisk håndhevbart).
- **Etikk**: bredere “bør”-tenkning som krever mer nyanse, spesielt når lovverket ligger bak teknologien.

**Eksempel (ofte nevnt i kurs/notater): Clearview AI**

- Innspilling: ansiktsgjenkjenning + innsamling av bilder/data uten samtykke → betydelig personvernsrisiko.
- Læringspoeng: dårlig datapraksis kan gi **store bøter**, tap av tillit og strengere regulering.

Mini-refleksjon:

- Hvis data er offentlig tilgjengelig på nett, er det automatisk etisk/lovlig å trene modeller på det?


## 2) AI-livssyklusen: hvor etikk kommer inn

Etikk er ikke en sjekk “til slutt”. Den påvirker hele livssyklusen:

1. Data collection
2. Data preprocessing
3. Model training
4. Model evaluation
5. Deployment
6. Monitoring & maintenance

Praktisk struktur:

- **Ethical Data Collection** (1–2)
- **Ethical AI Development** (3–4)
- **Ethical AI Deployment** (5–6)

Nøkkelidé:

- Etiske feil bygges ofte inn tidlig (data/design) og blir synlige først i drift.


## 3) Kjerneprinsipper (de fire store)

### 3.1 Privacy (personvern)

Personvern betyr at individer har kontroll på personlig informasjon og hvordan den brukes.

Praktisk:

- dataminimering (samle kun det du trenger)
- anonymisering/pseudonymisering
- tilgangsstyring + logging
- mekanismer for retting/sletting (der relevant)

### 3.2 Transparency (transparens)

Transparens betyr å være tydelig på:

- hvilke data som brukes
- hva systemet gjør
- hvilke begrensninger/risikoer som finnes

Praktisk:

- brukere bør vite når de snakker med AI
- dokumenter datakilder og beslutningsgrunnlag

### 3.3 Accountability (ansvarlighet)

Hvem har ansvar når AI gjør noe skadelig?

Praktisk:

- definer roller: “model owner”, “data owner”, “risk owner”
- audit trail: hva skjedde, når, hvorfor

### 3.4 Fairness (rettferdighet)

Unngå bias/diskriminering — spesielt i høy-risiko domener (jobb, helse, strafferett).

Fairness må inn i:

- data collection (representasjon)
- preprocessing (rebalansering, fjerne problematiske features)
- training (constraints/testing)
- evaluation (fairness-metrikker i tillegg til accuracy)
- monitoring (kontinuerlig bias-audit)

Eksempel som ofte diskuteres: COMPAS (risiko i strafferett ved skjeve prediksjoner).


## 4) Utvidede prinsipper

Disse brukes ofte som “operasjonalisering” i prosjekter:

- **Safety**: systemet skal ikke gjøre skade eller være lett å misbruke
- **Explainability**: beslutninger/atferd bør være forståelige nok til revisjon og feilsøking
- **Non-maleficence** (“do no harm”): aktivt unngå skade
- **Human oversight**: menneske i loopen ved sensitive avgjørelser

Praktisk eksempel:

- test systemet på sensitive scenarioer (f.eks. diskriminerende avslag)
- bygg failsafes (stop/eskaler)
- logg og overvåk (drift ≠ ferdig)


## 5) Etisk datainnsamling (proprietær, offentlig, web-skrapet)

### 5.1 Hvorfor “etisk sourcing” er mer enn å finne data

Det handler om:

- samtykke
- kvalitet
- representasjon
- lisens/ToS
- juridiske og sosiale konsekvenser

### 5.2 Proprietær data

- ofte høy kvalitet og kontroll
- men streng tilgang og sikkerhet
- passer i domener som bank/helse

Praktisk: bruk prinsipper fra CIA-triaden (Confidentiality, Integrity, Availability).

### 5.3 Offentlig data

- tilgjengelig, men kan være utdatert, biased eller inneholde sensitiv info
- må verifiseres (kilde, kvalitet, bias)

### 5.4 Web-skrapet data

- kraftig, men etisk/juridisk krevende
- sjekk metadata: eier, lisens, sensitivitet
- unngå sensitive data uten anonymisering/eksplisitt samtykke

### 5.5 Sjekkliste (praktisk)

1. sjekk metadata (eier, lisens, restriksjoner)
2. verifiser ToS
3. følg GDPR/andre regler ved persondata
4. anonymiser ved behov
5. spør kilden hvis uklart


## 6) Etisk modellutvikling: labeled/unlabeled, SFT, RLHF

### Labeled data

Risiko:

- subjektiv labeling
- feil/manglende kvalitet
- bias i annotasjoner

Tiltak:

- tydelige labeling-guidelines
- måle inter-annotator agreement
- audit av “edge cases”

### Unlabeled data

Risiko:

- uklar kontekst → bias
- sensitive data kan snike seg inn

Tiltak:

- kuratering + transparens om kilder
- overvåking av output

### SFT (Supervised Fine-Tuning)

- nyttig for å gjøre modellen mer stabil i format/stil
- risiko: fine-tuning-data kan introdusere eller forsterke bias

### RLHF

- bruker menneskelig feedback for å forme atferd
- risiko: bias hos evaluatorer og uklare “riktige” svar

Praktisk: “one-size-fits-all” fungerer sjelden → bruk strategi som matcher domene og risiko.


## 7) Foundation models: typiske problemer

Vanlige problemer i drift:

- **inkonsistens** (ulike svar på samme spørsmål)
- **hallusinasjon** (selvsikkert, men feil)
- bias og “unsafe” output

Tiltak:

- bedre data/kuratering
- RAG for sporbarhet
- streng prompting + output constraints
- human-in-the-loop i sensitive scenarioer
- kontinuerlig monitoring og retraining/oppdatering


## 8) Regulering: GDPR + EU AI Act (risikobasert)

### GDPR (EU)

- informert samtykke
- rett til innsyn/korrigering/sletting
- sikker håndtering + varsling ved brudd

### EU AI Act (risikokategorier)

- **Unacceptable risk** (forbudt): sosial scoring, manipulerende AI, m.m.
- **High risk**: jobb, utdanning, law enforcement, kritisk infrastruktur (strenge krav)
- **Limited risk**: transparenskrav (f.eks. chatbot må opplyse at den er AI)
- **Minimal/no risk**: lav risiko (typiske verktøy)

Poeng: compliance kan koste mer, men kan gi mer tillit og bedre styring.


## 9) Praktisk sjekkliste (du kan bruke i oppgaver)

### A) Før du bygger (use-case)

- hva er nytten? hvem kan skades?
- er domenet high-risk (jobb/helse/kritisk infrastruktur)?

### B) Data

- samtykke + representasjon
- metadata/lisens/ToS
- anonymisering + tilgang

### C) Modell

- test fairness på grupper
- evaluer mer enn accuracy
- tydelig ansvar (owners)

### D) Deploy & drift

- monitor bias, hallusinasjon, feil
- logg/audit trail
- human-in-the-loop ved sensitive avgjørelser


## 10) 3 eksamens-klare formuleringer (paste-ready)

1. **Etikk vs lov**

“Etikk utfyller lovverket fordi lover ofte ligger bak teknologi; etiske vurderinger gir nyanserte beslutninger der regler ikke er tydelige eller ikke finnes.”

2. **Etikk gjennom livssyklus**

“Etisk AI krever tiltak i hele AI-livssyklusen – fra datainnsamling og preprosessering, via trening og evaluering, til deploy og kontinuerlig monitorering.”

3. **Fairness ≠ bare accuracy**

“Fairness må evalueres sammen med klassiske metrikker, fordi høy accuracy kan skjule skjevheter som rammer spesifikke grupper urettferdig.”
