![TENK Tech - Face ID - Capgemini](utils/materials/header.png "TENK Tech - Face ID - Capgemini")
# Velkommen til Capgeminis sesjon om maskinlæring og FaceID

Vi i Capgemini sin avdeling for innsikt og data jobber hver dag med å hjelpe selskaper og bedrifter med å hente ut mer informasjon og kunnskap fra den dataen de har slik at de kan ta bedre beslutninger, og automatisere, optimalisere og effektivesere prosesser.

I dag skal dere få bli litt bedre kjent med hvordan vi jobber med kunstig intelligens og maskinlæring. Vi skal innom temaer som:
* Metoder for hvordan man utvikler en maskinlærinsmodell
* Klargjøring av data
* Trening av modeller
* Testing av modeller

Vi håper dere finner dette spennende og at dere får lyst til å være med å utvikle morgendagens løsninger ved hjelp av kunstig intelligens og maskinlæring!

## Før vi kan sette i gang må vi sette opp kodemiljøet vi skal bruke

Følg stegene nedenfor så er vi straks klar til å starte!

<ol style="font-size:1.2em;">
    <li>Finn Runtime i menylinjen ovenfor</li>
    <img src="https://github.com/SimeNor/tenk/blob/main/utils/materials/dropdown2.png?raw=1" alt="Finn Runtime i menylinjen" width="400" />
    <li>Trykk på *Change runtime type*</li>
    <li>Velg GPU</li>
    <img src="https://github.com/SimeNor/tenk/blob/main/utils/materials/gpu2.png?raw=1" alt="Velg GPU" width="400"/>
    <li>Kjør koden nedenfor ved å klikke et eller annet sted i boksen og trykke på *Ctrl + Enter*</li>
    <ul>
        <li> Her vil det muligens dukke opp et <i>Warning</i> vindu som vist nedenfor. Trykk da på <b style="color:#4487f4;">Run anyway</b>.</li>
        <img style="margin-top:1em;" src="https://github.com/SimeNor/tenk/blob/main/utils/materials/warning.png?raw=1" alt="Warning vindu" width="550"/>
    </ul>
</ol>


In [None]:
import os
os.system("git clone https://github.com/SimeNor/tenk.git") ;
from tenk.utils.init_setup import setup
setup() ;
from utils.moduler import *
from trening.trening import *

# La oss komme i gang!

---

Første steg ved utvikling av enhver maskinlæringsmodell er å..

# <img src="https://github.com/SimeNor/tenk/blob/main/utils/materials/skaff_bilder.png?raw=1" class="center" alt="Hente inn data" width="80" />1. Hente inn data

Det aller viktigste når man arbeider med maskinlæring er dataen. Første steg er derfor å skaffe mye god data vi kan trene modellen vår på.

I vårt FaceID eksempel er det et par ting vi må passe spesielt på. Bildene må blant annet være:
- Av samme størrelse
- Av ansiktene til forskjellig mennesker
- Sortert på en måte som gjør at vi vet hvilke bilder som er av forskjellige personer.

Å skaffe data er en av de mest tidkrevene delene ved maskinlæring så vi har gjort klar en mappe med bilder for dere.
Denne heter *bilder_kjendiser* som ligger under *tenk* mappen.

For å få opp filer og mapper. Trykk på knappen i menylinjen på venstre side som vist i bildet nedenfor.

<img style="margin-top:1em;" src="https://github.com/SimeNor/tenk/blob/main/utils/materials/bar.png?raw=1" alt="Warning vindu" width="50"/>

Finner du mappen?  

Tast inn mappenavnet nedenfor sånn at vi kan bruke bildene til å trene en maskinlæringsmodell senere.

In [None]:
# Sett inn navnet til mappen med bilder av kjendiser
lokasjon_bilder = ''

# <img src="https://github.com/SimeNor/tenk/blob/main/utils/materials/analyser_bilder.png?raw=1" class="center" alt="Analyser dataen" width="80" />2. Analyser dataen
En annen viktig del når man skal utvikle en maskinlæringsmodell er å bli kjent med dataen.  

Ta gjerne en titt i mappen og se hva du finner.  
Ser du..
* Nummererte mapper med bilder av forskjellige kjendiser?
* Mange forskjellige bilder for hver kjendis?
* Kjenner du igjen noen kjendiser?

La oss vise noen bilder nedenfor slik at vi kan se om bildene ser korrekt ut.

In [None]:
# La oss vise noen bilder fra mappen
vis_bilder(lokasjon_bilder, antall_bilder_totalt=5, antall_bilder_per_kjendis=1)

## Gjør dataen tilgjengelig for bruk
Nedenfor lar vi maskinen laste inn bildene slik at vi kan trene modellen på de.  
Legg merke til antall bilder, det burde være mer enn 20 000. Stemmer dette?

In [None]:
# Klargjør dataen
datasett = last_inn_bilder(lokasjon_bilder)

# <img src="https://github.com/SimeNor/tenk/blob/main/utils/materials/tren_modell.png?raw=1" class="center" alt="Tren en modell" width="80" />3. Tren en modell
Med dataen klar kan vi nå begynne med treningen av modellen.  

Det finnes mange forskjellige modeller, og som alle oss her så er de mer eller mindre forskjellige. Noen er gode til en ting, mens andre er gode til noe helt annet.

Nedenfor har vi klargjort en modell som fungerer godt for vår FaceID eksempel. Last ned modellen ved å kjøre koden i boksen nedenfor.  
Dukket det opp en modell?

In [None]:
modell = last_ned_modell()

Når vi skal trene en modell er det flere ting vi må bestemme. Valgene vi tar vil ofte påvirke hvor god modellen vår blir til å løse oppgaven sin. I vårt tilfelle er dette hvor god den er til å identifisere mennersker fra bilder av ansiktene deres.

Noen eksempler på ting som må bestemmes er følgende **parametre**:
* Treningsiterasjoner - Hvor mange ganger modellen skal få lov til å trene på dataen.
* Størrelse på treningsgrupper - Hvor mange bilder en modell skal få se før den kan lære noe fra observasjonene den gjorde.
* Læringsraten - Hvor mye modellen skal lære fra hver treningsgruppe av bilder.

I boksen nedenfor har vi satt et eksempel for slike verdier. Du skal senere få teste med dine egne verdier.

> **!Tips:**
> Sett tallene innenfor følgende områder:
> * Læringsraten ->  [0.0000001 , 0.01]
> * Treningsiterasjoner  ->  [3 , 12]
> * størrelse_treningsgrupper  ->  [8 , 128]


In [None]:
læringsrate = 0.001
treningsiterasjoner = 1
størrelse_treningsgrupper = 64

## Dele opp dataen i trening- og testsett
For at vi skal kunne si om modellen har lært noe må vi dele opp dataen vår i et treningssett og et testsett.  

Under trening lærer modellen av eksemplene den ser fra treningsdatasettet. Når den har trent en stund kan vi se hvordan den gjør det på testsettet. Testsettet inneholder bilder som modellen ikke har sett før. På denne måten må modellen lære seg oppgaven den skal løse, og kan ikke bare pugge bildene den ser under trening. Det er litt som på skolen. Pugge fasiten på fjorårets prøve er sjeldent en god måte å øve til årets prøve.

Det er viktig å vise modellen så mye data som mulig for trening slik at den får trent godt. Samtidig er det viktig at testsettet ikke har for få bilder. Dersom det er få bilder i testsettet vet vi ikke om modellen har lært noe eller om den bare hadde flaks på de få bildene den ble testet på.

Her vil vi bruke 80% av bildene til trening av modellen og 20% til testing.

In [None]:
andel_test = 0.2

trening_data, test_data = del_opp_datasett(datasett, andel_test, størrelse_treningsgrupper)

## Sette opp treningsalgoritme
For å trene en maskinlæringsalgoritme er det tre viktige steg som gjentas i hver iterasjon for at modellen skal kunne gjøre prediksjoner og lære av sine feil.

1.   Gjøre *prediksjoner* ut fra et sett med eksempler som blir vist til modellen. Her skal maskinlæringsmodellen gjette på hvilken person den ser.
2.   Sammenligne *prediksjoner* med *fasit* og bruke dette til å beregne et *avvik*, som også kan beskrives som hvor riktig eller feil modellen tok.
3.   *Oppdatere modellen* basert på hvor stort avviket var mellom prediksjonen som modellen gjorde og fasiten. På denne måten vil den sakte men sikkert bli mer presis og gjøre mindre feil ved neste forsøk.

På slutten av hver iterasjon vil vi også gjøre en test av modellen på testsettet for å kunne se hvor mye den har forbedret seg op dataen som den ikke har lov til å lære av.

<br/><br/>

For å starte treningen av modellen må vi sette opp to funksjoner som vil brukes til å gjennomføre treningen:

*   **tren_modell():** Denne funksjonen skal stå for den overordnede treningen av modellen og gjøre testing mellom hver iterasjon
*   **kjør_iterasjon():** For hver iterasjon er det flere steg som må gjentas (gjøre prediksjoner, sammenligne med fakta og oppdatere model). Denne funksjonen brukes for hver gang man vil trene eller teste modellen i "tren_modell()"-funksjonen

Vi har satt opp skallet for koden i de to funksjonene, men det er noen viktige deler som fortsatt skal fylles ut! Disse områdene er markert i koden.


Det er også satt opp noen hjelpefunksjoner som det er lurt å bruke for å fullføre koden, se listen under for noen gode tips :)



*   **generer_prediksjoner(modell, eksempler)**
    * Denne funksjonen bruker modellen og et sett med eksempler til å finne ut hvilken person som er avbildet
    * Funksjonen returnerer en prediksjon for hvert eksempel med sannsynlighet på hvilken person det kan være
*   **sammenlign_med_fakta(fakta, prediksjoner, avviksfunksjon)**
    * Ved å sammenlige med det som er fakta måler funksjonen hvor stor forskjell det er til prediksjonene med en avviksfunksjon
    * Funksjonen returnerer hvor feil modellen tok i hvert eksempel
*   **oppdater_modell(avvik, optimizer)**
    * Den siste funksjonen tar inn avvikene for hvert eksempel og oppdaterer modellen basert på hvor den tok feil
    * Funksjonen returnerer ingenting, men modellen blir oppdatert





In [None]:
def kjør_iterasjon(data, modell, avviksfunksjon, optimizer, batch_metrics):
    global device
    mode = 'Train' if modell.training else 'Test'
    logger = training.Logger(mode, length=len(data), calculate_mean=True)
    totalt_avvik = 0
    metrics = {}

    for i, (eksempler, fakta) in enumerate(data):
        eksempler, fakta = eksempler.to(device), fakta.to(device)

        #######################################################################################
        # På radene under er det markert hvor vi må fylle ut med en "#"
        #######################################################################################

        """
        Først må vi bruke modellen til å gjøre prediksjoner med de eksemplene som vises
        """
        prediksjoner = # Bruk funksjon for å gjøre prediksjoner med dataen

        """
        Prediksjonene sammenlignes med faktaen fra datasettet for å se hvor stort avviket er
        """
        avvik = # Bruk funksjonen for å sammenligne fakta mot prediksjoner og spesifiser hvordan dette skal beregnes

        if modell.training:
            """
            Når modellen er satt i treningsmodus skal vi oppdatere den basert på avvikene vi finner
            
            HINT: Det er en egen funksjon for å oppdatere modellen
            """
            # Bruk avvikene du fant for gruppen og en optimizer til å gjøre oppdateringer

        #######################################################################################
        # Slutt på oppgaven, resten av koden kan bli stående som det er
        #######################################################################################


        metrics_batch = {}
        for metric_name, metric_fn in batch_metrics.items():
            metrics_batch[metric_name] = metric_fn(prediksjoner, fakta).detach().cpu()
            metrics[metric_name] = metrics.get(metric_name, 0) + metrics_batch[metric_name]

        avvik = avvik.detach().cpu()
        totalt_avvik += avvik

        logger(totalt_avvik, metrics, i)

    totalt_avvik = totalt_avvik / (i + 1)
    metrics = {k: v / (i + 1) for k, v in metrics.items()}

    return avvik, metrics

In [None]:
def tren_modell(modell, trening_data, læringsrate:float, treningsiterasjoner:int, test_data=None):
    optimizer = optim.Adam(modell.parameters(), lr=læringsrate)
    avviksfunksjon, treffsikkerhet_funksjon = loss_metrics()

    for epoch in range(treningsiterasjoner):
        print('\nEpoch {}/{}'.format(epoch + 1, treningsiterasjoner))
        print('-' * 10)

        #######################################################################################
        # På radene under er det markert hvor vi må fylle ut med en "#"
        #######################################################################################

        """
        Første steg i hver iterasjon er å gjøre treningen av modellen. Modellen settes til treningsmodus
        Sett inn riktig datasett for å trene opp ML-modellen
        """
        modell.train()
        avvik, metrics = kjør_iterasjon(# Sett inn riktig datasett her!
                                       , modell, avviksfunksjon, optimizer, treffsikkerhet_funksjon)

        """
        Deretter skal vi teste modellen på data den ikke har fått lære av. Modellen settes til evalueringsmodus
        
        Sett inn riktig datasett for å teste ML-modellen
        """
        if test_data is not None:
            modell.eval()
            avvik, metrics = kjør_iterasjon(# Sett inn riktig datasett her!
                                            , modell, avviksfunksjon, optimizer, treffsikkerhet_funksjon)

        #######################################################################################
        # Slutt på oppgaven, resten kan bli stående som det er
        #######################################################################################

    return modell

Vi setter også opp en funksjon for å bare teste modellen 

Her trenger vi ikke å endre på noe, men kjør cellen ved å trykke *Ctrl + Enter*

In [None]:
def test_modell(modell, data):
    avvik_funksjon, treffsikkerhet_funksjon = loss_metrics()

    modell.eval()
    avvik, metrics = kjør_iterasjon(data, modell, avvik_funksjon, optimizer=None, batch_metrics=treffsikkerhet_funksjon)

## Tren modellen
Når vi nå har delt opp dataen og gjort klar koden kan vi trene vår første modell.
La oss trene modellen på treningssettet 1 gang og se hvordan den gjør det.

Ser du hvordan *treffsikkerheten* utvikler seg? Dette er hvor godt modellen gjør det på treningssettet.

In [None]:
modell = tren_modell(
    modell=modell,
    trening_data=trening_data,
    læringsrate=læringsrate,
    treningsiterasjoner=treningsiterasjoner
    )

# <img src="https://github.com/SimeNor/tenk/blob/main/utils/materials/test_modell.png?raw=1" class="center" alt="Tren en modell" width="80" />4. Test modellen
Nå har vi trent en modellen på treningssettet 1 gang. La oss se hvordan den gjør det på testsettet.  
Ser det lovende ut?

In [None]:
test_modell(modell, data=test_data)

del modell, datasett, trening_data, test_data, læringsrate, treningsiterasjoner, størrelse_treningsgrupper

# <img src="https://github.com/SimeNor/tenk/blob/main/utils/materials/videreutvikle.png?raw=1" class="center" alt="Videreutvikling" width="80" />5. Videreutvikling - Konurranse 
Da har vi kommet til dagens utfordring!

Her skal vi se hva dere har lært, og se hvem som klarer å designe den beste modellen.

Oppgaven består av to steg:
<ol>
   <li>Sett opp alle stegene for å trene en modell i rett rekkefølge.</li>
   <ol>
      <li>Flytt boksene nedenfor i korrekt rekkefølge ved bruk av pilene funnet på øvre høyre hjørnet av boksen som vist i bildet under.</li>
      <img style="margin-top:1em;" src="https://github.com/SimeNor/tenk/blob/main/utils/materials/arrows.png?raw=1" alt="Warning vindu" width="300"/>
      <li> Kjør så boksene i kronologisk rekkefølge.</li>
   </ol>
   <li> Juster <u>parametrene</u> slik at du får best mulig <i>treffsikkerhet</i>.</li>
   <ul>
      <li><i>Treffsikkerhet går fra 0 til 1. 0 = 0% korrekt, 1 = 100% korrekt.</i></li>
      <li><b>Den med høyest treffsikkerhet vinner!</b></li>
   </ul>
</ol>

**Obs!** *Vi har lagt inn testing for hver treningsiterasjon sånn at dere kan se hvordan modellen gjør det underveis. Testresultatene kan leses under *Valid**

**Vinneren blir kåret på slutten av sesjonen!**

In [None]:
# Test modellen
test_modell(modell, data=test_data)

In [None]:
# Del opp dataen i trening- og testsett
trening_data, test_data = del_opp_datasett(datasett, andel_test, størrelse_treningsgrupper)

In [None]:
# Sett parametrene
læringsrate = 0.001#Sett inn tall
treningsiterasjoner = 1#Sett inn tall
størrelse_treningsgrupper = 128 #Sett inn tall

In [None]:
# Last inn bilder
datasett = last_inn_bilder(lokasjon_bilder)

In [None]:
# Tren modellen
modell = tren_modell(
    modell=modell,
    trening_data=trening_data,
    læringsrate=læringsrate,
    treningsiterasjoner=treningsiterasjoner,
    test_data=test_data
    )

In [None]:
# Klargjør modell
modell = last_ned_modell()

# <img src="https://github.com/SimeNor/tenk/blob/main/utils/materials/celeb.png?raw=1" class="center" alt="Kjendis" width="80" />5. Bonus - Finn din kjendis!
Modellen identifiserer mennesker ved å sammenligne bilder av ansikter og si hvor sansynlig det er at disse bildene er av samme person.

La oss se om dette kan brukes til å finne den kjendisen som ligner mest på deg!

## Last opp bilde(r)
For at vi skal kunne finne den kjendisen som modellen mener ligner mest på deg må vi gi den et bilde av deg som vi kan bruke for sammenligning.  
Dersom du ønsker kan du laste opp et eller flere bilder i mappen *dine_opplastninger*. Disse vil bli gitt til modellen for sammenligning med alle bildene som ligger i mappen *bilder_kjendiser*.  

**Dette er selvsagt helt frivillig! Vi vil ikke lagre disse bildene noe sted i etterkant.**

Dersom du har lastet opp et eller flere bilder i mappen kan du kjøre koden i boksen under for å gjøre klar bildene for modellen. Som du kanskje husker fra tidligere så er det viktig at bildene er av samme størrelse og kun av ansiktet ditt. Første steget er defor å bruke en maskinlæringsmodell til å finne ansiktet ditt i bildet og klippe det ut til riktig størrelse.  

La oss hvordan de ble seende ut!

In [None]:
lokasjon_ansikter = finn_ansikter(lokasjon_bilder="dine_opplastninger")
vis_bilder(lokasjon_ansikter)

Nå som bildene er på rett format kan vi gjøre de tilgjengelige for modellen til å analysere. Kjør koden i boksen under for å laste inn bildene.

In [None]:
dine_bilder = last_inn_bilder(lokasjon_ansikter)

## Beregn likhet
Nå som dataen er klar kan vi beregne likheten mellom ditt/dine bilder og bildene vi har av kjendisene.  
Er du spent?

**Obs!** Dette kan ta noen minutter.

In [None]:
likhet = beregn_likhet(kjendis_datasett=datasett, dine_bilder=dine_bilder)

## Vis resultatet
Vi har nå funnet den kjendisen som modellen mener ligner mest på deg.  
La oss se hvem den fant!

In [None]:
vis_resultater(likhet)

## Dine vurderinger
Hvordan ble resultatet?  
Synes du dere ligner?  
Hva tenker du kan være utfordringen for slike systemer?  

Vi skal diskutere dette litt etterpå så gjør deg gjerne opp noen tanker!