# Neurale Netværk

Dette modul er lavet for at give en bedre indblik til hvordan Neurale Netværk fungerer, og hvordan de kan implementeres i Python. Neurale netværke er en vigtig værktøj i maskinlæring, og de bruges i mange forskellige applikationer, fra billedgenkendelse til naturlig sprogbehandling. Man kan sige at neurale netværk består af en masse små matematiske operationer, som tilsammen kan løse komplekse opgaver.

Udover dette, så snakker vi også om hvad for nogle ting man skal have i mente når man træner et neuralt nætværk.

## Opgaver

Til dette modul, er der to sæt intro opgaver til neurale netværk, den første er for at lære jer hvordan I bruger pytorch, og hvordan i skriver de forskellige beregninger ind. Mens den anden er en low level implementation, hvor I selv skal lave et forward step skrevet kun med numpy. Dette prøver at give jer en bedre forståelse for hvad et Neuralt Netværk faktisk gør. 

## Hvad kan Neurale Netværk bruges til?
Indenfor maskinlæring er der 2 primære typer af opgaver, som neurale netværk kan bruges til:
- Supervised Learning: Her lærer neurale netværk at forudsige en output baseret på en input. Det kan være alt fra at klassificere billeder til at forudsige priser på aktier. En karakteristik ved supervised learning er at der er et kendt 'label' for hver input som beskriver hvad inputtet reelt set er.
- Unsupervised Learning: Her lærer neurale netværk at finde mønstre i data uden at have et kendt label. Det kan være alt fra at gruppere billeder til at finde skjulte strukturer i data. En karakteristik ved unsupervised learning er at der ikke er et kendt 'label' for hver input, og netværket skal selv finde ud af hvad der er vigtigt.

Der er også andre underfelter, såsom self-supervised learning, generative modellering og andet, men de to ovenstående er de mest almindelige.

## Matematikken

For at forstå hvordan neurale netværk fungerer, er det vigtigt at have en grundlæggende forståelse for den matematik, der ligger bag. Neurale netværk er baseret på lineær algebra og calculus, og de bruger begreber som matrixmultiplikation, vektorer og aktiveringsfunktioner.

Et neuralt netværk består af lag af "neuroner", hvor hvert neuron laver en simpel matematisk beregning. Hvert neuron modtager nogle tal (inputs), ganger dem med nogle vægte, derefter lægger dem sammen og sender resultatet videre gennem en aktiveringsfunktion.

Hvis vi kalder inputtene $( x_1, x_2, ..., x_n )$ og vægtene $( w_1, w_2, ..., w_n )$, så regner et neuron sådan her:

$$
z = \sum_{i=1}^{n} w_i \cdot x_i + b
$$

Her er:
- $( x_i )$ inputtene
- $( w_i )$ vægtene (hvor vigtige de forskellige inputs er)
- $( b )$ er en bias (en slags ekstra justering)
- $( z )$ er summen, som sendes videre

Derefter bruger vi en aktiveringsfunktion, fx den populære "sigmoid":

$$
a = \sigma(z) = \frac{1}{1 + e^{-z}}
$$

Her er $( a )$ outputtet fra neuronet.

Sigmoid funktionen ser sådan her ud:

<img src="billeder/1694183259537.png" style="max-width:600px;">

# Netværket

Alt det tidligere beskriver en enkelt neuron, hvori et neural netværk består af mange neuroner struktureret i lag. Hvert neuron har deres egne vægte og bias, som tillader hvert enkelt neuron at lære forskellige ting, som tillader netværket at lære komplekse mønstre i data.

De fleste netværk flere lag som er lagt i serie. Det betyder at når man regner outputtet fra det første lag, vil det direkte kunne bruges som input til det næste. De to eneste lag som er specille er input og output. Input laget er der hvor den orignalle data bliver givet ind. Hvor output laget er der hvor du for det ud du prøver at forudsige. Et Deep Neural netværk er et netværk med flere lag, ergo at den er 'dyb'.

Herunder ses et billede af et neuralt netværk:

<img src="billeder/1_YL2a2dbDQ5754h_ktDj8mQ.webp" style="max-width:600px;">

*Billedet er fra [denne artikel om neurale netværk](https://medium.com/ravenprotocol/everything-you-need-to-know-about-neural-networks-6fcc7a15cb4).*

## Deep Dive ind på Aktiverings Funktioner

Vi skal bruge en aktiverings funktion for at kunne forudsige noget der ikke er linear. Hvis relationen vi vil forudsige var en ret linje så ville vi ikke have brug for denne ekstra compleksitet, men de fleste problemer er ikke en linaer sammenhæng derfor er der aktiveringsfunktioner.

De aktiverings funktioner vi føler i burde kende er:

- **Sigmoid**  
  Sigmoid-funktionen bruges ofte i outputlaget, når vi vil have et output mellem 0 og 1. Den ser sådan ud:
  $$
  \sigma(z) = \frac{1}{1 + e^{-z}}
  $$
  Den gør store negative tal til noget tæt på 0, og store positive tal til noget tæt på 1.

- **ReLU (Rectified Linear Unit)**  
  ReLU er meget populær i skjulte lag, fordi den er simpel og virker godt i praksis:
  $$
  \text{ReLU}(z) = \max(0, z)
  $$
  Det betyder, at hvis $z$ er negativt, bliver output 0, ellers er det bare $z$.

- **Leaky ReLU**  
  Leaky ReLU minder om ReLU, men hvis $z$ er negativt, får vi en lille negativ værdi i stedet for 0. Det kan hjælpe netværket med at lære bedre:
  $$
  \text{Leaky ReLU}(z) = 
  \begin{cases}
    z & \text{hvis } z > 0 \\
    0.01 \cdot z & \text{hvis } z \leq 0
  \end{cases}
  $$

- **Tanh**  
  Tanh-funktionen ligner sigmoid, men outputtet går fra -1 til 1:
  $$
  \tanh(z) = \frac{e^{z} - e^{-z}}{e^{z} + e^{-z}}
  $$
  Den bruges nogle gange, hvis man vil have både negative og positive værdier ud.

- **Softmax**  
  Softmax bruges ofte i outputlaget, når vi har flere klasser og vil have sandsynligheder for hver klasse (f.eks. billedgenkendelse med flere kategorier). Softmax laver alle outputs om til tal mellem 0 og 1, som tilsammen giver 1:
  $$
  \text{softmax}(z_i) = \frac{e^{z_i}}{\sum_{j} e^{z_j}}
  $$
  hvor $z_i$ er outputtet for klasse $i$. Det gør det nemt at vælge den klasse med højest sandsynlighed.

Der er to forskellige typer af problemer hvor neurale netværk ofte bliver brugt, det er klassifikation og regression.

Der er opgaver i begge dele da det er meget ligende hvordan man laver de to. Hvis vi starter med klassifikation, så bruger du ofte Softmax eller Sigmoid som din aktiverings funktion. Softmax bliver brugt til at give noget der minder om en sandsynlighed ud, så for hver klasse som man vil klassifer så vil den give sandsyndlighederne for at inputtet tilhører hvert klasse, mens Sigmoid er brugt til det samme hvis du kun har en klasse.

For regression, bruger man oftest Sigmoid eller Tanh som din output aktiverings funktion, dette kommer an på hvordan din data er spredt, fx hvis den går fra 0, til 1000, så kan man normalisere det til 0 til 1 og bruge Sigmoid, mens hvis der også er negative værdier, ville jeg bruge Tanh.

De sidste er ReLU og Leaky ReLU de er ofte brugt på hidden layers du kan dog også bruge de andre på hidden layers, den eneste som måske ikke giver så meget mening der er softmax.

## Træning af Neurale Netværk

Når man træner et neurale netværk, så er det værd at have følgende i mente, ellers kan man ende med suboptimale resultater.

### Overtræning
På et tidspunkt kommer i nok til at støde ind i overtræning. Overtræning er når en model mister konteksten omkring dataen, som sker når modellen bliver virkelig god til at løse træningsdataen, men ikke virker så godt på testdataen. Der er mange måder at komme uden om overtræning på, hvor jeg vil gennem gå nogle af dem i kan vælge at arbejde med her. Det skal siges at ikke alle de her metoder er lige til men det er ikke mening i skal kunne det hele, der er heller ikke nogen logisk rækkefølge på hvordan de kommer men de kan være brugbare.

#### Dropout
Dropout er et lag som du kan tilføje under træningen som gør at noget af din trænings data bliver skiftet ud med nul, med den sandsynlighed som du giver ind. Det bliver brugt til at få netværket til at generalisere bedre, som er tilsvarende til at minske overtræningen. Dropout virker bedst når der er meget data.

#### Validation og Early stopping
Den letteste måde at mindske overtræning er at stoppe træningen tidligere. En god måde at gøre det på er ved hjælp af et validerings set. Det gør at du kan regne din loss på validerings settet som holdes seperat fra træning, og ser om den optimering som du har lavet denne epoch, er god eller ej. Den måde du oftest bruger validering er at du vælger hvor mange gang træning ikke må være blevet bedre i validering settet til at stoppe tidligt også vælger du model med den bedste valideringsloss som din trænende model. Det kræver dog at du har en del data.

#### Cross validation
Cross validation eller krydsvalidering, er en måde at bruge validering men uden du har ligeså meget data. Det du gør er at du splitter din data f.eks. i 5 dele, også laver du backpropagation(optimeringen), med en af dele som er validering i vær. Så bruger du alle 5 til at vudere hvordan du skal optimere modellen ved at tage gennemsnittet det din estimering. Det her er en kompleks måde at lave validering på men den virker godt hvis du kun har lidt data.

## Klassifikation

Klassifikation handler om at forudsige hvilken kategori eller klasse et datapunkt tilhører. For eksempel:
- Billedgenkendelse: Er dette billede en kat, hund eller fugl?
- E-mail filtrering: Er denne e-mail spam eller ikke spam?
- Sygdomsdiagnose: Har patienten sygdom A, B eller er rask?

**Hvordan fungerer det:**
- Dit neurale netværk outputter sandsynligheder for hver klasse
- Du vælger klassen med højest sandsynlighed som dit svar
- For binær klassifikation (2 klasser): brug sigmoid aktivering
- For multi-class klassifikation (3+ klasser): brug softmax aktivering

**Loss funktioner til klassifikation:**
- **Binary Cross-Entropy** for 2 klasser
- **Categorical Cross-Entropy** for flere klasser
- Disse loss funktioner straffer modellen mere jo længere væk den er fra det rigtige svar

**Hvad kan gå galt:**

### 1. Ubalanceret data
Hvis du har 95% klasse A og kun 5% klasse B, vil modellen lære at gætte klasse A hver gang og opnå 95% nøjagtighed, men være ubrugelig til at finde klasse B.
- **Løsning:** Brug class weights, oversampling eller undersampling

### 2. Overfitting til træningsdata
Modellen husker træningseksemplerne i stedet for at lære mønstre.
- **Symptom:** Høj træningsnøjagtighed, lav test-nøjagtighed
- **Løsning:** Dropout, early stopping, eller mere data

### 3. For få træningsdata
Komplekse neurale netværk har brug for meget data for at lære ordentligt.
- **Løsning:** Data augmentation, transfer learning, eller simplere model

### 4. Forkerte labels
Hvis dine træningsdata har forkerte labels, lærer modellen forkerte mønstre.
- **Løsning:** Manuel gennemgang af data, crowd-sourcing af labels

### 5. Bias i data
Hvis træningsdata ikke repræsenterer den virkelige verden, vil modellen fejle på nye data.
- **Eksempel:** Træne på billeder kun fra sommeren, teste på vinterbilleder
- **Løsning:** Mere repræsentativ data indsamling

### 6. Threshold problemer
Ved binær klassifikation skal du vælge en grænse (f.eks. 0.5) for hvornår du klassificerer som klasse 1.
- Standard 0.5 er ikke altid optimalt
- **Løsning:** Juster threshold baseret på validation data

## Regression

Regression handler om at forudsige kontinuerlige numeriske værdier i stedet for kategorier. For eksempel:
- Huspriser: Hvad koster et hus med disse egenskaber?
- Temperaturer: Hvor varmt bliver det i morgen?
- Aktiekurser: Hvad vil aktien koste næste uge?
- Alder: Hvor gammel er personen på dette billede?

**Hvordan fungerer det:**
- Dit neurale netværk outputter en eller flere numeriske værdier
- Ingen sandsynligheder - bare direkte tal
- For output mellem 0-1: brug sigmoid aktivering
- For output mellem -1 og 1: brug tanh aktivering  
- For ubegrænset output: brug linear aktivering (ingen aktivering)

**Loss funktioner til regression:**
- **Mean Squared Error (MSE)** - mest almindelige
- **Mean Absolute Error (MAE)** - mere robust overfor outliers

**Hvad kan gå galt:**

### 1. Forkert skala på data
Hvis dine input features har vidt forskellige skalaer (f.eks. alder 0-100 vs indkomst 0-1.000.000), kan modellen fokusere for meget på de store tal.
- **Løsning:** Normaliser eller standardiser dine data

### 2. Outliers i data
Ekstreme værdier kan forvrænge hele modellen, især med MSE loss.
- **Symptom:** Modellen underpræsterer på "normale" eksempler
- **Løsning:** Fjern outliers, brug MAE loss, eller robust preprocessing

### 3. Non-lineære sammenhænge
Hvis forholdet mellem input og output er meget komplekst, kan simple netværk ikke fange det.
- **Løsning:** Dybere netværk, flere neuroner, eller feature engineering

### 4. Begrænsede output værdier
Hvis dit target altid er positivt (f.eks. priser), men modellen kan outputte negative tal.
- **Løsning:** Brug sigmoid/ReLU aktivering, eller log-transform targets

### 5. Heteroskedastisk støj
Hvis fejlen varierer afhængigt af input-værdien (f.eks. dyrere huse har mere variable priser).
- **Symptom:** Modellen er god til nogle værdier, dårlig til andre
- **Løsning:** Weighted loss functions eller separate modeller for forskellige områder

### 6. Temporal dependencies
Hvis dine data har tidsafhængigheder (f.eks. aktiekurser), ignorerer simple netværk historik.
- **Løsning:** Brug recurrent neural networks (RNN/LSTM) eller time-series features

### 7. Multi-output regression
Når du forudsiger flere værdier samtidig, kan nogle outputs dominere træningen.
- **Symptom:** God på nogle outputs, dårlig på andre
- **Løsning:** Balancer loss weights eller separate modeller

**Evaluering af regression:**
- **R² score:** Hvor meget varians forklarer modellen? (1.0 = perfekt)
- **RMSE:** Root Mean Squared Error - gennemsnitlig fejl i samme enheder som target
- **MAE:** Mean Absolute Error - mere intuitivt end RMSE