# Keras: Fr√•n dina n√§tverk till professionella verktyg

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/DITT-REPO/06_keras.ipynb)

Du har byggt neurala n√§tverk fr√•n grunden. Nu ska vi se hur samma sak g√∂rs med Keras - och sedan utforska nya m√∂jligheter.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

from tensorflow import keras
from tensorflow.keras import layers

print(f"Keras version: {keras.__version__}")

Keras version: 3.10.0


---

# Del 1: Bekanta problem i Keras

F√∂rst l√∂ser vi samma typ av problem som du redan kan - men med Keras syntax.

## Din kod vs Keras

| Din kod | Keras | Vad det g√∂r |
|---------|-------|-------------|
| `NeuralNetwork([64, 16, 10])` | `Input(shape=(...)), Dense(16), Dense(10)` | Definiera lager |
| `sigmoid()` | `activation='sigmoid'` | Aktiveringsfunktion |
| `sigmoid_derivative()` | *(automatiskt!)* | Keras ber√§knar derivator √•t dig |
| `learning_rate=0.5` | `optimizer=SGD(learning_rate=0.5)` | Inl√§rningsfaktor |
| `train()` | `model.fit()` | Tr√§na n√§tverket |
| `predict()` | `model.predict()` | G√∂r prediktioner |

### Input-lagret: ber√§tta f√∂r Keras hur datan ser ut

Varje modell b√∂rjar med `layers.Input(shape=...)` som talar om **dimensionerna f√∂r ett enda exempel**. `shape` tar en tupel med en siffra per dimension:

```
En bil   = en lista med 21 tal               ‚Üí Input(shape=(21,))         1D
En bild  = 100 rader √ó 100 kolumner √ó 3 f√§rger  ‚Üí Input(shape=(100, 100, 3))  3D
En text  = en sekvens av 40 tecken-index      ‚Üí Input(shape=(40,))         1D
```

T√§nk p√• det som: *"Vilka dimensioner har EN datapunkt?"* ‚Äî inte datan i sig, utan dess form.

---

## √ñvning 1: Bilkvalitet üöó

Multi-klass klassificering: Bed√∂m om en bil √§r "unacceptable", "acceptable", "good" eller "very good" baserat p√• pris, underh√•ll, d√∂rrar, etc.

Dataset: [UCI Car Evaluation](https://archive.ics.uci.edu/ml/datasets/car+evaluation)

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

# Ladda Car Evaluation fr√•n UCI
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/car/car.data"
columns = ['buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety', 'class']
cars = pd.read_csv(url, names=columns)

print("Bildata:")
print(cars.head())
print(f"\nKlasser: {cars['class'].unique()}")
print(f"Antal exempel: {len(cars)}")

In [None]:
# Konvertera kategorier till tal
# Varje kolumn har ordnade kategorier - vi kodar dem som tal

# Features
X = pd.get_dummies(cars.drop('class', axis=1)).values

# Target
class_encoder = LabelEncoder()
y = class_encoder.fit_transform(cars['class'])
class_names = class_encoder.classes_

# Dela upp
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Features: {X.shape[1]} (one-hot encoded)")
print(f"  buying:   4 v√§rden (vhigh, high, med, low)")
print(f"  maint:    4 v√§rden")
print(f"  doors:    4 v√§rden (2, 3, 4, 5more)")
print(f"  persons:  3 v√§rden (2, 4, more)")
print(f"  lug_boot: 3 v√§rden (small, med, big)")
print(f"  safety:   3 v√§rden (low, med, high)")
print(f"  Totalt:   4+4+4+3+3+3 = {X.shape[1]} kolumner")
print(f"\nKlasser: {list(class_names)}")
print(f"Tr√§ningsexempel: {len(X_train)}, Test: {len(X_test)}")

In [None]:
# Bygg modell - j√§mf√∂r med NeuralNetwork([21, 16, 4])
model_cars = keras.Sequential([
    layers.Input(shape=(21,)),          # En bil = 21 features (one-hot encoded)
    layers.Dense(16, activation='sigmoid'),
    layers.Dense(4, activation='sigmoid')  # 4 klasser
])

# Kompilera
# mse som loss och sgd som optimizer utan momentum √§r likv√§rdigt
# med den kod som du sj√§lv tidigare skrivit i Python
model_cars.compile(
    optimizer=keras.optimizers.SGD(learning_rate=0.5, momentum=0.0),
    loss='mse', 
    metrics=['accuracy']
)

model_cars.summary()

In [None]:
# Tr√§na
from keras.utils import to_categorical

# One-hot encode the labels to be compatible with 'mse' loss and 4 output units
y_train_one_hot = to_categorical(y_train, num_classes=4)
y_test_one_hot = to_categorical(y_test, num_classes=4)

history = model_cars.fit(
    X_train, y_train_one_hot,
    epochs=100,
    validation_split=0.2,
    verbose=0
)

# Utv√§rdera
loss, acc = model_cars.evaluate(X_test, y_test_one_hot, verbose=0)
print(f"Test Accuracy: {acc*100:.1f}%")

In [None]:
# Keras ger oss tr√§ningshistorik - plotta den!
plt.figure(figsize=(10, 4))

plt.subplot(1, 2, 1)
plt.plot(history.history['loss'], label='Tr√§ning')
plt.plot(history.history['val_loss'], label='Validering')
plt.title('F√∂rlust (Loss)')
plt.xlabel('Epoch')
plt.legend()

plt.subplot(1, 2, 2)
plt.plot(history.history['accuracy'], label='Tr√§ning')
plt.plot(history.history['val_accuracy'], label='Validering')
plt.title('Accuracy')
plt.xlabel('Epoch')
plt.legend()

plt.tight_layout()
plt.show()

**Samma koncept som din NeuralNetwork!** Dense-lager, sigmoid, f√∂rlustfunktion, epochs. Bara annan syntax - och vi f√•r fin tr√§ningshistorik p√• k√∂pet.

### Olika inst√§llningar

Hittills har du anv√§nt sigmoidfunktionen som aktiveringsfunktion. Den kl√§mmer ihop v√§rden mellan 0-1.

ReLU √§r ett annat alternativ som visat sig fungera v√§ldigt bra. Den s√§tter negativa v√§rden till 0 och beh√•ller positiva v√§rden. Supersimpel! Denna √§r oerh√∂rt vanlig att den anv√§nds f√∂r g√∂mda lager.

**ReLU** (Rectified Linear Unit):
```
ReLU(x) = max(0, x)
```
- Derivatan √§r 1 f√∂r positiva v√§rden ‚Üí ingen vanishing gradient
- Snabbare att ber√§kna

**Softmax** 

Ett alternativ till sigmoid f√∂r sista lagret. Sigmoid kl√§mmer ihop alla enskilda outputs mellan 0 och 1. Softmax kl√§mmer ihop alla outputs s√• att de tillsammans summerar till 1. Likt sigmoid tolkar vi fortfarande det st√∂rsta v√§rdet som den med st√∂rst sannolikhet.


---

Vi har hittills haft en statisk learning rate f√∂r alla vikter i hela n√§tverket. Det finns b√§ttre strategier f√∂r att hantera hur mycket vikter ska justeras. Vi st√§ller in olika _optimizers_ f√∂r att uppn√• detta.

**Adam** optimizer:
- Anpassar learning rate automatiskt per vikt
- Fungerar ofta b√§ttre √§n SGD

---



# Samma dataset, men nya inst√§llningar

Nedan kan du se hur vi tr√§nar p√• samma bil-data men anv√§nder *_relu_*, *_softmax_*, *_adam_* och en annan loss funktion som √§r b√§ttre anpassad f√∂r multi-class classification: *_sparse_categorical_crossentropy_*

In [None]:
# J√§mf√∂r sigmoid/SGD vs ReLU/Adam
model_modern = keras.Sequential([
    layers.Input(shape=(21,)),
    layers.Dense(16, activation='relu'),
    layers.Dense(4, activation='softmax')
])

model_modern.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model_modern.fit(X_train, y_train, epochs=100, verbose=0)

_, acc_modern = model_modern.evaluate(X_test, y_test, verbose=0)
print(f"Sigmoid + SGD + MSE:  {acc*100:.1f}%")
print(f"ReLU + Adam + sparse_categorical_crossentropy:    {acc_modern*100:.1f}%")

---

### üß™ Uppgift 1: Experimentera med arkitekturen

Modellen ovan har **ett** dolt lager med 16 neuroner. 

**Din uppgift:** Skapa en ny modell med **tv√•** dolda lager (t.ex. 32 och 16 neuroner). Tr√§na och j√§mf√∂r accuracy.

Tips: Kopiera koden ovan och l√§gg till ett lager mellan input och output.

In [None]:
# Din kod h√§r - skapa en modell med tv√• dolda lager
model_deeper = keras.Sequential([
    # TODO: L√§gg till lager h√§r
])

# Kompilera och tr√§na
# model_deeper.compile(...)
# model_deeper.fit(...)

---

# Del 2: Bilder - Nya lagertyper

Dina n√§tverk hade bara `Dense`-lager. F√∂r bilder finns specialiserade lager.

## Problemet med Dense f√∂r bilder

En 300√ó300 bild har 90 000 pixlar. Med Dense-lager:
- Varje neuron kopplas till ALLA 90 000 pixlar
- Vi f√∂rlorar information om att pixlar som √§r n√§ra varandra h√∂r ihop
- Massor av parametrar

**L√∂sning: Convolutional Neural Networks (CNN)**

## Conv2D - Convolutional Layer

Ist√§llet f√∂r att titta p√• hela bilden samtidigt, anv√§nder vi ett litet "f√∂nster" (filter/kernel) som r√∂r sig √∂ver bilden.

### Grundid√©n

Ett filter (kernel) √§r en liten matris med vikter som glider √∂ver bilden. P√• varje position multipliceras filtrets vikter med pixlarna under det, allt summeras, och man l√§gger till ett bias-v√§rde. Resultatet blir **en pixel** i output-bilden.

### Konkret exempel (en kanal)

```
Bild (5√ó5):              Filter (3√ó3):        Bias: 0
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ  1   2   3  4  5 ‚îÇ     ‚îÇ  1   0  -1 ‚îÇ
‚îÇ  0   1   2  3  4 ‚îÇ     ‚îÇ  1   0  -1 ‚îÇ
‚îÇ  1   0   1  2  3 ‚îÇ     ‚îÇ  1   0  -1 ‚îÇ
‚îÇ  2   1   0  1  2 ‚îÇ     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
‚îÇ  1   1   1  1  1 ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

**Steg 1:** Placera filtret i √∂vre v√§nstra h√∂rnet (rad 0, kolumn 0):

```
Filtret ligger √∂ver dessa 9 pixlar:

 [1] [2] [3]  4   5       1√ó1 + 2√ó0 + 3√ó(-1)  =  1 + 0 - 3 = -2
 [0] [1] [2]  3   4       0√ó1 + 1√ó0 + 2√ó(-1)  =  0 + 0 - 2 = -2
 [1] [0] [1]  2   3       1√ó1 + 0√ó0 + 1√ó(-1)  =  1 + 0 - 1 =  0
  2   1   0   1   2                            ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
  1   1   1   1   1       Summa + bias = -2 + (-2) + 0 + 0 = -4

                          ‚Üí ReLU(-4) = 0  ‚Üê output-pixel [0,0]
```

**Steg 2:** Flytta filtret ett steg √•t h√∂ger (rad 0, kolumn 1):

```
  1  [2] [3] [4]  5       2√ó1 + 3√ó0 + 4√ó(-1)  =  2 + 0 - 4 = -2
  0  [1] [2] [3]  4       1√ó1 + 2√ó0 + 3√ó(-1)  =  1 + 0 - 3 = -2
  1  [0] [1] [2]  3       0√ó1 + 1√ó0 + 2√ó(-1)  =  0 + 0 - 2 = -2
  2   1   0   1   2                            ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
  1   1   1   1   1       Summa + bias = -2 + (-2) + (-2) + 0 = -6

                          ‚Üí ReLU(-6) = 0  ‚Üê output-pixel [0,1]
```

**Steg 3, 4, ...** Forts√§tt tills filtret glidit √∂ver alla positioner. Hela output-bilden:

```
Output (3√ó3):
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ  0   0   0 ‚îÇ    Varje v√§rde √§r resultatet av (filter √ó pixlar + bias)
‚îÇ  0   0   0 ‚îÇ    genom ReLU-aktiveringen.
‚îÇ  0   0   0 ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

*(Det h√§r filtret letar efter vertikala kanter ‚Äî skillnaden mellan v√§nster och h√∂ger sida. Bilden saknar starka s√•dana kanter, s√• allt blir 0 efter ReLU.)*

### Varf√∂r krymper bilden?

Filtret m√•ste "passa in" helt i bilden. Ett 3√ó3 filter kan inte centreras p√• en pixel i allra yttersta kanten, f√∂r det saknas pixlar utanf√∂r bilden:

```
5√ó5 bild med 3√ó3 filter:

  ‚ùå Filtret kan inte starta h√§r (inget ovanf√∂r/till v√§nster)
  ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ . . . . .   ‚îÇ    Filtret kan centreras p√• de inre 3√ó3 positionerna
‚îÇ . ‚úì ‚úì ‚úì .   ‚îÇ    ‚Üí output blir (5-3+1) √ó (5-3+1) = 3√ó3
‚îÇ . ‚úì ‚úì ‚úì .   ‚îÇ
‚îÇ . ‚úì ‚úì ‚úì .   ‚îÇ    Generellt: output = input - filter + 1
‚îÇ . . . . .   ‚îÇ    Exempel: 100 - 3 + 1 = 98
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

S√• en 100√ó100 bild blir **98√ó98** efter ett 3√ó3 filter ‚Äî vi "f√∂rlorar" 1 pixel p√• varje sida.

### Varje filter har vikter per kanal

En RGB-bild har **3 kanaler** (r√∂d, gr√∂n, bl√•). Varje filter i Conv2D har en **egen viktmatris per kanal**, plus **ett bias-v√§rde**:

```
Input: 100√ó100√ó3 (RGB)

                    Filter #1 (en "neuron"):
                    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
  R√∂d kanal    ‚Üí    ‚îÇ 3√ó3 vikter ‚îÇ  ‚Üê 9 vikter
                    ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
  Gr√∂n kanal   ‚Üí    ‚îÇ 3√ó3 vikter ‚îÇ  ‚Üê 9 vikter     Totalt: 3√ó3√ó3 + 1 = 28 parametrar
                    ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
  Bl√• kanal    ‚Üí    ‚îÇ 3√ó3 vikter ‚îÇ  ‚Üê 9 vikter
                    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                    + 1 bias
```

Filtret ber√§knar: **(summa av alla 27 vikter √ó motsvarande pixlar) + bias ‚Üí 1 tal**

Med `Conv2D(32, (3,3))` skapar vi **32 s√•dana filter**, vart och ett med egna vikter:
- Parametrar per filter: 3 √ó 3 √ó 3 + 1 = **28**
- Totalt: 28 √ó 32 = **896 parametrar**

Varje filter producerar en **98√ó98 output-bild** (en "kanal"). 32 filter ‚Üí output blir **98√ó98√ó32**.

### Hela f√∂rsta blocket steg f√∂r steg

```
Input:    100 √ó 100 √ó 3   (RGB-bild)
              ‚îÇ
         Conv2D(32, 3√ó3)   ‚Üí 98 √ó 98 √ó 32    (krympt 2 px, 32 filterresultat)
              ‚îÇ                                  896 parametrar
         MaxPooling(2√ó2)   ‚Üí 49 √ó 49 √ó 32    (halverad storlek)
              ‚îÇ                                  0 parametrar (bara tar max)
         Conv2D(64, 3√ó3)   ‚Üí 47 √ó 47 √ó 64    (krympt 2 px, nu 64 filter)
              ‚îÇ                                  varje filter: 3√ó3√ó32 + 1 = 289 params
              ‚îÇ                                  totalt: 289 √ó 64 = 18 496 parametrar
         MaxPooling(2√ó2)   ‚Üí 23 √ó 23 √ó 64
              ‚îÇ
              ...
```

L√§gg m√§rke till andra Conv2D-lagret: inputen har nu **32 kanaler** (fr√•n de 32 filtren i f√∂rra lagret), s√• varje filter beh√∂ver 3√ó3√ó**32** vikter + 1 bias.

**F√∂rdelar med CNN:**
- L√§r sig lokala m√∂nster (kanter, former)
- Samma filter anv√§nds √∂verallt ‚Üí f√§rre parametrar
- Hittar m√∂nster oavsett var i bilden de √§r

## MaxPooling2D - Krymper bilden

Efter convolution vill vi g√∂ra bilden mindre (snabbare, mindre overfitting).

```
Input (4√ó4):           MaxPool (2√ó2):      Output (2√ó2):
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê                           ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ 1  3 ‚îÇ 2  1 ‚îÇ        Ta max i           ‚îÇ 3 ‚îÇ 2 ‚îÇ
‚îÇ 2  1 ‚îÇ 1  2 ‚îÇ   ‚Üí    varje 2√ó2 ruta  ‚Üí  ‚îÇ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÇ
‚îÇ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÇ                           ‚îÇ 6 ‚îÇ 4 ‚îÇ
‚îÇ 5  6 ‚îÇ 3  4 ‚îÇ                           ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
‚îÇ 1  2 ‚îÇ 1  1 ‚îÇ                            
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò                            
```

**Varf√∂r max?** Vi bryr oss om "finns det en kant h√§r?" inte exakt var.

## Flatten - Platta ut till 1D

Efter CNN-lagren har vi fortfarande en 2D-bild. `Flatten` g√∂r den till en 1D-vektor som kan g√• in i Dense-lager.

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê         
‚îÇ 1 ‚îÇ 2 ‚îÇ         
‚îÇ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÇ   ‚Üí     [1, 2, 3, 4]
‚îÇ 3 ‚îÇ 4 ‚îÇ         
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò         
```

---

## √ñvning 2: Rock Paper Scissors ‚úä‚úã‚úåÔ∏è

Klassificera handgester med ett CNN.

Dataset: [TensorFlow Rock Paper Scissors](https://www.tensorflow.org/datasets/catalog/rock_paper_scissors)

In [None]:
import tensorflow_datasets as tfds

# Ladda Rock Paper Scissors
(train_ds, test_ds), info = tfds.load(
    'rock_paper_scissors',
    split=['train', 'test'],
    as_supervised=True,
    with_info=True
)

class_names = ['rock', 'paper', 'scissors']
print(f"Tr√§ningsbilder: {info.splits['train'].num_examples}")
print(f"Testbilder: {info.splits['test'].num_examples}")

In [None]:
# Visa exempel
plt.figure(figsize=(12, 4))
for i, (image, label) in enumerate(train_ds.take(6)):
    ax = plt.subplot(1, 6, i + 1)
    plt.imshow(image)
    plt.title(class_names[label.numpy()])
    plt.axis('off')
plt.show()

In [None]:
# F√∂rbered data - krympa och normalisera
IMG_SIZE = 100

def preprocess(image, label):
    image = keras.ops.image.resize(image, (IMG_SIZE, IMG_SIZE))
    image = keras.ops.cast(image, 'float32') / 255.0  # Normalisera till 0-1 och kasta till float32
    return image, label

train_ds = train_ds.map(preprocess).batch(32).prefetch(1)
test_ds = test_ds.map(preprocess).batch(32).prefetch(1)

print(f"Bildstorlek: {IMG_SIZE}x{IMG_SIZE}")

In [None]:
# CNN-modell f√∂r Rock Paper Scissors
model_rps = keras.Sequential([
    layers.Input(shape=(IMG_SIZE, IMG_SIZE, 3)),
    
    # F√∂rsta Conv-blocket: hitta enkla m√∂nster (kanter, linjer)
    layers.Conv2D(32, (3, 3), activation='relu'),
    layers.MaxPooling2D((2, 2)),
    
    # Andra Conv-blocket: hitta mer komplexa m√∂nster (fingrar, handflator)
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.MaxPooling2D((2, 2)),
    
    # Tredje Conv-blocket: hitta gesterna
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.MaxPooling2D((2, 2)),
    
    # Platta ut och klassificera
    layers.Flatten(),
    layers.Dense(64, activation='relu'),
    layers.Dense(3, activation='softmax')  # rock, paper, scissors
])

model_rps.summary()

In [None]:
model_rps.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

print("Tr√§nar CNN f√∂r Rock Paper Scissors...")
history_rps = model_rps.fit(train_ds, validation_data=test_ds, epochs=2, verbose=1)

loss, acc = model_rps.evaluate(test_ds, verbose=0)
print(f"\nTest Accuracy: {acc*100:.1f}%")

In [None]:
# Visa prediktioner
plt.figure(figsize=(15, 5))
for images, labels in test_ds.take(1):
    preds = model_rps.predict(images, verbose=0)
    for i in range(min(8, len(images))):
        ax = plt.subplot(2, 4, i + 1)
        plt.imshow(images[i])
        pred_label = class_names[np.argmax(preds[i])]
        true_label = class_names[labels[i].numpy()]
        color = 'green' if pred_label == true_label else 'red'
        plt.title(f"Pred: {pred_label}\nTrue: {true_label}", color=color)
        plt.axis('off')
plt.tight_layout()
plt.show()

---

## Testa med din webcam!

In [None]:
# Webcam i Colab - ta en bild och klassificera!
from google.colab import output
from IPython.display import display, Javascript
from base64 import b64decode
import cv2

def take_photo():
    """Ta en bild med webcam i Colab."""
    js = Javascript('''
        async function takePhoto() {
            const video = document.createElement('video');
            const stream = await navigator.mediaDevices.getUserMedia({video: true});
            video.srcObject = stream;
            await video.play();
            
            // V√§nta lite s√• kameran hinner starta
            await new Promise(resolve => setTimeout(resolve, 1500));
            
            const canvas = document.createElement('canvas');
            canvas.width = video.videoWidth;
            canvas.height = video.videoHeight;
            canvas.getContext('2d').drawImage(video, 0, 0);
            
            stream.getTracks().forEach(track => track.stop());
            return canvas.toDataURL('image/jpeg', 0.8);
        }
        takePhoto();
    ''')
    display(js)
    data = output.eval_js('takePhoto()')
    
    # Konvertera base64 till numpy array
    binary = b64decode(data.split(',')[1])
    img_array = np.frombuffer(binary, dtype=np.uint8)
    img = cv2.imdecode(img_array, cv2.IMREAD_COLOR)
    img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    return img

print("G√∂r en gest (rock, paper eller scissors) och tryck Enter!")
input()
photo = take_photo()

# F√∂rbered bilden
img_resized = cv2.resize(photo, (IMG_SIZE, IMG_SIZE)) / 255.0
img_input = np.expand_dims(img_resized, axis=0)

# Klassificera
pred = model_rps.predict(img_input, verbose=0)[0]
predicted_class = class_names[np.argmax(pred)]
confidence = np.max(pred) * 100

# Visa resultat
plt.figure(figsize=(8, 6))
plt.imshow(photo)
plt.title(f"Modellen gissar: {predicted_class.upper()} ({confidence:.1f}% s√§ker)", fontsize=14)
plt.axis('off')
plt.show()

print(f"\nSannolikheter:")
for i, name in enumerate(class_names):
    bar = "‚ñà" * int(pred[i] * 30)
    print(f"  {name:8} {bar} {pred[i]*100:.1f}%")

---

### Uppgift 2: F√∂rst√• CNN-parametrar

Titta p√• `model_rps.summary()` ovan och anv√§nd f√∂rklaringen av Conv2D fr√•n tidigare.

**Fr√•gor att besvara (skriv dina svar i cellen nedan):**

1. **F√∂rsta Conv2D-lagret** har input 100√ó100√ó3 (RGB) och 32 filter av storlek 3√ó3.
   - Hur m√•nga vikter har *ett* filter? (T√§nk: en 3√ó3-matris per kanal)
   - Hur m√•nga parametrar har lagret totalt? (Gl√∂m inte bias ‚Äî ett per filter!)
   - St√§mmer det med vad `summary()` visar?

2. **Output-storlek:** Varf√∂r visar summary att outputen fr√•n f√∂rsta Conv2D √§r 98√ó98 och inte 100√ó100?
   - R√§kna: `output = input - filter + 1`

3. **Andra Conv2D-lagret** tar emot 49√ó49√ó32 (efter MaxPooling).
   - Hur m√•nga vikter har ett filter nu? (Ledtr√•d: nu √§r antalet kanaler 32, inte 3)
   - Hur m√•nga parametrar totalt? St√§mmer det med summary?

**Experimentera:** √Ñndra `(3, 3)` till `(5, 5)` i f√∂rsta Conv2D-lagret. 
- Vad h√§nder med antalet parametrar? 
- Vad h√§nder med output-storleken?

In [None]:
# Dina svar:
#
# 1. F√∂rsta Conv2D(32, (3,3)) med RGB-input:
#    - Vikter per filter: 3 √ó 3 √ó ___ = ___
#    - Parametrar per filter (med bias): ___ + 1 = ___
#    - Totalt (32 filter): ___ √ó 32 = ___
#
# 2. Output-storlek: 100 - ___ + 1 = ___
#
# 3. Andra Conv2D(64, (3,3)) med 32 kanaler in:
#    - Vikter per filter: 3 √ó 3 √ó ___ = ___
#    - Parametrar per filter (med bias): ___ + 1 = ___
#    - Totalt (64 filter): ___ √ó 64 = ___

# Experimentera med (5,5) filter:
# model_test = keras.Sequential([
#     layers.Input(shape=(IMG_SIZE, IMG_SIZE, 3)),
#     layers.Conv2D(32, (5, 5), activation='relu'),
#     layers.MaxPooling2D((2, 2)),
#     layers.Conv2D(64, (3, 3), activation='relu'),
#     layers.MaxPooling2D((2, 2)),
#     layers.Conv2D(64, (3, 3), activation='relu'),
#     layers.MaxPooling2D((2, 2)),
#     layers.Flatten(),
#     layers.Dense(64, activation='relu'),
#     layers.Dense(3, activation='softmax')
# ])
# model_test.summary()

---

## √ñvning 3: Kaffeb√∂nor - Sjukdomsdetektering ‚òï

Klassificera om kaffeb√∂nor √§r friska eller sjuka.

Dataset: [Beans (TensorFlow Datasets)](https://www.tensorflow.org/datasets/catalog/beans)

In [None]:
# Ladda Beans dataset
(train_beans, val_beans, test_beans), info_beans = tfds.load(
    'beans',
    split=['train', 'validation', 'test'],
    as_supervised=True,
    with_info=True
)

bean_classes = ['angular_leaf_spot', 'bean_rust', 'healthy']
print(f"Klasser: {bean_classes}")
print(f"Tr√§ningsbilder: {info_beans.splits['train'].num_examples}")

In [None]:
# Visa exempel
plt.figure(figsize=(12, 4))
for i, (image, label) in enumerate(train_beans.take(6)):
    ax = plt.subplot(1, 6, i + 1)
    plt.imshow(image)
    plt.title(bean_classes[label.numpy()])
    plt.axis('off')
plt.show()

In [None]:
# F√∂rbered data
BEAN_SIZE = 128

def preprocess_beans(image, label):
   
    image = keras.ops.image.resize(image, (BEAN_SIZE, BEAN_SIZE))
    image = keras.ops.cast(image, 'float32') / 255.0  # Normalisera till 0-1 och kasta till float32
    return image, label

train_beans = train_beans.map(preprocess_beans).batch(32).prefetch(1)
val_beans = val_beans.map(preprocess_beans).batch(32).prefetch(1)
test_beans = test_beans.map(preprocess_beans).batch(32).prefetch(1)

In [None]:
# CNN f√∂r beans - samma struktur som RPS
model_beans = keras.Sequential([
    layers.Input(shape=(BEAN_SIZE, BEAN_SIZE, 3)),
    
    layers.Conv2D(32, (3, 3), activation='relu'),
    layers.MaxPooling2D((2, 2)),
    
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.MaxPooling2D((2, 2)),
    
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.MaxPooling2D((2, 2)),
    
    layers.Flatten(),
    layers.Dense(64, activation='relu'),
    layers.Dense(3, activation='softmax')
])

model_beans.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

print("Tr√§nar CNN f√∂r sjukdomsdetektering i kaffeb√∂nor...")
model_beans.fit(train_beans, validation_data=val_beans, epochs=2, verbose=1)

loss, acc = model_beans.evaluate(test_beans, verbose=0)
print(f"\nTest Accuracy: {acc*100:.1f}%")

Vi kan forts√§tta tr√§na modellen d√§r vi slutade om vi inte √§r n√∂jd!

In [None]:
print("Tr√§nar CNN f√∂r sjukdomsdetektering i kaffeb√∂nor...")
model_beans.fit(train_beans, validation_data=val_beans, epochs=2, verbose=1)

loss, acc = model_beans.evaluate(test_beans, verbose=0)
print(f"\nTest Accuracy: {acc*100:.1f}%")

**CNN √§r kraftfullt!** Samma arkitektur fungerar f√∂r handgester och v√§xtsjukdomar.

---

### üß™ Snabbfr√•ga

Rock Paper Scissors och Beans anv√§nder n√§stan identisk CNN-arkitektur, men bilderna √§r helt olika (handgester vs v√§xtblad).

**Varf√∂r fungerar samma arkitektur f√∂r b√•da?**

T√§nk p√• vad Conv2D-lagren faktiskt l√§r sig (kanter, former, texturer) och varf√∂r det √§r anv√§ndbart oavsett bildtyp.

---

## √ñvning 4: Sign Language MNIST ü§ü

Klassificera amerikanskt teckenspr√•k (A-Z, utan J och Z som kr√§ver r√∂relse).

Dataset: [Sign Language MNIST (Kaggle)](https://www.kaggle.com/datamunge/sign-language-mnist)

### Dropout - F√∂rhindra overfitting

Ett problem med neurala n√§tverk √§r **overfitting** - n√§tverket l√§r sig tr√§ningsdatan utantill ist√§llet f√∂r att generalisera.

**Dropout** st√§nger av slumpm√§ssiga neuroner under tr√§ning:

```
Utan Dropout:              Med Dropout (50%):
   ‚óã ‚óã ‚óã ‚óã                    ‚óã ‚úó ‚óã ‚úó
   ‚îÇ‚ï≤‚îÇ‚ï±‚îÇ‚ï≤‚îÇ                    ‚îÇ   ‚îÇ  
   ‚óã ‚óã ‚óã ‚óã       ‚Üí           ‚úó ‚óã ‚óã ‚úó
   ‚îÇ‚ï≤‚îÇ‚ï±‚îÇ‚ï≤‚îÇ                      ‚îÇ‚ï±‚îÇ  
   ‚óã ‚óã ‚óã ‚óã                    ‚óã ‚úó ‚óã ‚óã
```

Detta tvingar n√§tverket att inte f√∂rlita sig p√• enskilda neuroner, vilket ger b√§ttre generalisering.

In [None]:
# Ladda Sign Language MNIST
# I Colab: ladda upp CSV-filer fr√•n Kaggle

try:
    # F√∂rs√∂k ladda lokalt
    train_sl = pd.read_csv('sign_mnist_train.csv')
    test_sl = pd.read_csv('sign_mnist_test.csv')
except:
    # I Colab: ladda fr√•n Kaggle (kr√§ver uppladdning)
    print("Ladda ner fr√•n: https://www.kaggle.com/datamunge/sign-language-mnist")
    print("Ladda upp sign_mnist_train.csv och sign_mnist_test.csv")
    from google.colab import files
    uploaded = files.upload()
    train_sl = pd.read_csv('sign_mnist_train.csv')
    test_sl = pd.read_csv('sign_mnist_test.csv')

# Separera labels och pixlar
y_train_sl = train_sl['label'].values
X_train_sl = train_sl.drop('label', axis=1).values.reshape(-1, 28, 28, 1) / 255.0

y_test_sl = test_sl['label'].values  
X_test_sl = test_sl.drop('label', axis=1).values.reshape(-1, 28, 28, 1) / 255.0

# 24 klasser (A-Z utan J och Z)
letters = 'ABCDEFGHIKLMNOPQRSTUVWXY'  # Saknar J (9) och Z (25)

print(f"Tr√§ningsbilder: {len(X_train_sl)}")
print(f"Testbilder: {len(X_test_sl)}")
print(f"Klasser: {len(letters)} bokst√§ver")

In [None]:
# Visa exempel
plt.figure(figsize=(15, 3))
for i in range(10):
    ax = plt.subplot(1, 10, i + 1)
    plt.imshow(X_train_sl[i].reshape(28, 28), cmap='gray')
    plt.title(letters[y_train_sl[i]])
    plt.axis('off')
plt.show()

In [None]:
# CNN med Dropout f√∂r Sign Language
model_sign = keras.Sequential([
    layers.Input(shape=(28, 28, 1)),
    
    layers.Conv2D(32, (3, 3), activation='relu'),
    layers.MaxPooling2D((2, 2)),
    
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.MaxPooling2D((2, 2)),
    
    layers.Flatten(),
    layers.Dropout(0.5),  # St√§ng av 50% av neuronerna under tr√§ning
    layers.Dense(128, activation='relu'),
    layers.Dropout(0.3),  # St√§ng av 30% h√§r
    layers.Dense(24, activation='softmax')  # 24 bokst√§ver
])

model_sign.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

print("Tr√§nar Sign Language classifier...")
history_sign = model_sign.fit(
    X_train_sl, y_train_sl,
    epochs=15,
    validation_split=0.1,
    verbose=1
)

loss, acc = model_sign.evaluate(X_test_sl, y_test_sl, verbose=0)
print(f"\nTest Accuracy: {acc*100:.1f}%")

In [None]:
# Visa prediktioner
plt.figure(figsize=(15, 6))
indices = np.random.choice(len(X_test_sl), 12, replace=False)
preds = model_sign.predict(X_test_sl[indices], verbose=0)

for i, idx in enumerate(indices):
    ax = plt.subplot(2, 6, i + 1)
    plt.imshow(X_test_sl[idx].reshape(28, 28), cmap='gray')
    pred_letter = letters[np.argmax(preds[i])]
    true_letter = letters[y_test_sl[idx]]
    color = 'green' if pred_letter == true_letter else 'red'
    plt.title(f"{pred_letter} ({true_letter})", color=color)
    plt.axis('off')
plt.tight_layout()
plt.show()

---

### üß™ Uppgift 3: Dropout-effekten

Modellen ovan anv√§nder `Dropout(0.5)` och `Dropout(0.3)`.

**Din uppgift:** 
1. Tr√§na samma modell **utan** Dropout (ta bort eller kommentera bort Dropout-lagren)
2. J√§mf√∂r tr√§nings-accuracy vs validerings-accuracy
3. Vilken modell har st√∂rst gap mellan tr√§ning och validering? Vad betyder det?

In [None]:
# Modell UTAN dropout
model_no_dropout = keras.Sequential([
    layers.Input(shape=(28, 28, 1)),
    
    layers.Conv2D(32, (3, 3), activation='relu'),
    layers.MaxPooling2D((2, 2)),
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.MaxPooling2D((2, 2)),
    layers.Flatten(),
    # Ingen Dropout h√§r!
    layers.Dense(128, activation='relu'),
    # Ingen Dropout h√§r heller!
    layers.Dense(24, activation='softmax')
])

model_no_dropout.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

print("Tr√§nar UTAN dropout...")
history_no_drop = model_no_dropout.fit(X_train_sl, y_train_sl, epochs=15, validation_split=0.1, verbose=1)

# J√§mf√∂r: titta p√• sista epoch - hur stor √§r skillnaden mellan accuracy och val_accuracy?
# Med dropout: _____ vs _____
# Utan dropout: _____ vs _____

---

# Del 3: F√∂rtr√§nade modeller (Transfer Learning)

Att tr√§na ett CNN fr√•n scratch kr√§ver:
- Miljontals bilder
- Dagar av GPU-tid

**Transfer Learning:** Anv√§nd ett n√§tverk som n√•gon annan redan tr√§nat!

## GlobalAveragePooling2D

N√§r vi anv√§nder f√∂rtr√§nade modeller beh√∂ver vi koppla ihop deras output med v√•rt klassificeringslager.

F√∂rtr√§nade modeller ger output som en 3D-tensor (h√∂jd √ó bredd √ó kanaler). `GlobalAveragePooling2D` tar genomsnittet f√∂r varje kanal:

```
Input: (7, 7, 1280)    ‚Üí    Output: (1280,)

‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ 1 2 3 4 ‚îÇ
‚îÇ 5 6 7 8 ‚îÇ  ‚Üí genomsnitt = 4.5
‚îÇ 1 2 3 4 ‚îÇ    (f√∂r varje kanal)
‚îÇ 5 6 7 8 ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

Resultatet √§r en 1D-vektor som kan g√• in i Dense-lager.

---

## √ñvning 5: Transfer Learning - Katter vs Hundar

Vi anv√§nder MobileNetV2 (tr√§nad p√• 14 miljoner bilder) och byter bara ut sista lagret.

In [None]:
# Ladda katter vs hundar (20% f√∂r snabbhet)
(train_cats, val_cats), info_cats = tfds.load(
    'cats_vs_dogs',
    split=['train[:20%]', 'train[20%:25%]'],
    as_supervised=True,
    with_info=True
)

print(f"Tr√§ningsbilder: {len(train_cats)}")

In [None]:
# Visa bilder
plt.figure(figsize=(12, 6))
for i, (image, label) in enumerate(train_cats.take(8)):
    ax = plt.subplot(2, 4, i + 1)
    plt.imshow(image)
    plt.title("Katt" if label == 0 else "Hund")
    plt.axis('off')
plt.show()

In [None]:
# F√∂rbered data
IMG_SIZE_TL = 160

def preprocess_tl(image, label):
    image = keras.ops.image.resize(image, (IMG_SIZE_TL, IMG_SIZE_TL))
    image = keras.ops.cast(image, 'float32') # Cast to float32
    image = keras.applications.mobilenet_v2.preprocess_input(image)
    return image, label

train_cats = train_cats.map(preprocess_tl).batch(32).prefetch(1)
val_cats = val_cats.map(preprocess_tl).batch(32).prefetch(1)

In [None]:
# Ladda MobileNetV2 (utan topplagret)
base_model = keras.applications.MobileNetV2(
    input_shape=(IMG_SIZE_TL, IMG_SIZE_TL, 3),
    include_top=False,  # Ta bort klassificeringslagret
    weights='imagenet'  # Anv√§nd f√∂rtr√§nade vikter
)

# Frys alla lager - vi √§ndrar INTE de f√∂rtr√§nade vikterna
base_model.trainable = False

print(f"MobileNet: {len(base_model.layers)} lager")
print(f"Output shape: {base_model.output_shape}")

In [None]:
# Bygg v√•r modell
model_transfer = keras.Sequential([
    base_model,
    layers.GlobalAveragePooling2D(),  # (5, 5, 1280) ‚Üí (1280,)
    layers.Dense(1, activation='sigmoid')  # Katt (0) eller Hund (1)
])

model_transfer.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

print("Tr√§nar (bara v√•rt nya lager)...")
model_transfer.fit(train_cats, validation_data=val_cats, epochs=2)

In [None]:
loss, acc = model_transfer.evaluate(val_cats, verbose=0)
print(f"\nAccuracy: {acc*100:.1f}%!")
print("Med bara 2 epoker och 20% av datan!")

---

### üß™ Uppgift 4: Fine-tuning

Vi fr√∂s alla lager i MobileNetV2 (`base_model.trainable = False`). 

**Din uppgift:** Vad h√§nder om vi "tinar" de sista lagren och tr√§nar vidare?

1. K√∂r koden nedan som tinar de 20 sista lagren
2. Tr√§na vidare med en **l√§gre** learning rate (viktigt!)
3. Blir accuracy b√§ttre eller s√§mre?

In [None]:
# Fine-tuning: tina de sista 20 lagren
base_model.trainable = True

# Frys alla UTOM de sista 20
for layer in base_model.layers[:-20]:
    layer.trainable = False

print(f"Tr√§ningsbara lager: {sum(1 for l in base_model.layers if l.trainable)}")

# Kompilera med L√ÑGRE learning rate (viktigt vid fine-tuning!)
model_transfer.compile(
    optimizer=keras.optimizers.Adam(learning_rate=0.0001),  # 10x l√§gre
    loss='binary_crossentropy',
    metrics=['accuracy']
)

# Tr√§na vidare
print("Fine-tuning...")
model_transfer.fit(train_cats, validation_data=val_cats, epochs=2)

loss, acc = model_transfer.evaluate(val_cats, verbose=0)
print(f"\nAccuracy efter fine-tuning: {acc*100:.1f}%")

---

# Del 4: Sekvenser - LSTM

Dense och CNN hanterar data med fast storlek. Men vad om input √§r en **sekvens** av varierande l√§ngd? (Text, ljud, tidsserier)

## LSTM (Long Short-Term Memory)

### Problemet: Dense har inget minne

Med ett Dense-lager kan vi mata in en hel sekvens p√• en g√•ng, men n√§tverket har ingen aning om **ordningen**. Orden "katten √•t musen" och "musen √•t katten" ser likadana ut ‚Äî bara en p√•se med ord. Vi beh√∂ver ett lager som l√§ser ett element i taget och **kommer ih√•g** vad det l√§st.

### Grundid√©n: ett rullande minne

LSTM l√§ser sekvensen **ett steg i taget** (ett tecken, ett ord, en datapunkt). Vid varje steg har den tv√• saker:

- **G√∂mt tillst√•nd (h)** ‚Äî en vektor som sammanfattar "vad har jag sett hittills?" (storlek = antal units)
- **Cellminne (C)** ‚Äî en intern vektor med l√•ngtidsminne

```
                h‚ÇÄ=0         h‚ÇÅ          h‚ÇÇ          h‚ÇÉ
                 ‚Üì            ‚Üì            ‚Üì            ‚Üì
Tecken:     ‚îÄ‚Üí [LSTM] ‚îÄ‚îÄ‚Üí [LSTM] ‚îÄ‚îÄ‚Üí [LSTM] ‚îÄ‚îÄ‚Üí [LSTM] ‚îÄ‚îÄ‚Üí h‚ÇÑ (output)
                 ‚Üë            ‚Üë            ‚Üë            ‚Üë
                "t"          "h"          "e"          " "

                C‚ÇÄ=0 ‚îÄ‚îÄ‚Üí    C‚ÇÅ   ‚îÄ‚îÄ‚Üí    C‚ÇÇ   ‚îÄ‚îÄ‚Üí    C‚ÇÉ   ‚îÄ‚îÄ‚Üí  C‚ÇÑ
                        (cellminne fl√∂dar fram√•t, uppdateras vid varje steg)
```

I b√∂rjan √§r h och C nollvektorer. Vid varje steg uppdateras de baserat p√• nuvarande input.

### De tre grindarna (gates)

LSTM har tre "grindar" som styr informationsfl√∂det. Varje grind √§r ett lager med sigmoid-aktivering (output 0‚Äì1), d√§r 0 = "st√§ng" och 1 = "√∂ppna":

**1. Gl√∂mgrinden (forget gate)** ‚Äî *"Vad i minnet √§r inte l√§ngre relevant?"*

Tittar p√• f√∂rra tillst√•ndet (h) och nuvarande input (x) och best√§mmer vad som ska **raderas** fr√•n cellminnet.

**2. Inmatningsgrinden (input gate)** ‚Äî *"Vad nytt ska sparas i minnet?"*

Best√§mmer vilken ny information som ska **l√§ggas till** i cellminnet.

**3. Utmatningsgrinden (output gate)** ‚Äî *"Vad fr√•n minnet √§r relevant just nu?"*

Best√§mmer vad fr√•n cellminnet som ska bli det nya g√∂mda tillst√•ndet (h), som skickas vidare till n√§sta steg.

### Konkret exempel: l√§sa "the cat sat on the ___"

```
Steg 1: input = "t"    Gl√∂mgrinden: inget att gl√∂mma (minnet √§r tomt)
  h‚ÇÄ = [0,0,0,...]     Inmatningsgrinden: spara att vi sett ett "t"
                        Utmatningsgrinden: uppdatera h ‚Üí h‚ÇÅ

Steg 2: input = "h"    Gl√∂mgrinden: beh√•ll "t" ‚Äî kan vara viktigt
  h‚ÇÅ                    Inmatningsgrinden: spara "th"-kombination
                        Utmatningsgrinden: ‚Üí h‚ÇÇ

  ...

Steg 9: input = "t"    Gl√∂mgrinden: vi har l√§st "the cat s" ‚Äî gl√∂m detaljer om "the"
                        Inmatningsgrinden: nytt "t" kan b√∂rja nytt ord
                        Utmatningsgrinden: ‚Üí h‚Çâ sammanfattar "the cat sat..."

  ... (forts√§tter till slutet)

Steg 40: output = h‚ÇÑ‚ÇÄ  Denna vektor sammanfattar hela sekvensen!
                        Dense-lagret anv√§nder h‚ÇÑ‚ÇÄ f√∂r att gissa n√§sta tecken.
```

### Vad h√§nder inuti en grind? (f√∂renklat)

Varje grind √§r i princip ett litet Dense-lager med sigmoid:

```
forget_gate = sigmoid( W_f √ó [h_f√∂rra, x_nu] + bias_f )
                       ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
                       vikter som LSTM l√§r sig

Exempel (f√∂renklat med 3 units):

  h_f√∂rra = [0.5, -0.2, 0.8]     (f√∂rra g√∂mda tillst√•ndet)
  x_nu    = [0.1, 0.9, -0.3]     (embedding av nuvarande tecken)

  [h, x]  = [0.5, -0.2, 0.8, 0.1, 0.9, -0.3]    (sl√• ihop: 6 v√§rden)

  W_f √ó [h, x] + bias ‚Üí [1.2, -0.5, 0.3]         (viktad summa)

  sigmoid ‚Üí [0.77, 0.38, 0.57]   ‚Üê beslut per minnesposition
              ‚îÇ      ‚îÇ      ‚îÇ
              ‚îÇ      ‚îÇ      ‚îî‚îÄ "beh√•ll 57% av position 3"
              ‚îÇ      ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ "gl√∂m 62% av position 2"
              ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ "beh√•ll 77% av position 1"
```

Cellminnet multipliceras elementvis med grind-vektorn:
```
  C_nytt = C_gammalt √ó forget_gate + ny_info √ó input_gate
```

Input-grinden och output-grinden fungerar likadant ‚Äî egna vikter, samma princip.

### Parametrar i LSTM

Varje grind har vikter f√∂r **b√•de input (x) och f√∂rra tillst√•ndet (h)**, plus bias:

```
En grind:  input_dim √ó units  +  units √ó units  +  units
           (vikter f√∂r x)        (vikter f√∂r h)     (bias)
```

LSTM har **4 upps√§ttningar vikter** (forget, input, cell-kandidat, output):

```
I v√•r Shakespeare-modell: Embedding(64) ‚Üí LSTM(128)

  input_dim = 64,  units = 128

  Per grind:  64 √ó 128  +  128 √ó 128  +  128  =  24 704
  Totalt:     4 √ó 24 704 = 98 816 parametrar
```

J√§mf√∂r med `model_text.summary()` ‚Äî st√§mmer det?

### Sammanfattning: Dense vs LSTM

```
Dense:   Alla inputs ‚Üí alla outputs (ingen ordning, inget minne)
         Bra f√∂r: tabelldata, klassificering efter Flatten

LSTM:    L√§ser ett element i taget, b√§r med sig minne
         Bra f√∂r: text, tidsserier, musik ‚Äî allt d√§r ordningen spelar roll
```

## Embedding - Ord till vektorer

### Problemet: n√§tverk f√∂rst√•r inte text

Neurala n√§tverk jobbar med tal, inte ord. Vi beh√∂ver ett s√§tt att omvandla varje ord till en vektor av tal som n√§tverket kan r√§kna med.

### En naiv l√∂sning: one-hot encoding

Vi *skulle* kunna one-hot-encoda varje ord, precis som vi gjort med kategorier tidigare:

```
"cat" ‚Üí [1, 0, 0, 0, ..., 0]    (10 000 element ‚Äî ett per unikt ord)
"dog" ‚Üí [0, 1, 0, 0, ..., 0]
"the" ‚Üí [0, 0, 1, 0, ..., 0]
```

Problemet: vektorerna s√§ger ingenting om **relationer**. "cat" och "dog" √§r lika olika som "cat" och "the". Dessutom blir vektorerna enorma om vi har tusentals ord i vokabul√§ret.

### Embedding: en inl√§rningsbar uppslagstabell

`Embedding` l√∂ser b√•da problemen. Den √§r egentligen bara en **viktmatris** ‚Äî en tabell d√§r varje rad √§r en kort, t√§t vektor som representerar ett ord:

```
Embedding(vocab_size=10000, embedding_dim=128)

                           128 tal per ord
                    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
  Index 0 ("the"):  ‚îÇ  0.12  -0.45   0.78  0.33 ... ‚îÇ  ‚Üê rad 0
  Index 1 ("cat"):  ‚îÇ -0.33   0.91   0.02  0.15 ... ‚îÇ  ‚Üê rad 1
  Index 2 ("dog"):  ‚îÇ -0.28   0.85   0.08  0.19 ... ‚îÇ  ‚Üê rad 2  (n√§ra "cat"!)
    ...              ‚îÇ  ...    ...    ...   ...       ‚îÇ
  Index 9999:        ‚îÇ  0.08   0.34  -0.51  0.72 ... ‚îÇ  ‚Üê rad 9999
                    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò

  Matrisstorlek: 10 000 rader √ó 128 kolumner = 1 280 000 parametrar
```

### Hur det fungerar steg f√∂r steg

```
Input-mening:    "the cat sat"

Steg 1: Omvandla ord till index (via en ordlista)
  "the" ‚Üí 0,  "cat" ‚Üí 1,  "sat" ‚Üí 45

Steg 2: Sl√• upp varje index i tabellen
  Index 0  ‚Üí [ 0.12, -0.45,  0.78, ...,  0.33]    (rad 0)
  Index 1  ‚Üí [-0.33,  0.91,  0.02, ...,  0.15]    (rad 1)
  Index 45 ‚Üí [ 0.56, -0.12, -0.67, ...,  0.44]    (rad 45)

Output: en matris med 3 rader √ó 128 kolumner (en vektor per ord)
```

Det √§r allt! Embedding √§r bara: **index ‚Üí sl√• upp rad i tabell ‚Üí vektor**.

### Vikterna l√§rs under tr√§ning

Det smarta: vektorerna i tabellen √§r **vikter som n√§tverket l√§r sig** under tr√§ning, precis som vikterna i Dense-lager. N√§tverket l√§r sig att placera ord som anv√§nds i liknande sammanhang **n√§ra varandra** i vektorrummet:

```
F√∂re tr√§ning (slumpm√§ssiga):       Efter tr√§ning (meningsfulla):

  "cat" ‚Üí [0.52, -0.31, ...]        "cat" ‚Üí [ 0.8,  0.3, ...]
  "dog" ‚Üí [0.11,  0.87, ...]        "dog" ‚Üí [ 0.7,  0.4, ...]  ‚Üê n√§ra "cat" (b√•da djur)
  "the" ‚Üí [-0.44, 0.02, ...]        "the" ‚Üí [-0.5, -0.6, ...]  ‚Üê l√•ngt bort (annat slags ord)
  "car" ‚Üí [0.73, -0.65, ...]        "car" ‚Üí [-0.2,  0.1, ...]  ‚Üê helt annan riktning
```

Ber√∂mda word embeddings som Word2Vec och GloVe har visat att man till och med kan r√§kna med vektorerna:
```
  king - man + woman ‚âà queen
```

### I v√•r Shakespeare-modell: tecken ist√§llet f√∂r ord

Samma princip fungerar p√• **vilken niv√• som helst**. I Shakespeare-modellen anv√§nder vi Embedding p√• **teckenniv√•** ‚Äî varje bokstav och skiljetecken f√•r en egen vektor:

```
Embedding(vocab_size=39, embedding_dim=64)

  39 unika tecken (a-z, mellanslag, punkt, etc.) √ó 64-dimensionell vektor

  "t" ‚Üí index 33 ‚Üí [-0.21,  0.55, -0.08, ...,  0.33]
  "h" ‚Üí index 21 ‚Üí [ 0.44, -0.12,  0.91, ..., -0.67]
  "e" ‚Üí index 18 ‚Üí [ 0.78,  0.03, -0.45, ...,  0.12]

  Parametrar: 39 √ó 64 = 2 496
```

Vi anv√§nder tecken ist√§llet f√∂r ord h√§r eftersom Shakespeare-texten har ett begr√§nsat alfabet, och vi vill att modellen ska kunna generera text bokstav f√∂r bokstav.

### Parametrar

Embedding har **inga bias** ‚Äî bara vikttabellen:

```
Parametrar = vocab_size √ó embedding_dim
```

J√§mf√∂r med `model_text.summary()` ‚Äî st√§mmer 2 496?

### Embedding vs One-hot

| | One-hot | Embedding |
|---|---|---|
| Vektorstorlek | vocab_size (kan bli enormt) | valfritt, t.ex. 64 eller 128 |
| Relationer | inga ‚Äî alla ord lika olika | l√§r sig likheter |
| Parametrar | 0 (fast kodning) | vocab_size √ó dim |
| Anv√§nds av | enklare modeller | LSTM, Transformers, etc. |

---

## √ñvning 6: Textgenerering - Shakespeare-bot

In [None]:
# Ladda Shakespeare-text
path = keras.utils.get_file('shakespeare.txt',
    'https://storage.googleapis.com/download.tensorflow.org/data/shakespeare.txt')
text = open(path).read().lower()[:100000]  # F√∂rsta 100k tecken

print(f"Textl√§ngd: {len(text):,} tecken")
print(f"\nExempel:\n{text[:300]}")

In [None]:
# F√∂rbered data
chars = sorted(set(text))
char_to_idx = {c: i for i, c in enumerate(chars)}
idx_to_char = {i: c for i, c in enumerate(chars)}

print(f"Unika tecken: {len(chars)}")

# Skapa sekvenser: givet 40 tecken, vad √§r n√§sta?
SEQ_LEN = 40
sequences, targets = [], []

for i in range(0, len(text) - SEQ_LEN, 3):
    sequences.append([char_to_idx[c] for c in text[i:i+SEQ_LEN]])
    targets.append(char_to_idx[text[i+SEQ_LEN]])

X_text = np.array(sequences)
y_text = keras.utils.to_categorical(targets, len(chars))

print(f"Tr√§ningssekvenser: {len(X_text):,}")

In [None]:
# LSTM-modell
model_text = keras.Sequential([
    layers.Input(shape=(SEQ_LEN,)),
    layers.Embedding(len(chars), 64),  # Tecken ‚Üí vektor
    layers.LSTM(128),  # Sekvens ‚Üí en vektor (med minne)
    layers.Dense(len(chars), activation='softmax')  # ‚Üí n√§sta tecken
])

model_text.compile(optimizer='adam', loss='categorical_crossentropy')
model_text.summary()

In [None]:
print("Tr√§nar Shakespeare-bot...")
model_text.fit(X_text, y_text, batch_size=128, epochs=10, verbose=1)

In [None]:
def generate(seed, length=300, temperature=0.7):
    """Generera text fr√•n en startfras."""
    result = seed.lower()
    
    for _ in range(length):
        x = np.array([[char_to_idx.get(c, 0) for c in result[-SEQ_LEN:]]])
        preds = model_text.predict(x, verbose=0)[0]
        
        # Temperature: l√§gre = s√§krare, h√∂gre = kreativare
        preds = np.log(preds + 1e-8) / temperature
        preds = np.exp(preds) / np.sum(np.exp(preds))
        
        next_char = idx_to_char[np.random.choice(len(chars), p=preds)]
        result += next_char
    
    return result

print("="*50)
print("Shakespeare-bot skriver:")
print("="*50)
print(generate("to be or not to be", length=400))

In [None]:
# Prova egen startfras!
print(generate("love is ", length=200))

---

### üß™ Uppgift 5: Temperature-parametern

I `generate()`-funktionen finns en parameter `temperature`. 

- **L√•g temperature (0.2):** Modellen v√§ljer n√§stan alltid det mest troliga tecknet ‚Üí mer "s√§ker" men tr√•kig text
- **H√∂g temperature (1.5):** Modellen v√§ljer mer slumpm√§ssigt ‚Üí kreativare men kan bli nonsens

**Din uppgift:** Testa olika temperatures och beskriv skillnaden!

In [None]:
seed = "the king"

print("=== Temperature 0.2 (s√§ker/tr√•kig) ===")
print(generate(seed, length=150, temperature=0.2))

print("\n=== Temperature 0.7 (balanserad) ===")
print(generate(seed, length=150, temperature=0.7))

print("\n=== Temperature 1.5 (kreativ/kaotisk) ===")
print(generate(seed, length=150, temperature=1.5))

# Vilken temperature tycker du ger b√§st resultat? Varf√∂r?

---

# Del 5: Neural Style Transfer

Kombinera inneh√•llet fr√•n en bild med stilen fr√•n en annan.

In [None]:
import tensorflow_hub as hub

# F√∂rtr√§nad style transfer-modell
style_model = hub.load('https://tfhub.dev/google/magenta/arbitrary-image-stylization-v1-256/2')
print("Style transfer-modell laddad!")

In [None]:
def load_img(path, max_dim=512):
    img = np.array(keras.utils.load_img(path))  # Ladda direkt fr√•n s√∂kv√§g
    scale = max_dim / max(img.shape[:2])
    img = keras.ops.image.resize(img, (int(img.shape[0]*scale), int(img.shape[1]*scale)))
    return (keras.ops.cast(img, 'float32') / 255.0)[np.newaxis, ...]

content = load_img('apple.jpg')
style = load_img('vangogh.jpg')

fig, axes = plt.subplots(1, 2, figsize=(12, 5))
axes[0].imshow(content[0]); axes[0].set_title('Inneh√•ll'); axes[0].axis('off')
axes[1].imshow(style[0]); axes[1].set_title('Stil (Starry Night)'); axes[1].axis('off')
plt.show()

In [None]:
# Magi!
result = style_model(content, style)[0]

plt.figure(figsize=(10, 10))
plt.imshow(result[0])
plt.title('Resultat!')
plt.axis('off')
plt.show()

In [None]:
# Prova med din egen bild!
from google.colab import files
from PIL import Image
import io

print("Ladda upp en bild att stilisera:")
uploaded = files.upload()

for filename in uploaded.keys():
    img_np = np.array(Image.open(io.BytesIO(uploaded[filename])).resize((512, 512))) / 255.0
    img = keras.ops.convert_to_tensor(img_np[np.newaxis, ...], dtype='float32')

    result = style_model(img, style)[0]

    fig, axes = plt.subplots(1, 2, figsize=(14, 7))
    axes[0].imshow(img[0]); axes[0].set_title('Original'); axes[0].axis('off')
    axes[1].imshow(result[0]); axes[1].set_title('Stiliserad'); axes[1].axis('off')
    plt.show()

---

# Sammanfattning

## Nya lagertyper

| Lager | Vad det g√∂r | Anv√§nds f√∂r |
|-------|-------------|-------------|
| **Input** | Definierar formen p√• indata | Alltid f√∂rst i modellen |
| **Dense** | Alla inputs kopplas till alla outputs | Klassificering, regression |
| **Conv2D** | Litet filter som glider √∂ver bilden | Bilder - hittar lokala m√∂nster |
| **MaxPooling2D** | Krymper bilden (tar max i varje ruta) | Bilder - minskar storlek |
| **Flatten** | 2D ‚Üí 1D | Koppla ihop CNN med Dense |
| **GlobalAveragePooling2D** | Genomsnitt per kanal | Koppla f√∂rtr√§nade modeller |
| **Embedding** | Ord/tecken ‚Üí vektor | Text - representation |
| **LSTM** | Sekvens med minne | Text, ljud, tidsserier |
| **Dropout** | St√§nger av slumpm√§ssiga neuroner | F√∂rhindra overfitting |

## Vad du l√§rt dig

1. **Keras-syntax** f√∂r samma problem du redan kunde (bilklassificering)
2. **ReLU och Adam** - moderna alternativ till sigmoid och SGD
3. **CNN** - specialiserat f√∂r bilder (Rock Paper Scissors, Kaffeb√∂nor, Sign Language)
4. **Dropout** - f√∂rhindra overfitting
5. **Transfer Learning** - anv√§nd f√∂rtr√§nade modeller (Katter vs Hundar)
6. **LSTM** - hantera sekvenser (Shakespeare-bot)
7. **Style Transfer** - kreativa till√§mpningar

Allt bygger p√• samma grund: vikter, bias, aktivering, backpropagation!