[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/arvidl/ELMED219-2026/blob/main/Lab0-ML/notebooks/01-Enkle_eksempler.ipynb)

Versjon 27.11.2025, A. S. Lundervold / A. Lundervold

# Et f√∏rste eksempel p√• maskinl√¶ring

Velkommen til ditt f√∏rste praktiske m√∏te med maskinl√¶ring! 

I denne Jupyter Notebook skal vi bruke maskinl√¶ring til √• studere noen klassiske benchmark-datasett. M√•let er √• gi deg en konkret forst√•else av hva maskinl√¶ring egentlig er, og hvordan det fungerer i praksis.

**Hva er maskinl√¶ring?**

Tradisjonelt programmerer vi datamaskiner ved √• gi dem eksplisitte instruksjoner: "gj√∏r dette, s√• dette, s√• dette". I maskinl√¶ring gj√∏r vi noe fundamentalt annerledes ‚Äì vi gir datamaskinen *data* og lar den *l√¶re* m√∏nstre fra disse dataene. Algoritmen finner selv ut hvordan den skal l√∏se oppgaven basert p√• eksemplene vi gir den.

**Hvorfor er dette viktig i medisin?**

Tenk deg at du skal lage et program som kan gjenkjenne kreftceller i mikroskopbilder. Det ville v√¶re ekstremt vanskelig √• skrive eksplisitte regler for hva som gj√∏r en celle til en kreftcelle. Men med maskinl√¶ring kan vi vise algoritmen tusenvis av eksempler p√• normale og unormale celler, og la den l√¶re √• skille mellom dem selv.

---

> üí° **Tips:** Du finner celler merket "Din tur!" nedenfor. Disse er ment for at du skal eksperimentere med koden selv.

> üîß **R√•d:** Modifiser gjerne koden, endre parametere, og utforsk p√• egenh√•nd! Praktisk utforskning gir dypere forst√•else.

In [1]:
# ============================================================================
# MILJ√òSJEKK
# ============================================================================
# Denne cellen sjekker om vi kj√∏rer i Google Colab eller Kaggle.
# Dette er viktig fordi noen deler av koden m√• tilpasses ulike milj√∏er.
# Vi gj√∏r denne sjekken i starten av alle notebooks i kurset.

try:
    import google.colab
    colab = True
    print("‚úì Kj√∏rer i Google Colab")
except:
    colab = False
    print("‚úó Kj√∏rer IKKE i Google Colab")

import os
kaggle = os.environ.get('KAGGLE_KERNEL_RUN_TYPE', '')
if kaggle:
    print("‚úì Kj√∏rer i Kaggle")
else:
    print("‚úó Kj√∏rer IKKE i Kaggle")

‚úó Kj√∏rer IKKE i Google Colab
‚úó Kj√∏rer IKKE i Kaggle


## V√•rt f√∏rste datasett: Iris-blomster

For √• komme i gang trenger vi data. Vi starter med et klassisk og mye studert datasett: **Iris-blomsterdatasettet** (https://archive.ics.uci.edu/ml/datasets/iris).

### Hvorfor akkurat Iris-datasettet?

1. **Enkelt og oversiktlig**: Bare 150 observasjoner med 4 egenskaper hver
2. **Godt forst√•tt**: Brukt i maskinl√¶ring siden 1936!
3. **Tydelig demonstrasjon**: Viser klassifiseringsteknikker p√• en forst√•elig m√•te
4. **Visuelt intuitivt**: Vi kan faktisk *se* forskjellene mellom klassene

Senere i kurset skal vi se p√• mer kompliserte (og interessante!) datasett, inkludert medisinske data.

<img src="https://raw.githubusercontent.com/HVL-ML/DAT158/main/notebooks/assets/iris.png" width="600">

**Figur 1: De tre Iris-artene i datasettet.** *Fra venstre: Iris setosa, Iris versicolor og Iris virginica. Legg merke til de synlige forskjellene i blomstenes form og st√∏rrelse ‚Äì dette er egenskapene vi skal bruke for √• l√¶re datamaskinen √• skille dem.*

### Oppgaven: Klassifisering

M√•let er √• **predikere** hvilken Iris-art en blomst tilh√∏rer, basert p√• m√•linger av:
- **Begerblad** (sepal): lengde og bredde
- **Kronblad** (petal): lengde og bredde

De tre artene er:
- *Iris setosa*
- *Iris versicolor*  
- *Iris virginica*

> üìö **Vokabular:** √Ö tilordne hvert datapunkt til en *klasse* kalles **klassifisering** (classification). Dette er en av de vanligste oppgavene i maskinl√¶ring.

> ü§î **Refleksjon:** Hvorfor skulle vi √∏nske at en maskin klassifiserer blomster for oss? Kan du tenke deg praktiske anvendelser der klassifisering er viktig? Tenk for eksempel p√• medisinsk diagnostikk, spam-filtrering, eller ansiktsgjenkjenning.

---

# Sett opp maskinl√¶ringsrammeverket

F√∏r vi kan begynne med selve maskinl√¶ringen, m√• vi importere de n√∏dvendige verkt√∏yene. I programmering er et **bibliotek** (library) en samling av ferdiglagde verkt√∏y som hjelper oss med spesifikke oppgaver uten at vi m√• bygge alt fra bunnen av.

### De viktigste bibliotekene vi bruker:

| Bibliotek | Hva det brukes til |
|-----------|--------------------|
| **NumPy** | Numeriske beregninger, matriser og vektorer |
| **Pandas** | H√•ndtering av tabelldata (som Excel, bare kraftigere!) |
| **Matplotlib** | Visualiseringer og plotting |
| **scikit-learn** | Maskinl√¶ringsalgoritmer |

Gj√∏r deg kjent med disse ‚Äì du kommer til √• bruke dem mye!

In [None]:
# ============================================================================
# IMPORTER N√òDVENDIGE BIBLIOTEKER
# ============================================================================

# NumPy: Fundamentalt bibliotek for numeriske beregninger i Python
# Vi bruker aliaset 'np' for kortere kode
import numpy as np

# Pandas: Kraftig verkt√∏y for datamanipulering og analyse
# Perfekt for tabelldata (tenk: Excel p√• steroider)
import pandas as pd

# Matplotlib: Standardbibliotek for visualisering i Python
# pyplot-modulen gir oss et MATLAB-lignende grensesnitt
import matplotlib.pyplot as plt

print("‚úì Alle grunnleggende biblioteker importert!")

In [None]:
# ============================================================================
# KONFIGURER ARBEIDSMILJ√òET
# ============================================================================

# Sett random seed for reproduserbarhet
# Dette sikrer at alle som kj√∏rer denne notebooken f√•r samme resultater
# Tallet 42 er vilk√•rlig (men popul√¶rt i datavitenskap!)
np.random.seed(42)

# Konfigurer Matplotlib til √• vise figurer direkte i notebooken
%matplotlib inline

print("‚úì Milj√∏et er konfigurert og klart!")

### scikit-learn: V√•rt maskinl√¶ringsbibliotek

`scikit-learn` er det mest brukte Python-biblioteket for maskinl√¶ring. Det tilbyr:

- **Ferdiglagde algoritmer** for klassifisering, regresjon, clustering, m.m.
- **Enkelt grensesnitt**: Alle modeller f√∏lger samme m√∏nster (fit ‚Üí predict)
- **God dokumentasjon**: https://scikit-learn.org

In [None]:
# Importer scikit-learn hovedbiblioteket
import sklearn

# Vis hvilken versjon vi bruker (nyttig for reproduserbarhet)
print(f"scikit-learn versjon: {sklearn.__version__}")

---

# Last inn, utforsk og forbered dataene

I denne seksjonen skal vi:

1. **Laste** datasettet
2. **Utforske** dets egenskaper (features) og merkelapper (labels)
3. **Forst√•** strukturen
4. **Konvertere** til Pandas DataFrame for enklere manipulering

In [None]:
# Importer funksjonen for √• laste Iris-datasettet
from sklearn.datasets import load_iris

# Last inn datasettet
iris_dataset = load_iris()

print("‚úì Iris-datasettet er lastet inn!")
print(f"  Datasettet inneholder {iris_dataset['data'].shape[0]} observasjoner")

In [None]:
# Vis beskrivelse av datasettet
print(iris_dataset['DESCR'])

In [None]:
# Utforsk egenskapene (features)
features = iris_dataset['feature_names']
print("Egenskaper (features) i datasettet:")
print("="*50)
for i, feature in enumerate(features, 1):
    print(f"  {i}. {feature}")

In [None]:
# Utforsk merkelappene (labels/targets)
print("Klasser (target labels) i datasettet:")
print("="*50)
for i, name in enumerate(iris_dataset['target_names']):
    print(f"  Klasse {i}: {name}")

In [None]:
# Lag en Pandas DataFrame for enklere h√•ndtering
iris_df = pd.DataFrame(
    iris_dataset['data'],
    columns=features
)
iris_df['label'] = iris_dataset['target']

print("De 10 f√∏rste observasjonene:")
iris_df.head(10)

---

# Visualiser dataene

Visualisering av data handler ikke bare om √• lage pene figurer ‚Äì det hjelper oss √• **forst√•** sammenhengene i dataene.

In [None]:
# ============================================================================
# HISTOGRAM AV √âN EGENSKAP
# ============================================================================

feat = 'sepal length (cm)'

fig, ax = plt.subplots(figsize=(10, 6))
iris_df[feat].hist(ax=ax, bins=15, edgecolor='black', alpha=0.7)
ax.set_xlabel(feat, fontsize=12)
ax.set_ylabel('Frekvens (antall blomster)', fontsize=12)
ax.set_title(f'Histogram av {feat} for alle Iris-blomster', fontsize=14)
ax.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

print("\nFIGUR 2: Histogram av begerblad-lengde")
print("Tolkning: Histogrammet viser fordelingen av begerblad-lengde")
print("for alle 150 Iris-blomster. De fleste har lengde mellom 5-7 cm.")

In [None]:
# ============================================================================
# SPREDNINGSPLOTT: BEGERBLAD LENGDE VS BREDDE
# ============================================================================

fig, ax = plt.subplots(figsize=(10, 8))

colors = ['red', 'blue', 'green']
markers = ['o', 's', '^']
names = iris_dataset.target_names

for label in [0, 1, 2]:
    mask = iris_df['label'] == label
    ax.scatter(
        x=iris_df[mask]['sepal length (cm)'],
        y=iris_df[mask]['sepal width (cm)'],
        color=colors[label],
        label=names[label].capitalize(),
        s=80,
        marker=markers[label],
        alpha=0.7,
        edgecolors='black',
        linewidth=0.5
    )

ax.set_xlabel('Begerblad-lengde (cm)', fontsize=12)
ax.set_ylabel('Begerblad-bredde (cm)', fontsize=12)
ax.set_title('Spredningsplott: Begerblad lengde vs. bredde', fontsize=14)
ax.legend(title='Art', fontsize=10)
ax.grid(alpha=0.3)
plt.tight_layout()
plt.show()

print("\nFIGUR 3: Spredningsplott av begerblad-dimensjoner")
print("Tolkning: Iris setosa (r√∏d) skiller seg tydelig ut med kortere,")
print("bredere begerblad. Versicolor og virginica overlapper mer.")

In [None]:
# ============================================================================
# SCATTER MATRIX: ALLE KOMBINASJONER
# ============================================================================

pd.plotting.scatter_matrix(
    iris_df[features],
    c=iris_df['label'],
    figsize=(14, 14),
    marker='o',
    s=60,
    alpha=0.7,
    diagonal='hist'
)
plt.suptitle('Scatter Matrix: Alle par av Iris-egenskaper', fontsize=16, y=1.02)
plt.tight_layout()
plt.show()

print("\nFIGUR 4: Scatter matrix")
print("Tolkning: Kronblad-m√•linger (petal) viser best separasjon mellom arter.")
print("Dette lover godt for maskinl√¶ring!")

---

# Tren en maskinl√¶ringsmodell

In [None]:
# ============================================================================
# VELG EGENSKAPER OG MERKELAPPER
# ============================================================================

# For demonstrasjon bruker vi bare begerblad-m√•l (2 av 4 egenskaper)
X = iris_dataset['data'][:, [0, 1]]
y = iris_dataset['target']

print(f"X (egenskaper): {X.shape} - {X.shape[0]} blomster med {X.shape[1]} m√•linger")
print(f"y (merkelapper): {y.shape} - {y.shape[0]} klasseetiketter")

In [None]:
# ============================================================================
# DEL DATA I TRENING OG TEST
# ============================================================================

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, random_state=42
)

print(f"Treningsdata: {X_train.shape[0]} observasjoner (75%)")
print(f"Testdata:     {X_test.shape[0]} observasjoner (25%)")

In [None]:
# ============================================================================
# OPPRETT OG TREN MODELLEN
# ============================================================================

from sklearn.ensemble import RandomForestClassifier

# Opprett modell med 100 beslutningstr√¶r
rf = RandomForestClassifier(n_estimators=100, random_state=42)

# Tren modellen p√• treningsdataene
rf.fit(X_train, y_train)

print("‚úì Modellen er trent!")

In [None]:
# ============================================================================
# EVALUER MODELLEN
# ============================================================================

from sklearn.metrics import accuracy_score

# Gj√∏r prediksjoner p√• testdata
y_pred = rf.predict(X_test)

# Beregn n√∏yaktighet
accuracy = accuracy_score(y_test, y_pred)

print(f"\nModellens n√∏yaktighet: {accuracy:.1%}")
print(f"‚Üí {int(accuracy * len(y_test))} av {len(y_test)} blomster klassifisert korrekt")

---

# Et annet eksempel: Diabetes-prediksjon

La oss anvende samme metodikk p√• et medisinsk datasett!

In [None]:
# ============================================================================
# LAST INN OG UTFORSK DIABETES-DATASETTET
# ============================================================================

url = 'https://assets.datacamp.com/production/course_1939/datasets/diabetes.csv'
diabetes = pd.read_csv(url)

print(f"‚úì Diabetes-data lastet inn! ({len(diabetes)} pasienter)")
diabetes.head()

In [None]:
# ============================================================================
# BYGG DIABETES-MODELL
# ============================================================================

# Velg egenskaper og merkelapper
X = diabetes[diabetes.columns[0:-1]]
y = diabetes['diabetes']

# Del i trening og test
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Tren Random Forest
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)

# Evaluer
y_pred = rf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print(f"\nDiabetes-modellens n√∏yaktighet: {accuracy:.1%}")

In [None]:
# ============================================================================
# FEATURE IMPORTANCE
# ============================================================================

importances = rf.feature_importances_
indices = np.argsort(importances)[::-1]

fig, ax = plt.subplots(figsize=(10, 6))
y_pos = np.arange(len(X.columns))
ax.barh(y_pos, importances[indices], align='center', color='steelblue', edgecolor='black')
ax.set_yticks(y_pos)
ax.set_yticklabels([X.columns[i] for i in indices])
ax.invert_yaxis()
ax.set_xlabel('Relativ viktighet', fontsize=12)
ax.set_title('Feature Importance for Diabetes-prediksjon', fontsize=14)
ax.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.show()

print("\nFIGUR 5: Feature importance")
print("Tolkning: Glukoseniv√• er viktigst, fulgt av BMI og alder.")
print("Dette stemmer med medisinsk kunnskap om diabetes-risikofaktorer!")

---

# Lag en interaktiv webapp med Gradio

In [None]:
# Installer Gradio om n√∏dvendig
if colab or kaggle:
    %pip install gradio

In [None]:
import gradio as gr

def predict_diabetes(age, bmi, glucose):
    """Predikerer diabetes basert p√• alder, BMI og glukoseniv√•."""
    mean_vals = diabetes.mean()
    input_data = np.array([
        mean_vals['pregnancies'], glucose, mean_vals['diastolic'], 
        mean_vals['triceps'], mean_vals['insulin'], bmi, 
        mean_vals['dpf'], age
    ]).reshape(1, -1)
    prediction = rf.predict(input_data)
    return "üî¥ Diabetiker" if prediction[0] == 1 else "üü¢ Ikke diabetiker"

iface = gr.Interface(
    fn=predict_diabetes,
    inputs=[
        gr.Slider(18, 80, 35, label="Alder (√•r)"),
        gr.Slider(15, 50, 25, label="BMI"),
        gr.Slider(50, 200, 100, label="Glukoseniv√• (mg/dL)")
    ],
    outputs=gr.Textbox(label="Prediksjon"),
    title="ü©∫ Diabetes-prediktor",
    description="‚ö†Ô∏è Kun for demonstrasjon - IKKE for medisinsk bruk!"
)

iface.launch(share=True)

---

# Oppsummering

I denne notebooken har vi:

‚úÖ L√¶rt hva maskinl√¶ring er

‚úÖ Utforsket Iris- og Diabetes-datasett

‚úÖ Visualisert data med histogrammer og scatter plots

‚úÖ Trent Random Forest-modeller

‚úÖ Evaluert modellenes n√∏yaktighet

‚úÖ Unders√∏kt feature importance

‚úÖ Laget en interaktiv webapp med Gradio

---

> üìö **Videre lesing:** scikit-learn.org | pandas.pydata.org | seaborn.pydata.org