# Et første eksempel på maskinlæring

Velkommen til kursets aller første eksempel! I denne Jupyter notebooken skal vi bruke maskinlæring for å analysere to standard «benchmark»-datasett.

Du kan laste ned denne notebooken via kursets GitHub repo: https://github.com/alu042/DAT158ML.

> Du vil møte noen celler merket med «Din tur!» nedenfor. I disse er det meningen at du skal eksperimentere med koden.

## Data

Vi skal bruke et klassisk datasett: Iris

<centering>
<img width=60% src="./assets/iris.png">
</centering>

Fra sepal- og petal-lengder og -bredder (begerblad og kronblad) til en Iris-blomst skal vi predikere hvorvidt det er en Iris-Setosa, Iris-Versicolor eller en Iris-Virginica. 

Merk: å tilordne en klasse til hvert datapunkt kalles **klassifikasjon**. Vi skal lære mye mer om klassifikasjon neste uke! 

# Oppsett av ML-rammeverk

Gjennom hele kurset skal vi bruke <a href="https://www.datacamp.com/community/tutorials/python-numpy-tutorial">numpy</a> til numeriske beregninger, <a href="https://www.datacamp.com/community/tutorials/pandas-tutorial-dataframe-python">pandas</a> og <a href="https://www.datacamp.com/community/tutorials/matplotlib-tutorial-python">matplotlib</a> til å lage plots og figurer. *Du blir nødt til å gjøre deg godt kjent med disse!* Du finner info i lenkene over, samt i DAT158 Del 0 på Canvas. Om du ikke har fullført Del 0, gjør det før du går i gang med denne notebooken!

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Du bør ha med følgende i alle dine notebooks. 

In [None]:
# For å automatisk reloade moduler definert i eksterne filer:
%reload_ext autoreload
%autoreload 2

# For å vise plots direkte i notebooks:
%matplotlib inline

**Din tur!: ** Les mer om disse og andre *magic* commands ved å skrive `%magic`. Du kan fjerne kommentar-tegnet `#` i cellen nedenfor og kjøre cellen med `Shift+Enter`.

In [None]:
#%magic

For selve maskinlæringen i DAT158 skal vi stort sett bruke `scikit-learn`: 

In [None]:
import sklearn

# Les inn og utforsk data

Iris er et standard benchmark-datasett og kommer derfor innebygget i scikit-learn:

In [None]:
from sklearn.datasets import load_iris

**Nyttig tips:** Ved å plassere spørsmålstegn foran et Python-objekt i Jupyter får du opp dokumentasjonen. (Du kan også trykke `Shift+Tab` inne i cellen. Med to spørsmålstegn får du kildekoden).

In [None]:
#?load_iris

In [None]:
#??load_iris

In [None]:
iris_dataset = load_iris()

Du finner en beskrivelse av Iris-datasettet med nøkkelen `DESCR`:

In [None]:
#print(iris_dataset['DESCR'])

Liste av tilgjengelige *features* i datasettet:

In [None]:
print(f"Features: {iris_dataset['feature_names']}")

Liste av tilgjengelige *labels*:

In [None]:
print(f"Labels: {iris_dataset['target_names']}")

Hvor mye data har vi?

In [None]:
iris_dataset['data'].shape

Vi har 150 rader og 4 søyler med data. Hver rad av data kalles et *sample*. Hver søyle en *feature* eller en *egenskap*.

Det er veldig ofte hensiktsmessig å bruke `Pandas` når en arbeider med tekst-baserte datasett. I det følgende samler vi treningsdata i en `Pandas dataframe` (et tabell-format):

In [None]:
iris_df = pd.DataFrame(iris_dataset['data'], columns=iris_dataset['feature_names'])

Her er de første ti radene:

In [None]:
iris_df.head(10)

## Visualiser data

Vi kan bruke Pandas til å lage **scatter plots** for hvert par av søyler i dataframe-en. Vi farger dottene med hvilken klasse de tilhører:

In [None]:
pd.plotting.scatter_matrix(iris_df, c=iris_dataset['target'], figsize=(15,15), marker='o', s=60)
plt.show()

Diagonalen viser histogram til hver feature. 

Vi observerer at fargene er godt adskilt. **Å få en maskinlæringsmodell til å skille klassene fra hverandre virker derfor lovende!**

Vi kan velge å trene en modell på én eller flere av disse features. La oss bruke `sepal length` og `sepal width`:

In [None]:
# Vi plukker ut 0-te og 1-te rad i datasettet da disse inneholder sepal-lengde og -bredde:
X = iris_dataset['data'][:, [0, 1]]
y = iris_dataset['target']

In [None]:
X.shape

Vi har altså tilgang til to målinger (sepal lengde og bredde) for 150 blomster. Fra egenskapene i X skal vår modell kunne predikere korrekt label y.

Her er de første fem målingene, samt tilhørende labels:

In [None]:
print(X[:5])

In [None]:
print(y[:5])

0 betyr Setaosa, 1 er Versicolor og 2 er Virginica (husk at Python indekserer lister fra 0):

In [None]:
print(iris_dataset['target_names'])

# Trenings- og testdata

Vi skal bygge en maskinlæringsmodell som skal være i stand til å predikere Iris-art *for nye målinger som kommer inn*. For å *simulere* slike målinger setter vi til side et **testdata-sett**, en mengde data som ikke blir brukt til å bygge modellen. Om vi trener modellen ved å bruke alle data vi allerede har vil den (typisk) huske utenat alle data, og ikke være i stand til å predikere korrekt på *nye* data som kommer inn. Den vil **generalisere dårlig**.

Vi bruker **treningsdata til å konstruere modellen** og **testdata til å evaluere modellen.**

Vi bruker Scikit-learns `train_test_split`-funksjon til å sette til side 25% av data (med tilhørende labels) som testdata: 

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

In [None]:
print(f'Treningsdata: {X_train.shape}\nTestdata: {X_test.shape}')

I det følgende samler vi treningsdata i en dataframe:

In [None]:
iris_df = pd.DataFrame(X_train, columns=iris_dataset['feature_names'][0:2])

In [None]:
iris_df.head(10)

# Maskinlæringsmodell

Det finnes mange ulike maskinlæringsmodeller for klassifikasjon (og vi skal bli kjent med en rekke slike i løpet av kurset). 

En av de aller mest fleksible (og beste!) typen modeller er såkalte tre-baserte modeller. For eksempel **random forests**, basert på såkalte **beslutningstrær**. Vi kommer tilbake til dette senere i kurset (kap. 6 og 7 i læreboken). Om du ikke vil vente kan du lese mer om random forests her: http://scikit-learn.org/stable/modules/ensemble.html#forests-of-randomized-trees, og om beslutningstrær her: http://scikit-learn.org/stable/modules/tree.html.

Foreløpig bruker vi random forest som en «black box», uten nærmere forklaring:

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
rf = RandomForestClassifier()

Klassifikasjonsmodellene i scikit-learn er Python klasser, og kommer alltid med `fit` og `predict`-metoder. Med `fit` tilpasses modellen data (i.e. modellen *trenes* på data), mens `predict` brukes til å teste modellen på validerings- og test-data.

In [None]:
rf.fit(X_train, y_train)

Som du ser er det en rekke parametre man kan velge i en `RandomForestClassifier` (vi bruker default-verdier).

In [None]:
y_pred = rf.predict(X_test)

Modellen har nå predikert labels på test-data, og vi kan sjekke hvor god prediksjonen ble. *Nøyaktigheten* (*accuracy*) til prediksjonen er et naturlige mål å bruke: altså antall korrekte prediksjoner delt på totalt antall prediksjoner. 

Vi skal lære mange andre måter å evaluere maskinlæringsmodeller i løpet av kurset.

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
accuracy_score(y_test, y_pred)

**Din tur!**
- Du kan også bruke `rf.score` til å finne accuracy. Forsøk dette. 
- Forsøk å endre på default-parametre i `RandomForestClassifier`. Se om du får bedre accuracy. Hint: forsøk høyere`n_estimators`. Vi skal lære mer om hva parametrene betyr senere i kurset.
- Forsøk å bruke alle fire features i modellen, altså petal og sepal lengder og bredder. Hvor godt gjør random forest det da?
- Bytt ut `RandomForestClassifier` med en annen klassifikator. For eksempel `SGDClassifier`. Hint: `from sklearn.linear_model import SGDClassifier`.

# Hele koden samlet:

Her er koden vi behøvde for å laste inn data, velge features, splitte opp i trenings- og testdata, trene en modell og predikere. 

In [None]:
# Last inn data og del opp i treningsdata og labels
from sklearn.datasets import load_iris
iris_dataset = load_iris()
X = iris_dataset['data'][:, [0, 1]]
y = iris_dataset['target']

# Splitt opp i trenings- og testdata
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Importer og tren en maskinlæringsmodell
rf = RandomForestClassifier()
rf.fit(X_train, y_train)

# Prediker på testdata
y_pred = rf.predict(X_test)

# Evaluer modellen
accuracy_score(y_test, y_pred)

# Et annet eksempel

## Data

La oss gjenta prosedyren på et annet benchmark-datasett: **Diabetes Data Set**. Beskrivelse av datasettet samt lenke til data er tilgjengelig her: https://archive.ics.uci.edu/ml/datasets/diabetes. Vi laster heller ned data fra https://assets.datacamp.com/production/course_1939/datasets/diabetes.csv, da noe av tilretteleggingen allerede er gjort for oss i denne versjonen (data er ferdig pakket ut og samlet i en csv-fil). 

Når en arbeider med maskinlæring er mye av utfordringen å tilrettelegge data og designe gode features. Vi skal snakke mye om dette i DAT158, allerede i Lab 1. Men vi hopper over dette nå ved å bruke godt tilrettelagte (og dermed ikke særlig realistiske) datasett.

Vi laster ned data ved å bruke `urllib`, og lagrer filen i katalogen `./data`

In [None]:
import urllib.request

In [None]:
url = 'https://assets.datacamp.com/production/course_1939/datasets/diabetes.csv'

In [None]:
urllib.request.urlretrieve(url, 'data/diabetes.csv')

In [None]:
%ls data

Som vanlig bruker vi Pandas til å se på og prosessere tekstdata:

In [None]:
diabetes = pd.read_csv('data/diabetes.csv')

In [None]:
diabetes.head()

Vi ser at vi har åtte feature-søyler og én target-søyle (diabetes).

Vi kan få mer informasjon om data med `describe` og `info`:

In [None]:
diabetes.describe()

In [None]:
diabetes.info()

Alt er altså tall, og alle samples inneholder verdier for alle egenskaper (alle søylene har 768 ikke-NaN-verdier). 

Som isted kan vi visualisere sammenhengene mellom features i et plot farget med hvorvidt de tilhører en person med diabetes eller ikke:

In [None]:
pd.plotting.scatter_matrix(diabetes, c=diabetes['diabetes'], figsize=(15,15), marker='o', s=60)
plt.show()

Vi observerer at dette virker som et vanskeligere problem enn Iris. Allikevel, vi følger samme prosedyre:

Denne gangen skal vi bruke alle features i våre prediksjoner. Vi lar derfor `X` bestå av alle søylene utenom `diabetes`:

In [None]:
X = diabetes[diabetes.columns[0:-1]]           

In [None]:
X.head()

Target-variablen ligger i `diabetes`-søylen. `1` betyr diabetes, `0` ikke diabetes.

In [None]:
y = diabetes['diabetes']

In [None]:
y.head()

Vi splitter opp i trenings- og testdata:

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

... og trener en Random Forest-modell:

In [None]:
rf = RandomForestClassifier(random_state=42) 
rf.fit(X_train, y_train)

Vi kan så predikere på testdata og evaluere accuracy:

In [None]:
y_pred = rf.predict(X_test)

In [None]:
accuracy_score(y_test, y_pred)

Med denne modellen kan vi altså predikere diabetes fra disse features med en nøyaktighet på ca. 74%.

**Viktig!** Merk at fremgangsmåten på diabetes-data var essensielt den samme som for Iris! 

Dette var koden for Iris:

In [None]:
# Last inn data og del opp i treningsdata og labels
from sklearn.datasets import load_iris
iris_dataset = load_iris()
X = iris_dataset['data'][:, [0, 1]]
y = iris_dataset['target']

# Splitt opp i trenings- og testdata
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Importer og tren en maskinlæringsmodell
rf = RandomForestClassifier()
rf.fit(X_train, y_train)

# Prediker på testdata
y_pred = rf.predict(X_test)

# Evaluer modellen
accuracy_score(y_test, y_pred)

Her er koden for diabetes samlet:

In [None]:
# Last inn data og del opp i treningsdata og labels
diabetes = pd.read_csv('data/diabetes.csv')
X = diabetes[diabetes.columns[0:-1]] 
y = diabetes['diabetes']

# Splitt opp i trenings- og testdata
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Importer og tren en maskinlæringsmodell
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)

# Prediker på testdata
y_pred = rf.predict(X_test)

# Evaluer modellen
accuracy_score(y_test, y_pred)

**Eneste forskjellen er at vi har byttet ut data!** 

> Maskinlæringsmodeller er svært generiske: samme modell kan brukes til mange ulike oppgaver!

## Videre studie av diabetes

Med Random Forests kan en få ut hvilke features som var viktigst for prediksjonene, såkalt **feature importance**. Vi skal lære mer om dette senere. 

In [None]:
importances = rf.feature_importances_

In [None]:
importances

In [None]:
# Finn indeks til de med høyest importance, sortert fra størst til minst:
indices = np.argsort(importances)[::-1]

In [None]:
for f in range(X.shape[1]): 
    print(f'{X.columns[indices[f]]}: {np.round(importances[indices[f]],2)}')

Det er altså glukose-nivået som har størst forklaringsverdi, etterfulgt av BMI og alder.

**Din tur!**
- Hent ut feature importances for Iris-prediksjone. Er det sepal-lengde eller -bredde som gir mest informasjon?
- Konstruer en annen random forest ved å bytte ut `random_state`. Hva skjer med accuracy? Hva skjer med feature importances? 
- Forsøk å lage en bedre random forest-modell ved å endre på parametre. Om du ønsker et *dypdykk*, bruk `grid_search` (http://scikit-learn.org/stable/modules/grid_search.html) for å finne gode parametre. 
- Forsøk en annen klassifikasjonsmodell. 
- **Ekstra utfordrende oppgave**: Her finner du et annet godt tilrettelagt datasett: https://assets.datacamp.com/production/course_1939/datasets/auto.csv. Last ned dette og gjenta prosessen. Denne gangen er målet å predikere hvilket land en bil kommer fra gitt en rekke features.