# Google Colaboratory

---

Google Colaboratory er et gratis verktøy for maskinlæring utviklet av Google som gjør det mulig å jobbe med maskinlæring uten noe form for konfigurasjon. Koden kjøres i på virituell maskin dedikert til din konto. For mer informasjon se: https://research.google.com/colaboratory/faq.html. 

Google har flere eksempler på hvordan du bruker verktøyet. Du finner disse ved å besøke https://colab.research.google.com/notebooks/welcome.ipynb#recent=true og velge fanen "Examples".

### Google Colab

In [0]:
# Du kan skrive kommentarer

print("Du kan skrive vanlig Pythonkode")


# Eksempel - Iris

---


I dag skal vi jobbe med Iris-datasettet. Dette datasettet inneholder informasjon om ulike Iris-blomster. Det er viktig å forstå hva du skal jobbe med og oppfordrer derfor alle til lese litt om datasettet som det står skrevet om her: 

*   https://archive.ics.uci.edu/ml/datasets/iris
*   https://en.wikipedia.org/wiki/Iris_flower_data_set



## Forberedelser

### Last ned data

---

For å komme i gang er vi nødt til å tilgjengeliggjøre datasettet. Med enkle kommandoer kan man laste ned dataset som er publisert på nettet. Om du ønsker å bruke et datasett du har lokalt kan du laste opp dette under "Files" i margen til venstre. Vær oppmærksom på at dette vil blir borte når du har vært inaktiv en stund og din VM "resirkuleres".

In [0]:
!wget -q https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data -O iris.csv

In [0]:
# Vi kan kommentere som ellers i python. 
# "ls"-kommandoen viser innholdet i mappen vi er i. 
!ls

### Oppsett
---
Vi ønsker ikke å skrive all koden fra scratch, derfor importerer vi en noen biblioteker som har funksjonaliteten vi ønsker oss.

- sklearn = https://scikit-learn.org/
- pandas = https://pandas.pydata. org/

In [0]:
# Importerer nødvendige biblioteker
from sklearn import model_selection, metrics, svm
from pandas import read_csv
from pandas.plotting import radviz

# I supervised learning er hver input koblet til en fasit, også kalt "label".
# LabelEncoder brukes for å gjøre fasiten enklere å behandle.
from sklearn.preprocessing import LabelEncoder

### Les inn data
---
Bruk pandas-funksjonene vi importerte over til å lese inn csv-filen vi har lastet ned.


In [0]:
iris = read_csv("iris.csv", header=None)

## Preprossesering

### Utforsk data
---
Når man jobber med maskinlæring er det essensielt å ha kunnskap om dataen du jobber med. Under går vi gjennom noen nyttige funksjoner vi får tilgang til ved å bruke Pandas. Disse funksjonene kan si oss noe om hvordan data er formatert og hva slags verdier vi jobber med. Datasett er lastet opp i Pandas som en dataframe, dvs. en datastruktur som ligner en tabell med rader og kolonner.

In [0]:
# Kolonnenavn i datasett:
iris.columns

In [0]:
# Antall rader og kolonner i datasettet:
iris.shape

In [0]:
# Top 5 rader i datasettet:
iris.head()

In [0]:
# Vi kan endre navn på kolonner:
iris = iris.rename(index=str, columns={0: "sepal_length", 1: "sepal_width", 2: "petal_length", 3: "petal_width", 4: "class"})

In [0]:
# Vi kan få statistikk over data i dataframe:
iris.describe()

In [0]:
# Vi kan gruppere data fra dataframe basert på kolonnenavn og få størrelse på hver gruppe
iris.groupby('class').size()
# Hvis man har veldig ujevnt datasett bør man nok fikse det

In [0]:
# Vi kan se på hvordan alle datapunktene ser ut i en graf
iris.plot()

In [0]:
# Vi kan lage en graf per klasse
iris.groupby('class').plot()

In [0]:
# Vi kan lage en oversikt over klassefordelingen
iris.groupby('class').size().plot(kind='bar')

Noen måter å visualisere data på kan gi oss masse nyttig informasjon. RadViz (https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html#radviz) er et godt eksempel på dette.

Data scientists bruker RadViz for å undersøke om klasse lett kan skilles. Dvs. finnes det en mulighet til å lære å skille de ulike klassene eller er det for mye støy?

In [0]:
# Tar inn datasettet og klassen og navnet på kolonnen vi øsnker å undersøke
radviz(iris, 'class')

### Klargjør data

---

Ofte vil datene vi får ikke har rett format, eller ha behov for en eller annen forbehandling. I dette tilfellet slipper vi det.

In [0]:
# F.eks.

encoder = LabelEncoder()
# Tilpasser encoderen til featuren "farge"
encoder.fit(iris["farge"])
# Endrer den faktiske verdien i datasettet. 
iris["farge"] = encoder.fit_transform(usedcars["farge"])

### Splitte datasettet

---

For å kunne trene en modell må vi ha et treningssett (som vi lærer av) og et testsett som vi bruker for å evaluere hvor god modellen vi har fått er.

Features er informasjon som vil være tilgjengelig som basis for prediksjoner og class er det som vi vil predikere.

In [0]:
features = iris[["sepal_length", "sepal_width", "petal_length", "petal_width"]]
classes = iris["class"]

In [0]:
# "X" er bare vanlig betegnelse for features og "y" - for classes/targets/mål
# model_selection har vi importert tidligere fra sklearn, train_test_split metode deler datasett tilfeldig i test og trening
X_train, X_test, y_train, y_test = model_selection.train_test_split(features, classes, test_size=0.33, random_state=1)

## Trening og test

---

Først må vi velge en algoritme - her har vi valgt Support Vector Machine (SVM)

In [0]:
# Benytter SVM - Support Vector Machine, den har vi også importert tidligere fra sklearn som svm
classifier_SVM = svm.SVC()

# Trener med en enkel fit-kommando som tar features og classes fra treningssett som parametere
classifier_SVM.fit(X_train, y_train)

Når modellen er trent kan vi gjøre prediksjoner (teste)

In [0]:
# Predikerer
predictions = classifier_SVM.predict(X_test)

# Kalkulerer resultat: vi sammenligner resultater som vi har fått med "predict" med klasser definert i y_test
SVM_report = metrics.classification_report(y_test, predictions, target_names=iris["class"].unique())
print(SVM_report)

In [0]:
# Visualiser prediksjonene
# Confusion matrix er en matrise hvor hver rad representerer virkelige klasser og hver kolonne representerer klasser som var predikert
# F.eks. kan vi tolke den andre rad i denne matrisen slik at 18 eksempler av klasse 2 var predikert riktig som klasse 2 og 1 var predikert feil som klasse 3 
SVM_matrix = metrics.confusion_matrix(y_test, predictions)
print(SVM_matrix)

## Tren en annen modell

Nå kan vi gjøre det samme med en annen modell og se på om den vil fungere bedre.

In [0]:
from sklearn.neural_network import MLPClassifier

In [0]:
# Benytter MLP - Multi-layer Perceptron classifier
classifier_MLP = MLPClassifier(hidden_layer_sizes=(200, 100), max_iter=300, random_state=1)
# Trener
classifier_MLP.fit(X_train, y_train)

In [0]:
# Predikerer
predictions_MLP = classifier_MLP.predict(X_test)
# Kalkulerer resultat
MLP_report = metrics.classification_report(y_test, predictions_MLP, target_names=iris["class"].unique())
print(MLP_report)

In [0]:
# Visualiser prediksjonene
MLP_matrix = metrics.confusion_matrix(y_test, predictions_MLP)
print(MLP_matrix)