# Google Colaboratory

---

Google Colaboratory er et gratis verktøy for maskinlæring utviklet av Google som gjør det mulig å jobbe med maskinlæring uten noe form for konfigurasjon. Koden kjøres i på virituell maskin dedikert til din konto. For mer informasjon se: https://research.google.com/colaboratory/faq.html. 

# Eksempel - Iris

---


Iris-datasettet inneholder informasjon om ulike Iris-blomster. Du kan lese om datasettet her: 

*   https://archive.ics.uci.edu/ml/datasets/iris
*   https://en.wikipedia.org/wiki/Iris_flower_data_set



## Forberedelser

### Last ned data

---

Med enkle kommandoer kan man laste ned dataset som er publisert på nettet. Om du ønsker å bruke et datasett du har lokalt kan du laste opp dette under "Files" i margen til venstre. 

In [0]:
!wget -q https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data -O iris.csv

In [0]:
# Vi kan kommentere som ellers i python. 
# "ls"-kommandoen viser innholdet i mappen vi er i. 
!ls

iris.csv  sample_data


### Oppsett

In [0]:
# importerer nødvendige biblioteker
from sklearn import model_selection, metrics, svm
from pandas import read_csv

### Les inn data

In [0]:
iris = read_csv("iris.csv", header=None)

## Preprossesering

### Klargjør data

---

En viktig del av maskinlæring er kunnskap om dataen du jobber med. Under går vi gjennom noen nyttige funksjoner vi får ved å bruke Pandas. 
Datasett er lastet opp i Pandas som en dataframe, dvs. en datastruktur som ligner en tabell med rader og kolonner.

In [0]:
# kolonnenavn i datasett:
iris.columns

Int64Index([0, 1, 2, 3, 4], dtype='int64')

In [0]:
# antall rader og kolonner i datasettet:
iris.shape

(150, 5)

In [0]:
# top 5 rader i datasettet:
iris.head()

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [0]:
# vi kan endre navn på kolonner:
iris = iris.rename(index=str, columns={0: "sepal_length", 1: "sepal_width", 2: "petal_length", 3: "petal_width", 4: "class"})

In [0]:
# vi kan få statistikk over data i dataframe:
iris.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [0]:
# vi kan gruppere data fra dataframe basert på kolonnenavn og få størrelse på hver gruppe
iris.groupby('class').size()

class
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
dtype: int64

### Splitte datasettet

---

For å kunne trene en modell må vi ha et treningssett (som vi lærer av) og et testsett som vi bruker for å evaluere hvor god modellen vi har fått er.

Features er informasjon som vil være tilgjengelig som basis for prediksjoner og class er det som vi vil predikere.

In [0]:
features = iris[["sepal_length", "sepal_width", "petal_length", "petal_width"]]
classes = iris["class"]

In [0]:
# "X" er bare vanlig betegnelse for features og "y" - for classes
# model_selection har vi importert tidligere fra sklearn, train_test_split metode deler datasett tilfeldig i test og trening
X_train, X_test, y_train, y_test = model_selection.train_test_split(features, classes, test_size=0.33, random_state=1)

## Trening og test

---

Først må vi velge en algoritme - her har vi valgt Support Vector Machine (SVM)

In [0]:
# Benytter SVM - Support Vector Machine, den har vi også importert tidligere fra sklearn som svm
classifier_SVM = svm.SVC(gamma=0.001, C=100.)

# Trener med en enkel fit-kommando som tar features og classes fra treningssett som parametere
classifier_SVM.fit(X_train, y_train)

SVC(C=100.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.001, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

Når modellen er trent kan vi gjøre prediksjoner (teste)

In [0]:
# Predikerer
predictions = classifier_SVM.predict(X_test)

# Kalkulerer resultat: vi sammenligner resultater som vi har fått med "predict" med klasser definert i y_test
SVM_report = metrics.classification_report(y_test, predictions, target_names=iris["class"].unique())
print(SVM_report)

                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        17
Iris-versicolor       1.00      0.95      0.97        19
 Iris-virginica       0.93      1.00      0.97        14

      micro avg       0.98      0.98      0.98        50
      macro avg       0.98      0.98      0.98        50
   weighted avg       0.98      0.98      0.98        50



In [0]:
# Visualiser prediksjonene
# Confusion matrix er en matrise hvor hver rad representerer virkelige klasser og hver kolonne representerer klasser som var predikert
# F.eks. kan vi tolke den andre rad i denne matrisen slik at 18 eksempler av klasse 2 var predikert riktig som klasse 2 og 1 var predikert feil som klasse 3 
SVM_matrix = metrics.confusion_matrix(y_test, predictions)
print(SVM_matrix)

[[17  0  0]
 [ 0 18  1]
 [ 0  0 14]]


## Tren en annen modell

Nå kan vi gjøre det samme med en annen modell og se på om den vil fungere bedre.

In [0]:
from sklearn.neural_network import MLPClassifier

In [0]:
# Benytter MLP - Multi-layer Perceptron classifier
classifier_MLP = MLPClassifier(hidden_layer_sizes=(200, 100), max_iter=300, random_state=1)
# Trener
classifier_MLP.fit(X_train, y_train)



MLPClassifier(activation='relu', alpha=0.0001, batch_size='auto', beta_1=0.9,
       beta_2=0.999, early_stopping=False, epsilon=1e-08,
       hidden_layer_sizes=(200, 100), learning_rate='constant',
       learning_rate_init=0.001, max_iter=300, momentum=0.9,
       n_iter_no_change=10, nesterovs_momentum=True, power_t=0.5,
       random_state=1, shuffle=True, solver='adam', tol=0.0001,
       validation_fraction=0.1, verbose=False, warm_start=False)

In [0]:
# Predikerer
predictions_MLP = classifier_MLP.predict(X_test)
# Kalkulerer resultat
MLP_report = metrics.classification_report(y_test, predictions_MLP, target_names=iris["class"].unique())
print(MLP_report)

                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        17
Iris-versicolor       1.00      1.00      1.00        19
 Iris-virginica       1.00      1.00      1.00        14

      micro avg       1.00      1.00      1.00        50
      macro avg       1.00      1.00      1.00        50
   weighted avg       1.00      1.00      1.00        50



In [0]:
# Visualiser prediksjonene
MLP_matrix = metrics.confusion_matrix(y_test, predictions_MLP)
print(MLP_matrix)

[[17  0  0]
 [ 0 19  0]
 [ 0  0 14]]
