# Supervised Learning

Met scikit-learn kun je supervised learning toepassen op je dataset. Voorbeelden van supervised learning zijn onder andere SVM (Support Vector Machines), Naive Bayes, Decision Trees en lineaire modellen zoals Lasso en Ridge. Zie de userguide voor een volledige lijst van supervised learning modellen in scikit-learn: https://scikit-learn.org/stable/supervised_learning.html

In dit notebook gebruiken we LinearSVC en een RandomForestClassifier als voorbeeld. De meeste modellen volgen een standaard stappenplan:
- Importeren van de model klasse --> **import**
- Initialiseren van het model (en eventueel parameters bepalen) --> **model = Model()**
- Trainen van het model --> **model.fit(X_train, y_train)**
- Voorspelling doen met het model --> **model.predict(X_train)** en/of **model.predict(X_test)**
- Evalueren --> **model.score(X_train, y_train)** en/of **model.score(X_test, y_test)**

Deze stappen zullen wij in dit notebook ook gaan nemen.

## Data importeren, exploreren en splitten
We gaan de ``load_digits`` dataset gebruiken. We beginnen met het inladen van deze dataset en het importeren van de ``train_test_split`` functie. Deze functie wordt gebruik voor het splitten van een dataset in twee subsets: 1 subset voor het trainen van een model en 1 subset voor het testen van de performance van een model. **Dit is een cruciale stap in model evaluation om er zeker van te zijn dat het model getest is op data die het model nog niet kent.**

De functie ``train_test_split`` krijgt in dit geval twee variabelen mee. De dataset met voor alle instanties de relevante attributen (zonder de labels), en een lijstje met de labels (target).

Vervolgens worden zowel de dataset met features als de labels opgesplitst in vier variabelen"
- ``X_train`` en ``y_train`` zijn de features en de labels voor de training set.
- ``X_test`` en ``y_test`` zijn de features en de labels voor de test set.

In [1]:
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import pandas as pd
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split

digits = load_digits()
X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, random_state=42)

print(f"Aantal instanties in train: {len(X_train)} ({len(X_train)/len(digits.data)*100:.2f}%)")
print(f"Aantal instanties in test: {len(X_test)} ({len(X_test)/len(digits.data)*100:.2f}%)")

Aantal instanties in train: 1347 (74.96%)
Aantal instanties in test: 450 (25.04%)


In [2]:
print(X_train.shape)
print(X_test.shape)

(1347, 64)
(450, 64)


In [3]:
np.bincount(y_train)

array([135, 145, 139, 137, 126, 123, 136, 138, 136, 132])

## Importeren van de model class

In [4]:
from sklearn.svm import LinearSVC

## Initialiseren van het model

In [5]:
svm = LinearSVC()
svm

##  Fitten (trainen) van het model

In [6]:
svm.fit(X_train, y_train)

## Voorspelling doen met het model

In [7]:
print(svm.predict(X_train))
print(y_train)

[5 2 0 ... 2 7 1]
[5 2 0 ... 2 7 1]


In [8]:
print(svm.predict(X_test))
print(y_test)

[6 9 3 7 2 1 5 2 5 2 1 8 4 0 4 2 3 7 8 8 4 3 9 7 5 6 3 5 6 3 4 9 1 4 4 6 9
 4 7 6 6 9 1 3 6 1 3 0 6 5 5 1 9 5 6 0 9 0 0 1 0 4 5 2 4 5 7 0 7 5 9 5 5 4
 7 0 4 5 5 2 9 0 2 3 8 0 6 4 4 9 1 2 8 3 5 2 9 0 4 4 4 3 5 3 1 3 5 9 4 2 7
 7 4 4 1 9 2 7 8 7 2 6 9 4 0 7 2 7 5 8 7 5 7 9 0 6 6 4 2 8 0 9 4 6 9 9 6 9
 0 5 5 6 6 0 6 4 2 9 3 8 7 2 9 0 4 5 3 6 5 8 9 8 4 2 1 3 7 7 2 2 3 9 8 0 3
 2 2 5 6 9 9 4 1 2 4 2 3 6 4 8 5 9 5 7 8 9 4 8 1 5 4 4 9 6 1 8 6 0 4 5 2 7
 1 6 4 5 6 0 3 2 3 6 7 1 9 1 4 7 6 5 8 5 5 1 5 2 8 8 9 9 7 6 2 2 2 3 4 8 8
 3 6 0 8 7 7 0 1 0 4 5 8 5 3 6 0 4 1 0 0 3 6 5 9 7 3 5 5 9 9 8 5 3 3 2 0 5
 8 3 4 0 2 4 6 4 3 4 5 0 5 2 1 3 1 4 1 1 7 0 1 5 2 1 2 8 7 0 6 4 8 8 5 1 8
 4 5 8 7 9 8 8 0 6 2 0 7 9 1 9 5 2 7 7 1 8 7 4 3 8 3 5 6 0 0 3 0 5 0 0 4 1
 2 8 4 5 9 6 3 1 8 8 4 2 3 8 9 8 8 5 0 6 3 3 7 1 6 4 1 2 1 1 6 4 7 4 8 3 4
 0 5 1 9 4 5 7 6 3 7 0 5 9 7 5 9 7 4 2 1 9 0 7 5 8 3 6 3 9 6 9 5 0 1 5 5 8
 3 3 6 2 6 5]
[6 9 3 7 2 1 5 2 5 2 1 9 4 0 4 2 3 7 8 8 4 3 9 7 5 6 3 5 6 3 4 9 1 4 4 6 9
 4 7 6 6 9 

## Evalueren van het model

In [9]:
svm.score(X_train, y_train)

0.9962880475129918

In [10]:
svm.score(X_test, y_test)

0.9622222222222222

Uitgebreide evaluatie m.b.v. ``classification_report``.

In [11]:
from sklearn.metrics import classification_report
print(classification_report(y_train, svm.predict(X_train)))
print(classification_report(y_test, svm.predict(X_test)))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00       135
           1       0.99      0.99      0.99       145
           2       1.00      1.00      1.00       139
           3       1.00      1.00      1.00       137
           4       1.00      1.00      1.00       126
           5       0.99      1.00      1.00       123
           6       1.00      1.00      1.00       136
           7       1.00      1.00      1.00       138
           8       0.99      0.98      0.98       136
           9       1.00      0.99      1.00       132

    accuracy                           1.00      1347
   macro avg       1.00      1.00      1.00      1347
weighted avg       1.00      1.00      1.00      1347

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      0.97      0.96        37
           2       0.93      1.00      0.96        38
           3       1.00 

## Nog een voorbeeld: RandomForrestClassifier

In [12]:
from sklearn.ensemble import RandomForestClassifier

In [13]:
rf = RandomForestClassifier()

In [14]:
rf.fit(X_train, y_train)

In [15]:
rf.score(X_train, y_train)

1.0

In [16]:
rf.score(X_test, y_test)

0.9733333333333334