# Supervised Learning

Met scikit learn kun je supervised learning toepassen op je dataset. Voorbeelden van supervised learning zijn onder andere SVM (Support Vector Machines), Naive Bayes, Decision Trees en linaire models zoals Lasso en Ridge. Zie de userguide voor een volledige beschikbare lijst: https://scikit-learn.org/stable/supervised_learning.html

In deze notebook gebruiken we LinearSVC en een RandomForestClassifier als voorbeeld om aan te tonen. De meeste models volgen een standaard volgorde van stappen. De volgende stappen worden genomen:

1. Importeren van de model class --> **import**
2. Instantiate een object (en eventueel parameters bepalen) --> **model = Model()**
3. Fitten van de model --> **model.fit(X_train, y_train)**
4. Toepassen van het model --> **model.predict(X_train)**
5. Evalueren --> **model.score(X_train, X_test)**

Deze stappen zullen wij in deze notebook ook gaan nemen. We beginnen met het importeren van matplotlib en numpy omdat we deze nodig hebben voor visualiseren en data bewerking

In [None]:
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

We gaan de ``load_digits`` dataset gebruiken. We beginnen met het inladen van deze dataset en het importeren van ``train_test_split`` method. ``train_test_split`` is een functie vanuit sklearn. Deze functie wordt gebruik voor het splitten van een dataset in twee subsets: 1 subset voor het trainen van een model en 1 subset voor het testen van de performance van een model. **Dit is een cruciale stap in model evaluation om er zeker van te zijn dat het model getest is op data die het model nog niet kent.**

We geven de ``train_test_split`` vier variabelen:

- X_train
- X_test
- y_train
- y_test

``X_train`` en ``y_train`` zijn de features en de labels voor de training set.
``X_test`` en ``y_test`` zijn de features en de labels voor de test set.

In [None]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
digits = load_digits()
X_train, X_test, y_train, y_test = train_test_split(
    digits.data, digits.target, random_state=0)

In [None]:
X_train.shape

In [None]:
np.bincount(y_train)

### Stap 1: Importeren van de model class

In [None]:
from sklearn.svm import LinearSVC

### Stap 2: Instantiate een object

In [None]:
svm = LinearSVC()

### Stap 3:  Fitten van het model

In [None]:
svm.fit(X_train, y_train)

### Stap 4: Toepassen

In [None]:
print(svm.predict(X_train))
print(y_train)

### Stap 5: Evalueren

In [None]:
svm.score(X_train, y_train)

In [None]:
svm.score(X_test, y_test)

## Nog een voorbeeld: RandomForrestClassifier

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
rf = RandomForestClassifier(n_estimators=100)

In [None]:
rf.fit(X_train, y_train)

In [None]:
rf.score(X_train, y_train)

In [None]:
rf.score(X_test, y_test)

# Oefeningen

## Oefening 1
Laad de iris dataset van de ``sklearn.datasets`` module en gebruik de ``load_iris`` function.

Split deze in training and test set via ``train_test_split``.

## Oefening 2
Train en evalueer vervolgens de  ``sklearn.neighbors.KNeighborsClassifier``, the RandomForestClassifier and  ``sklearn.linear_model.LogisticRegression`` op de iris dataset.

Kijk vervolgens kritisch naar het resultaat en probeer wat vragen te beantwoorden: 
Hoe performt deze op de training set vs de test set? Welke is het op de training set, welke is het best op de test set? 

## Oefening 3 (extra)
Wat meer uitdaging: kun je een binary classificate
Kun je een binair classificatiedataset construeren (bijvoorbeeld met behulp van np.random) waarop ``sklearn.linear_model.LogisticRegression`` een nauwkeurigheid van 1 bereikt? Kun je een binair classificatiedataset construeren waarop het een nauwkeurigheid van 0,5 behaalt?