# Opdracht - Supervised learning

In deze opdracht gaan we een classificatieprobleem oplossen voor het classificeren van drie type bloemen. Het is één van de meest bekende classificatie oefeningen binnen het supervised learning gebied. Het doel van deze opdracht is om met meer dan 96% accuratie de drie type bloemen te kunnen classificeren. Om dit te bereiken hebben we een verzameling datapunten nodig met unieke eigenschappen waarmee de bloemen van elkaar gescheiden zouden kunnen worden.

[Scikit-learn](https://scikit-learn.org/stable/index.html) is een populaire website/kennisbank wat veel machine learning materiaal bevat, zoals de bloemen dataset en de models waar we in deze opdracht mee gaan werken. Het onderstaande stuk code importeert de bloemen dataset. Bekijk deze data.

In [None]:
from sklearn import datasets

dataset = datasets.load_iris()
dataset

Het `data` veld bevat een lijst met datapunten van de drie type bloemen. In deze lijst staan vier eigenschappen per bloem vermeld.

Het `target` veld bevat een lijst van labels waarmee wordt aangetoond bij welke type bloem de data hoort. Oftewel, de vier eigenschappen van de eerste bloem `data[0]` horen bij het type bloem `target[0]`.

Het veld `target_names` bevat de benamingen van de drie type bloemen.

Het veld `feature_names` bevat de benamingen van de vier eigenschappen.

Het onderstaande stuk code laadt deze waarden in.

In [403]:
X, y, target_names, feature_names = dataset.data, dataset.target, dataset.target_names, dataset.feature_names
y_as_target_name = [target_names[target] for target in y]

Binnen data science is het gebruikelijk om de data (oftewel de features) waar je mee wilt werken de verzamelnaam `X` te geven, en de labels `y`.

In het onderstaande stuk code kun je een tabel laten tonen waarin alle data overzichtelijk kan worden getoond. De *Pandas* module wordt o.a. hiervoor veelal gebruikt.

In [None]:
import pandas as pd

with pd.option_context('display.max_rows', None, 'display.max_columns', None):
    df = pd.DataFrame(columns=feature_names, data=X, index=y_as_target_name)
    display(df)

Zoals je kunt zien hebben we te maken met de afmetingen van het bloem- en kelkblad van de setosa, versicolor en virginica bloemen. Het is nu nog altijd moeilijk te herleiden welke punten nou kenmerkend zijn voor de bloemen. De modules *Matplotlib* en *Seaborn* bieden de mogelijkheid om grafieken te visualiseren zodat je een nog beter inzicht in de data kunt verkrijgen.

In [405]:
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import seaborn as sns
import numpy as np
sns.set(style="darkgrid")

*Numpy* is ook ingeladen. Numpy wordt gebruikt vanwege de krachtige `np.array([])` arrays die een hoop extra functionaliteit ondersteunt ten opzichte van de standaard arrays.

Hieronder volgen twee functies waarmee de data in een 2D en 3D grafiek kan worden getoond. Deze functies verwachten als parameters de index waardes van de eigenschappen die je wilt tonen.

In [406]:
# Plot the training points
def plot_2d_features(feature1, feature2):
    with sns.color_palette("Set1", n_colors=3, desat=.8) as cm:
        plt.figure(figsize=(9, 9))
        for i in range(len(target_names)):
            plt.scatter(X[(i*50):(i+1)*50, feature1], X[i*50:(i+1)*50, feature2], label=target_names[i], c=[cm[i]]*50)
        plt.xlabel(feature_names[feature1])
        plt.ylabel(feature_names[feature2])
        plt.legend()
        plt.show()

def plot_3d_features(feature1, feature2, feature3):
    with sns.color_palette("Set1", n_colors=3, desat=.8) as cm:
        fig = plt.figure(figsize=(9, 9))
        ax = Axes3D(fig, elev=-150, azim=110)
        for i in range(len(target_names)):
            ax.scatter(X[(i*50):(i+1)*50, feature1], X[i*50:(i+1)*50, feature2], X[i*50:(i+1)*50, feature3],
                       label=target_names[i], c=[cm[i]]*50, s=80)
        ax.set_xlabel(feature_names[feature1])
        ax.set_ylabel(feature_names[feature2])
        ax.set_zlabel(feature_names[feature3])
        plt.legend()
        plt.show()

***OPDRACHT:*** *Bekijk verschillende combinaties van de features om te zien hoe ze tot elkaar verhouden.* 

In [None]:
plot_2d_features(0, 1)

In [None]:
plot_3d_features(0, 1, 2)

Zoals je wellicht hebt opgemerkt leiden vrijwel elke combinatie van features tot twee clusters. De setosa bloem ligt qua eigenschappen ver van de andere twee bloemen af. De uitdaging gaat dus zitten in het scheiden van de andere twee bloemen.

### Jouw eerste algoritme

[Scikit-learn](https://scikit-learn.org/stable/index.html) bevat [veel models](https://scikit-learn.org/stable/modules/classes.html) waarmee dit soort classificatieproblemen kan worden opgelost. In principe zou je voor dit probleem prima zelf twee simpele scheidingslijnen (`decision boundaries`) kunnen formuleren waarmee je meer dan 90% van de punten in de juiste groep kan scheiden. Dus een eenvoudig lineaire model zou daarom in theorie voldoende moeten zijn om dit probleem op te kunnen lossen.

***OPDRACHT:*** *Kies een lineair model op https://scikit-learn.org/stable/modules/classes.html en pas dit toe (voel je ook vrij om voor andere soort models te gaan zoals SVM's, Neural Networks, Decision Trees, Nearest Neighbours). In de documentatie van Scikit zijn per model voorbeelden te vinden om je op weg te helpen. Gebruik de onderstaande functie om de kwaliteit van jouw algoritme te meten. Deze functie toont onder andere een `confusion matrix`. Hiermee worden de juist en onjuist geclassificeerde data getoond d.m.v. het principe true positives, true negatives, false positives, false negatives. Raadpleeg de documentatie als je meer wilt weten over de geïmporteerde functies.*

In [408]:
from sklearn.metrics import plot_confusion_matrix, classification_report, f1_score

def show_classifier_metrics(clf, X, y):
    ax = plot_confusion_matrix(clf, X, y, display_labels=target_names, cmap=plt.cm.Blues).ax_
    ax.grid(False)
    plt.show()
    score = f1_score(y, clf.predict(X), average="weighted")
    print(f"F1-score: {score}")

In [None]:
# jouw uitwerking

Het is goed mogelijk dat jouw algoritme nu al een hogere score dan 96% heeft (of zelfs 99% als je de juiste model en parameters hebt gekozen). Aangezien de opdracht was om dit te bereiken ben je nu klaar, kun je het algoritme direct doorzetten naar productie, en roem en glorie vergaren met jouw fenomenale accurate classifier.

Helaas is dit niet het geval. Eén van de grootste uitdagingen liggen in het vinden van de juiste balans van het gebruik van data waarmee het algoritme zijn netwerk zal trainen, verifiëren en uiteindelijk testen. Als het algoritme teveel data gebruikt om zijn netwerk te trainen, dan ben je het zogeheten `overfitting` principe aan het toepassen. Of `underfitting` als je te weinig data gebruikt. Het algoritme zal bij het eerste principe volledig op de traindata zijn toegespitst waardoor het ontzettend hoge scores krijgt bij het classificeren van punten die het algoritme al in het train- en verificatieproces heeft gezien. Maar zodra het nieuwe data ziet kan het algoritme er compleet naast zitten.

### Overfitting bestrijden

Laten we jouw bovenstaande uitwerking verbeteren door het overfitting gedeelte te elimineren. Scikit heeft een aantal handige componenten waar je dit mee kunt bereiken.

In [409]:
from sklearn.model_selection import train_test_split
from sklearn.model_selection import StratifiedKFold
from sklearn.base import clone

`train_test_split` is een middel om data in twee groepen op te splitsen. `StratifiedKFold` is een middel om data in meerdere gelijke stukken op te delen waarbij de ratio van de aanwezige classes gelijk wordt gehouden (stratify).

***OPDRACHT:*** *Pas `train_test_split` toe om de data (`X`) en labels (`y`) in twee groepen op te splitsen. De eerste (grotere) groep zal worden gebruikt om het algoritme mee te trainen. De tweede groep wordt exclusief gebruikt om het algoritme mee te testen (noem de data dan ook X_test en labels y_test om consistent binnen de naamconventie te blijven). Pas vervolgens `StratifiedKFold` toe om de train data op te splitsen in een train set en validatie set. Zorg ervoor dat je algoritme met de train data wordt getraind, en dat de validatie data wordt gevalideerd met de `show_classifier_metrics` functie. Gebruik de `f1_score` functie om de gemiddelde score van de train/validatie sessie te berekenen om te zien hoe goed het algoritme tijdens de validatiefase is. Meet na de train en validatie fase tot slot de kwaliteit van het algoritme door de `show_classifier_metrics` functie met de test data aan te roepen.*

*Het algoritme wordt dus uiteindelijk meerdere keren met de train en validatie data getraind en gevalideerd. Als je per validatiestap bijhoudt hoe goed het algoritme presteert, dan kun je (voor een optimaal resultaat) ook het best presterende algoritme naar een variabele wegschrijven en dit algoritme bij de testfase testen. Hiervoor heb je de geïmporteerde `clone` functie nodig om een nieuwe instantie van het algoritme te creëren voor elke validatiestap, zodat bij het wegschrijven van het algoritme geen referentie wordt onthouden (en het weggeschreven algoritme dus niet bij de volgende validatiestap wordt overschreven).*

In [None]:
# jouw uitwerking

# (1) opsplitsen van de data naar een train/validatie en test set

# (2) opsplitsen van de train/validatie set naar train en validatie sets
# for ... :

    # (3) clone het algoritme
    # (4) train het algoritme
    # (5) valideer het algoritme
    # (6) schrijf het best presterende algoritme weg naar een variabele
    
# (7) test het best presterende algoritme met de test data

Als je algoritme meer dan 96% accuratie heeft bij de test stap, goed gedaan! Zo niet, probeer dan wat parameters aan te passen (o.a. de `C` en `alpha` parameters hebben een grote invloed op de werking van het algoritme. Probeer deze aan te passen binnen het bereik 0.00001 - 10000.0) of probeer een ander Scikit model toe te passen.

### Een voorbeeld van hyper parameter tuning en bruteforce

Soms is het lastig om te bepalen welk model of welke parameters je kan gebruiken voor het optimale resultaat. Hieronder staat een complete uitwerking van een Bruteforce methode om de juiste hyper parameters bij een aantal models te vinden.

***OPDRACHT:*** *Bekijk deze code, voer het uit, voeg extra models toe en pas de code waar nodig aan in zoverre je dat wilt.*

In [410]:
from sklearn.linear_model import RidgeClassifier, SGDClassifier, PassiveAggressiveClassifier
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier

In [411]:
class BestPerformingClassifier:
    def __init__(self):
        self.clf = None
        self.score = 0.0
        
    def evaluate(self, clf, score):
        if score > self.score:
            self.clf = clf
            self.score = score
    
    def __str__(self):
        return "{}\nScore: {}".format(self.clf.__str__(), self.score)

class Classifier:
    def __init__(self, clf, name):
        self.clf = clf
        self.name = name
        self.scores = np.array([])
        self.best_clf = None
        
    def evaluate(self, clf, score):
        if score > self.get_max_score():
            self.best_clf = clf
        self.scores = np.append(self.scores, score)
    
    def get_max_score(self):
        return 0.0 if len(self.scores) == 0 else np.max(self.scores)
    
    def get_mean_score(self):
        return 0.0 if len(self.scores) == 0 else np.mean(self.scores)

In [412]:
def plot_classifier_scores(classifiers, iterations, parameter_tuning, unique_classifiers):
    with sns.color_palette("Set1", n_colors=unique_classifiers, desat=.8) as cm:
        plt.figure(figsize=(15, 9))
        plt.xlabel("iteration")
        plt.ylabel("f1-score")
        r_clf = np.array([x.scores for x in classifiers]).reshape(unique_classifiers, iterations * parameter_tuning)
        for i, classifiers_ in enumerate(classifiers.reshape(unique_classifiers, parameter_tuning)):
            best_clf = Classifier(None, None)
            for classifier in classifiers_:
                if classifier.get_mean_score() > best_clf.get_mean_score():
                    best_clf = classifier
            plt.plot(np.arange(iterations), best_clf.scores,
                     label="{0} (mean={1:.3f})".format(best_clf.name, best_clf.get_mean_score()) , c=cm[i])
        plt.legend()
        plt.show()

In [None]:
parameter_tuning = 10
alpha_C_min = 1e-5
classifiers = np.array([
    [
        Classifier(
            RidgeClassifier(alpha=alpha_C_min*10**i),
            f"RidgeClassifier alpha={alpha_C_min*10**i}"
        ),
        Classifier(
            SGDClassifier(alpha=alpha_C_min*10**i),
            f"SGDClassifier alpha={alpha_C_min*10**i}"
        ),
        Classifier(
            PassiveAggressiveClassifier(C=alpha_C_min*10**i),
            f"PassiveAggressiveClassifier C={alpha_C_min*10**i}"
        ),
        Classifier(
            SVC(kernel="rbf", C=alpha_C_min*10**i),
            f"SVC kernel=rbf C={alpha_C_min*10**i}"
        ),
        Classifier(
            SVC(kernel="linear", C=alpha_C_min*10**i),
            f"SVC kernel=linear alpha={alpha_C_min*10**i}"
        ),
        Classifier(
            MLPClassifier(alpha=alpha_C_min*10**i, max_iter=10000, hidden_layer_sizes=(3,3), activation='logistic', solver='lbfgs'),
            f"MLPClassifier alpha={alpha_C_min*10**i}"
        )
    ] for i in range(parameter_tuning)
]).flatten('F')

X_train_validation, X_test, y_train_validation, y_test = train_test_split(X, y, test_size=0.4, stratify=y)

best_clf = BestPerformingClassifier()

splits = 3
best_classifiers = [BestPerformingClassifier() for i in range(splits)]
kfold = StratifiedKFold(n_splits=splits)

for iteration, (train_index, validation_index) in enumerate(kfold.split(X_train_validation, y_train_validation)):
    print()
    print("============================")
    print(f"ITERATION {iteration+1}/{splits}")
    print("============================")
    print()
    
    X_train, y_train = X_train_validation[train_index], y_train_validation[train_index]
    X_validation, y_validation = X_train_validation[validation_index], y_train_validation[validation_index]

    for classifier in classifiers:
        clf = clone(classifier.clf)
        clf.fit(X_train, y_train)
        score = f1_score(y_validation, clf.predict(X_validation), average="weighted")
        classifier.evaluate(clf, score)
        best_classifiers[iteration].evaluate(clf, score)
    
    print(f"BEST CLASSIFIER: {best_classifiers[iteration]}")
    show_classifier_metrics(best_classifiers[iteration].clf, X_validation, y_validation)

for classifier in classifiers:
    best_clf.evaluate(classifier.best_clf, classifier.get_mean_score())

print()
print(f"OVERALL BEST CLASSIFIER AFTER {splits} ITERATIONS: {best_clf}")

In [None]:
plot_classifier_scores(classifiers, splits, parameter_tuning, 6)

In [None]:
show_classifier_metrics(best_clf.clf, X_test, y_test)

## Unsupervised learning

***OPDRACHT***: *Probeer de iris classificatie ook eens met een model uit het unsupervised learning spectrum op te lossen. Gebruik hiervoor bijvoorbeeld KMeans. (Zie ook https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_iris.html#sphx-glr-auto-examples-cluster-plot-cluster-iris-py)*

In [401]:
from sklearn.cluster import KMeans
X = np.array([[1, 2], [1, 4], [1, 0],
              [10, 2], [10, 4], [10, 0]])
kmeans = KMeans(n_clusters=2).fit(X)
print(kmeans.labels_)

print(kmeans.predict([[0, 0], [12, 3]]))

print(kmeans.cluster_centers_)

[1 1 1 0 0 0]
[1 0]
[[10.  2.]
 [ 1.  2.]]
