# Oefeningen

## Breast Cancer

In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report

In [2]:
# Laad de dataset in. Bekijk deze even om te zien waar je juist mee gaan werken
data = load_breast_cancer()
print(data.DESCR)
x = data.data
y = data.target

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

In [3]:
# Split de dataset. We gebruiken in deze les consequent random seed 10.
X_train, X_test, y_train, y_test = train_test_split(x,y, test_size=0.3,random_state=10)


In [4]:
# Gebruik een standardscaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.fit_transform(X_test)

In [5]:
# Creëer en train een SVM classifier. Gebruik random seed 10.
svm = SVC(random_state=10)


In [6]:
# Maak voorspellingen over de test data
svm.fit(X=X_train,y=y_train)
y_predict = svm.predict(X_test)

In [7]:
# Bereken de accuraatheidscore van je model

print(accuracy_score(y_test,y_predict))


# Laat een classification report genereren.
print(classification_report(y_test, y_predict, target_names=data.target_names))


0.9649122807017544
              precision    recall  f1-score   support

   malignant       0.91      1.00      0.95        59
      benign       1.00      0.95      0.97       112

    accuracy                           0.96       171
   macro avg       0.95      0.97      0.96       171
weighted avg       0.97      0.96      0.97       171



Even opfrissen:
- *Precision*: (aantal True Positives) / (aantal True Positives + aantal False Positives)
- *Recall*: (aantal True Positives) / (aantal True Positives + aantal False Negatives)
- *Accuracy*: (aantal True Positive + aantal True Negative) / (totaal aantal Positive + totaal aantal Negative)

In [8]:
# Extra oefening: je kan nog finetunen met de hyperparameters...

## Digits

Experimenteer met verschillende kernels, C-waardes, en kies een optimale configuratie.

In [9]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report


In [10]:
# Digits dataset:
digits = datasets.load_digits()

# laad de data in goede variabelen

In [11]:
# Data splitten

In [12]:
# Standardizeren, doe dit eens in een pipeline samen met je model


In [13]:
# Maak voorspellingen op de test data

In [14]:

# bereken accuraatheid en classificatie report. Welk cijfers is het moeilijkst om te classificeren ?

Voor de volgende opgave mag je de hulp van ChatGPT en dergelijke inroepen.

In [15]:
# Maak een plot van de eerste 9 testcases, waarbij je het echte label in de titel vergelijk met het voorspelde label.
# de bedoeling is dat je zo zelf visueel kan checken of de classifier het voor de specifieke items juist had.
# pas je code aan zodat er enkel testcases worden getoond die fout werden geclassificeerd.


## Wijn

Train een SVM-classificator op de Wine-dataset, die je kunt laden met 'sklearn.datasets.load_wine()'. Deze dataset bevat de chemische analyse van 178 wijnmonsters geproduceerd door 3 verschillende telers: het doel is om een classificatiemodel te trainen dat in staat is om de cultivator te voorspellen op basis van de chemische analyse van de wijn. Aangezien SVM-classifiers binaire classifiers zijn, moet je one-versus-all gebruiken om alle 3 klassen te classificeren. Welke nauwkeurigheid kan je bereiken?

Stappenplan:
1. Data inladen
2. Train/test split
3. Een lineaire SVM gebruiken
4. Een lineaire SVM gebruiken met 1000000 iteraties
5. Evalueren
6. Oplossingen zoeken voor mogelijke problemen

In [16]:
# Lineaire SVM gebruiken
# Het probleem met meerdere klasses oplossen - bekijk de decoumentatie van LinearSVM op scikit learn docs

In [17]:
# gebruik 1000000 iteraties
# wat is nu je conclusie over de dataset ? Hoe kun je dit oplossen ?

In [18]:
# zoek op de documentatie op hoe je de cross_val_score kan gebruiken om cross-validatie te doen
from sklearn.model_selection import cross_val_score


### Nu kijken we naar andere kernels voor algemene SVM

We werken verder met dezelfde dataset, maar nu niet meer beperkt tot een lineaire SVM

In [19]:
from sklearn.pipeline import Pipeline, make_pipeline # ter illustratie, make_pipeline heeft lichtjes andersyntax dan met Pipeline werken
svm_clf = make_pipeline(StandardScaler(), SVC(random_state=10))
cross_val_score(svm_clf, X_train, y_train).mean()

0.9748734177215189

Nu gaan ze zoeken naar optimizatie van parameters. Dit moet ik ook nog introduceren in de theorieles

In [20]:
# optimaliseer de parameters met CVGrid Search

Vergelijk nu de best_score_component van de CVGridSearch met de de score die dit model haalt op de test set. Er zit een verschil op. Wat is er gebeurt ? Hoe hadden we dit moeten oplossen ?

## Regressie met een SVM

Gegeven een dataset, kan je regressie doen in plaats van classificatie. De algoritmes werken bijna hetzelfde, met volgende cruciaal verschil:
- de classifier wil zoveel mogelijk instances *buiten* de straat zetten.
- de regressor wil zoveel mogelijk instances *binnen* de straat zetten.

Beschouw volgende dataset die je wil benaderen met een regressiemodel:

In [21]:
from sklearn.svm import SVR # de R in SVR is van regressor, de C in SVC van classifier
import numpy as np
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.preprocessing import StandardScaler

# code om een kwadratische dataset te genereren
np.random.seed(42)
X = 2 * np.random.rand(50, 1) - 1
y = 0.2 + 0.1 * X[:, 0] + 0.5 * X[:, 0] ** 2 + np.random.randn(50) / 10

In [22]:
# maak een pipeline van een standaardscaler en de voor hand liggende SVR voor dit probleem.

Met volgende code kun je bekijken wat het model heeft bereikt (ter illustratie)

In [23]:

import matplotlib.pyplot as plt

def find_support_vectors(svm_reg, X, y):
    y_pred = svm_reg.predict(X)
    epsilon = svm_reg[-1].epsilon
    off_margin = np.abs(y - y_pred) >= epsilon
    return np.argwhere(off_margin)

def plot_svm_regression(svm_reg, X, y, axes):
    x1s = np.linspace(axes[0], axes[1], 100).reshape(100, 1)
    y_pred = svm_reg.predict(x1s)
    epsilon = svm_reg[-1].epsilon
    plt.plot(x1s, y_pred, "k-", linewidth=2, label=r"$\hat{y}$", zorder=-2)
    plt.plot(x1s, y_pred + epsilon, "k--", zorder=-2)
    plt.plot(x1s, y_pred - epsilon, "k--", zorder=-2)
    plt.scatter(X[svm_reg._support], y[svm_reg._support], s=180,
                facecolors='#AAA', zorder=-1)
    plt.plot(X, y, "bo")
    plt.xlabel("$x_1$")
    plt.legend(loc="upper left")
    plt.axis(axes)

svm_poly_reg._support = find_support_vectors(svm_poly_reg, X, y)

fig, axes = plt.subplots(ncols=1, figsize=(9, 4), sharey=True)
plt.sca(axes)
plot_svm_regression(svm_poly_reg, X, y, [-1, 1, 0, 1])
plt.title(f"degree={svm_poly_reg[-1].degree}, "
          f"C={svm_poly_reg[-1].C}, "
          f"epsilon={svm_poly_reg[-1].epsilon}")
plt.ylabel("$y$", rotation=0)
plt.grid()

save_fig("svm_with_polynomial_kernel_plot")
plt.show()

NameError: name 'svm_poly_reg' is not defined

Experimenteer met andere kernels en hperparameters of je betere resultaten kan bekomen.