# K-Fold Cross Validation

In [1]:
import numpy as np
from sklearn.model_selection import cross_val_score, train_test_split
from sklearn import datasets
from sklearn import svm

iris = datasets.load_iris()


A single train/test split is made easy with the train_test_split function in the cross_validation library:

In [4]:
# Diviser l'ensemble de données en training_dataset et test_dataset
# 60% pour le training, 40% pour le testing
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.4, random_state=0)

# Construire un modèle SVC(Support Vector Machine) avec un noyau linéaire
clf = svm.SVC(kernel='linear').fit(X_train, y_train)

# Mesurer la performance(accuracy) du système en utilisant les testing_dataset
clf.score(X_test, y_test)  

#L'accuracy est très proche de 100% 

0.9666666666666667

K-Fold cross validation is just as easy; let's use a K of 5:

In [3]:
# We give cross_val_score a model, the entire data set and its "real" values, and the number of folds:
#clf = classification model qu'on a construit
#iris.data = l'ensemble des données d'entrainement
#iris.target = évaluer la qualité des prédictions de modèle en comparant les valeurs prédites avec les valeurs réelles
#cv = nombre de fold
scores = cross_val_score(clf, iris.data, iris.target, cv=5)

#La fonction cross_val_score renvoie un tableau contenant les scores de performance pour chaque pli, 
#ainsi que la moyenne de ces scores pour fournir une estimation de la performance moyenne du modèle

#La fonction entraine le modèle sur 4 plis et l'évalue sur la partie qui reste
#scores = tableau de taille 4

print(scores)

# And the mean accuracy of all 5 folds:
print(scores.mean())

#On a obtenu une moyenne de 98% cela signifie que le modèle a une performance moyenne élevée lors de la validation croisée

[0.96666667 1.         0.96666667 0.96666667 1.        ]
0.9800000000000001


Our model is even better than we thought! Can we do better? Let's try a different kernel (poly):

In [5]:
# Construire un modèle SVC(Support Vector Machine) avec un noyau polynomiale
clf = svm.SVC(kernel='poly')
scores = cross_val_score(clf, iris.data, iris.target, cv=5)
print(scores)
print(scores.mean())

[0.96666667 1.         0.96666667 0.96666667 1.        ]
0.9800000000000001


what conclusions can you draw from the results?

In [6]:
# Build an SVC model for predicting iris classifications using training data
clf = svm.SVC(kernel='poly').fit(X_train, y_train)

# Now measure its performance with the test data
clf.score(X_test, y_test)   

#On remarque que l'accuracy a diminué par rapport au modèle avec le noyau linéaire 

0.9

##### On a trouvé accuracy(noyau linéaire) > accuracy(noyau polynomial)
##### On peut dire que le modèle linéaire est plus approprié pour ce problème de classification que le modèle polynomial
##### On peut expliquer cela pour 3 raisons :

#####      1- Le noyau linéaire peut être plus adapté à la structure linéaire des données. 
#####         Si les relations entre (x,y) sont principalement linéaires, le modèle linéaire pourrait 
#####         mieux capturer ces relations que le modèle polynomial qui peut avoir tendance à surajuster les données.

#####      2- Le noyau polynomial peut être trop complexe pour les données. Les noyaux polynomiaux peuvent générer
#####         des fonctions de décision très complexes qui peuvent être surajustées aux données d'entraînement,
#####         ce qui peut conduire à une moins bonne généralisation sur de nouvelles données.

#####      3- Les paramètres du modèle peuvent ne pas être bien ajustés. Les performances d'un modèle dépendent également
#####         des paramètres de modèle choisis. Si les paramètres pour le modèle polynomial ne sont pas bien ajustés, 
#####         cela peut conduire à une performance inférieure.

PS: 
- Check out https://scikit-learn.org/stable/modules/cross_validation.html  for more details about Cross-Validation
- and http://eric.univ-lyon2.fr/~ricco/cours/slides/svm.pdf for details about Support Vector Classifier/ Machine (SVC/SVM)

## Activity

The "poly" kernel for SVC actually has another attribute for the number of degrees of the polynomial used, which defaults to 3. For example, svm.SVC(kernel='poly', degree=3)

We think the default third-degree polynomial is overfitting, based on the results above. But how about 2? Give that a try and compare it to the linear kernel.

In [14]:
# Construire un modèle SVC(Support Vector Machine) avec un noyau polynomiale  de degré 2
clf_p2 = svm.SVC(kernel='poly', degree=1).fit(X_train, y_train)

# Now measure its performance with the test data
clf_p2.score(X_test, y_test)

# On peut deduire que avec un degré de 1, l'accuracy est très proche de 100%

0.9