# ML - Train test split

## Introduction

![image.png](attachment:image.png)

Comme vous le verrez, les jeux de données d'entrainement, de validation et de test sont très importants si vous voulez utiliser efficacement les algorithmes de Machine Learning. C'est assez simple, mais cela s'accompagne de certains concepts que vous apprendrez dans ce cours + challenge.

## Objectifs

✅ Comprendre la nécessité de diviser votre ensemble de données en jeu d'entrainement et en jeu de test.

✅ Comprendre les concepts d'overfitting et underfitting.

✅ Apprendre la métrique R2 pour évaluer un modèle de régression.

## Overfitting et underfitting


![image.png](attachment:image.png)

En apprentissage automatique, le **sur-ajustement** (overfitting) se produit lorsqu'un modèle d'apprentissage est trop proche des données d'apprentissage. Cela conduit à un modèle trop complexe.

Le **sous-ajustement** (underfitting) est le contraire. Il se produit lorsqu'un modèle d'apprentissage n'est pas assez complexe pour expliquer avec précision les relations entre les caractéristiques d'un ensemble de données et une variable cible donnée.

**Pour prédire de nouvelles valeurs, nous avons besoin d'un modèle bien ajusté.**

![image.png](attachment:image.png)

## Mais comment déterminer si notre modèle est bon ?


Nous utilisons des métriques ! Le score le plus connu pour les régressions est le **coefficient de détermination R2 (ou R au carré)**. *En statistique, le coefficient de détermination linéaire de Pearson, noté R2 ou r2, est une mesure de la qualité de la prédiction d'une régression linéaire.*

R2 = Variance expliquée / Variance totale.

Pour simplifier, le R2 mesure la différence entre les valeurs prédites et les valeurs réelles. Un bon score R2 signifie que nous minimisons la distance entre chaque valeur réelle et le modèle prédictif.

![image.png](attachment:image.png)

Le R-carré est toujours compris entre 0 et 1 :

- 0 indique que le modèle n'explique aucunement la variabilité des données de réponse autour de sa moyenne.
- 1 indique que le modèle explique parfaitement toute la variabilité des données de réponse.

Avec SciKit-Learn, il est très facile de scorer un modèle, il suffit d'utiliser la méthode `.score()`.



In [None]:
model.score(X,y)

Mais revenons à notre image précédente. Le modèle de droite (avec overfitting) aura probablement le meilleur score. Meilleur que le modèle du milieu. Parce que ce modèle avec overfitting explique parfaitement nos données. Cependant, nous pensons qu'il sera très mauvais pour faire des prédictions. **Donc le meilleur score est pour un mauvais modèle prédictif !** Comment pouvons-nous résoudre ce problème ?

![image.png](attachment:image.png)

## Train Test Split


La solution à notre problème précédent est le Train Test Split !

1. Tout d'abord, nous divisons nos données en deux parties : un ensemble d'entraînement (souvent 75% ou 80% de notre ensemble de données initial) et un ensemble de test.
2. Ensuite, nous ajustons notre modèle uniquement sur l'ensemble d'entrainement. Notre modèle ne sait rien des données présentes dans l'ensemble de test.
3. Nous pouvons maintenant calculer le score sur l'ensemble de test. Pour notre modèle, il s'agit de nouvelles données. Et nous avons des valeurs réelles à comparer aux valeurs prédites.
4. Nous comparons notre score d'entrainement avec notre score de test. Si les deux sont à peu près identiques, il n'y a pas d'overfitting.

![image.png](attachment:image.png)

Nous devons donc trouver le meilleur mix entre :

- le meilleur score
- la plus petite distance entre le score d'entrainement et le score de test.

Ici, nous n'avons pas confiance dans le modèle surajusté, car il ne sait pas comment prédire de nouvelles valeurs.

![image.png](attachment:image.png)

## avec Python et SciKit-Learn

Traditionnellement, vous divisez votre ensemble de données initial en :

- X : vos variables explicatives, avec une ou plusieurs colonnes.
- y : votre cible, avec une seule colonne.

Après la division train-test, vous obtiendrez 4 jeux de données :

- X_train : variables explicatives de l'ensemble train
- X_test : variables explicatives de l'ensemble de test
- y_train : cible de l'ensemble de formation
- y_test : cible de l'ensemble de test


![image.png](attachment:image.png)

In [1]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size = 0.75)

NameError: name 'X' is not defined

### Shuffle

Pour être plus précis, par défaut, un Train Test Split commence par "randomiser" les lignes, c'est-à-dire les mettre dans un ordre aléatoire. Il ne prend pas les lignes dans l'ordre de l'ensemble de données. Vous comprendrez pourquoi dans le challenge. Cela ressemble donc plus à ceci :

![image.png](attachment:image.png)

### Faisons une métaphore

Par exemple, si vous mémorisez chaque lettre du test des opticiens, vous pouvez obtenir un très bon score devant votre opticien... mais avez-vous une bonne vision ? Savez-vous bien lire ?

En Machine Learning, on appelle cela l'overfitting : un très bon score sur des données que la machine connait à l'avance. Mais vous ne pouvez pas généraliser à de nouvelles données (si le test de l'opticien change). Pour être sûr que la machine n'a pas mémorisé le résultat, nous utilisons la méthodologie Train Test Split.

![image.png](attachment:image.png)

## Ensemble de validation

Pour information, les utilisateurs de l'apprentissage automatique divisent souvent les jeux de données en 3 parties et pas seulement en 2. Nous ne sommes qu'au début de l'apprentissage automatique. Commençons simplement. Nous n'utiliserons que le train set et le test set.

![image.png](attachment:image.png)

## Ressources pour aller plus loin :


Overfitting vs Underfitting : Un exemple complet

https://towardsdatascience.com/overfitting-vs-underfitting-a-complete-example-d05dd7e19765

Documentation Officielle

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

# Challenge

Dans ce challenge, vous devrez accomplir une nouvelle série de missions pour apprendre à utiliser la division et à évaluer votre jeu de données.

Créez une copie de [Challenge ML - Train test split](https://drive.google.com/file/d/1ApE5PxBrk-0C2p1wl_OtmKEInoSVE23I/view?usp=drive_link) et relevez le défi.