

<img src="https://assets-datascientest.s3-eu-west-1.amazonaws.com/train/logo_datascientest.png" style="height:150px">
<hr style="border-width:2px;border-color:#75DFC1">
<center><h1> Machine Learning pour les Data Engineers </h1></center>
<center><h2> Introduction à l'API Scikit-Learn </h2></center>
<hr style="border-width:2px;border-color:#75DFC1">

### 1. Introduction

> Nous venons de voir les bases du **Machine Learning** à savoir :
>
>* Quelle est la différence entre l'**apprentissage supervisé** et **non supervisé** ? <br><br>
>* Quelle est la différence entre la **régression** et la **classification** ? <br><br>
>* Qu'est-ce qu'une **variable cible** ? des **variables explicatives** ? <br><br>
>* Qu'est-ce que la technique de **Hold out** ? 
>
>
>Nous allons voir dans ce notebook comment implémenter un modèle de base de **Machine Learning** en **classification** et en **régression** avec la librairie **Scikit-Learn**. 
>
> L'objectif de ce notebook est de :
>
>* Comprendre l'utilité et la puissance de **Scikit-Learn** ; <br><br>
>* Entraîner un modèle de classification avec **Scikit-Learn** ; <br><br>
>* Entraîner un modèle de régression avec **Scikit-Learn**.
>
> #### 1.1 Scikit-Learn
>
> **Scikit-Learn** est une librairie Python construite à partir de **NumPy**, **Scipy** et **matplotlib** pour entrainer des modèles de **Machine Learning** le plus simplement possible. Chaque modèle dispose de sa propre classe qu'il faut instancier pour créer un modèle. 
>
>Toutes les classes de modèles de **Scikit-Learn** disposent des trois méthodes suivantes:
>
>* **`fit`** : Entraîne le modèle sur un jeu de données.<br><br>
>* **`predict`** : Effectue une prédiction à partir de variables explicatives.<br><br>
>* **`score`** : Calcule une métrique de performance du modèle en comparant les vraies valeurs de la variable cible à la prédiction.
>
>Ainsi pour entraîner un modèle de **Machine Learning** avec **Scikit-Learn**, cela se fera toujours de la même manière, en 4 lignes de code : 
>
>```python 
>
># Instanciation du modèle choisi  
># Pour créer un modèle, on génère un objet de la classe correspondante à cet objet
># LinearRegression est un algorithme de régression
># On peut spécifier certains paramètres de l'algorithme entre les parenthèses  
>
>model = LinearRegression() 
>
># Entrainement du modèle sur le jeu de données d'entraînement
>
>model.fit(X_train,y_train) 
>
># Prédiction de la variable cible pour le jeu de données test, ces prédictions sont stockées dans y_pred
>
>y_pred = model.predict(X_test) 
>
># Evaluation du modèle : à partir de X_test, on prédit la variable cible que l'on compare à y_test
>
>model.score(X_test,y_test)
>```
>
>Que ce soit pour développer un algorithme de classification ou de régression, cela se fera quasiment toujours de la même manière.
>
### 2. Classification 
>
> #### 2.1 Rappel 
>
>En **Machine Learning**, l'objectif est de prédire la valeur d'une **variable cible** à partir de **variables explicatives**.  Dans un problème de **classification**, la **variable cible** prend des **valeurs discrètes**. Ces valeurs peuvent être numériques ou littérale mais dans les deux cas, la variable cible prend un **nombre fini de valeurs**. 
>
>Les différentes valeurs prises par la variable cible sont ce qu'on appelle des **classes**.
>
>L'objectif de la classification est donc de prédire la classe d'une observation à partir de **ses variables explicatives**.
>
>
> <img src="https://assets-datascientest.s3.eu-west-1.amazonaws.com/notebooks/module_da_121/notebook_api_scikit_learn/classification.png" style = 'height:350px'>
>
> #### 2.2 Mise en pratique 
>
>L'exercice suivant porte sur un jeu de données qui a pour objectif de prédire si un patient est diabétique ou non en fonction de certaines mesures médicales. A noter que plusieurs contraintes ont été imposées dans ce jeu de données : tous les patients sont des femmes âgées d'au moins 21 ans et d'origine indienne Pima. 
> 
>Voici le descriptif des données : 
> 
> |Variable | Description|
> |----------|------------|
> |`'Pregnancies'`|Nombre de grossesses|
> |`'Glucose'`| Concentration plasmatique de glucose|
> |`'BloodPressure'`| Tension artérielle|
> |`'SkinThickness'`| Épaisseur du pli du triceps|
> |`'Insulin'`| Insuline sérique à 2 heures|
> |`'BMI'`| Indice de masse corporelle |
> |`'DiabetesPedigreeFunction'`| Fonction pédigrée du diabète |
> |`'Age'`| Age|
> |`'Outcome'`| 0 si la patiente n'a pas le diabète, 1 sinon|
>
> L'objectif de cette classification va être donc de **prédire si une patiente va être atteinte de diabète ou non**.

* **(a)** Exécutez la celulle suivante pour initialiser le notebook et charger la librairie pandas sous son alias usuel.



In [2]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd 



* **(b)** Lire le fichier `'diabetes.csv'` dans un `DataFrame` appelé **`df_class`** et afficher les cinq premières lignes du `DataFrame`.



In [4]:
# Insérez votre code ici



df_class = pd.read_csv('diabetes.csv')
print(df_class.shape)
df_class.head()

(768, 9)


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [None]:
df_class = pd.read_csv('diabetes.csv')

df_class.head()





* **(c)** Afficher les informations du `DataFrame` **`df_class`**.





In [10]:
# Insérez votre code ici
print("Columns : ", df_class.columns.to_list())
print()
df_class.info()

Columns :  ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


In [None]:
df_class.info()





>Le dataset est très propre : il n'y a pas de valeurs manquantes et les types sont bons. A noter, que c'est très rarement le cas : habituellement une phase de *pre-processing* est essentielle avant la partie **modélisation**. La prochaine étape va être d'identifier la **variable cible** et les **variables explicatives**. 
>
>Pour rappel, on cherche à **prédire si une patiente va être atteinte de diabète ou non** en fonction de caractéristiques médicales. Donc, ici la **variable cible** est **`Outcome`** qui prend un nombre **fini** de valeurs (0 ou 1) : on est bien dans un problème de **classification**.

* **(d)** 

    * (1) Dans un **`DataFrame`** nommé **`X`**, stocker les variables explicatives du jeu de données (toutes
    sauf la colonne **`Outcome`**). Pour cela, vous pourrez vous aider de la méthode `drop` d'un **`DataFrame`**. <br><br>
    * (2) Dans un objet nommé **`y`**, stocker la variable cible **`Outcome`**. 





In [20]:
# Insérez votre code ici


X = df_class.drop('Outcome', axis = 1)

y = df_class['Outcome']

display(X.head(5))
print("\n")
display(y.head(5))

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age
0,6,148,72,35,0,33.6,0.627,50
1,1,85,66,29,0,26.6,0.351,31
2,8,183,64,0,0,23.3,0.672,32
3,1,89,66,23,94,28.1,0.167,21
4,0,137,40,35,168,43.1,2.288,33






0    1
1    0
2    1
3    0
4    1
Name: Outcome, dtype: int64

In [None]:
X = df_class.drop('Outcome', axis = 1)

y = df_class['Outcome']





> Comme expliqué dans le notebook précédent, nous allons maintenant devoir séparer le jeu de données en 2 parties : 
>* Le **jeu d'entrainement** qui sert à entraîner le modèle de classification, c'est-à-dire à trouver les paramètres du modèle qui séparent au mieux les classes.
>
>
>* Le **jeu de test** qui sert à évaluer le modèle sur des données qu'il n'a jamais vu. Cette évaluation nous permettra de juger sur la capacité à généraliser le modèle.
>
>Une fonction très utile pour effectuer cette opération est la fonction `train_test_split` du sous-module `sklearn.model_selection`.

* **(e)** Lancer la cellule suivante pour importer la fonction `train_test_split`.





In [None]:
from sklearn.model_selection import train_test_split





>Cette fonction s'utilise ainsi :
>
>```python  
> from sklearn.model_selection import train_test_split
>
>X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.15, random_state=42)
>```
>* **`X_train`** et **`y_train`** sont les variables explicatives et cible du **jeu de données d'entraînement**.<br><br>
>* **`X_test`** et **`y_test`** sont les variables explicatives et cible du **jeu de données de test**.<br><br>
>* L'argument **`test_size`** correspond à la proportion du jeu de données que nous voulons garder pour **le jeu de test**. Dans l'exemple précédent, cette proportion correspond à 15% du jeu de données initial. <br><br>
> * L'argument **`random_state`** permet de garantir que la reproductibilité des résultats en fixant l'aléa. En d'autres termes, en le fixant à un nombre (peu importe sa valeur), on s'assure d'obtenir le même résultat si on utilise à nouveau la fonction.

* **(f)** À l'aide de la fonction **`train_test_split`**, séparer le jeu de données en un jeu d'entrainement (**`X_train`**,**`y_train`**) et un jeu de test (**`X_test`**, **`y_test`**) de sorte que la partie de test contienne 20% du jeu de données initial.



In [27]:
# Insérez votre code ici


from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state=42)

print("*----------Data Shape---------------*\n")
print(f'X_train Shape :{X_train.shape}')
print(f'y_train Shape :{y_train.shape}')
print("\n")
print(f'X_Test Shape :{X_test.shape}')
print(f'y_test Shape :{y_test.shape}')

*----------Data Shape---------------*

X_train Shape :(614, 8)
y_train Shape :(614,)


X_Test Shape :(154, 8)
y_test Shape :(154,)


In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state=42)





> Nous pouvons maintenant passer à la partie **modélisation**. 
>
>Pour cela, nous allons entraîner un **arbre de décision**, c'est un algorithme simple qui ne nécessite aucun pré-traitement sur le jeu de données. Vous verrez plus en profondeur son fonctionnement dans le prochain notebook, gardez seulement à l'idée que : **l'arbre de décision est un algorithme de Machine Learning pour entraîner un modèle de classification disponible sur Scikit Learn.** 

 
* **(g)** Charger la fonction **`DecisionTreeClassifier`** à partir du sous-module **`sklearn.tree`**.



In [28]:
# Insérez votre code ici



from sklearn.tree import DecisionTreeClassifier


In [None]:
from sklearn.tree import DecisionTreeClassifier





>Pour entrainer un algorithme de **Machine Learning**, cela se fera toujours de la même manière comme vu plus haut.

* **(h)**

    * **(1)** Instancier un modèle **`DecisionTreeClassifier`** appelée **`dt_clf`** avec l'argument **`random_state=42`** . <br><br>

    * **(2)** Entrainer le modèle sur le jeu de données d'entrainement grâce à la méthode **`fit`** de la classe **`DecisionTreeClassifier`**.



In [29]:
# Insérez votre code ici

#Instanciation du modèle 
dt_clf = DecisionTreeClassifier(random_state=42)

#Entrainement de modèle 
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(random_state=42)

In [None]:
#Instanciation du modèle 
dt_clf = DecisionTreeClassifier(random_state=42)

#Entrainement de modèle 
dt_clf.fit(X_train, y_train)





* **(i)**

    * **(1)** Effectuer une prédiction sur les données de test et stocker ces prédictions dans **`y_pred_test`**.<br><br>
    * **(2)** Afficher les 5 premières prédictions. 





In [30]:
# Insérez votre code ici


#Prediction sur les donnees de test 
y_pred_test = dt_clf.predict(X_test)

print(y_pred_test[:5])

[1 0 0 0 0]


In [None]:
#Prediction sur les donnees de test 
y_pred_test = dt_clf.predict(X_test)

print(y_pred_test[:5])





* **(j)** Afficher les 5 premières lignes de `y_test` et les comparer à `y_pred_test`.





In [33]:
# Insérez votre code ici


display(y_test[:5])

#Comparaison entre y_test et y_pred_test : 
#True :  l'algorithme a prédit la bonne classe, 
#False : il s'est trompé

display(y_test[:5] == y_pred_test[:5])

668    0
324    0
624    0
690    0
473    0
Name: Outcome, dtype: int64

668    False
324     True
624     True
690     True
473     True
Name: Outcome, dtype: bool

In [None]:
print(y_test[:5])

#Comparaison entre y_test et y_pred_test : 
#True :  l'algorithme a prédit la bonne classe, 
#False : il s'est trompé

print(y_test[:5] == y_pred_test[:5])





* **(k)**

    * **(1)** Évaluer le modèle à l'aide de la méthode `score` sur les données d'entraînement. <br><br>

    * **(2)** Évaluer le modèle à l'aide de la méthode `score` sur les données de test. 






In [34]:
# Insérez votre code ici


print("score train : " , dt_clf.score(X_train, y_train))

print("score test : ", dt_clf.score(X_test,y_test))

score train :  1.0
score test :  0.7467532467532467


In [None]:
print("score train : " , dt_clf.score(X_train, y_train))

print("score test : ", dt_clf.score(X_test,y_test))





> <div class="alert alert-danger">
  <i class="fa fa-info-circle"></i> &emsp; Vous pouvez remarquer que le score entre le jeu d'entrainement et le jeu de test baisse. On appelle cela de l’overfitting. On peut détecter l'overfitting en comparant les scores du modèle sur le jeu d'entraînement et le jeu de test.
   </div>
>
> La méthode `score` est une métrique qui va comparer les résultats de prédictions de votre jeu de données X par rapport à y. **En classification**, le score correspond à l'**accuracy** : **c'est le taux de prédictions correctes effectuées par le modèle**.
>
> Voici un exemple pour bien comprendre le calcul : 
>
> <img src="https://assets-datascientest.s3.eu-west-1.amazonaws.com/notebooks/module_da_121/notebook_api_scikit_learn/accuracy.png" style = 'height:250px'>
>
> Nous venons de voir un exemple de classification. Passons maintenant à la régression. 

### 3. Régression 

>#### 3.1 Rappel 
>En **Machine Learning**, l'objectif est de prédire la valeur d'une variable cible à partir de variables explicatives.
>Dans un problème de régression, la variable cible prend des valeurs continues. Ces valeurs sont numériques : prix d'une maison, quantité d'oxygène dans l'air d'une ville, etc. La variable cible peut donc prendre une **infinité de valeurs**.
>
>
> <img src="https://assets-datascientest.s3.eu-west-1.amazonaws.com/notebooks/module_da_121/notebook_api_scikit_learn/regression.png" style = 'height:350px'>
>
>#### 3.2 Mise en pratique
>
>L'exercice suivant porte sur un jeu de données sur les caractéristiques de différentes voitures avec le prix pour chacune. 
>
>Voici le descriptif des données : 
> 
> |Variable | Description|
> |----------|------------|
> |`'symboling'`|"Sureté de la voiture" : +3 : l'automobile est risquée, -3 : assez sûre.|
> |`'wheelbase'`|  Espace entre les roues                   |
> |`'carlength'`| Longueur de la voiture|
> |`'carwidth'`| Largeur de la voiture|
> |`'carheight'`| Hauteur de la voiture|
> |`'curbweight`| Poids à vide |
> |`'enginesize'`| Taille du moteur |
> |`'stroke'`| Cycle de combustion |
> |`'compressionratio'`| Taux de compression|
> |`'horsepower'` | Puissance des chevaux |
> |`'price'`| Prix de la voiture|
>
> L'objectif de cette régression va donc être de **prédire le prix d'une voiture en fonction de certaines caractéristiques**.

* **(a)** 

    * **(1)** Lire le fichier **`'carPrice.csv'`** dans un **`DataFrame`** appelé **`df_reg`** en précisant que la première colonne contient les **`index`**. <br><br>
    * **(2)** Afficher les cinq premières lignes du **`DataFrame`** **`df_reg`**.





In [36]:
# Insérez votre code ici



df_reg = pd.read_csv('carPrice.csv', index_col = 0)
print(df_reg.shape)
df_reg.head()

(205, 11)


Unnamed: 0_level_0,symboling,wheelbase,carlength,carwidth,carheight,curbweight,enginesize,stroke,compressionratio,horsepower,price
car_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,3,88.6,168.8,64.1,48.8,2548,130,2.68,9.0,111,13495.0
2,3,88.6,168.8,64.1,48.8,2548,130,2.68,9.0,111,16500.0
3,1,94.5,171.2,65.5,52.4,2823,152,3.47,9.0,154,16500.0
4,2,99.8,176.6,66.2,54.3,2337,109,3.4,10.0,102,13950.0
5,2,99.4,176.6,66.4,54.3,2824,136,3.4,8.0,115,17450.0


In [None]:
df_reg = pd.read_csv('carPrice.csv', index_col = 0)

df_reg.head()





* **(b)** Afficher les informations du **`DataFrame`** **`df_reg`**.





In [37]:
# Insérez votre code ici

df_reg.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 205 entries, 1 to 205
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   symboling         205 non-null    int64  
 1   wheelbase         205 non-null    float64
 2   carlength         205 non-null    float64
 3   carwidth          205 non-null    float64
 4   carheight         205 non-null    float64
 5   curbweight        205 non-null    int64  
 6   enginesize        205 non-null    int64  
 7   stroke            205 non-null    float64
 8   compressionratio  205 non-null    float64
 9   horsepower        205 non-null    int64  
 10  price             205 non-null    float64
dtypes: float64(7), int64(4)
memory usage: 19.2 KB


In [None]:
df_reg.info()





>Le dataset est très propre : il n'y a pas de valeurs manquantes et les types sont bons. La prochaine étape va être d'identifier la variable cible et les variables explicatives. 
>Ici la variable cible est : **`price`** qui prend un nombre infini de valeurs : on est bien dans un problème de **régression**.

* **(c)** 

    * **(1)** Dans un `DataFrame` nommé **`X`**, stocker les variables explicatives du jeu de données (toutes sauf la colonne **`price`**).<br><br>
    * **(2)** Dans un `DataFrame` nommé **`y`**, stocker la variable cible **`price`**. 






In [39]:
# Insérez votre code ici

X = df_reg.drop('price', axis = 1)

y = df_reg['price']

display(X.head(5))
print("\n")
display(y.head(5))

Unnamed: 0_level_0,symboling,wheelbase,carlength,carwidth,carheight,curbweight,enginesize,stroke,compressionratio,horsepower
car_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,3,88.6,168.8,64.1,48.8,2548,130,2.68,9.0,111
2,3,88.6,168.8,64.1,48.8,2548,130,2.68,9.0,111
3,1,94.5,171.2,65.5,52.4,2823,152,3.47,9.0,154
4,2,99.8,176.6,66.2,54.3,2337,109,3.4,10.0,102
5,2,99.4,176.6,66.4,54.3,2824,136,3.4,8.0,115






car_ID
1    13495.0
2    16500.0
3    16500.0
4    13950.0
5    17450.0
Name: price, dtype: float64

In [None]:
X = df_reg.drop('price', axis = 1)

y = df_reg['price']





* **(d)** Séparer les données en un jeu d'entrainement (**`X_train`**, **`y_train`**) et un jeu de test (**`X_test`**, **`y_test`**) en gardant 20% des données pour l'échantillon de test. 





In [40]:
# Insérez votre code ici

X_train, X_test,y_train, y_test = train_test_split(X, y , test_size = 0.2)


print("*----------Data Shape---------------*\n")
print(f'X_train Shape :{X_train.shape}')
print(f'y_train Shape :{y_train.shape}')
print("\n")
print(f'X_Test Shape :{X_test.shape}')
print(f'y_test Shape :{y_test.shape}')

*----------Data Shape---------------*

X_train Shape :(164, 10)
y_train Shape :(164,)


X_Test Shape :(41, 10)
y_test Shape :(41,)


In [None]:
X_train, X_test,y_train, y_test = train_test_split(X, y , test_size = 0.2)






> Comme pour la partie **classification**, nous pouvons maintenant passer à la partie **modélisation**. Pour rappel nous cherchons à prédire le prix d'une voiture en fonction de différentes caractéristiques. 
>
>Pour cela, nous allons entraîner un **arbre de régression** : c'est un algorithme simple qui ne nécessite aucun pré-traitement sur le jeu de données. Vous verrez plus en profondeur son fonctionnement dans le prochain notebook, gardez seulement à l'idée que : **l' arbre de régression est un algorithme de Machine Learning pour entraîner un modèle de régression disponible sur Scikit Learn.** 

* **(e)** Charger la fonction **`DecisionTreeRegressor`** à partir du sous-module **`sklearn.tree`**.






In [41]:
# Insérez votre code ici



from sklearn.tree import DecisionTreeRegressor

In [None]:
from sklearn.tree import DecisionTreeRegressor





> Comme pour la classificaton, pour entrainer un algorithme de **Machine Learning**, cela se fera toujours de la même manière. 

* **(f)**

    * **(1)** Instancier un modèle **`DecisionTreeRegressor`** appelée **`dt_reg`** avec l'argument **`random_state=42`** . <br><br>
    * **(2)** Entrainer le modèle sur le jeu de données d'entrainement grâce à la méthode **`fit`** de la classe **`DecisionTreeRegressor`**.





In [42]:
#Instanciation du modele
dt_reg = DecisionTreeRegressor(random_state=42)

#Entrainement du modele 
dt_reg.fit(X_train, y_train)

DecisionTreeRegressor(random_state=42)

In [None]:
#Instanciation du modele
dt_reg = DecisionTreeRegressor(random_state=42)

#Entrainement du modele 
dt_reg.fit(X_train, y_train)





* **(g)**
    * (1) Effectuer une prédiction sur les données de test et stocker ces prédictions dans **`y_pred_test`**.<br><br>
    * (2) Afficher les 5 premières prédictions. 





In [43]:
# Insérez votre code ici



#Prediction sur les donnees de test 
y_pred_test = dt_reg.predict(X_test)

print(y_pred_test[:5])

[ 9989. 18399.  7788. 10245. 15998.]


In [None]:
#Prediction sur les donnees de test 
y_pred_test = dt_reg.predict(X_test)

print(y_pred_test[:5])






* **(h)** Afficher les 5 premières lignes de `y_test` et les comparer à `y_pred_test`.





In [45]:
# Insérez votre code ici


display(y_test[:5])

#Comparaison entre y_test et y_pred_test : on mesure l'ecart entre ce qu'a predit l'algorithme et le resultat

display(y_test[:5] - y_pred_test[:5])

car_ID
131     9295.000
105    17199.000
159     7898.000
177    10898.000
10     17859.167
Name: price, dtype: float64

car_ID
131    -694.000
105   -1200.000
159     110.000
177     653.000
10     1861.167
Name: price, dtype: float64

In [None]:
print(y_test[:5])

#Comparaison entre y_test et y_pred_test : on mesure l'ecart entre ce qu'a predit l'algorithme et le resultat

print(y_test[:5] - y_pred_test[:5])





* **(i)**

    * (1) Évaluer le modèle à l'aide de la méthode `score` sur les données d'entraînement. <br><br>

    * (2) Évaluer le modèle à l'aide de la méthode `score` sur les données de test.  





In [46]:
print("score train : " , dt_reg.score(X_train, y_train))

print("score test : ", dt_reg.score(X_test,y_test))

score train :  0.998750440729174
score test :  0.8772366485539893


In [None]:
print("score train : " , dt_reg.score(X_train, y_train))

print("score test : ", dt_reg.score(X_test,y_test))





> La méthode **`score`**, comme pour la classification est une métrique qui va comparer les résultats de prédictions de votre jeu de données X  par rapport à y. La différence est qu'en régression, le **score** correspond au coefficient de détermination :
>
>$$ R^{2} = 1 - \frac{\sum\limits_{i=1}^n (\hat{y_{i}} - y_{i})^{2}}{\sum\limits_{i=1}^n ({y_{i}} - \bar{y_{i}})^{2}} $$
> avec : 
>* $y_{i}$ notre variable cible.<br><br>
>* $\hat{y_{i}}$ les prédictions de la variable cible.<br><br>
>* $ \bar{y_{i}}$ la moyenne de la variable cible.
>
>
>**Comment interpréter ce coefficient ?** 
>
>Plus il se rapproche de 0, plus le nuage de points **se disperse autour de la droite de régression**. Au contraire, plus il se rapproche de 1, plus le nuage de points se **resserre autour de la droite de régression**. Ainsi, plus il est proche de 1, plus vos données seront bien prédites.

### 4. Conclusion 

> #### 4.1 A retenir 
>Dans ce cours, vous avez été introduit à la résolution d'un problème de régression et de classification grâce au **Machine Learning**.
>
>Nous avons utilisé la bibliothèque `Scikit-learn` pour instancier : 
>* Un modèle de classification. <br><br>
>* Un modèle de régression.  
>
>Les différentes étapes que nous avons étudiées sont la base de toute résolution d'un problème de **Machine Learning** :
>
>>* On prépare les données en séparant les variables explicatives de la variable cible.<br><br>
>>* On sépare le jeu de données en deux (un jeu d'entraînement et un jeu de test) à l'aide de la fonction `train_test_split` du sous-module `sklearn.model_selection`.<br><br>
>>* On instancie un modèle comme `DecisionTreeClassifier` ou `DecisionRegressor` grâce au constructeur de la classe.<br><br>
>>* On entraîne le modèle sur le jeu de données d'entraînement à l'aide de la méthode `fit`.<br><br>
>>* On effectue une prédiction sur les données de test grâce à la méthode `predict`.<br><br>
>>* On évalue les performances de notre prédiction grâce à la méthode `score`.<br><br>
>
> #### 4.2 Et après ?
>
> Nous allons voir dans le prochain notebook comment fonctionne les modèles de Machine Learning à savoir : les **modèles linéaires** et les **modèles d'arbres**. 



