# I. Votre premier modèle de machine learning

## Sélection de données pour la modélisation
Supposant que votre jeu de données comporte trop de variables à comprendre. Comment pouvez-vous réduire cette énorme quantité de données à quelque chose que vous pouvez comprendre ?

Nous allons commencer par choisir quelques variables en utilisant notre intuition. Les cours ultérieurs vous montreront des techniques statistiques pour hiérarchiser automatiquement les variables.

Pour choisir des variables/colonnes, nous aurons besoin de voir une liste de toutes les colonnes de l'ensemble de données. Cela se fait avec la propriété **columns** du DataFrame (la dernière ligne de code ci-dessous).

In [None]:
import pandas as pd

melbourne_file_path = '../Data/data3/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
melbourne_data.columns

In [None]:
# The Melbourne data has some missing values (some houses for which some variables weren't recorded.)
# Your Iowa data doesn't have missing values in the columns you use. 
# So we will take the simplest option for now, and drop houses from our data. 
# Don't worry about this much for now, though the code is:

# dropna drops missing values (think of na as "not available")
melbourne_data = melbourne_data.dropna(axis=0)

Il existe de nombreuses façons de sélectionner un sous-ensemble de vos données, mais nous allons nous concentrer sur deux approches pour le moment.

1. La notation par points (dot-notation), que nous utilisons pour sélectionner la "cible de prédiction"
2. Sélection avec une liste de colonnes, que nous utilisons pour sélectionner les « features »

### Sélection de la cible de prédiction
Vous pouvez extraire une variable avec **dot-notation**. Cette colonne unique est stockée dans une **Series**, qui ressemble globalement à un DataFrame avec une seule colonne de données.

Nous utiliserons la notation par points pour sélectionner la colonne que nous voulons prédire, appelée **cible de prédiction**. Par convention, la cible de prédiction est appelée **y**. Ainsi, le code dont nous avons besoin pour enregistrer les prix des logements dans les données de Melbourne est

In [None]:
y = melbourne_data.Price

## Choix des Features
Les colonnes qui sont entrées dans notre modèle (et utilisées plus tard pour faire des prédictions) sont appelées « features ». Dans notre cas, ce seraient les colonnes utilisées pour déterminer le prix de la maison. Parfois, vous utiliserez toutes les colonnes sauf la cible comme features. D'autres fois, vous serez mieux avec moins de features.

Pour l'instant, nous allons construire un modèle avec seulement quelques features. Plus tard, vous verrez comment itérer et comparer des modèles construits avec différentes features.

Nous sélectionnons plusieurs features en fournissant une liste de noms de colonnes entre crochets. Chaque élément de cette liste doit être une chaîne (avec des guillemets).

Voici un exemple:

In [None]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

Par convention, ces données sont appelées **X**.

In [None]:
X = melbourne_data[melbourne_features]

Examinons rapidement les données que nous utiliserons pour prédire les prix des logements à l'aide de la méthode « describe » et de la méthode « head », qui affiche les quelques premières lignes.

In [None]:
X.describe()

In [None]:
X.head()

Vérifier visuellement vos données avec ces commandes est une partie importante du travail d'un data scientist. Vous trouverez fréquemment des surprises dans l'ensemble de données qui méritent une inspection plus approfondie.

## Construire votre modèle

Vous utiliserez la bibliothèque **scikit-learn** pour créer vos modèles. Lors du codage, cette bibliothèque est écrite sous la forme **sklearn**, comme vous le verrez dans l'exemple de code. Scikit-learn est considérée comme étant la bibliothèque la plus populaire pour modéliser les types de données généralement stockées dans des DataFrames. 

Les étapes de création et d'utilisation d'un modèle sont les suivantes :
* **Define:** What type of model will it be?  A decision tree?  Some other type of model? Some other parameters of the model type are specified too.
* **Fit:** Capture patterns from provided data. This is the heart of modeling (**the training step**).
* **Predict:** Just what it sounds like (**the inference or prediction step**).
* **Evaluate**: Determine how accurate the model's predictions are.

Voici un exemple de définition d'un modèle d'arbre de décision (regarder la [documentation ici](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html#sklearn.tree.DecisionTreeRegressor)) avec scikit-learn et son entrainement avec les features et la variable cible.

In [None]:
from sklearn.tree import DecisionTreeRegressor

# Define model. Specify a number for random_state to ensure same results each run
melbourne_model = DecisionTreeRegressor(random_state=1)

# Fit model
melbourne_model.fit(X, y)

De nombreux modèles d'apprentissage automatique autorisent un certain caractère aléatoire dans l'entraînement des modèles. La spécification d'un nombre pour « random_state » garantit que vous obtenez les mêmes résultats à chaque exécution. Ceci est considéré comme une bonne pratique. Vous utilisez n'importe quel nombre et la qualité du modèle ne dépendra pas de manière significative de la valeur que vous choisissez exactement.

Nous avons maintenant un modèle entrainé que nous pouvons utiliser pour faire des prédictions.

En pratique, vous voudrez faire des prévisions pour les nouvelles maisons à venir sur le marché plutôt que pour les maisons dont nous avons déjà les prix. Mais nous allons faire des prédictions pour les premières lignes des données d'apprentissage pour voir comment fonctionne la fonction de prédiction.

In [None]:
print("Making predictions for the following 5 houses:")
print(X.head())
print("The predictions are")
print(melbourne_model.predict(X.head()))

## Exercice

In [None]:
# Code you have previously used to load data
import pandas as pd

# Path of the file to read
iowa_file_path = '../Data/data3/train.csv'

home_data = pd.read_csv(iowa_file_path)

### Étape 1 : Spécifiez la cible de prédiction
Sélectionnez la variable cible, qui correspond au prix de vente. Enregistrez-le dans une nouvelle variable appelée « y ». Vous devrez imprimer une liste des colonnes pour trouver le nom de la colonne dont vous avez besoin.

In [None]:
# print the list of columns in the dataset to find the name of the prediction target
home_data.columns

In [None]:
home_data.head(5)

In [None]:
y = ____


### Étape 2 : Créer X
Vous allez maintenant créer un DataFrame appelé « X » contenant les features prédictives.

Puisque vous ne voulez que quelques colonnes des données d'origine, vous allez d'abord créer une liste avec les noms des colonnes que vous voulez dans `X`.

Vous n'utiliserez que les colonnes suivantes dans la liste :

    * LotArea 
    * YearBuilt 
    * 1stFlrSF 
    * 2ndFlrSF 
    * FullBath 
    * BedroomAbvGr 
    * TotRmsAbvGrd 
    
Après avoir créé cette liste de features, utilisez-la pour créer le DataFrame que vous utiliserez pour entrainer le modèle.

In [None]:
# Create the list of features below
feature_names = ___

# Select data corresponding to features in feature_names
X = ____


### Examiner les données
Avant de créer un modèle, jetez un coup d'œil à **X** pour vérifier qu'il semble raisonnable

In [None]:
# Review data
# print description or statistics from X
#print(_)

# print the top few lines
#print(_)

### Étape 3 : Spécifiez et ajustez le modèle

1) Décrivez le fonctionnement des arbres de décision ? quels sont leurs avantages et limites ? citez les différentes implémentations (algorithmes) ? Comment utiliser un arbre de décision sur de nouvelles données ? quelle est la différence entre `DecisionTreeRegressor` et `DecisionTreeClassifier`

2) Créez un `DecisionTreeRegressor` et enregistrez-le dans iowa_model. Assurez-vous d'avoir effectué l'importation appropriée depuis sklearn pour exécuter cette commande.

3) Ensuite, entrainer le modèle que vous venez de créer en utilisant les données dans « X » et « y » que vous avez enregistrées ci-dessus.

In [None]:
# from _ import _
#specify the model. 
#For model reproducibility, set a numeric value for random_state when specifying the model
iowa_model = ____

# Fit the model
____

### Étape 4 : Faire des prédictions
Faites des prédictions avec la méthode "predict" du modèle en utilisant "X" comme données. Enregistrez les résultats dans une variable appelée « prédictions ».

In [None]:
predictions = ____
print(predictions)

### Pensez à vos résultats

Utilisez la méthode « head » pour comparer les quelques prédictions les plus élevées aux valeurs réelles des maisons (en « y ») pour ces mêmes maisons. Rien de surprenant ?

In [None]:
# You can write code in this cell


# II. Validation du modèle

Vous voudrez évaluer presque tous les modèles que vous construisez. Dans la plupart des applications (mais pas toutes), la mesure pertinente de la qualité du modèle est la précision prédictive. En d'autres termes, les prédictions du modèle seront-elles proches de ce qui se passe réellement.

Beaucoup de gens font une énorme erreur lorsqu'ils mesurent la précision prédictive. Ils font des prédictions avec leurs *données d'entraînement* et comparent ces prédictions aux valeurs cibles dans les *données d'entraînement*. Vous verrez le problème avec cette approche et comment le résoudre dans un instant, mais réfléchissons d'abord à la façon dont nous procéderions.

Vous devez d'abord résumer la qualité du modèle de manière compréhensible. Si vous comparez les valeurs prédites et réelles des maisons pour 10 000 maisons, vous trouverez probablement un mélange de bonnes et de mauvaises prédictions. Parcourir une liste de 10 000 valeurs prédites et réelles serait inutile. Nous devons résumer cela en une seule métrique.

Il existe de nombreuses métriques pour résumer la qualité du modèle, mais nous commencerons par une métrique appelée **Mean Absolute Error** (également appelée **MAE**). Décomposons cette métrique en commençant par le dernier mot, erreur.

L'erreur de prédiction pour chaque maison est : <br>
```
erreur=réelle−prédite
```
 
Ainsi, si une maison coûte 150 000 \\$ et que vous avez prédit qu'elle coûterait 100 000 \\$, l'erreur est de 50 000 \$.

Avec la métrique MAE, nous prenons la valeur absolue de chaque erreur. Cela convertit chaque erreur en un nombre positif. Nous prenons ensuite la moyenne de ces erreurs absolues. C'est notre mesure de la qualité du modèle. En clair, on peut dire

> En moyenne, nos prévisions sont erronées d'environ N.

Pour calculer la MAE, nous avons d'abord besoin d'un modèle. Cela est construit dans la cellule ci-dessous.

In [None]:
# Data Loading Code Hidden Here
import pandas as pd

# Load data
melbourne_file_path = '../Data/data3/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 

# Filter rows with missing price values
filtered_melbourne_data = melbourne_data.dropna(axis=0)

# Choose target and features
y = filtered_melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = filtered_melbourne_data[melbourne_features]

from sklearn.tree import DecisionTreeRegressor

# Define model
melbourne_model = DecisionTreeRegressor()

# Fit model
melbourne_model.fit(X, y)

Une fois que nous avons un modèle, voici comment nous calculons l'erreur absolue moyenne :

In [None]:
from sklearn.metrics import mean_absolute_error

predicted_home_prices = melbourne_model.predict(X)
mean_absolute_error(y, predicted_home_prices)

## Le problème des scores « dans l'échantillon »

La mesure que nous venons de calculer peut être appelée un score "dans l'échantillon". Nous avons utilisé un seul « échantillon » de maisons à la fois pour construire le modèle et pour l'évaluer. Voici pourquoi c'est mauvais.

Imaginez que, sur le grand marché immobilier, la couleur de la porte n'est pas liée au prix de la maison.

Cependant, dans l'échantillon de données que vous avez utilisé pour construire le modèle, toutes les maisons avec des portes vertes étaient très chères. Le travail du modèle est de trouver des patterns qui prédisent les prix des maisons, il verra donc ce pattern, et il prédira toujours les prix élevés des maisons avec des portes vertes.

Étant donné que ce modèle a été dérivé des données d'entraînement, le modèle apparaîtra précis dans les données d'entraînement.

Mais si ce modèle ne tient pas lorsque le modèle voit de nouvelles données, le modèle serait très imprécis lorsqu'il est utilisé dans la pratique.

Étant donné que la valeur pratique des modèles provient de la réalisation de prédictions sur de nouvelles données, nous mesurons les performances sur des données qui n'ont pas été utilisées pour construire le modèle. Le moyen le plus simple de procéder consiste à exclure certaines données du processus de création de modèle, puis de les utiliser pour tester la précision du modèle sur des données qu'il n'a jamais vues auparavant. Ces données sont appelées **données de validation**.


## Le coder


La bibliothèque scikit-learn a une fonction `train_test_split` pour diviser les données en deux parties. Nous utiliserons certaines de ces données comme données d'apprentissage pour entrainer le modèle, et nous utiliserons les autres données comme données de validation pour calculer "mean_absolute_error".

Voici le code :

In [None]:
from sklearn.model_selection import train_test_split

# split data into training and validation data, for both features and target
# The split is based on a random number generator. Supplying a numeric value to
# the random_state argument guarantees we get the same split every time we
# run this script.
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 0)

# Define model
melbourne_model = DecisionTreeRegressor()

# Fit model
melbourne_model.fit(train_X, train_y)

# get predicted prices on validation data
val_predictions = melbourne_model.predict(val_X)

print(mean_absolute_error(val_y, val_predictions))

## Wow!

Votre erreur absolue moyenne pour les données de l'échantillon était d'environ 500 dollars. Hors échantillon, c'est plus de 250 000 dollars.

C'est la différence entre un modèle qui est presque tout à fait exact et un autre qui est inutilisable dans la plupart des cas. À titre de référence, la valeur moyenne des maisons dans les données de validation est de 1,1 million de dollars. Ainsi, l'erreur dans les nouvelles données est d'environ un quart de la valeur moyenne de la maison.

Il existe de nombreuses façons d'améliorer ce modèle, telles que l'expérimentation pour trouver de meilleures features ou différents types de modèles.

## Exercice

In [None]:
# Code you have previously used to load data
import pandas as pd
from sklearn.tree import DecisionTreeRegressor

# Path of the file to read
iowa_file_path = '../Data/data3/train.csv'

home_data = pd.read_csv(iowa_file_path)
y = home_data.SalePrice
feature_columns = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = home_data[feature_columns]

# Specify Model
iowa_model = DecisionTreeRegressor()

# Fit Model
iowa_model.fit(X, y)

print("First in-sample predictions:", iowa_model.predict(X.head()))
print("Actual target values for those homes:", y.head().tolist())

### Étape 1 : Divisez vos données
Utilisez la fonction `train_test_split` pour diviser vos données.

Donnez-lui l'argument `random_state=1`.

Rappelez-vous, vos features sont chargées dans le DataFrame **X** et votre cible est chargée dans **y**.

In [None]:
# Import the train_test_split function and uncomment
# from _ import _

# fill in and uncomment
# train_X, val_X, train_y, val_y = ____

### Étape 2 : Spécifiez et entrainez le modèle

Créez un modèle « DecisionTreeRegressor » et entrainez-le avec des données pertinentes.
Définissez à nouveau `random_state` à 1 lors de la création du modèle.

In [None]:
# You imported DecisionTreeRegressor in your last exercise
# and that code has been copied to the setup code above. So, no need to
# import it again

# Specify the model
iowa_model = ____

# Fit iowa_model with the training data.
____

### Étape 3 : Faire des prédictions avec des données de validation

In [None]:
# Predict with all validation observations
val_predictions = ____


Inspectez vos prédictions et valeurs réelles à partir des données de validation.

In [None]:
# print the top few validation predictions
print(____)
# print the top few actual prices from validation data
print(____)

Que remarquez-vous de différent de ce que vous avez vu avec les prédictions dans l'échantillon (qui sont imprimées après la cellule de code supérieure de cette page).

Vous souvenez-vous pourquoi les prédictions de validation diffèrent des prédictions dans l'échantillon (ou d'apprentissage) ?

### Étape 4 : Calculer l'erreur absolue moyenne dans les données de validation

In [None]:
from sklearn.metrics import mean_absolute_error
val_mae = ____

# uncomment following line to see the validation_mae
#print(val_mae)


Est-ce que le MAE est bon ? Il n'y a pas de règle générale sur les bonnes valeurs qui s'applique à toutes les applications. Mais vous verrez comment utiliser (et améliorer) ce nombre à l'étape suivante.

# III. Sous-apprentissage et sur-apprentissage

Maintenant que vous disposez d'un moyen fiable pour mesurer la précision d'un modèle, vous pouvez expérimenter avec des modèles alternatifs et voir lequel donne les meilleures prédictions. Mais quelles alternatives avez-vous pour les modèles ?

Vous pouvez voir dans la [documentation](http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html) de scikit-learn que le modèle d'arbre de décision a de nombreuses options (plus que vous ne voudrez ou besoin depuis longtemps). Les options les plus importantes déterminent la profondeur de l'arbre.

En pratique, il n'est pas rare qu'un arbre ait 10 niveaux entre le niveau supérieur (toutes les maisons) et une feuille. Au fur et à mesure que l'arbre s'approfondit, l'ensemble de données est découpé en feuilles avec moins de maisons. Si un arbre n'avait qu'une division, il divise les données en 2 groupes. Si chaque groupe est à nouveau divisé, nous obtiendrons 4 groupes de maisons. Diviser chacun d'eux à nouveau créerait 8 groupes. Si nous continuons à doubler le nombre de groupes en ajoutant plus de divisions à chaque niveau, nous aurons \\(2^{10}\\) groupes de maisons au moment où nous arrivons au 10ème niveau. Cela fait 1024 feuilles.

Lorsque nous divisons les maisons entre plusieurs feuilles, nous avons également moins de maisons dans chaque feuille. Les feuilles avec très peu de maisons feront des prédictions assez proches des valeurs réelles de ces maisons, mais elles peuvent faire des prédictions très peu fiables pour les nouvelles données (car chaque prédiction est basée sur quelques maisons seulement).

Il s'agit d'un phénomène appelé **sur-apprentissage**, dans lequel un modèle correspond presque parfaitement aux données d'entraînement, mais ne réussit pas bien dans la validation et dans d'autres nouvelles données. D'un autre côté, si nous rendons notre arbre très peu profond, il ne divise pas les maisons en groupes très distincts.

À l'extrême, si un arbre divise les maisons en seulement 2 ou 4, chaque groupe a toujours une grande variété de maisons. Les prédictions résultantes peuvent être éloignées pour la plupart des maisons, même dans les données d'entraînement (et ce sera également mauvais en validation pour la même raison). Lorsqu'un modèle ne parvient pas à capturer les distinctions et les patterns importants dans les données, il fonctionne donc mal même dans les données d'entraînement, cela s'appelle **sous-apprentissage**.

Étant donné que nous nous soucions de la précision des nouvelles données, que nous estimons à partir de nos données de validation, nous voulons trouver le juste milieu entre le sous-apprentissage et le sur-apprentissage.

## Exemple
Il existe quelques alternatives pour contrôler la profondeur de l'arbre, et beaucoup permettent à certains itinéraires à travers l'arbre d'avoir une plus grande profondeur que d'autres itinéraires. Mais l'argument *max_leaf_nodes* fournit un moyen très judicieux de contrôler le surapprentissage par rapport au sous-apprentissage. Plus nous permettons au modèle de faire des feuilles, plus nous passons de la zone de sous-apprentissage à la zone de sur-apprentissage.

Nous pouvons utiliser une fonction utilitaire pour aider à comparer les scores MAE à partir de différentes valeurs pour *max_leaf_nodes* :

In [None]:
from sklearn.metrics import mean_absolute_error
from sklearn.tree import DecisionTreeRegressor

def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(train_X, train_y)
    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)
    return(mae)

Les données sont chargées dans **train_X**, **val_X**, **train_y** et **val_y** en utilisant le code que vous avez déjà vu (et que vous avez déjà écrit).

In [None]:
# Data Loading Code Runs At This Point
import pandas as pd
    
# Load data
melbourne_file_path = '../Data/data3/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 

# Filter rows with missing values
filtered_melbourne_data = melbourne_data.dropna(axis=0)

# Choose target and features
y = filtered_melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = filtered_melbourne_data[melbourne_features]

from sklearn.model_selection import train_test_split

# split data into training and validation data, for both features and target
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=0)

Nous pouvons utiliser une boucle for pour comparer la précision des modèles construits avec différentes valeurs pour *max_leaf_nodes.*

In [None]:
# compare MAE with differing values of max_leaf_nodes
for max_leaf_nodes in [5, 50, 500, 5000]:
    my_mae = get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y)
    print("Max leaf nodes: %d  \t\t Mean Absolute Error:  %d" %(max_leaf_nodes, my_mae))

Parmi les options répertoriées, 500 est le nombre optimal de feuilles.

## Conclusion

Voici ce qu'il faut retenir : les modèles peuvent souffrir de :
- **Sur-apprentissage :** capture de patterns parasites qui ne se reproduiront pas à l'avenir, entraînant des prédictions moins précises, ou
- **Sous-apprentissage :** échec à capturer les patterns pertinents, ce qui conduit à nouveau à des prédictions moins précises.

  Nous utilisons des données de **validation**, qui ne sont pas utilisées dans l'entraînement des modèles, pour mesurer la précision d'un modèle candidat. Cela nous permet d'essayer de nombreux modèles candidats et de garder le meilleur.

## Exercice

In [None]:
# Code you have previously used to load data
import pandas as pd
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor


# Path of the file to read
iowa_file_path = '../Data/data3/train.csv'

home_data = pd.read_csv(iowa_file_path)
# Create target object and call it y
y = home_data.SalePrice
# Create X
features = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = home_data[features]

# Split into validation and training data
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)

# Specify Model
iowa_model = DecisionTreeRegressor(random_state=1)
# Fit Model
iowa_model.fit(train_X, train_y)

# Make validation predictions and calculate mean absolute error
val_predictions = iowa_model.predict(val_X)
val_mae = mean_absolute_error(val_predictions, val_y)
print("Validation MAE: {:,.0f}".format(val_mae))


In [None]:
def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(train_X, train_y)
    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)
    return(mae)

### Étape 1 : comparer différentes tailles d'arbres
Écrivez une boucle qui essaie les valeurs suivantes pour *max_leaf_nodes* à partir d'un ensemble de valeurs possibles.

Appelez la fonction *get_mae* sur chaque valeur de max_leaf_nodes. Stockez la sortie d'une manière qui vous permet de sélectionner la valeur de `max_leaf_nodes` qui donne le modèle le plus précis sur vos données.

In [None]:
candidate_max_leaf_nodes = [_, _, _, etc. ]
# Write loop to find the ideal tree size from candidate_max_leaf_nodes
___

# Store the best value of max_leaf_nodes
best_tree_size = ____


### Étape 2 : Entrainer le modèle avec toutes les données
Vous connaissez la meilleure taille d'arbre. Si vous deviez déployer ce modèle dans la pratique, vous le rendriez encore plus précis en utilisant toutes les données et en conservant cette taille d'arbre. C'est-à-dire que vous n'avez pas besoin de conserver les données de validation maintenant que vous avez pris toutes vos décisions de modélisation.

In [None]:
# Fill in argument to make optimal size and uncomment
# final_model = DecisionTreeRegressor(____)

# fit the final model 
____

## Variable catégorielle

Une variable catégorielle ne prend qu'un nombre limité de valeurs.

  -  Considérez une enquête qui vous demande à quelle fréquence vous prenez votre petit-déjeuner et propose quatre options : « Jamais », « Rarement », « La plupart des jours » ou « Tous les jours ». Dans ce cas, les données sont catégorielles, car les réponses appartiennent à un ensemble fixe de catégories.
  -  Si les gens répondaient à un sondage sur la marque de voiture qu'ils possédaient, les réponses seraient classées dans des catégories telles que "Honda", "Toyota" et "Ford". Dans ce cas, les données sont également catégorielles.

Vous obtiendrez une erreur si vous essayez de connecter ces variables à la plupart des modèles d'apprentissage automatique en Python sans les prétraiter au préalable. Dans ce tutoriel, nous allons voir l'approche la plus utilisée pour préparer vos données catégorielles.

### One-Hot Encoding

Le One-Hot Encoding crée de nouvelles colonnes indiquant la présence (ou l'absence) de chaque valeur possible dans les données d'origine. Pour comprendre cela, nous allons travailler à travers un exemple.

Etant donné un jeu de données contenant une variable catégorielle (colonne) appelée « Couleur » avec trois catégories : « Rouge », « Jaune » et « Vert ». L'encodage one-hot correspondant contient une colonne pour chaque valeur possible et une ligne pour chaque ligne du jeu de données d'origine. Partout où la valeur d'origine était « Rouge », nous avons mis un 1 dans la colonne « Rouge » ; si la valeur d'origine était "Jaune", on met un 1 dans la colonne "Jaune", et ainsi de suite.

L'encodage one-hot ne suppose pas un ordre des catégories (**dans le cas contraire, il faut utiliser l'encodage ordinal**). Ainsi, vous pouvez vous attendre à ce que cette approche fonctionne particulièrement bien s'il n'y a pas d'ordre clair dans les données catégorielles (par exemple, « Rouge » n'est ni plus ni moins que « Jaune »). Nous appelons variables nominales les variables catégorielles sans classement intrinsèque.

L'encodage one-hot ne fonctionne généralement pas bien si la variable catégorielle prend un grand nombre de valeurs (c'est-à-dire que vous ne l'utiliserez généralement pas pour des variables prenant plus de 15 valeurs différentes).

**Exemple**

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

# Read the data
data = pd.read_csv('../Data/data3/melb_data.csv')

# Separate target from predictors
y = data.Price
X = data.drop(['Price'], axis=1)

# Divide data into training and validation subsets
X_train_full, X_valid_full, y_train, y_valid = train_test_split(
                                                    X, y, train_size=0.8, test_size=0.2, random_state=0)

# Drop columns with missing values (simplest approach)
cols_with_missing = [col for col in X_train_full.columns if X_train_full[col].isnull().any()] 
X_train_full.drop(cols_with_missing, axis=1, inplace=True)
X_valid_full.drop(cols_with_missing, axis=1, inplace=True)

# "Cardinality" means the number of unique values in a column
# Select categorical columns with relatively low cardinality (convenient but arbitrary)
low_cardinality_cols = [cname for cname in X_train_full.columns if X_train_full[cname].nunique() < 10 and 
                        X_train_full[cname].dtype == "object"]

# Select numerical columns
numerical_cols = [cname for cname in X_train_full.columns if X_train_full[cname].dtype in ['int64', 'float64']]

# Keep selected columns only
my_cols = low_cardinality_cols + numerical_cols
X_train = X_train_full[my_cols].copy()
X_valid = X_valid_full[my_cols].copy()

In [None]:
X_train.head()

In [None]:
# Get list of categorical variables
s = (X_train.dtypes == 'object')
object_cols = list(s[s].index)

print("Categorical variables:")
print(object_cols)

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

def score_dataset(X_train, X_valid, y_train, y_valid):
    model = RandomForestRegressor(n_estimators=100, random_state=0)
    model.fit(X_train, y_train)
    preds = model.predict(X_valid)
    return mean_absolute_error(y_valid, preds)

Regardez la documentation de la [méthode OneHotEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html) de scikit-learn

In [None]:
from sklearn.preprocessing import OneHotEncoder

# Apply one-hot encoder to each column with categorical data
OH_encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)
OH_cols_train = pd.DataFrame(OH_encoder.fit_transform(X_train[object_cols]))
OH_cols_valid = pd.DataFrame(OH_encoder.transform(X_valid[object_cols]))

# One-hot encoding removed index; put it back
OH_cols_train.index = X_train.index
OH_cols_valid.index = X_valid.index

# Remove categorical columns (will replace with one-hot encoding)
num_X_train = X_train.drop(object_cols, axis=1)
num_X_valid = X_valid.drop(object_cols, axis=1)

# Add one-hot encoded columns to numerical features
OH_X_train = pd.concat([num_X_train, OH_cols_train], axis=1)
OH_X_valid = pd.concat([num_X_valid, OH_cols_valid], axis=1)

print("MAE from One-Hot Encoding:") 
print(score_dataset(OH_X_train, OH_X_valid, y_train, y_valid))

### Exercice

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

# Read the data
X = pd.read_csv('../Data/data3/train.csv', index_col='Id') 
X_test = pd.read_csv('../Data/data3/test.csv', index_col='Id')

# Remove rows with missing target, separate target from predictors
X.dropna(axis=0, subset=['SalePrice'], inplace=True)
y = X.SalePrice
X.drop(['SalePrice'], axis=1, inplace=True)

# To keep things simple, we'll drop columns with missing values
cols_with_missing = [col for col in X.columns if X[col].isnull().any()] 
X.drop(cols_with_missing, axis=1, inplace=True)
X_test.drop(cols_with_missing, axis=1, inplace=True)

# Break off validation set from training data
X_train, X_valid, y_train, y_valid = train_test_split(X, y,
                                                      train_size=0.8, test_size=0.2,
                                                      random_state=0)

In [None]:
X.head()

Notez que l'ensemble de données contient à la fois des variables numériques et catégorielles. Vous devrez encoder les données catégorielles avant d'entraîner un modèle.
Pour comparer différents modèles, vous utiliserez la même fonction score_dataset() du tutoriel. Cette fonction rapporte l'erreur absolue moyenne (MAE) à partir d'un modèle de forêt aléatoire.

**Étape 1 : Supprimer les colonnes contenant des données catégorielles**

In [None]:
# Fill in the lines below: drop columns in training and validation data
drop_X_train = ____
drop_X_valid = ____

In [None]:
print("MAE from Approach 1 (Drop categorical variables):")
print(score_dataset(drop_X_train, drop_X_valid, y_train, y_valid))

In [None]:
print("Unique values in 'Condition2' column in training data:", X_train['Condition2'].unique())
print("\nUnique values in 'Condition2' column in validation data:", X_valid['Condition2'].unique())

Qu'est-ce que vous remarquez ?

**Étape 2 : encodage ordinal**

In [None]:
# Categorical columns in the training data
object_cols = [col for col in X_train.columns if X_train[col].dtype == "object"]

# Columns that can be safely ordinal encoded
good_label_cols = [col for col in object_cols if 
                   set(X_valid[col]).issubset(set(X_train[col]))]
        
# Problematic columns that will be dropped from the dataset
bad_label_cols = list(set(object_cols)-set(good_label_cols))
        
print('Categorical columns that will be ordinal encoded:', good_label_cols)
print('\nCategorical columns that will be dropped from the dataset:', bad_label_cols)

Utilisez la cellule de code suivante pour coder en ordinal les données dans X_train et X_valid. Définissez les DataFrames prétraités sur label_X_train et label_X_valid, respectivement.

   -  Nous avons fourni le code ci-dessous pour supprimer les colonnes catégorielles dans bad_label_cols de l'ensemble de données.
   -  Vous devez encoder de manière ordinale les colonnes catégorielles dans good_label_cols.

In [None]:
from sklearn.preprocessing import OrdinalEncoder

# Drop categorical columns that will not be encoded
label_X_train = X_train.drop(bad_label_cols, axis=1)
label_X_valid = X_valid.drop(bad_label_cols, axis=1)

# Apply ordinal encoder 
____ # Your code here

In [None]:
print("MAE from Approach 2 (Ordinal Encoding):") 
print(score_dataset(label_X_train, label_X_valid, y_train, y_valid))

In [None]:
# Get number of unique entries in each column with categorical data
object_nunique = list(map(lambda col: X_train[col].nunique(), object_cols))
d = dict(zip(object_cols, object_nunique))

# Print number of unique entries by column, in ascending order
sorted(d.items(), key=lambda x: x[1])

**Étape 3 : one-hot encoding**

In [None]:
from sklearn.preprocessing import OneHotEncoder

# Use as many lines of code as you need!

OH_X_train = ____ # Your code here
OH_X_valid = ____ # Your code here

In [None]:
print("MAE from Approach 3 (One-Hot Encoding):") 
print(score_dataset(OH_X_train, OH_X_valid, y_train, y_valid))

**Générer des prédictions sur le jeu de test**

In [None]:
# Your code here
____

## Cross-Validation

L'apprentissage automatique est un processus itératif.

Vous serez confronté à des choix concernant les variables prédictives à utiliser, les types de modèles à utiliser, les arguments à fournir à ces modèles, etc. Jusqu'à présent, vous avez fait ces choix en fonction des données en mesurant la qualité du modèle avec un jeu de validation.

Mais il y a quelques inconvénients à cette approche. Pour voir cela, imaginez que vous avez un jeu de données avec 5 000 lignes. Vous conserverez généralement environ 20 % des données sous forme de jeu de données de validation, soit 1 000 lignes. Mais cela laisse une chance aléatoire dans la détermination des scores du modèle. C'est-à-dire qu'un modèle pourrait bien fonctionner sur un ensemble de 1 000 lignes, même s'il serait inexact sur 1 000 lignes différentes.

À l'extrême, vous pourriez imaginer n'avoir qu'une seule ligne de données dans l'ensemble de validation. Si vous comparez des modèles alternatifs, celui qui fait les meilleures prédictions sur un seul point de données sera principalement une question de chance !

En général, plus le jeu de validation est grand, moins il y a d'aléatoire (alias "bruit") dans notre mesure de la qualité du modèle, et plus il sera fiable. Malheureusement, nous ne pouvons obtenir un grand jeu de validation qu'en supprimant des lignes de nos données d'entraînement, et des ensembles de données d'entraînement plus petits signifient des modèles pires !

En validation croisée, nous exécutons notre processus de modélisation sur différents sous-ensembles de données pour obtenir plusieurs mesures de la qualité du modèle.

Par exemple, nous pourrions commencer par diviser les données en 5 parties, chacune représentant 20 % du jeu de données complet. Dans ce cas, nous disons que nous avons divisé les données en 5 "folds".

Ensuite, nous effectuons une expérience pour chaque `fold` :

   - Dans l'expérience 1, nous utilisons le premier fold comme jeu de validation et tout le reste comme données d'apprentissage. Cela nous donne une mesure de la qualité du modèle basée sur un jeu de validation de 20 %.
   - Dans l'expérience 2, nous conservons les données du deuxième fold (et utilisons tout sauf le deuxième fold pour entraîner le modèle). Ce 2e fold est ensuite utilisé pour obtenir une deuxième estimation de la qualité du modèle.
   - Nous répétons ce processus, en utilisant chaque fold une fois comme jeu de validation. En résumé, 100 % des données sont utilisées comme jeu de validation à un moment donné, et nous nous retrouvons avec une mesure de la qualité du modèle basée sur toutes les lignes de l'ensemble de données (même si nous n'utilisons pas toutes les lignes simultanément) .

### Quand utiliser la validation croisée ?
La validation croisée donne une mesure plus précise de la qualité du modèle, ce qui est particulièrement important si vous prenez de nombreuses décisions de modélisation. Cependant, son exécution peut prendre plus de temps, car elle estime plusieurs modèles (un pour chaque fold).

Alors, compte tenu de ces compromis, quand devriez-vous utiliser chaque approche ?

   -  Pour les petits ensembles de données, où la charge de calcul supplémentaire n'est pas un gros problème, vous devez exécuter une validation croisée.
   -  Pour les ensembles de données plus volumineux, un seul ensemble de validation est suffisant. Votre code s'exécutera plus rapidement et vous disposerez peut-être de suffisamment de données pour qu'il soit peu nécessaire d'en réutiliser certaines pour la rétention.
   
Il n'y a pas de seuil simple pour ce qui constitue un grand ou un petit ensemble de données. Mais si votre modèle prend quelques minutes ou moins à exécuter, cela vaut probablement la peine de passer à la validation croisée.

Vous pouvez également exécuter une validation croisée et voir si les scores de chaque expérience semblent proches. Si chaque expérience donne les mêmes résultats, un seul ensemble de validation est probablement suffisant.

### Exercice

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

# Read the data
train_data = pd.read_csv('../Data/data3/train.csv', index_col='Id')
test_data = pd.read_csv('../Data/data3/test.csv', index_col='Id')

# Remove rows with missing target, separate target from predictors
train_data.dropna(axis=0, subset=['SalePrice'], inplace=True)
y = train_data.SalePrice              
train_data.drop(['SalePrice'], axis=1, inplace=True)

# Select numeric columns only
numeric_cols = [cname for cname in train_data.columns if train_data[cname].dtype in ['int64', 'float64']]
X = train_data[numeric_cols].copy()
X_test = test_data[numeric_cols].copy()

Le pipeline ci-dessous utilisera SimpleImputer() pour remplacer les valeurs manquantes dans les données, avant d'utiliser RandomForestRegressor() pour entraîner un modèle de forêt aléatoire afin de faire des prédictions. Nous définissons le nombre d'arbres dans le modèle de forêt aléatoire avec le paramètre n_estimators, et la définition de random_state garantit la reproductibilité.

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

my_pipeline = Pipeline(steps=[
    ('preprocessor', SimpleImputer()),
    ('model', RandomForestRegressor(n_estimators=50, random_state=0))
])

Le code ci-dessous utilise la fonction cross_val_score() pour obtenir l'erreur absolue moyenne (MAE), moyennée sur cinq folds différents. Rappelons que nous définissons le nombre de folds avec le paramètre cv.

In [None]:
from sklearn.model_selection import cross_val_score

# Multiply by -1 since sklearn calculates *negative* MAE
scores = -1 * cross_val_score(my_pipeline, X, y,
                              cv=5,
                              scoring='neg_mean_absolute_error')

print("Average MAE score:", scores.mean())

**Step 1: Write a useful function**

Dans cet exercice, vous utiliserez la validation croisée pour **sélectionner les paramètres d'un modèle d'apprentissage automatique**.

Commencez par écrire une fonction get_score() qui rapporte la moyenne (sur trois folds de validation croisée) MAE d'un pipeline d'apprentissage automatique qui utilise :

   -  les données en X et y pour créer des plis,
   -  SimpleImputer() (avec tous les paramètres laissés par défaut) pour remplacer les valeurs manquantes, et
   -  RandomForestRegressor() (avec random_state=0) pour s'adapter à un modèle de forêt aléatoire.

Le paramètre n_estimators fourni à get_score() est utilisé lors de la définition du nombre d'arbres dans le modèle de forêt aléatoire.

In [None]:
def get_score(n_estimators):
    """Return the average MAE over 3 CV folds of random forest model.
    
    Keyword argument:
    n_estimators -- the number of trees in the forest
    """
    # Replace this body with your own code
    pass

**Step 2: Test different parameter values**

Vous allez maintenant utiliser la fonction que vous avez définie à l'étape 1 pour évaluer les performances du modèle correspondant à huit valeurs différentes pour le nombre d'arbres dans la forêt aléatoire : 50, 100, 150, ..., 300, 350, 400.

Stockez vos résultats dans les résultats d'un dictionnaire Python, où result[i] est le MAE moyen renvoyé par get_score(i).

In [None]:
results = ____ # Your code here

Utilisez la cellule suivante pour visualiser vos résultats de l'étape 2. Exécutez le code sans modifications.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

plt.plot(list(results.keys()), list(results.values()))
plt.show()

**Step 3: Find the best parameter value**

Compte tenu des résultats, quelle valeur pour n_estimateurs semble la meilleure pour le modèle de forêt aléatoire ? Utilisez votre réponse pour définir la valeur de n_estimators_best.

In [None]:
n_estimators_best = ____