# I. Votre premier modèle de machine learning

## Sélection de données pour la modélisation
Votre ensemble de données comportait trop de variables à comprendre. Comment pouvez-vous réduire cette énorme quantité de données à quelque chose que vous pouvez comprendre ?

Nous allons commencer par choisir quelques variables en utilisant notre intuition. Les cours ultérieurs vous montreront des techniques statistiques pour hiérarchiser automatiquement les variables.

Pour choisir des variables/colonnes, nous aurons besoin de voir une liste de toutes les colonnes de l'ensemble de données. Cela se fait avec la propriété **colonnes** du DataFrame (la dernière ligne de code ci-dessous).

In [1]:
import pandas as pd

melbourne_file_path = '../Data/data3/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [2]:
# The Melbourne data has some missing values (some houses for which some variables weren't recorded.)
# Your Iowa data doesn't have missing values in the columns you use. 
# So we will take the simplest option for now, and drop houses from our data. 
# Don't worry about this much for now, though the code is:

# dropna drops missing values (think of na as "not available")
melbourne_data = melbourne_data.dropna(axis=0)

Il existe de nombreuses façons de sélectionner un sous-ensemble de vos données, mais nous allons nous concentrer sur deux approches pour le moment.

1. La notation par points (dot-notation), que nous utilisons pour sélectionner la "cible de prédiction"
2. Sélection avec une liste de colonnes, que nous utilisons pour sélectionner les « features »

### Sélection de la cible de prédiction
Vous pouvez extraire une variable avec **dot-notation**. Cette colonne unique est stockée dans une **Series**, qui ressemble globalement à un DataFrame avec une seule colonne de données.

Nous utiliserons la notation par points pour sélectionner la colonne que nous voulons prédire, appelée **cible de prédiction**. Par convention, la cible de prédiction est appelée **y**. Ainsi, le code dont nous avons besoin pour enregistrer les prix des logements dans les données de Melbourne est

In [3]:
y = melbourne_data.Price

## Choix des "Features"
Les colonnes qui sont entrées dans notre modèle (et utilisées plus tard pour faire des prédictions) sont appelées « features ». Dans notre cas, ce seraient les colonnes utilisées pour déterminer le prix de la maison. Parfois, vous utiliserez toutes les colonnes sauf la cible comme features. D'autres fois, vous serez mieux avec moins de features.

Pour l'instant, nous allons construire un modèle avec seulement quelques features. Plus tard, vous verrez comment itérer et comparer des modèles construits avec différentes features.

Nous sélectionnons plusieurs features en fournissant une liste de noms de colonnes entre crochets. Chaque élément de cette liste doit être une chaîne (avec des guillemets).

Voici un exemple:

In [4]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

Par convention, ces données sont appelées **X**.

In [5]:
X = melbourne_data[melbourne_features]

Examinons rapidement les données que nous utiliserons pour prédire les prix des logements à l'aide de la méthode « describe » et de la méthode « head », qui affiche les quelques premières lignes.

In [6]:
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [7]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


Vérifier visuellement vos données avec ces commandes est une partie importante du travail d'un data scientist. Vous trouverez fréquemment des surprises dans l'ensemble de données qui méritent une inspection plus approfondie.

## Construire votre modèle

Vous utiliserez la bibliothèque **scikit-learn** pour créer vos modèles. Lors du codage, cette bibliothèque est écrite sous la forme **sklearn**, comme vous le verrez dans l'exemple de code. Scikit-learn est considérée la bibliothèque la plus populaire pour modéliser les types de données généralement stockées dans les DataFrames. 

Les étapes de création et d'utilisation d'un modèle sont les suivantes :
* **Define:** What type of model will it be?  A decision tree?  Some other type of model? Some other parameters of the model type are specified too.
* **Fit:** Capture patterns from provided data. This is the heart of modeling.
* **Predict:** Just what it sounds like
* **Evaluate**: Determine how accurate the model's predictions are.

Voici un exemple de définition d'un modèle d'arbre de décision avec scikit-learn et son entrainement avec les features et la variable cible.

In [8]:
from sklearn.tree import DecisionTreeRegressor

# Define model. Specify a number for random_state to ensure same results each run
melbourne_model = DecisionTreeRegressor(random_state=1)

# Fit model
melbourne_model.fit(X, y)

DecisionTreeRegressor(random_state=1)

De nombreux modèles d'apprentissage automatique autorisent un certain caractère aléatoire dans l'entraînement des modèles. La spécification d'un nombre pour « random_state » garantit que vous obtenez les mêmes résultats à chaque exécution. Ceci est considéré comme une bonne pratique. Vous utilisez n'importe quel nombre et la qualité du modèle ne dépendra pas de manière significative de la valeur que vous choisissez exactement.

Nous avons maintenant un modèle entrainé que nous pouvons utiliser pour faire des prédictions.

En pratique, vous voudrez faire des prévisions pour les nouvelles maisons à venir sur le marché plutôt que pour les maisons dont nous avons déjà les prix. Mais nous allons faire des prédictions pour les premières lignes des données d'apprentissage pour voir comment fonctionne la fonction de prédiction.

In [9]:
print("Making predictions for the following 5 houses:")
print(X.head())
print("The predictions are")
print(melbourne_model.predict(X.head()))

Making predictions for the following 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
The predictions are
[1035000. 1465000. 1600000. 1876000. 1636000.]


## Exercice

In [10]:
# Code you have previously used to load data
import pandas as pd

# Path of the file to read
iowa_file_path = '../Data/data3/train.csv'

home_data = pd.read_csv(iowa_file_path)

### Étape 1 : Spécifiez la cible de prédiction
Sélectionnez la variable cible, qui correspond au prix de vente. Enregistrez-le dans une nouvelle variable appelée « y ». Vous devrez imprimer une liste des colonnes pour trouver le nom de la colonne dont vous avez besoin.

In [None]:
# print the list of columns in the dataset to find the name of the prediction target


In [None]:
y = ____


### Étape 2 : Créer X
Vous allez maintenant créer un DataFrame appelé « X » contenant les features prédictives.

Puisque vous ne voulez que quelques colonnes des données d'origine, vous allez d'abord créer une liste avec les noms des colonnes que vous voulez dans `X`.

Vous n'utiliserez que les colonnes suivantes dans la liste :
    * LotArea
    * YearBuilt
    * 1stFlrSF
    * 2ndFlrSF
    * FullBath
    * BedroomAbvGr
    * TotRmsAbvGrd
Après avoir créé cette liste de features, utilisez-la pour créer le DataFrame que vous utiliserez pour entrainer le modèle.

In [None]:
# Create the list of features below
feature_names = ___

# Select data corresponding to features in feature_names
X = ____


### Examiner les données
Avant de créer un modèle, jetez un coup d'œil à **X** pour vérifier qu'il semble raisonnable

In [None]:
# Review data
# print description or statistics from X
#print(_)

# print the top few lines
#print(_)

### Étape 3 : Spécifiez et ajustez le modèle
Créez un `DecisionTreeRegressor` et enregistrez-le dans iowa_model. Assurez-vous d'avoir effectué l'importation appropriée depuis sklearn pour exécuter cette commande.

Ensuite, entrainer le modèle que vous venez de créer en utilisant les données dans « X » et « y » que vous avez enregistrées ci-dessus.

In [None]:
# from _ import _
#specify the model. 
#For model reproducibility, set a numeric value for random_state when specifying the model
iowa_model = ____

# Fit the model
____

### Étape 4 : Faire des prédictions
Faites des prédictions avec la commande "predict" du modèle en utilisant "X" comme données. Enregistrez les résultats dans une variable appelée « prédictions ».

In [None]:
predictions = ____
print(predictions)


### Pensez à vos résultats

Utilisez la méthode « head » pour comparer les quelques prédictions les plus élevées aux valeurs réelles des maisons (en « y ») pour ces mêmes maisons. Rien de surprenant ?

In [None]:
# You can write code in this cell


# II. Validation du modèle

Vous voudrez évaluer presque tous les modèles que vous construisez. Dans la plupart des applications (mais pas toutes), la mesure pertinente de la qualité du modèle est la précision prédictive. En d'autres termes, les prédictions du modèle seront-elles proches de ce qui se passe réellement.

Beaucoup de gens font une énorme erreur lorsqu'ils mesurent la précision prédictive. Ils font des prédictions avec leurs *données d'entraînement* et comparent ces prédictions aux valeurs cibles dans les *données d'entraînement*. Vous verrez le problème avec cette approche et comment le résoudre dans un instant, mais réfléchissons d'abord à la façon dont nous procéderions.

Vous devez d'abord résumer la qualité du modèle de manière compréhensible. Si vous comparez les valeurs prédites et réelles des maisons pour 10 000 maisons, vous trouverez probablement un mélange de bonnes et de mauvaises prédictions. Parcourir une liste de 10 000 valeurs prédites et réelles serait inutile. Nous devons résumer cela en une seule métrique.

Il existe de nombreuses métriques pour résumer la qualité du modèle, mais nous commencerons par une métrique appelée **Mean Absolute Error** (également appelée **MAE**). Décomposons cette métrique en commençant par le dernier mot, erreur.

L'erreur de prédiction pour chaque maison est : <br>
```
erreur=réelle−prédite
```
 
Ainsi, si une maison coûte 150 000 \\$ et que vous avez prédit qu'elle coûterait 100 000 \\$, l'erreur est de 50 000 \$.

Avec la métrique MAE, nous prenons la valeur absolue de chaque erreur. Cela convertit chaque erreur en un nombre positif. Nous prenons ensuite la moyenne de ces erreurs absolues. C'est notre mesure de la qualité du modèle. En clair, on peut dire

> En moyenne, nos prévisions sont erronées d'environ X.

Pour calculer la MAE, nous avons d'abord besoin d'un modèle. Cela est construit dans la cellule ci-dessous.

In [11]:
# Data Loading Code Hidden Here
import pandas as pd

# Load data
melbourne_file_path = '../Data/data3/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
# Filter rows with missing price values
filtered_melbourne_data = melbourne_data.dropna(axis=0)
# Choose target and features
y = filtered_melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = filtered_melbourne_data[melbourne_features]

from sklearn.tree import DecisionTreeRegressor
# Define model
melbourne_model = DecisionTreeRegressor()
# Fit model
melbourne_model.fit(X, y)

DecisionTreeRegressor()

Une fois que nous avons un modèle, voici comment nous calculons l'erreur absolue moyenne :

In [12]:
from sklearn.metrics import mean_absolute_error

predicted_home_prices = melbourne_model.predict(X)
mean_absolute_error(y, predicted_home_prices)

434.71594577146544

## Le problème des scores « dans l'échantillon »

La mesure que nous venons de calculer peut être appelée un score "dans l'échantillon". Nous avons utilisé un seul « échantillon » de maisons à la fois pour construire le modèle et pour l'évaluer. Voici pourquoi c'est mauvais.

Imaginez que, sur le grand marché immobilier, la couleur de la porte n'est pas liée au prix de la maison.

Cependant, dans l'échantillon de données que vous avez utilisé pour construire le modèle, toutes les maisons avec des portes vertes étaient très chères. Le travail du modèle est de trouver des patterns qui prédisent les prix des maisons, il verra donc ce pattern, et il prédira toujours les prix élevés des maisons avec des portes vertes.

Étant donné que ce modèle a été dérivé des données d'entraînement, le modèle apparaîtra précis dans les données d'entraînement.

Mais si ce modèle ne tient pas lorsque le modèle voit de nouvelles données, le modèle serait très imprécis lorsqu'il est utilisé dans la pratique.

Étant donné que la valeur pratique des modèles provient de la réalisation de prédictions sur de nouvelles données, nous mesurons les performances sur des données qui n'ont pas été utilisées pour construire le modèle. Le moyen le plus simple de procéder consiste à exclure certaines données du processus de création de modèle, puis à les utiliser pour tester la précision du modèle sur des données qu'il n'a jamais vues auparavant. Ces données sont appelées **données de validation**.


## Le coder


La bibliothèque scikit-learn a une fonction `train_test_split` pour diviser les données en deux morceaux. Nous utiliserons certaines de ces données comme données d'apprentissage pour entrainer le modèle, et nous utiliserons les autres données comme données de validation pour calculer "mean_absolute_error".

Voici le code :

In [13]:
from sklearn.model_selection import train_test_split

# split data into training and validation data, for both features and target
# The split is based on a random number generator. Supplying a numeric value to
# the random_state argument guarantees we get the same split every time we
# run this script.
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 0)
# Define model
melbourne_model = DecisionTreeRegressor()
# Fit model
melbourne_model.fit(train_X, train_y)

# get predicted prices on validation data
val_predictions = melbourne_model.predict(val_X)
print(mean_absolute_error(val_y, val_predictions))

264004.1310522918


## Wow!

Votre erreur absolue moyenne pour les données de l'échantillon était d'environ 500 dollars. Hors échantillon, c'est plus de 250 000 dollars.

C'est la différence entre un modèle qui est presque tout à fait exact et un autre qui est inutilisable dans la plupart des cas. À titre de référence, la valeur moyenne des maisons dans les données de validation est de 1,1 million de dollars. Ainsi, l'erreur dans les nouvelles données est d'environ un quart de la valeur moyenne de la maison.

Il existe de nombreuses façons d'améliorer ce modèle, telles que l'expérimentation pour trouver de meilleures features ou différents types de modèles.

## Exercice

In [14]:
# Code you have previously used to load data
import pandas as pd
from sklearn.tree import DecisionTreeRegressor

# Path of the file to read
iowa_file_path = '../Data/data3/train.csv'

home_data = pd.read_csv(iowa_file_path)
y = home_data.SalePrice
feature_columns = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = home_data[feature_columns]

# Specify Model
iowa_model = DecisionTreeRegressor()
# Fit Model
iowa_model.fit(X, y)

print("First in-sample predictions:", iowa_model.predict(X.head()))
print("Actual target values for those homes:", y.head().tolist())


First in-sample predictions: [208500. 181500. 223500. 140000. 250000.]
Actual target values for those homes: [208500, 181500, 223500, 140000, 250000]


### Étape 1 : Divisez vos données
Utilisez la fonction `train_test_split` pour diviser vos données.

Donnez-lui l'argument `random_state=1`.

Rappelez-vous, vos features sont chargées dans le DataFrame **X** et votre cible est chargée dans **y**.

In [None]:
# Import the train_test_split function and uncomment
# from _ import _

# fill in and uncomment
# train_X, val_X, train_y, val_y = ____

### Étape 2 : Spécifiez et entrainez le modèle

Créez un modèle « DecisionTreeRegressor » et entrainez-le avec des données pertinentes.
Définissez à nouveau `random_state` à 1 lors de la création du modèle.

In [None]:
# You imported DecisionTreeRegressor in your last exercise
# and that code has been copied to the setup code above. So, no need to
# import it again

# Specify the model
iowa_model = ____

# Fit iowa_model with the training data.
____

### Étape 3 : Faire des prédictions avec des données de validation

In [None]:
# Predict with all validation observations
val_predictions = ____


Inspectez vos prédictions et valeurs réelles à partir des données de validation.

In [None]:
# print the top few validation predictions
print(____)
# print the top few actual prices from validation data
print(____)

Que remarquez-vous de différent de ce que vous avez vu avec les prédictions dans l'échantillon (qui sont imprimées après la cellule de code supérieure de cette page).

Vous souvenez-vous pourquoi les prédictions de validation diffèrent des prédictions dans l'échantillon (ou d'apprentissage) ? C'est une idée importante de la dernière leçon.

### Étape 4 : Calculer l'erreur absolue moyenne dans les données de validation

In [None]:
from sklearn.metrics import mean_absolute_error
val_mae = ____

# uncomment following line to see the validation_mae
#print(val_mae)


Est-ce que le MAE est bon ? Il n'y a pas de règle générale sur les bonnes valeurs qui s'applique à toutes les applications. Mais vous verrez comment utiliser (et améliorer) ce nombre à l'étape suivante.

# III. Sous-apprentissage et sur-apprentissage

Maintenant que vous disposez d'un moyen fiable de mesurer la précision d'un modèle, vous pouvez expérimenter avec des modèles alternatifs et voir lequel donne les meilleures prédictions. Mais quelles alternatives avez-vous pour les modèles ?

Vous pouvez voir dans la [documentation](http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html) de scikit-learn que le modèle d'arbre de décision a de nombreuses options (plus que vous ne voudrez ou besoin depuis longtemps). Les options les plus importantes déterminent la profondeur de l'arbre.

En pratique, il n'est pas rare qu'un arbre ait 10 niveaux entre le niveau supérieur (toutes les maisons) et une feuille. Au fur et à mesure que l'arbre s'approfondit, l'ensemble de données est découpé en feuilles avec moins de maisons. Si un arbre n'avait qu'une division, il divise les données en 2 groupes. Si chaque groupe est à nouveau divisé, nous obtiendrons 4 groupes de maisons. Diviser chacun d'eux à nouveau créerait 8 groupes. Si nous continuons à doubler le nombre de groupes en ajoutant plus de divisions à chaque niveau, nous aurons \\(2^{10}\\) groupes de maisons au moment où nous arrivons au 10ème niveau. Cela fait 1024 feuilles.

Lorsque nous divisons les maisons entre plusieurs feuilles, nous avons également moins de maisons dans chaque feuille. Les feuilles avec très peu de maisons feront des prédictions assez proches des valeurs réelles de ces maisons, mais elles peuvent faire des prédictions très peu fiables pour les nouvelles données (car chaque prédiction est basée sur quelques maisons seulement).

Il s'agit d'un phénomène appelé **sur-apprentissage**, dans lequel un modèle correspond presque parfaitement aux données d'entraînement, mais ne réussit pas bien dans la validation et dans d'autres nouvelles données. D'un autre côté, si nous rendons notre arbre très peu profond, il ne divise pas les maisons en groupes très distincts.

À l'extrême, si un arbre divise les maisons en seulement 2 ou 4, chaque groupe a toujours une grande variété de maisons. Les prédictions résultantes peuvent être éloignées pour la plupart des maisons, même dans les données d'entraînement (et ce sera également mauvais en validation pour la même raison). Lorsqu'un modèle ne parvient pas à capturer les distinctions et les modèles importants dans les données, il fonctionne donc mal même dans les données d'entraînement, cela s'appelle **sous-ajustement**.

Étant donné que nous nous soucions de la précision des nouvelles données, que nous estimons à partir de nos données de validation, nous voulons trouver le juste milieu entre le sous-apprentissage et le surapprentissage. Visuellement, nous voulons le point bas de la courbe de validation (rouge) dans la figure ci-dessous.

## Exemple
Il existe quelques alternatives pour contrôler la profondeur de l'arbre, et beaucoup permettent à certains itinéraires à travers l'arbre d'avoir une plus grande profondeur que d'autres itinéraires. Mais l'argument *max_leaf_nodes* fournit un moyen très judicieux de contrôler le surapprentissage par rapport au sous-apprentissage. Plus nous permettons au modèle de faire des feuilles, plus nous passons de la zone de sous-ajustement dans le graphique ci-dessus à la zone de sur-ajustement.

Nous pouvons utiliser une fonction utilitaire pour aider à comparer les scores MAE à partir de différentes valeurs pour *max_leaf_nodes* :

In [15]:
from sklearn.metrics import mean_absolute_error
from sklearn.tree import DecisionTreeRegressor

def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(train_X, train_y)
    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)
    return(mae)

Les données sont chargées dans **train_X**, **val_X**, **train_y** et **val_y** en utilisant le code que vous avez déjà vu (et que vous avez déjà écrit).

In [16]:
# Data Loading Code Runs At This Point
import pandas as pd
    
# Load data
melbourne_file_path = '../Data/data3/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
# Filter rows with missing values
filtered_melbourne_data = melbourne_data.dropna(axis=0)
# Choose target and features
y = filtered_melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = filtered_melbourne_data[melbourne_features]

from sklearn.model_selection import train_test_split

# split data into training and validation data, for both features and target
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=0)

Nous pouvons utiliser une boucle for pour comparer la précision des modèles construits avec différentes valeurs pour *max_leaf_nodes.*

In [17]:
# compare MAE with differing values of max_leaf_nodes
for max_leaf_nodes in [5, 50, 500, 5000]:
    my_mae = get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y)
    print("Max leaf nodes: %d  \t\t Mean Absolute Error:  %d" %(max_leaf_nodes, my_mae))

Max leaf nodes: 5  		 Mean Absolute Error:  347380
Max leaf nodes: 50  		 Mean Absolute Error:  258171
Max leaf nodes: 500  		 Mean Absolute Error:  243495
Max leaf nodes: 5000  		 Mean Absolute Error:  254983


Parmi les options répertoriées, 500 est le nombre optimal de feuilles.

## Conclusion

Voici ce qu'il faut retenir : les modèles peuvent souffrir de :
- **Sur-apprentissage :** capture de modèles parasites qui ne se reproduiront pas à l'avenir, entraînant des prédictions moins précises, ou
- **Sous-apprentissage :** échec à capturer les modèles pertinents, ce qui conduit à nouveau à des prédictions moins précises.

Nous utilisons des données de **validation**, qui ne sont pas utilisées dans l'entraînement des modèles, pour mesurer la précision d'un modèle candidat. Cela nous permet d'essayer de nombreux modèles candidats et de garder le meilleur.

## Exercice

In [18]:
# Code you have previously used to load data
import pandas as pd
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor


# Path of the file to read
iowa_file_path = '../Data/data3/train.csv'

home_data = pd.read_csv(iowa_file_path)
# Create target object and call it y
y = home_data.SalePrice
# Create X
features = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = home_data[features]

# Split into validation and training data
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)

# Specify Model
iowa_model = DecisionTreeRegressor(random_state=1)
# Fit Model
iowa_model.fit(train_X, train_y)

# Make validation predictions and calculate mean absolute error
val_predictions = iowa_model.predict(val_X)
val_mae = mean_absolute_error(val_predictions, val_y)
print("Validation MAE: {:,.0f}".format(val_mae))


Validation MAE: 29,653


In [19]:
def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(train_X, train_y)
    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)
    return(mae)

### Étape 1 : comparer différentes tailles d'arbres
Écrivez une boucle qui essaie les valeurs suivantes pour *max_leaf_nodes* à partir d'un ensemble de valeurs possibles.

Appelez la fonction *get_mae* sur chaque valeur de max_leaf_nodes. Stockez la sortie d'une manière qui vous permet de sélectionner la valeur de `max_leaf_nodes` qui donne le modèle le plus précis sur vos données.

In [None]:
candidate_max_leaf_nodes = [5, 25, 50, 100, 250, 500]
# Write loop to find the ideal tree size from candidate_max_leaf_nodes
_

# Store the best value of max_leaf_nodes (it will be either 5, 25, 50, 100, 250 or 500)
best_tree_size = ____


### Étape 2 : Entrainer le modèle avec toutes les données
Vous connaissez la meilleure taille d'arbre. Si vous deviez déployer ce modèle dans la pratique, vous le rendriez encore plus précis en utilisant toutes les données et en conservant cette taille d'arbre. C'est-à-dire que vous n'avez pas besoin de conserver les données de validation maintenant que vous avez pris toutes vos décisions de modélisation.

In [None]:
# Fill in argument to make optimal size and uncomment
# final_model = DecisionTreeRegressor(____)

# fit the final model and uncomment the next two lines
# final_model.fit(____, ____)
