# Sélection des données pour la modélisation
Votre ensemble de données ```Dataset``` contenait trop de variables pour vous envelopper de tête, ou même pour être bien imprimées. Comment pouvez-vous réduire cette énorme quantité de données à quelque chose que vous pouvez comprendre?

Nous allons commencer par choisir quelques variables en utilisant notre intuition. Les cours suivants vous montreront des techniques statistiques pour hiérarchiser automatiquement les variables.

Pour choisir des variables / colonnes, nous aurons besoin de voir une liste de toutes les colonnes de l'ensemble de données. Cela se fait avec la propriété columns du DataFrame (la dernière ligne de code ci-dessous).

In [None]:
import pandas as pd

melbourne_file_path = "https://raw.githubusercontent.com/dphi-official/First_ML_Model/master/melbourne_data.csv"
melbourne_data = pd.read_csv(melbourne_file_path) 
melbourne_data.columns

Index(['Unnamed: 0', 'Rooms', 'Bathroom', 'Landsize', 'Lattitude',
       'Longtitude', 'Price'],
      dtype='object')

Il existe de nombreuses façons de sélectionner un sous-ensemble de vos données. Le micro-cours Pandas couvre ces sujets plus en profondeur, mais nous nous concentrerons sur deux approches pour le moment.

* Notation par points, que nous utilisons pour sélectionner la ```cible de prédiction```
* Sélection avec une liste de colonnes, que nous utilisons pour sélectionner les ```caractéristiques```

# Sélection de la cible de prédiction
Vous pouvez extraire une variable avec la notation par points. Cette colonne unique est stockée dans une série, qui ressemble globalement à un DataFrame avec une seule colonne de données.

Nous utiliserons la notation par points pour sélectionner la colonne que nous voulons prédire, qui s'appelle la cible de prédiction. Par convention, la cible de prédiction est appelée y. Donc, le code dont nous avons besoin pour enregistrer les prix des logements dans les données de Melbourne est

In [None]:
y = melbourne_data.Price

# Choisir "Fonctionnalités"
Les colonnes qui sont entrées dans notre modèle (et utilisées plus tard pour faire des prédictions) sont appelées «caractéristiques». Dans notre cas, ce seraient les colonnes utilisées pour déterminer le prix du logement. Parfois, vous utiliserez toutes les colonnes à l'exception de la cible comme entités. D'autres fois, vous serez mieux avec moins de fonctionnalités.

Pour l'instant, nous allons créer un modèle avec seulement quelques fonctionnalités. Plus tard, vous verrez comment itérer et comparer des modèles créés avec différentes fonctionnalités.

Nous sélectionnons plusieurs fonctionnalités en fournissant une liste de noms de colonnes entre crochets. Chaque élément de cette liste doit être une chaîne (avec des guillemets).

Voici un exemple:


In [None]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

Par convention, cette donnée est appelée ```X```.

In [None]:
X = melbourne_data[melbourne_features]

Examinons rapidement les données que nous utiliserons pour prédire les prix des maisons à l'aide de la méthode ```describe``` et de la méthode ```head```, qui affiche les quelques premières lignes.

In [None]:
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [None]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
0,2,1.0,156.0,-37.8079,144.9934
1,3,2.0,134.0,-37.8093,144.9944
2,4,1.0,120.0,-37.8072,144.9941
3,3,2.0,245.0,-37.8024,144.9993
4,2,1.0,256.0,-37.806,144.9954


La vérification visuelle de vos données avec ces commandes est une partie importante du travail d'un data scientist. Vous trouverez fréquemment des surprises dans l'ensemble de données qui méritent une inspection plus approfondie

# Construire votre modèle
Vous utiliserez la bibliothèque ```scikit-learn``` pour créer vos modèles. Lors du codage, cette bibliothèque est écrite en tant que ```sklearn```, comme vous le verrez dans l'exemple de code. ```Scikit-learn``` est de loin la bibliothèque la plus populaire pour modéliser les types de données généralement stockées dans les DataFrames.

Les étapes de création et d'utilisation d'un modèle sont les suivantes:

* Définir: quel type de modèle sera-t-il? Un arbre de décision? Un autre type de modèle? Certains autres paramètres du type de modèle sont également spécifiés.
* ```Fit```: Capturez des modèles à partir des données fournies. C'est le cœur de la modélisation.
* ```Predict```:  Prédire à quoi ça ressemble
* ```Evaluate```:  Évaluer déterminer la précision des prédictions du modèle.

Voici un exemple de définition d'un ```modèle d'arbre de décision``` avec ```scikit-learn``` et de l'ajustement avec les fonctionnalités et la variable cible.

In [None]:
from sklearn.tree import DecisionTreeRegressor

# Définissez le modèle. Spécifiez un nombre pour random_state pour garantir les mêmes résultats à chaque exécution
melbourne_model = DecisionTreeRegressor(random_state=1)

# Fit model
melbourne_model.fit(X, y)

DecisionTreeRegressor(random_state=1)

De nombreux modèles d'apprentissage automatique permettent un certain caractère aléatoire dans la formation des modèles. La spécification d'un nombre pour random_state garantit que vous obtenez les mêmes résultats à chaque exécution. Ceci est considéré comme une bonne pratique. Vous utilisez n'importe quel nombre, et la qualité du modèle ne dépendra pas vraiment de la valeur que vous choisissez.

Nous avons maintenant un modèle ajusté que nous pouvons utiliser pour faire des prédictions.

En pratique, vous voudrez faire des prévisions pour les nouvelles maisons qui arriveront sur le marché plutôt que pour les maisons pour lesquelles nous avons déjà des prix. Mais nous ferons des prédictions pour les premières lignes des données d'entraînement pour voir comment la fonction de prédiction fonctionne.

In [None]:
print("Faire des prédictions pour les 5 maisons suivantes:")
print(X.head())
print("Les prédiction sont: ")
print(melbourne_model.predict(X.head()))

Making predictions for the following 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
0      2       1.0     156.0   -37.8079    144.9934
1      3       2.0     134.0   -37.8093    144.9944
2      4       1.0     120.0   -37.8072    144.9941
3      3       2.0     245.0   -37.8024    144.9993
4      2       1.0     256.0   -37.8060    144.9954
The predictions are
[1035000. 1465000. 1600000. 1876000. 1636000.]
