# P2C1 : Maîtrisez les étapes de construction d’un modèle prédictif

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/OpenClassrooms-Student-Center/8063076-Initiez-vous-au-Machine-Learning/blob/master/notebooks/P2C1_%C3%A9tapes_de_construction_modele_predictif.ipynb)

Voici un [dataset](https://github.com/OpenClassrooms-Student-Center/8063076-Initiez-vous-au-Machine-Learning/blob/master/data/age_vs_poids_vs_taille_vs_sexe.csv) avec 237 échantillons comprenant l'âge, le sexe, la taille et le poids d'enfants de 11,5 à 20 ans.

- l'âge est en mois et non en années, donc de 139 mois a 250 mois soit de 11,5 a 20 ans
- la variable sexe est binaire : 0 pour les garçons et 1 pour les filles
- la taille en cm varie de 128.27 cm à 182.88 sm
- et la variable cible, le poids en Kg, est comprise entre 22.9 kg  et 77.78 kg


En quelques lignes, voici comment entraîner un modèle prédictif sur ces données.



In [2]:
import pandas as pd
import numpy as np

In [3]:
# Charger le dataset dans une dataframe pandas
df = pd.read_csv('https://raw.githubusercontent.com/OpenClassrooms-Student-Center/8063076-Initiez-vous-au-Machine-Learning/master/data/age_vs_poids_vs_taille_vs_sexe.csv')

In [4]:
# les 5 premieres lignes de la dataframe
df.head()

Unnamed: 0,sexe,age,taille,poids
0,1,147,151.13,45.8
1,0,160,150.62,35.6
2,1,148,149.86,43.08
3,0,149,144.78,41.72
4,0,156,156.21,49.21


In [5]:
# principales statistiques de la dataframe
df.describe()

Unnamed: 0,sexe,age,taille,poids
count,237.0,237.0,237.0,237.0
mean,0.468354,164.43038,155.865148,45.94443
std,0.500054,18.425767,10.021301,8.816557
min,0.0,139.0,128.27,22.9
25%,0.0,148.0,149.35,38.55
50%,0.0,163.0,156.21,45.8
75%,1.0,178.0,163.32,50.79
max,1.0,250.0,182.88,77.78


Entrainons une régression linéaire pour prédire le poids en fonction des variables sexe et âge 

`poids ~ age + sexe`

Définissons pour cela `X`, la matrice des variables d'entrées et `y` le vecteur de la variable cible


In [6]:
# les variables prédictives
X = df[['sexe', 'age']]

# la variable cible, le poids
y = df.poids


On choisit le modèle de [regression linéaire](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression.score) de scikit-learn.





In [7]:
# Importer et instancier le modèle

from sklearn.linear_model import LinearRegression
reg = LinearRegression()


Entraîner le modèle revient à appliquer la methode `fit()` au modèle


In [8]:
# on entraîne ce modèle sur les données avec la méthode fit
reg.fit(X, y)

In [9]:
# et on obtient directement un score.
print(f"R^2 : {np.round(reg.score(X, y), 3)}")

R^2 : 0.416


In [10]:
# ainsi que les coefficients a,b,c de la régression linéaire
print(f" poids = {np.round(reg.coef_[0],  2)} * sexe + {np.round(reg.coef_[1],  2)} * age  + du bruit")


 poids = -2.06 * sexe + 0.3 * age  + du bruit


Reprenons maintenant l'exercice en  considerant cette fois toutes les variables prédictives disponibles : age, taille et sexe

La matrice de prédiction est:

In [11]:

# les variables prédictives
X = df[['sexe', 'age', 'taille']]

# la variable cible, le poids
y = df.poids

# entrainons un nouveau modele de regression lineaire
reg2 = LinearRegression()
reg2.fit(X,y)

# le score
print(f"R^2 : {np.round(reg2.score(X, y), 3)}")
# et les coefficients
print(f"poids = {np.round(reg.coef_[0],  2)} * sexe + {np.round(reg.coef_[1],  2)} * age +  {np.round(reg2.coef_[2],  2)} * taille + du bruit")

R^2 : 0.631
poids = -2.06 * sexe + 0.3 * age +  0.55 * taille + du bruit


Donc rajouter la variable taille aux variables  sexe et age permet de passer de R^2 = 0.41 a R^2  = 0.63, une nette amélioration !


### Prédiction du poids pour des nouveaux échantillons

Le modèle permet maintenant de prédire la valeur cible (poids) en fonction de nouvelles données d'entrée. 

Par exemple, quel poids est prédit par la première regression `poids ~ sexe + age` pour un garçon agé de 150 mois ?

=> 42.5 kg

In [13]:
# prediction du poids pour un garçon agé de 150 mois
reg.predict(np.array([[0, 150]]))



array([42.52765679])

In [None]:
# prediction du poids pour un garçon agé de 150 mois et de taille 170 cm
reg2.predict(np.array([[0, 150, 170]]))




array([52.14955185])

### Performance du modèle
Regardons maintenant les performances du modèle en utilisant d'autres scores

In [18]:
# les predictions sur tout les échantillons du dataset

y_pred = reg.predict(df[['sexe', 'age']])
y_pred2 = reg2.predict(df[['sexe', 'age', 'taille']])

from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_absolute_percentage_error
print("1er Modele: poids ~ sexe + age")
print(f"\tmean_squared_error(y, y_pred): {mean_squared_error(y, y_pred)}")
print(f"\tmean_absolute_error(y, y_pred): {mean_absolute_error(y, y_pred)}")
print(f"\tmean_absolute_percentage_error(y, y_pred): {mean_absolute_percentage_error(y, y_pred)}")
print()



print("2eme Modele: poids ~ sexe + age + taille")
print(f"\tmean_squared_error(y, y_pred): {mean_squared_error(y, y_pred2)}")
print(f"\tmean_absolute_error(y, y_pred): {mean_absolute_error(y, y_pred2)}")
print(f"\tmean_absolute_percentage_error(y, y_pred): {mean_absolute_percentage_error(y, y_pred2)}")



1er Modele: poids ~ sexe + age
	mean_squared_error(y, y_pred): 45.174708145075236
	mean_absolute_error(y, y_pred): 5.219181502513357
	mean_absolute_percentage_error(y, y_pred): 0.11643376955710256

2eme Modele: poids ~ sexe + age + taille
	mean_squared_error(y, y_pred): 28.599112263301482
	mean_absolute_error(y, y_pred): 4.1635921045133335
	mean_absolute_percentage_error(y, y_pred): 0.0905309686187008


On observe bien que le second modèle est bien meilleur que le premier, quel que soit la métrique de scoring utilisée.