# Modèle Predictif

Nous allons construire un modèle qui prédit la variable cible (le poids de l'enfant) à partir des autres variables (sexe, âge et taille).

On cherche donc les coefficients  a  ,  b  ,  c  tels que :

poids = a * sexe + b * age + c * taille + du bruit

Rappel : le bruit représente l'information qui n'est pas capturée par le modèle linéaire.

In [114]:
import pandas as pd
import os

# Define the file path
file_path = "https://github.com/OpenClassrooms-Student-Center/8063076-Initiez-vous-au-Machine-Learning/blob/master/data/age_vs_poids_vs_taille_vs_sexe.csv"


In [116]:
df.head()

Unnamed: 0,sexe,age,taille,poids
0,1,147,151.13,45.8
1,0,160,150.62,35.6
2,1,148,149.86,43.08
3,0,149,144.78,41.72
4,0,156,156.21,49.21


In [67]:
# on choisi un modèle de regression linéaire
from sklearn.linear_model import LinearRegression

reg = LinearRegression()

In [69]:
# les variables du modèle
X = df[['age', 'taille']]

# la cible
y = df.poids

In [71]:
import numpy as np
# on entraîne ce modèle sur les données avec la méthode fit
reg.fit(X, y)

# et on obtient directement un score
print(f"R^2 : {np.round(reg.score(X, y), 3)}")

# ainsi que les coefficients a,b,c de la régression linéaire
print(f"poids = {np.round(reg.coef_[0],  2)} * age +  {np.round(reg.coef_[1],  2)} * taille + du bruit")

R^2 : 0.63
poids = 0.11 * age +  0.55 * taille + du bruit


La documentation du modèle  LinearRegression  indique qu'il s'agit là du coefficient de détermination R^2 qui mesure les variations de la variable cible qui sont expliquées par le modèle. R^2 va de 0 (mauvais) à 1 (parfait).

In [74]:
# on entraine maintenant notre modèle de design (X) sur trois variables

X = df[['sexe','age','taille']]
y = df.poids
reg2 = LinearRegression()
reg2.fit(X,y)

# et on obtient directement un score
print(f"R^2 : {np.round(reg2.score(X, y), 3)}")

# ainsi que les coefficients a,b,c de la régression linéaire
print(f"poids =  {np.round(reg2.coef_[0],  2)} * sexe + {np.round(reg2.coef_[1],  2)} * age +  {np.round(reg2.coef_[2],  2)} * taille + du bruit")

R^2 : 0.631
poids =  0.15 * sexe + 0.11 * age +  0.55 * taille + du bruit


## Prédiction

Vous pouvez enfin faire une prédiction si un nouvel élève arrive en cours d'année. Par exemple, pour un garçon (0) agé de 150 mois, de taille 153 :

In [96]:
poids = reg2.predict(np.array([[0, 150, 153]]))
print(poids)

[42.72547658]




In [98]:
poids = reg2.predict(np.array([[0, 150, 173]]))
print(poids)

[53.81262396]




In [109]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_absolute_percentage_error
y_pred = reg2.predict(X)
print(mean_squared_error(y, y_pred))
print(mean_absolute_error(y, y_pred))
print(mean_absolute_percentage_error(y, y_pred))

28.599112263301485
4.163592104513334
0.0905309686187008
