In [12]:
import numpy as np
import pandas as pd

In [13]:
data = pd.read_csv('age_vs_poids_vs_taille_vs_sexe.csv')

In [14]:
data.shape

(237, 4)

In [15]:
data.head()

Unnamed: 0,sexe,age,taille,poids
0,1,147,151.13,45.8
1,0,160,150.62,35.6
2,1,148,149.86,43.08
3,0,149,144.78,41.72
4,0,156,156.21,49.21


In [16]:
data.describe()

Unnamed: 0,sexe,age,taille,poids
count,237.0,237.0,237.0,237.0
mean,0.468354,164.43038,155.865148,45.94443
std,0.500054,18.425767,10.021301,8.816557
min,0.0,139.0,128.27,22.9
25%,0.0,148.0,149.35,38.55
50%,0.0,163.0,156.21,45.8
75%,1.0,178.0,163.32,50.79
max,1.0,250.0,182.88,77.78


In [17]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 237 entries, 0 to 236
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   sexe    237 non-null    int64  
 1   age     237 non-null    int64  
 2   taille  237 non-null    float64
 3   poids   237 non-null    float64
dtypes: float64(2), int64(2)
memory usage: 7.5 KB


#### Machine Learning

Entrainement d'un modele prédictif pour prédire le poids d'un individu en fonction de l'age et du sexe

Soit **X** la matrice des variables d'entrées (qui sont les variables prédictives) et ``y`` le vecteur de la variable cible (variable a predire)

In [18]:
# Les variables predictives
X = data[['sexe','age']]

# Vecteur de la variable cible
y = data.poids

#### Choix du modele de regression lineaire de ``Scikit-learn``

On cherche a predire le poids en fonction du sexe et de l'age, on cherche donc la relation lineaire suivante ``poids = a*sexe + b*age + bruit``
où le ``bruit(erreur)`` represente l'information qui n'est pas capturé par le modele lineaire

In [19]:
# Import et instanciation du modele 

from sklearn.linear_model import LinearRegression
reg = LinearRegression()

#### Entrainement du modele

In [20]:
# On entraine le modele choisi sur les données avec la methode "fit()"
reg.fit(X,y)

#### Obtention du score du modele

Le score du modele ``R^2`` est le coefficient de détermination, il mesure les variation de la variable cible qui sont expliqué par le modele
``R^2 va de 0 (mauvais) à 1 (parfait)``

In [21]:
#
print(f"R^2 : {np.round(reg.score(X,y), 3)}")

R^2 : 0.416


In [31]:
# on obtient aussi les coefficient a et b de la regression lineaire
print(f"poids = {np.round(reg.coef_[0],2)} * sexe + {np.round(reg.coef_[1],2)} * age + bruit")

poids = -2.06 * sexe + 0.3 * age + bruit


On constate qu'en essayant de predire le poids en fonction uniquement de l'age et du sexe de l'individu le score est de ``0.416`` ce qui est faible. 
On va essayer d'introduire la variable ``taille`` afin de voir ce quil en ai du score de la prediction par du modele

In [23]:
# Variables predicatives
X = data[['sexe', 'age', 'taille']]

# Variable cible
y = data.poids

In [24]:
# Instenciation du modele de regression lineaire
reg2 = LinearRegression()

In [25]:
reg2.fit(X,y)

In [27]:
# Score du modele
print(f"R^2 : {np.round(reg2.score(X,y),3)}")

R^2 : 0.631


On constate que le score est passé de ``R^2 = 0.416`` a ``R^2 = 0.631``, une nette amelioration

Si ``taille`` et ``age`` sont corrélés (les adultes sont en général plus grands), alors le modèle initial sans ``taille`` donnait plus de poids à ``age`` pour compenser l'absence de ``taille``

Quand on ajoute ``taille``, le modèle peut enfin distinguer l’effet propre de ``taille`` par rapport à ``age``. Il ajuste donc les coefficients pour refléter cette séparation

In [30]:
# coefficient a,b et c de la regression lineaire
print(f"poids = {np.round(reg2.coef_[0],2)} * sexe + {np.round(reg2.coef_[1],2)} * age + {np.round(reg2.coef_[2],2)} * taille + bruit")

poids = 0.15 * sexe + 0.11 * age + 0.55 * taille + bruit


#### Prediction du poids pour de nouveau echantillons

In [34]:
# prediction du poids pour un garçon agé de 276 mois (modele 1)
reg.predict(np.array([[0,276]]))



array([80.77984834])

In [40]:
# predicition du poids pour un garçon agé de 276 mois et de taille 169 cm (modele 2)
reg2.predict(np.array([[0, 276, 169]]))



array([65.20757542])

#### Performance du modele 

Utilisons d'autres score pour évaluer la performance du modele

In [42]:
# les predictions sur tous les échantillons du dataset

y_pred = reg.predict(data[['sexe', 'age']])
y_pred2 = reg2.predict(data[['sexe', 'age', 'taille']])

from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_absolute_percentage_error
print("1er Modele: poids ~ sexe + age")
print(f"\tmean_squared_error(y, y_pred): {mean_squared_error(y, y_pred)}")
print(f"\tmean_absolute_error(y, y_pred): {mean_absolute_error(y, y_pred)}")
print(f"\tmean_absolute_percentage_error(y, y_pred): {mean_absolute_percentage_error(y, y_pred)}")
print()


print("2eme Modele: poids ~ sexe + age + taille")
print(f"\tmean_squared_error(y, y_pred): {mean_squared_error(y, y_pred2)}")
print(f"\tmean_absolute_error(y, y_pred): {mean_absolute_error(y, y_pred2)}")
print(f"\tmean_absolute_percentage_error(y, y_pred): {mean_absolute_percentage_error(y, y_pred2)}")

1er Modele: poids ~ sexe + age
	mean_squared_error(y, y_pred): 45.174708145075236
	mean_absolute_error(y, y_pred): 5.219181502513357
	mean_absolute_percentage_error(y, y_pred): 0.11643376955710256

2eme Modele: poids ~ sexe + age + taille
	mean_squared_error(y, y_pred): 28.599112263301482
	mean_absolute_error(y, y_pred): 4.163592104513334
	mean_absolute_percentage_error(y, y_pred): 0.09053096861870083


##### On observe bien que le second modèle est bien meilleur que le premier, quel que soit la métrique de scoring utilisée.