# Description de notre Dataset pour un modele de regession lineaire simple

Voici un dataset avec 237 échantillons comprenant l'âge, le sexe, la taille et le poids d'enfants de 11,5 à 20 ans.

l'âge est en mois et non en années, donc de 139 mois a 250 mois soit de 11,5 a 20 ans
la variable sexe est binaire : 0 pour les garçons et 1 pour les filles
la taille en cm varie de 128.27 cm à 182.88 sm
et la variable cible, le poids en Kg, est comprise entre 22.9 kg et 77.78 kg

In [1]:
#importation des librairies utiles
import pandas as pd
import numpy as np

In [2]:
#importation du dataset : vue qu'il est dans npotre cas en local
df = pd.read_csv('age_vs_poids_vs_taille_vs_sexe.csv')

In [3]:
#visualiser les premieres lignes du dataset afin d'etre sure qu'il a ete bien charge
df.head(10) # presente les 10 premieres lignes du dataset

Unnamed: 0,sexe,age,taille,poids
0,1,147,151.13,45.8
1,0,160,150.62,35.6
2,1,148,149.86,43.08
3,0,149,144.78,41.72
4,0,156,156.21,49.21
5,0,177,160.02,50.34
6,1,169,157.48,44.67
7,0,189,170.18,58.05
8,1,197,156.21,54.88
9,0,145,143.51,41.27


In [4]:
#visualiser les 10 dernieres lignes du dataset
df.tail(10)

Unnamed: 0,sexe,age,taille,poids
227,0,156,156.97,50.79
228,1,143,143.0,38.55
229,1,144,141.73,33.33
230,0,146,146.05,40.82
231,1,155,158.24,47.62
232,1,178,156.21,46.94
233,1,166,150.62,40.59
234,1,193,151.89,52.15
235,0,166,158.75,38.1
236,1,165,140.97,30.39


In [5]:
#verifier la taille ou la dimension du dataset
lignes, colonnes = df.shape
print('le dataset est constitue de : ', lignes, ' lignes et ', colonnes, 'colonnes')

le dataset est constitue de :  237  lignes et  4 colonnes


In [6]:
#description statistiques du dataset
df.describe()

Unnamed: 0,sexe,age,taille,poids
count,237.0,237.0,237.0,237.0
mean,0.468354,164.43038,155.865148,45.94443
std,0.500054,18.425767,10.021301,8.816557
min,0.0,139.0,128.27,22.9
25%,0.0,148.0,149.35,38.55
50%,0.0,163.0,156.21,45.8
75%,1.0,178.0,163.32,50.79
max,1.0,250.0,182.88,77.78


# Explication de la description du Dataset
- *count* : nous montre bien que il n'existe pas de valeurs manquqntes et que l'ensemble des variables dispose bien de 237 donnees
- *mean* : nous donne la moyenne generale de chacune des variables
- *min et max* : nous donne les valeurs minimale et maximale de chacune des variables

### Entrainons une régression linéaire pour prédire le poids en fonction des variables sexe et âge
poids = f( age , sexe)

Pour cela on va scinder notre dataset en deux grands groupes : les variables d'entrees ( age et sexe ) et la variable de sortie ou cible ( poids )

In [7]:
#matrice de donnees des variables d'entrees
X = df[['age', 'sexe']]
X

Unnamed: 0,age,sexe
0,147,1
1,160,0
2,148,1
3,149,0
4,156,0
...,...,...
232,178,1
233,166,1
234,193,1
235,166,0


In [8]:
# la matrice ou le vecteur cible : poids
y = df.poids
y


0      45.80
1      35.60
2      43.08
3      41.72
4      49.21
       ...  
232    46.94
233    40.59
234    52.15
235    38.10
236    30.39
Name: poids, Length: 237, dtype: float64

### importer un modele de regression lineaire sur sklearn pour faire tourner notre modele

In [9]:
from sklearn.linear_model import LinearRegression
# creation du model
reg = LinearRegression()
# entrainer le model : on entraine le modele en prenant en parametre la matrice des variables d'entrees et matrice de sortie
reg.fit(X,y)

### Evaluation de la performance du model par le score.

In [10]:
#evaluer la performance du model
performance = np.round(reg.score(X,y), 3)
print(f"R^2 (score) : {performance}")

R^2 (score) : 0.416


Determiner les coefficents de l'equation 
poids = a * age + b * sexe + bruits. il faut determiner les variables a et b optimale que le model a pu trouver

In [11]:
#les coefficients de l'equation
coefs = reg.coef_
print(f"Poids = {np.round(coefs[0],2)} * age + {np.round(coefs[1],2)} * sexe + Bruit ")

Poids = 0.3 * age + -2.06 * sexe + Bruit 


## Reprenons l'analyse en prenant en compte toutes les variables d'entrees ( age, sexe, taille)

In [12]:
X_new = df[['age','sexe','taille']]
X_new

Unnamed: 0,age,sexe,taille
0,147,1,151.13
1,160,0,150.62
2,148,1,149.86
3,149,0,144.78
4,156,0,156.21
...,...,...,...
232,178,1,156.21
233,166,1,150.62
234,193,1,151.89
235,166,0,158.75


In [13]:
#creation du nouveau modele, puis entrainement, puis determiner le score de ce dernier
#creation du modele
reg_new = LinearRegression()
#entrainement du modele
reg_new.fit(X_new, y)
#evaluer le score du nouveau modele
print(f"R^2 (score) : {np.round(reg_new.score(X_new,y), 3)}")
#les coefficients de notre nouvelle equation
coefs_new = reg_new.coef_
print(f"poids =  {np.round(coefs_new[0],2)} * age + {np.round(coefs_new[1],2)} * sexe + {np.round(coefs_new[2], 2)} * taille + Bruit")

R^2 (score) : 0.631
poids =  0.11 * age + 0.15 * sexe + 0.55 * taille + Bruit


Remarque : on constate que lorsque l'on avait uniquement deux variables ( age et sexe ) on avait un score de 0.416 alors que lorsque l'on ajoute les trois autres variables ( age, sexe et taille ), on observe une amelioration 0.631. 

###  Effectuons des predictions
- On souhaite predire le poids d'un individu : age = 150 mois, sexe = 0 (garcon), taille = 170 cm

In [16]:
y_pred = reg_new.predict(np.array([[150, 0, 170]]))
print(f"Le poids est :  {np.round(y_pred,2)} Kg")

Le poids est :  [52.15] Kg




- on souhaite predire le poids de plusieurs individu

In [17]:
#le tableau de donnees des differents individus
# Définition des données pour plusieurs individus :
# Individu 1 : [150, 0, 170]
# Individu 2 : [444, 0, 188] (exemple de nouvelles valeurs)
# Individu 3 : [348, 1, 170] (exemple de nouvelles valeurs)

new_data = np.array([
    [150, 0, 170],
    [444, 0, 188],
    [348, 1, 170]
])
#nouvelle prediction
y_pred_multiple = reg_new.predict(new_data)

#parcourir les predictions et Afficher les resultats
for data_entree, prediction in zip(new_data, y_pred_multiple):
    print(f"Pour les données {data_entree}, la prédiction est de {prediction:.2f}")

Pour les données [150   0 170], la prédiction est de 52.15
Pour les données [444   0 188], la prédiction est de 93.89
Pour les données [348   1 170], la prédiction est de 73.69




## Les metriques d'evaluation de la performance d'un modele de Regression Lineaire 
- La metrique (la fonction de coût ) MSE (Mean Squared Error) définie comme suit : 1/N (somme i allant de 1 a N (yi - y'i)^2) ou N est le nombre d'enregistrement, yi est vecteur cible prevu et yi est le vecteur predit par le modele
- La metrique (la fonction de coût ) MSE (Mean Squared Error) définie comme suit : 1/N (somme i allant de 1 a N (yi - y'i)^2) ou N est le nombre d'enregistrement, yi est vecteur cible prevu et yi est le vecteur predit par le modele
- La metrique (la fonction de coût ) MSE (Mean Squared Error) définie comme suit : 1/N (somme i allant de 1 a N (yi - y'i)^2) ou N est le nombre d'enregistrement, yi est vecteur cible prevu et yi est le vecteur predit par le modele
