## Vérifier l'installation des bibliothèques nécéssaires à notre projets  

- Scikit-learn qui permet d'entrainer notre modèle
- Panda nous permettra d'importer notre BDD CSV

In [1]:
import sklearn

In [2]:
import pandas as pd

## 1- Récupération de la BDD et cleanage
#### a- Description de la BDD

In [3]:
# Récupérer la BDD
dt = pd.read_csv('BDDobesity_level_V2.csv')

In [4]:
# Afficher les 5 1ères lignes pour avoir une idée de la structure de notre BDD
dt.head()

Unnamed: 0,id,Gender,Age,Height,Weight,family_history_with_overweight,FAVC,FCVC,NCP,CAEC,SMOKE,CH2O,SCC,FAF,TUE,CALC,MTRANS,0be1dad
0,0,Male,24.443011,1.699998,81.66995,1,1,2.0,2.983297,Sometimes,0,2.763573,0,0.0,0.976473,Sometimes,Public_Transportation,Overweight_Level_II
1,1,Female,18.0,1.56,57.0,1,1,2.0,3.0,Frequently,0,2.0,0,1.0,1.0,0,Automobile,0rmal_Weight
2,2,Female,18.0,1.71146,50.165754,1,1,1.880534,1.411685,Sometimes,0,1.910378,0,0.866045,1.673584,0,Public_Transportation,Insufficient_Weight
3,3,Female,20.952737,1.71073,131.274851,1,1,3.0,3.0,Sometimes,0,1.674061,0,1.467863,0.780199,Sometimes,Public_Transportation,Obesity_Type_III
4,4,Male,31.641081,1.914186,93.798055,1,1,2.679664,1.971472,Sometimes,0,1.979848,0,1.967973,0.931721,Sometimes,Public_Transportation,Overweight_Level_II


In [5]:
# Voir les types de variable
dt.dtypes

id                                  int64
Gender                             object
Age                               float64
Height                            float64
Weight                            float64
family_history_with_overweight      int64
FAVC                                int64
FCVC                              float64
NCP                               float64
CAEC                               object
SMOKE                               int64
CH2O                              float64
SCC                                 int64
FAF                               float64
TUE                               float64
CALC                               object
MTRANS                             object
0be1dad                            object
dtype: object

In [6]:
# Infos globales
dt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20758 entries, 0 to 20757
Data columns (total 18 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id                              20758 non-null  int64  
 1   Gender                          20758 non-null  object 
 2   Age                             20758 non-null  float64
 3   Height                          20758 non-null  float64
 4   Weight                          20758 non-null  float64
 5   family_history_with_overweight  20758 non-null  int64  
 6   FAVC                            20758 non-null  int64  
 7   FCVC                            20758 non-null  float64
 8   NCP                             20758 non-null  float64
 9   CAEC                            20758 non-null  object 
 10  SMOKE                           20758 non-null  int64  
 11  CH2O                            20758 non-null  float64
 12  SCC                             

#### b- Transformation de variable

In [7]:
# On va transformer certaines variables qui sont float en INT parce que normalement ce sont des variables catégorielles
cols_to_convert = ["Age", "FCVC", "NCP", "CH2O","FAF", "TUE"]
dt[cols_to_convert] = dt[cols_to_convert].astype(int)

#### c- Tableau de correspondance 
- On veut ici afficher un tableau de correspondance des codes pour avoir leur signification, ce qui nous aidera après l'encodage de notre BDD

In [8]:
# On va d'abord afficher les valeurs uniques de chaque variable de notre BDD
for col in dt.columns:
    print(f"{col} → {dt[col].unique()}")

id → [    0     1     2 ... 20755 20756 20757]
Gender → ['Male' 'Female']
Age → [24 18 20 31 29 17 26 22 21 28 34 25 19 41 23 27 30 37 55 38 36 43 16 32
 42 35 33 39 40 44 15 45 46 14 47 51 61 50 52 56 48 53 49]
Height → [1.699998 1.56     1.71146  ... 1.791366 1.672594 1.536819]
Weight → [ 81.66995   57.        50.165754 ... 152.063947  79.5       80.615325]
family_history_with_overweight → [1 0]
FAVC → [1 0]
FCVC → [2 1 3]
NCP → [2 3 1 4]
CAEC → ['Sometimes' 'Frequently' '0' 'Always']
SMOKE → [0 1]
CH2O → [2 1 3]
SCC → [0 1]
FAF → [0 1 2 3]
TUE → [0 1 2]
CALC → ['Sometimes' '0' 'Frequently']
MTRANS → ['Public_Transportation' 'Automobile' 'Walking' 'Motorbike' 'Bike']
0be1dad → ['Overweight_Level_II' '0rmal_Weight' 'Insufficient_Weight'
 'Obesity_Type_III' 'Obesity_Type_II' 'Overweight_Level_I'
 'Obesity_Type_I']


In [9]:
# On va ensuite créer un dictionnaire des correspondances 
codebook = {
    "family_history_with_overweight" : {0: "No", 1: "Yes"},
    "FAVC" : {0: "No", 1: "Yes"},
    "FCVC" : {1: "Never", 2: "Sometimes", 3: "Always"},
    "NCP" : {1: "Between 1 and 2", 2: "Three", 3: "More than 3", 4:"No answer"},
    "SMOKE" : {0: "No", 1: "Yes"},
    "CH2O" : {1: "Less than a liter", 2: "Between 1 and 2L", 3: "More than 2L"},
    "SCC" : {0: "No", 1: "Yes"},
    "FAF" : {0: "Never", 1: "Once or twice a week", 2: "2 or 3 times a week", 3:"4 or 5 times a week"},
    "TUE" : {0: "None", 1: "Less than 1hr", 2: "Between 1 and 3hr", 3:"More than 3hr"},
}


In [10]:
# On va ici afficher les correspondances
for col, mapping in codebook.items():
    print(f"{col}:")
    for k, v in mapping.items():
        print(f"  {k} → {v}")

family_history_with_overweight:
  0 → No
  1 → Yes
FAVC:
  0 → No
  1 → Yes
FCVC:
  1 → Never
  2 → Sometimes
  3 → Always
NCP:
  1 → Between 1 and 2
  2 → Three
  3 → More than 3
  4 → No answer
SMOKE:
  0 → No
  1 → Yes
CH2O:
  1 → Less than a liter
  2 → Between 1 and 2L
  3 → More than 2L
SCC:
  0 → No
  1 → Yes
FAF:
  0 → Never
  1 → Once or twice a week
  2 → 2 or 3 times a week
  3 → 4 or 5 times a week
TUE:
  0 → None
  1 → Less than 1hr
  2 → Between 1 and 3hr
  3 → More than 3hr


#### d- Renommer les variables

In [11]:
# Nous allons ici remplacer dans les variables CAEC et CALC, les '0' par leur valeur correspondante
dt["CAEC"] = dt["CAEC"].replace({"0": "No"})
dt["CALC"] = dt["CALC"].replace({"0": "No"})

In [12]:
# Nous allons ici renommer certaines variables pour plus de clareté
dt.rename(columns={
    "Gender": "GENDER",
    "Age": "AGE",
    "Height": "HEIGHT",
    "Weight": "WEIGHT",
    "family_history_with_overweight": "FAMILY_HISTO",
    "FAVC": "FC_CAL",
    "FCVC": "FC_VEG",
    "NCP": "NB_MAIN_MEAL",
    "CAEC": "SNACKING",
    "SCC": "CAL_BEVERAGE",
    "FAF": "F_SPORT",
    "TUE": "TIME_TECH_USAGE",
    "CALC": "C_ALCOHOL",
    "MTRANS": "MODE_TRANSP",
    "0be1dad": "OBESITY_LEVEL"
}, inplace=True)

In [13]:
dt["OBESITY_LEVEL"] = dt["OBESITY_LEVEL"].replace({"0rmal_Weight": "Normal_Weight"})

#### e- Suppression des lignes et colonnes non nécessaires

In [14]:
# Supprimer les lignes où NCP == 4 (pas de réponse). Cela contribue à améliorer la précision de notre modèle
dt = dt[dt['NB_MAIN_MEAL'] != 4]
print(dt['NB_MAIN_MEAL'].unique())

[2 3 1]


In [15]:
# Nous allons supprimer la variable ID qui n'a aucune valeur informative
dt = dt.drop(columns=["id"])

# Nous allons aussi supprimer les variables taille et poids qui faussent notre prédiction dans l'application du fait de leur poids

dt = dt.drop(columns=["HEIGHT", "WEIGHT"])

In [16]:
# Vérifier les modifications faites
dt

Unnamed: 0,GENDER,AGE,FAMILY_HISTO,FC_CAL,FC_VEG,NB_MAIN_MEAL,SNACKING,SMOKE,CH2O,CAL_BEVERAGE,F_SPORT,TIME_TECH_USAGE,C_ALCOHOL,MODE_TRANSP,OBESITY_LEVEL
0,Male,24,1,1,2,2,Sometimes,0,2,0,0,0,Sometimes,Public_Transportation,Overweight_Level_II
1,Female,18,1,1,2,3,Frequently,0,2,0,1,1,No,Automobile,Normal_Weight
2,Female,18,1,1,1,1,Sometimes,0,1,0,0,1,No,Public_Transportation,Insufficient_Weight
3,Female,20,1,1,3,3,Sometimes,0,1,0,1,0,Sometimes,Public_Transportation,Obesity_Type_III
4,Male,31,1,1,2,1,Sometimes,0,1,0,1,0,Sometimes,Public_Transportation,Overweight_Level_II
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20752,Female,40,1,1,2,3,Sometimes,0,1,0,0,0,Sometimes,Automobile,Obesity_Type_I
20753,Male,25,1,1,2,3,Sometimes,0,2,0,1,0,Sometimes,Public_Transportation,Obesity_Type_II
20755,Male,20,1,1,2,3,Sometimes,0,2,0,1,1,No,Public_Transportation,Obesity_Type_II
20756,Male,33,1,1,2,1,Sometimes,0,2,0,0,0,No,Automobile,Overweight_Level_II


## 2- Modèle et prédiction

#### a- Encodage de variables

##### Nous allons encoder les valeurs string de notre BDD en INT puisque Scikit-learn travaille uniquement avec des nombres (floats ou entiers).

In [17]:
# Pour éviter de créer de nouvelles colonnes, nous allons faire un encodage en place et donc importer la bibliothèque nécessaire pour le faire

from sklearn.preprocessing import LabelEncoder

In [18]:
# Création d'un encodeur
enc = LabelEncoder()

#Nous allons l'appliquer sur chaque colonne de texte hors colonne cible
for col in ['GENDER', 'SNACKING', 'C_ALCOHOL', 'MODE_TRANSP']:
    dt[col] = enc.fit_transform(dt[col])

# Nous allons aussi encoder la variable cible mais la stocker séparément pour pouvoir faire appel à notre cible encodée plus tard
cible_en = LabelEncoder()
dt["OBESITY_LEVEL"] = cible_en.fit_transform(dt["OBESITY_LEVEL"])

In [19]:
dt

Unnamed: 0,GENDER,AGE,FAMILY_HISTO,FC_CAL,FC_VEG,NB_MAIN_MEAL,SNACKING,SMOKE,CH2O,CAL_BEVERAGE,F_SPORT,TIME_TECH_USAGE,C_ALCOHOL,MODE_TRANSP,OBESITY_LEVEL
0,1,24,1,1,2,2,3,0,2,0,0,0,2,3,6
1,0,18,1,1,2,3,1,0,2,0,1,1,1,0,1
2,0,18,1,1,1,1,3,0,1,0,0,1,1,3,0
3,0,20,1,1,3,3,3,0,1,0,1,0,2,3,4
4,1,31,1,1,2,1,3,0,1,0,1,0,2,3,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20752,0,40,1,1,2,3,3,0,1,0,0,0,2,0,2
20753,1,25,1,1,2,3,3,0,2,0,1,0,2,3,3
20755,1,20,1,1,2,3,3,0,2,0,1,1,1,3,3
20756,1,33,1,1,2,1,3,0,2,0,0,0,1,0,6


#### b- Le modèle
##### On va ici diviser la BDD afin d'entrainer le modèle avec une partie et tester la fonctionnalité du modèle avec l'autre partie. Cela permet d'évaluer les performances réelles du modèle

In [20]:
# Nous allons ici importer 'train_test_split' pour diviser notre BDD en 2 parties : test et train
from sklearn.model_selection import train_test_split

#### b.1 - RandomForestClassifier
##### Choix du modèle: le modèle RandomForestClasifier est un modèle polyvalent qui traite différents types de données, précis, simple d'utilisation et fonctionne bien pour les tâches de classification comme notre projet

In [21]:
# Importer le modèle
from sklearn.ensemble import RandomForestClassifier

##### Ici nous allons importer d'autres fonctions de la bibliothèque sickit learn

In [22]:
#Permet d'évaluer la précision de notre prédiction
from sklearn.metrics import accuracy_score

In [23]:
#Permet de sauvegarder notre modèle pour pouvoir le recharger ensuite dans Streamlit
import joblib

In [24]:
# Définition des variables
x=dt[["GENDER", "AGE", "FAMILY_HISTO", "FC_CAL", "FC_VEG", "NB_MAIN_MEAL", "SNACKING", "SMOKE", "CH2O", "CAL_BEVERAGE", "F_SPORT", "TIME_TECH_USAGE", "C_ALCOHOL", "MODE_TRANSP"]]  # Variables indépendantes
y=dt["OBESITY_LEVEL"]  # Variable dépendante

##### Nous allons ici séparer les données d'entrainement et de test
##### Nous définissons le test_size à 0.3 ce qui permet au modèle de s'entrainer avec 70% des données et de garder 30% pour le test

##### Fixer une Random_State (ici à 80 ) permet de garder la même séparation à chaque exécution du code et donc d'avoir les mêmes résultats. Cela permet par exemple de pouvoir comparer la performence du modèle avec un autre modèle

In [25]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=80)

##### Nous allons ici créer et entrainer le modèle

In [26]:
# Création du modèle
model = RandomForestClassifier()
model.fit(x_train, y_train)

In [27]:
#Prédiction basée sur le modèle entrainé
y_pred = model.predict(x_test)

#Calculer et afficher la précision du modèle
print("Précision :", accuracy_score(y_test, y_pred))

Précision : 0.6830201230666888


##### N'ayant pas une très bonne précision (68%), nous allons tester un autre modèle

#### b.2 - XGBoost Classifier
##### Comparé à RandomForestClassifier, XGBoost Classifier permet un apprentissage intelligent basé sur boosting ce qui rend la précision beaucoup plus élevée. Il est donc plus puissant
#### A noter qu'ici nous repartons des variables X et Y ainsi que de la fonction traintest crées plus haut

In [None]:
#Importation du modèle
from xgboost import XGBClassifier

In [29]:
#Création du modèle
model = XGBClassifier()
model.fit(x_train, y_train)
print("XGBoost entraîné avec succès !")

XGBoost entraîné avec succès !


In [30]:
#Prédiction basée sur le modèle entrainé
y_pred = model.predict(x_test)

#Calculer et afficher la précision du modèle
print("Précision :", accuracy_score(y_test, y_pred))

Précision : 0.7161150839846998


##### Nous allons ensuite importer la fonction qui permet de générer un rapport complet sur la performance de notre modèle

In [31]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.67      0.74      0.70       632
           1       0.57      0.57      0.57       848
           2       0.59      0.67      0.63       859
           3       0.83      0.91      0.87      1001
           4       0.98      0.99      0.99      1197
           5       0.56      0.46      0.51       681
           6       0.58      0.46      0.51       795

    accuracy                           0.72      6013
   macro avg       0.68      0.69      0.68      6013
weighted avg       0.71      0.72      0.71      6013



#### Nous avons donc réussi à améliorer la précision de notre modèle qui passe de 68% à 72%

#### Pour terminer nous allons sauvegarder notre modèle ainsi que l'encodage de notre variable cible pour ensuite pouvoir les rappeler dans streamlit

In [32]:
joblib.dump(model, "modele_projetpython_Vf.joblib")

['modele_projetpython_Vf.joblib']

In [33]:
# Sauvegarde de l'encodeur de notre variable cible
joblib.dump(cible_en, "cible_en.joblib")

['cible_en.joblib']