# EDA

Notre datset contient des informations sur le mode de vie et la santé des individus. Chaque ligne représente un individu avec diverses caractéristiques telles que l'âge, le sexe, le niveau d'activité physique, les habitudes alimentaires, etc.

L'objectif du projet est d'effectuer une regression linéaire pour prédire le taux de cholesterol et une classification pour prédire si un individu a des risque de maladies.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import math
from sklearn.preprocessing import OneHotEncoder

df = pd.read_csv('../data/health_lifestyle_dataset.csv')

In [None]:
df.shape

In [None]:
df

In [None]:
df.info()

In [None]:
df.describe().T

In [None]:
df.isnull().sum()

On remarque que le dataset ne contient pas de valeurs manquantes.

In [None]:
df = df.drop(columns="id")

In [None]:
df.drop_duplicates(inplace=True)

On peut supprimer la colonne id car elle n'apporte pas d'information pertinente pour l'analyse.

In [None]:
cols = df.columns.tolist()
ncols = 5  # nombre de colonnes dans la grille (ajuster si besoin)
nrows = math.ceil(len(cols) / ncols)

# taille par subplot (largeur = ncols * w, hauteur = nrows * h) -> plus petit
w, h = 3, 2.5
fig, axes = plt.subplots(nrows=nrows, ncols=ncols, figsize=(ncols * w, nrows * h))
axes = axes.flatten()

for i, col in enumerate(cols):
    sns.boxplot(y=df[col], ax=axes[i])
    axes[i].set_title(f'Boxplot de {col}')
    axes[i].tick_params(axis='x', which='both', bottom=False, top=False, labelbottom=False)

# désactiver axes restants
for j in range(len(cols), len(axes)):
    axes[j].set_visible(False)

plt.tight_layout()
plt.show()

Liste des colonnes

In [None]:
df.columns

On standardise les colonnes numeriques

In [None]:
from sklearn.preprocessing import StandardScaler

# Colonnes à standardiser
features_to_scale = [
    'age', 'bmi', 'daily_steps', 'sleep_hours',
    'water_intake_l', 'resting_hr', 'systolic_bp', 'diastolic_bp'
]

regression_targets = ['cholesterol', 'calories_consumed']

# Standardisation des features
scaler_x = StandardScaler()
df[features_to_scale] = scaler_x.fit_transform(df[features_to_scale])

# Standardisation des targets de la régression
scaler_y = StandardScaler()
df[regression_targets] = scaler_y.fit_transform(df[regression_targets])

In [None]:
df

On encode les variables catégorielles

In [None]:
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder()
encoded = encoder.fit_transform(df[['gender']])
encoded_df = pd.DataFrame(encoded.toarray(), columns=encoder.get_feature_names_out(['gender']))
df = pd.concat([df.drop(columns=['gender']), encoded_df], axis=1)

In [None]:
df

In [None]:
# Classification target distribution
sns.countplot(x='disease_risk', data=df)
plt.title('Distribution de la cible disease_risk')
plt.show()

In [None]:
df.to_csv("../data/health_lifestyle_dataset_cleaned.csv", index=False)