<div style="background-color: #f0f8ff; padding: 15px; border-left: 6px solid #1e90ff; border-radius: 6px; color: black;">
  <h3> Partie Machine Learning – Analyse du sommeil</h3>

  <p>
    Dans cette partie, nous utilisons des techniques de <b>Machine Learning</b> 
    afin d’exploiter les données du dataset 
    <i>Sleep Health and Lifestyle</i>.
  </p>

  <p>
    Après avoir réalisé une <b>analyse statistique descriptive</b> 
    (moyenne, variance, écart-type, intervalles de confiance), 
    l’objectif est maintenant de passer à une approche 
    <b>prédictive</b>.
  </p>

  <p>
    Le Machine Learning permet d’analyser automatiquement l’impact de plusieurs 
    facteurs liés au mode de vie (niveau de stress, activité physique, âge, etc.) 
    sur la <b>qualité du sommeil</b>.
  </p>

  <p>
     <b>Objectif principal :</b><br>
    Prédire la <b>qualité du sommeil</b> d’un individu à partir de ses 
    caractéristiques personnelles et de son mode de vie.
  </p>
</div>



<div style="background-color: #fffaf0; padding: 15px; border-left: 6px solid #ffa500; border-radius: 6px; color: black;">
  <h3> Problématique Machine Learning</h3>

  <p>
    La problématique étudiée dans cette partie est la suivante :
  </p>

  <p style="font-style: italic; margin-left: 15px;">
    Peut-on prédire la qualité du sommeil d’une personne à partir de ses habitudes 
    de vie et de ses caractéristiques physiologiques ?
  </p>

  <p>
    Il s’agit d’un <b>problème de classification</b>, car la variable cible 
    (<b>Sleep Quality</b>) prend des valeurs qualitatives 
    (par exemple : bonne ou mauvaise qualité de sommeil).
  </p>
</div>


<div style="background-color: #f0fff0; padding: 15px; border-left: 6px solid #32cd32; border-radius: 6px; color: black;">
  <h3>Étape 1 : Chargement et compréhension des données</h3>

 


In [4]:
import pandas as pd

# Chemin vers le dataset
dataset_path = "C:/Users/wafae/Desktop/sleep_health_stat_project/data/Sleep_health_and_lifestyle_dataset.csv"

# Chargement du dataset
data = pd.read_csv(dataset_path)

# Afficher les premières lignes
data.head()


Unnamed: 0,Person ID,Gender,Age,Occupation,Sleep Duration,Quality of Sleep,Physical Activity Level,Stress Level,BMI Category,Blood Pressure,Heart Rate,Daily Steps,Sleep Disorder
0,1,Male,27,Software Engineer,6.1,6,42,6,Overweight,126/83,77,4200,
1,2,Male,28,Doctor,6.2,6,60,8,Normal,125/80,75,10000,
2,3,Male,28,Doctor,6.2,6,60,8,Normal,125/80,75,10000,
3,4,Male,28,Sales Representative,5.9,4,30,8,Obese,140/90,85,3000,Sleep Apnea
4,5,Male,28,Sales Representative,5.9,4,30,8,Obese,140/90,85,3000,Sleep Apnea


In [12]:
# Informations générales sur le dataset
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 374 entries, 0 to 373
Data columns (total 13 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Person ID                374 non-null    int64  
 1   Gender                   374 non-null    object 
 2   Age                      374 non-null    int64  
 3   Occupation               374 non-null    object 
 4   Sleep Duration           374 non-null    float64
 5   Quality of Sleep         374 non-null    int64  
 6   Physical Activity Level  374 non-null    int64  
 7   Stress Level             374 non-null    int64  
 8   BMI Category             374 non-null    object 
 9   Blood Pressure           374 non-null    object 
 10  Heart Rate               374 non-null    int64  
 11  Daily Steps              374 non-null    int64  
 12  Sleep Disorder           374 non-null    object 
dtypes: float64(1), int64(7), object(5)
memory usage: 38.1+ KB


<div style="background-color: #f0f8ff; padding: 10px; border-left: 5px solid #1e90ff; border-radius: 5px; color: black;">
<b>Explication :</b><br>
La colonne <b>Sleep Disorder</b> contient certaines valeurs manquantes (NaN) dans le dataset.<br>
Pour pouvoir utiliser cette variable dans le Machine Learning, nous remplaçons ces valeurs manquantes par <b>"Unknown"</b>.<br>
Ainsi, toutes les lignes ont désormais une valeur valide et cela évite des erreurs lors de l'entraînement des modèles.
</div>


In [16]:
 # Remplacer les valeurs manquantes par "Unknown"
data['Sleep Disorder'] = data['Sleep Disorder'].fillna("Unknown")
data['Sleep Disorder'].isnull().sum()
 

np.int64(0)

In [18]:
# Séparer les variables numériques et catégorielles
numerical_features = data.select_dtypes(include=['int64', 'float64'])
categorical_features = data.select_dtypes(include=['object'])

# Afficher les colonnes numériques
print("Colonnes numériques :")
print(numerical_features.columns, "\n")

# Afficher les colonnes catégorielles
print("Colonnes catégorielles :")
print(categorical_features.columns, "\n")
#  afficher un aperçu des valeurs
print("Aperçu des valeurs numériques :\n", numerical_features.head(), "\n")
print("Aperçu des valeurs catégorielles :\n", categorical_features.head())

Colonnes numériques :
Index(['Person ID', 'Age', 'Sleep Duration', 'Quality of Sleep',
       'Physical Activity Level', 'Stress Level', 'Heart Rate', 'Daily Steps'],
      dtype='object') 

Colonnes catégorielles :
Index(['Gender', 'Occupation', 'BMI Category', 'Blood Pressure',
       'Sleep Disorder'],
      dtype='object') 

Aperçu des valeurs numériques :
    Person ID  Age  Sleep Duration  Quality of Sleep  Physical Activity Level  \
0          1   27             6.1                 6                       42   
1          2   28             6.2                 6                       60   
2          3   28             6.2                 6                       60   
3          4   28             5.9                 4                       30   
4          5   28             5.9                 4                       30   

   Stress Level  Heart Rate  Daily Steps  
0             6          77         4200  
1             8          75        10000  
2             8          7

<div style="background-color: #f0f8ff; padding: 10px; border-left: 5px solid #1e90ff; border-radius: 5px; color: black;">
<b>Explication :</b><br>
- Nous distinguons les variables <b>numériques</b> des variables <b>catégorielles</b> pour adapter le pré-traitement.<br>
- Les variables numériques (<b>Age, Sleep Duration, Stress Level, etc.</b>) pourront être normalisées ou utilisées directement.<br>
- Les variables catégorielles (<b>Gender, BMI Category, Occupation, Sleep Disorder</b>) nécessitent un encodage en variables numériques (<b>One-Hot Encoding</b>) pour être utilisées dans les modèles de Machine Learning.
</div>
