<div style="background-color: #f0f8ff; padding: 15px; border-left: 6px solid #1e90ff; border-radius: 6px; color: black;">
  <h3> Partie Machine Learning ‚Äì Analyse du sommeil</h3>

  <p>
    Dans cette partie, nous utilisons des techniques de <b>Machine Learning</b> 
    afin d‚Äôexploiter les donn√©es du dataset 
    <i>Sleep Health and Lifestyle</i>.
  </p>

  <p>
    Apr√®s avoir r√©alis√© une <b>analyse statistique descriptive</b> 
    (moyenne, variance, √©cart-type, intervalles de confiance), 
    l‚Äôobjectif est maintenant de passer √† une approche 
    <b>pr√©dictive</b>.
  </p>

  <p>
    Le Machine Learning permet d‚Äôanalyser automatiquement l‚Äôimpact de plusieurs 
    facteurs li√©s au mode de vie (niveau de stress, activit√© physique, √¢ge, etc.) 
    sur la <b>qualit√© du sommeil</b>.
  </p>

  <p>
     <b>Objectif principal :</b><br>
    Pr√©dire la <b>qualit√© du sommeil</b> d‚Äôun individu √† partir de ses 
    caract√©ristiques personnelles et de son mode de vie.
  </p>
</div>



<div style="background-color: #fffaf0; padding: 15px; border-left: 6px solid #ffa500; border-radius: 6px; color: black;">
  <h3> Probl√©matique Machine Learning</h3>

  <p>
    La probl√©matique √©tudi√©e dans cette partie est la suivante :
  </p>

  <p style="font-style: italic; margin-left: 15px;">
    Peut-on pr√©dire la qualit√© du sommeil d‚Äôune personne √† partir de ses habitudes 
    de vie et de ses caract√©ristiques physiologiques ?
  </p>

  <p>
    Il s‚Äôagit d‚Äôun <b>probl√®me de classification</b>, car la variable cible 
    (<b>Sleep Quality</b>) prend des valeurs qualitatives 
    (par exemple : bonne ou mauvaise qualit√© de sommeil).
  </p>
</div>


<div style="background-color: #f0fff0; padding: 15px; border-left: 6px solid #32cd32; border-radius: 6px; color: black;">
  <h3>√âtape 1 : Chargement et compr√©hension des donn√©es</h3>

 


In [4]:
import pandas as pd

# Chemin vers le dataset
dataset_path = "C:/Users/wafae/Desktop/sleep_health_stat_project/data/Sleep_health_and_lifestyle_dataset.csv"

# Chargement du dataset
data = pd.read_csv(dataset_path)

# Afficher les premi√®res lignes
data.head()


Unnamed: 0,Person ID,Gender,Age,Occupation,Sleep Duration,Quality of Sleep,Physical Activity Level,Stress Level,BMI Category,Blood Pressure,Heart Rate,Daily Steps,Sleep Disorder
0,1,Male,27,Software Engineer,6.1,6,42,6,Overweight,126/83,77,4200,
1,2,Male,28,Doctor,6.2,6,60,8,Normal,125/80,75,10000,
2,3,Male,28,Doctor,6.2,6,60,8,Normal,125/80,75,10000,
3,4,Male,28,Sales Representative,5.9,4,30,8,Obese,140/90,85,3000,Sleep Apnea
4,5,Male,28,Sales Representative,5.9,4,30,8,Obese,140/90,85,3000,Sleep Apnea


In [12]:
# Informations g√©n√©rales sur le dataset
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 374 entries, 0 to 373
Data columns (total 13 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Person ID                374 non-null    int64  
 1   Gender                   374 non-null    object 
 2   Age                      374 non-null    int64  
 3   Occupation               374 non-null    object 
 4   Sleep Duration           374 non-null    float64
 5   Quality of Sleep         374 non-null    int64  
 6   Physical Activity Level  374 non-null    int64  
 7   Stress Level             374 non-null    int64  
 8   BMI Category             374 non-null    object 
 9   Blood Pressure           374 non-null    object 
 10  Heart Rate               374 non-null    int64  
 11  Daily Steps              374 non-null    int64  
 12  Sleep Disorder           374 non-null    object 
dtypes: float64(1), int64(7), object(5)
memory usage: 38.1+ KB


<div style="background-color: #f0f8ff; padding: 10px; border-left: 5px solid #1e90ff; border-radius: 5px; color: black;">
<b>Explication :</b><br>
La colonne <b>Sleep Disorder</b> contient certaines valeurs manquantes (NaN) dans le dataset.<br>
Pour pouvoir utiliser cette variable dans le Machine Learning, nous rempla√ßons ces valeurs manquantes par <b>"Unknown"</b>.<br>
Ainsi, toutes les lignes ont d√©sormais une valeur valide et cela √©vite des erreurs lors de l'entra√Ænement des mod√®les.
</div>


In [16]:
 # Remplacer les valeurs manquantes par "Unknown"
data['Sleep Disorder'] = data['Sleep Disorder'].fillna("Unknown")
data['Sleep Disorder'].isnull().sum()
 

np.int64(0)

In [18]:
# S√©parer les variables num√©riques et cat√©gorielles
numerical_features = data.select_dtypes(include=['int64', 'float64'])
categorical_features = data.select_dtypes(include=['object'])

# Afficher les colonnes num√©riques
print("Colonnes num√©riques :")
print(numerical_features.columns, "\n")

# Afficher les colonnes cat√©gorielles
print("Colonnes cat√©gorielles :")
print(categorical_features.columns, "\n")
#  afficher un aper√ßu des valeurs
print("Aper√ßu des valeurs num√©riques :\n", numerical_features.head(), "\n")
print("Aper√ßu des valeurs cat√©gorielles :\n", categorical_features.head())

Colonnes num√©riques :
Index(['Person ID', 'Age', 'Sleep Duration', 'Quality of Sleep',
       'Physical Activity Level', 'Stress Level', 'Heart Rate', 'Daily Steps'],
      dtype='object') 

Colonnes cat√©gorielles :
Index(['Gender', 'Occupation', 'BMI Category', 'Blood Pressure',
       'Sleep Disorder'],
      dtype='object') 

Aper√ßu des valeurs num√©riques :
    Person ID  Age  Sleep Duration  Quality of Sleep  Physical Activity Level  \
0          1   27             6.1                 6                       42   
1          2   28             6.2                 6                       60   
2          3   28             6.2                 6                       60   
3          4   28             5.9                 4                       30   
4          5   28             5.9                 4                       30   

   Stress Level  Heart Rate  Daily Steps  
0             6          77         4200  
1             8          75        10000  
2             8       

<div style="background-color: #f0f8ff; padding: 10px; border-left: 5px solid #1e90ff; border-radius: 5px; color: black;">
<b>Explication :</b><br>
- Nous distinguons les variables <b>num√©riques</b> des variables <b>cat√©gorielles</b> pour adapter le pr√©-traitement.<br>
- Les variables num√©riques (<b>Age, Sleep Duration, Stress Level, etc.</b>) pourront √™tre normalis√©es ou utilis√©es directement.<br>
- Les variables cat√©gorielles (<b>Gender, BMI Category, Occupation, Sleep Disorder</b>) n√©cessitent un encodage en variables num√©riques (<b>One-Hot Encoding</b>) pour √™tre utilis√©es dans les mod√®les de Machine Learning.
</div>


In [19]:
import pandas as pd

# S√©lection des colonnes num√©riques
num_cols = ['Age','Sleep Duration','Physical Activity Level','Stress Level','Heart Rate','Daily Steps']

# Fonction pour d√©tecter les outliers
def detect_outliers_iqr(df, col):
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR
    outliers = df[(df[col] < lower) | (df[col] > upper)][col]
    return outliers

# V√©rifier les outliers pour chaque colonne
for col in num_cols:
    outliers = detect_outliers_iqr(data, col)
    print(f"{col} - Nombre de valeurs aberrantes : {len(outliers)}")
    if len(outliers) > 0:
        print(outliers.values)
    print("-"*50)


Age - Nombre de valeurs aberrantes : 0
--------------------------------------------------
Sleep Duration - Nombre de valeurs aberrantes : 0
--------------------------------------------------
Physical Activity Level - Nombre de valeurs aberrantes : 0
--------------------------------------------------
Stress Level - Nombre de valeurs aberrantes : 0
--------------------------------------------------
Heart Rate - Nombre de valeurs aberrantes : 15
[85 85 85 82 80 80 81 81 84 84 80 83 83 86 86]
--------------------------------------------------
Daily Steps - Nombre de valeurs aberrantes : 0
--------------------------------------------------


<h3>üîπ Valeurs aberrantes (Outliers)</h3>
<p>Les <b>valeurs aberrantes</b> sont des donn√©es qui s'√©cartent fortement des autres observations. Elles peuvent provenir d'erreurs de saisie, de mesures extr√™mes ou de la variabilit√© naturelle.</p>
<p><b>Pourquoi les d√©tecter ?</b></p>
<ul>
  <li>Faussent les statistiques (moyenne, variance).</li>
  <li>Peuvent r√©duire la performance des mod√®les de Machine Learning.</li>
</ul>

<h3>üîπ M√©thode IQR (Interquartile Range)</h3>
<p>L'<b>IQR</b> est une m√©thode statistique pour d√©tecter les outliers dans les donn√©es num√©riques :</p>
<ol>
  <li>Calculer : Q1 (25%) et Q3 (75%), puis IQR = Q3 - Q1.</li>
  <li>D√©finir les bornes : 
    <ul>
      <li>Borne inf√©rieure = Q1 - 1.5 √ó IQR</li>
      <li>Borne sup√©rieure = Q3 + 1.5 √ó IQR</li>
    </ul>
  </li>
  <li>Les valeurs en dehors de ces bornes sont consid√©r√©es comme <b>potentiellement aberrantes</b>.</li>
</ol>



In [20]:
import pandas as pd

# Copier le dataset pour ne pas √©craser l'original
data_ml = data.copy()

# Cr√©er la variable cible cat√©gorielle
def sleep_quality_category(score):
    if score <= 4:
        return "Poor"
    elif score <= 7:
        return "Average"
    else:
        return "Good"

data_ml['Sleep_Quality_Category'] = data_ml['Quality of Sleep'].apply(sleep_quality_category)

# V√©rifier le r√©sultat
print(data_ml[['Quality of Sleep', 'Sleep_Quality_Category']].head(10))

# Compter le nombre d'observations par cat√©gorie
print("\nR√©partition des cat√©gories :")
print(data_ml['Sleep_Quality_Category'].value_counts())


   Quality of Sleep Sleep_Quality_Category
0                 6                Average
1                 6                Average
2                 6                Average
3                 4                   Poor
4                 4                   Poor
5                 4                   Poor
6                 6                Average
7                 7                Average
8                 7                Average
9                 7                Average

R√©partition des cat√©gories :
Sleep_Quality_Category
Average    189
Good       180
Poor         5
Name: count, dtype: int64


<div style="background-color: #f0f8ff; padding: 15px; border-left: 6px solid #1e90ff; border-radius: 6px; color: black;">
  <h3> D√©finition de la variable cible (Target)</h3>

  <p>
    Dans ce projet, la variable <b>Quality of Sleep</b> est initialement exprim√©e sous forme 
    d‚Äôun <b>score num√©rique</b> allant de 1 √† 10.
  </p>

  <p>
    Afin d‚Äôadapter cette variable √† un <b>probl√®me de Machine Learning supervis√©</b> de type 
    <b>classification</b>, ce score a √©t√© transform√© en <b>cat√©gories</b> :
  </p>

  <ul style="margin-left: 20px;">
    <li><b>Poor</b> : mauvaise qualit√© de sommeil (score ‚â§ 4)</li>
    <li><b>Average</b> : qualit√© moyenne du sommeil (score entre 5 et 7)</li>
    <li><b>Good</b> : bonne qualit√© de sommeil (score ‚â• 8)</li>
  </ul>

  <p>
    Cette nouvelle variable, appel√©e <b>Sleep_Quality_Category</b>, constitue la 
    <b>variable cible (y)</b> du mod√®le.
  </p>

  <p>
    L‚Äôobjectif du mod√®le est donc d‚Äôapprendre la relation entre les 
    <b>habitudes de vie</b> (√¢ge, stress, activit√© physique, dur√©e du sommeil, etc.) 
    et la <b>qualit√© du sommeil</b>, afin de pr√©dire automatiquement la cat√©gorie 
    correspondante.
  </p>
</div>
