# Chapitre 2 - Analyse exploratoire et pré-traitement de données

L'apprentissage automatique nécessite de grandes quantités de données, mais les données brutes provenant de diverses sources (audio, vidéo, texte, etc.) ne sont pas directement exploitables. Le prétraitement des données est une étape cruciale qui consiste à nettoyer, transformer et formater ces données afin qu'elles puissent être utilisées efficacement par les algorithmes. Bien que cette phase soit essentielle pour la réussite du projet, elle est souvent la plus longue et complexe.

L'objectif principal de ce TP consiste à appliquer deux techniques essentielles de prétraitement :
- Nettoyage des données : Identifier et gérer les valeurs manquantes et les erreurs.
- Transformation des données : Ajuster les données pour qu'elles soient prêtes à être analysées.

### Exercice 1: Analyse du Mental Health Dataset

Dans cet exercice, vous allez utiliser le "Mental Health Dataset" pour appliquer les notions de population, échantillon, et les différents types de variables statistiques.

**Objectifs** :
- Comprendre les concepts de population, échantillon, individus et variables.
- Manipuler des variables qualitatives et quantitatives.
- Explorer les caractéristiques de la population (via un échantillon).
- Gérer les valeurs manquantes.
- Appliquer des transformations comme l'encodage des variables catégoriques.

**Étapes** :
1. Charger et explorer les données :
   - Charger le dataset depuis le fichier CSV spécifié.
   - Afficher un échantillon de quelques observations.
2. Identification des types de variables :
   - Identifier les colonnes qualitatives (nominales/ordinales) et quantitatives (s’il y en a).
   - Effectuer des statistiques descriptives sur les variables.
   - Analyser la répartition des variables qualitatives.
3. Gestion des valeurs manquantes :
   - Vérifier la présence de valeurs manquantes et les compter par colonne.
   - Créer un DataFrame `df1` en supprimant les lignes avec des valeurs manquantes.
   - Créer un DataFrame `df2` en supprimant les lignes avec des valeurs manquantes (aucune colonne à supprimer, car pas de colonne équivalente à `deck`).
   - Créer un DataFrame `df3` avec une variable (e.g., `self_employed`) et imputer les valeurs manquantes par la mode.
4. Encodage des variables qualitatives :
   - Appliquer un encodage one-hot sur les variables catégoriques nominales (e.g., `Gender`, `Country`).


### Step 1: Charger le dataset

Charger le "Mental Health Dataset" depuis le fichier CSV spécifié et afficher les premières lignes.

In [6]:
import seaborn as sns
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer

# Charger le dataset depuis le fichier CSV
data = pd.read_csv('D:\\codePack\\OneDrive\\Desktop\\ProjectsClouds\\MentallHealthAwareness\\HealthMind_Mental_Health_Data_3500.csv')
df_processed = data.copy()
print(data.shape)
# Afficher les premières lignes
print("First 5 rows of the dataset:")
print(data.head())
print(data.dtypes)


(3500, 14)
First 5 rows of the dataset:
   User_ID  Age  Gender Education_Level Employment_Status  Work_Hours_Week  \
0     1001   35  Female      University          Employed        50.790616   
1     1002   28    Male      University        Unemployed         0.000000   
2     1003   37   Other      University        Unemployed         0.000000   
3     1004   48  Female      University     Self-employed        80.000000   
4     1005   27    Male      University          Employed        49.670909   

   Sleep_Hours_Night  Exercise_Freq_Week Social_Support  GAD-7_Score  \
0           3.573649                 4.0            Low            7   
1           6.127009                 1.0            Low            8   
2           5.571812                 2.0         Medium            6   
3           6.721314                 2.0            Low            9   
4           7.754259                 3.0            Low            7   

   PHQ-9_Score  Stress_Level_Scale Coping_Mechanism Risk_L

### Step 2: Explorer les données

Examiner la structure du dataset, les types de données, et les statistiques descriptives.

In [7]:

missing_values = data.isnull().sum()
print("Valeurs manquantes par colonne:")
print(missing_values[missing_values > 0])

# Afficher les colonnes du dataset
print("\nColonnes du dataset:")
print(data.columns)

# Afficher les types de chaque colonne
print("\nTypes de données:")
print(data.dtypes)

# Statistiques descriptives pour toutes les colonnes
print("\nStatistiques descriptives:")
print(data.describe(include='all'))

print("\n" + "="*50)
print("--- Step 2: Explorer les données ---")

# 2.2 Data Types: Afficher les types de chaque colonne
print("\nTypes de données:")
print(df_processed.dtypes)

# 2.3 Statistics: Statistiques descriptives pour toutes les colonnes
print("\nStatistiques descriptives (incluant les NaN et les catégories):")
print(df_processed.describe(include='all'))

# Exploration spécifique des variables GAD-7 et PHQ-9
print("\nStatistiques sur les scores cliniques:")
print(df_processed[['GAD-7_Score', 'PHQ-9_Score']].describe())


Valeurs manquantes par colonne:
Education_Level       245
Work_Hours_Week       245
Sleep_Hours_Night     245
Exercise_Freq_Week    245
Stress_Level_Scale    245
Coping_Mechanism      245
dtype: int64

Colonnes du dataset:
Index(['User_ID', 'Age', 'Gender', 'Education_Level', 'Employment_Status',
       'Work_Hours_Week', 'Sleep_Hours_Night', 'Exercise_Freq_Week',
       'Social_Support', 'GAD-7_Score', 'PHQ-9_Score', 'Stress_Level_Scale',
       'Coping_Mechanism', 'Risk_Level'],
      dtype='object')

Types de données:
User_ID                 int64
Age                     int64
Gender                 object
Education_Level        object
Employment_Status      object
Work_Hours_Week       float64
Sleep_Hours_Night     float64
Exercise_Freq_Week    float64
Social_Support         object
GAD-7_Score             int64
PHQ-9_Score             int64
Stress_Level_Scale    float64
Coping_Mechanism       object
Risk_Level             object
dtype: object

Statistiques descriptives:
           

### Step 3: Identification des types de variables

Identifier les variables qualitatives (nominales/ordinales) et quantitatives (s’il y en a). Toutes les colonnes semblent être qualitatives (catégoriques) sauf potentiellement `Timestamp`, qui peut être converti en une variable quantitative si nécessaire.

In [8]:
print("\n" + "="*50)
print("--- Step 3: Identification des types de variables ---")

# Variables Ordinales: Ont un ordre clair.
ordinal_vars = ['Education_Level', 'Social_Support', 'Risk_Level'] 
# Variables Nominales: Catégories sans ordre.
nominal_vars = ['Gender', 'Employment_Status', 'Coping_Mechanism']
# Variables Quantitatives: Numériques.
quantitative_vars = ['Age', 'Work_Hours_Week', 'Sleep_Hours_Night', 'Exercise_Freq_Week', 
                     'GAD-7_Score', 'PHQ-9_Score', 'Stress_Level_Scale']
# ID à supprimer
id_var = ['User_ID']

print(f"Variables Nominales (pour One-Hot Encoding): {nominal_vars}")
print(f"Variables Ordinales (pour Mapping): {ordinal_vars}")
print(f"Variables Quantitatives (pour Scaling): {quantitative_vars}")

# Afficher les modalités des variables nominales pour vérifier
print("\nModalités des variables Nominal/Ordinales (pour vérification):")
for var in nominal_vars + ordinal_vars:
    print(f"   {var}: {df_processed[var].unique()}")


--- Step 3: Identification des types de variables ---
Variables Nominales (pour One-Hot Encoding): ['Gender', 'Employment_Status', 'Coping_Mechanism']
Variables Ordinales (pour Mapping): ['Education_Level', 'Social_Support', 'Risk_Level']
Variables Quantitatives (pour Scaling): ['Age', 'Work_Hours_Week', 'Sleep_Hours_Night', 'Exercise_Freq_Week', 'GAD-7_Score', 'PHQ-9_Score', 'Stress_Level_Scale']

Modalités des variables Nominal/Ordinales (pour vérification):
   Gender: ['Female' 'Male' 'Other' 'Non-binary']
   Employment_Status: ['Employed' 'Unemployed' 'Self-employed' 'Student' 'Retired']
   Coping_Mechanism: ['Socializing' 'Work' 'Gaming' 'Isolation' 'Exercise' 'Mindfulness'
 'Reading' nan]
   Education_Level: ['University' 'Ph.D.' 'High School' 'Masters' nan]
   Social_Support: ['Low' 'Medium' 'Very Low' 'High']
   Risk_Level: ['Medium' 'Low' 'High']


### Step 4: Gestion des valeurs manquantes

Vérifier les valeurs manquantes, créer des DataFrames en supprimant ou imputant les valeurs manquantes.

In [9]:
print("\n" + "="*50)
print("--- Step 4: Gestion des valeurs manquantes (Imputation) ---")

# 4.1 Check NaN: Compter les valeurs manquantes
missing_values_count = df_processed.isnull().sum()
print("\nValeurs manquantes avant imputation:")
print(missing_values_count[missing_values_count > 0])

# 4.2 Impute Mode: Imputation par la Mode (pour les catégories et les variables discrètes)
imputer_mode = SimpleImputer(strategy='most_frequent')
mode_cols = ['Education_Level', 'Exercise_Freq_Week', 'Coping_Mechanism', 'Stress_Level_Scale']

print("-> Imputation des variables catégoriques/discrètes par la Mode...")
for col in mode_cols:
    # On utilise fit_transform uniquement sur la colonne elle-même
    df_processed[col] = imputer_mode.fit_transform(df_processed[[col]])[:, 0]

# 4.3 Impute Median: Imputation par la Médiane (pour les variables continues)
imputer_median = SimpleImputer(strategy='median')
median_cols = ['Work_Hours_Week', 'Sleep_Hours_Night']

print("-> Imputation des variables continues par la Médiane...")
for col in median_cols:
    df_processed[col] = imputer_median.fit_transform(df_processed[[col]])[:, 0]

# 4.4 Verification: Confirmer que toutes les valeurs manquantes ont été traitées
print("\nValeurs manquantes après imputation (doit être 0 pour les colonnes traitées):")
print(df_processed.isnull().sum().max())


--- Step 4: Gestion des valeurs manquantes (Imputation) ---

Valeurs manquantes avant imputation:
Education_Level       245
Work_Hours_Week       245
Sleep_Hours_Night     245
Exercise_Freq_Week    245
Stress_Level_Scale    245
Coping_Mechanism      245
dtype: int64
-> Imputation des variables catégoriques/discrètes par la Mode...
-> Imputation des variables continues par la Médiane...

Valeurs manquantes après imputation (doit être 0 pour les colonnes traitées):
0


### Step 5: Encodage des variables qualitatives

Appliquer un encodage one-hot sur les variables catégoriques nominales (e.g., `Gender`, `Country`, `Occupation`).

In [10]:
from sklearn.preprocessing import OneHotEncoder

print("\n" + "="*50)
print("--- Step 5: Encodage des variables qualitatives ---")

# 5.1 Ordinal Encoding: Mappage des variables Ordinales (preservation de l'ordre)
print("-> Encodage Ordinal...")

# Education Level Mapping
edu_mapping = {'High School': 1, 'University': 2, 'Masters': 3, 'Ph.D.': 4}
df_processed['Education_Level_Encoded'] = df_processed['Education_Level'].map(edu_mapping)

# Social Support Mapping
support_mapping = {'Very Low': 1, 'Low': 2, 'Medium': 3, 'High': 4}
df_processed['Social_Support_Encoded'] = df_processed['Social_Support'].map(support_mapping)

# Risk Level Mapping (Variable Cible)
risk_mapping = {'Low': 0, 'Medium': 1, 'High': 2}
df_processed['Risk_Level_Encoded'] = df_processed['Risk_Level'].map(risk_mapping)

# 5.2 One-Hot Encoding: Encodage des variables Nominales
print("-> One-Hot Encoding des variables Nominales...")
nominal_vars = ['Gender', 'Employment_Status', 'Coping_Mechanism']
# Utiliser get_dummies sur le DataFrame traité
df_encoded = pd.get_dummies(df_processed, columns=nominal_vars, drop_first=True) 

# 5.3 Cleanup: Suppression des colonnes originales (textuelles ou ID)
cols_to_drop = ['Education_Level', 'Social_Support', 'Risk_Level', 'User_ID']
df_final = df_encoded.drop(columns=cols_to_drop)

print("\nPremières 5 lignes après encodage (vérifiez les nouvelles colonnes):")
print(df_final.head())
print(f"Taille après encodage: {df_final.shape}")


--- Step 5: Encodage des variables qualitatives ---
-> Encodage Ordinal...
-> One-Hot Encoding des variables Nominales...

Premières 5 lignes après encodage (vérifiez les nouvelles colonnes):
   Age  Work_Hours_Week  Sleep_Hours_Night  Exercise_Freq_Week  GAD-7_Score  \
0   35        50.790616           3.573649                 4.0            7   
1   28         0.000000           6.127009                 1.0            8   
2   37         0.000000           5.571812                 2.0            6   
3   48        80.000000           6.721314                 2.0            9   
4   27        49.670909           7.754259                 3.0            7   

   PHQ-9_Score  Stress_Level_Scale  Education_Level_Encoded  \
0           22                 8.0                        2   
1            3                 4.0                        2   
2           12                 4.0                        2   
3           14                 5.0                        2   
4           17   

### Step 6: Feature Scaling and Save (Standardisation et Sauvegarde)

Sauvegarder le dataset prétraité dans un nouveau fichier CSV.

In [11]:
# Sauvegarder le dataset prétraité
from sklearn.discriminant_analysis import StandardScaler


df_encoded.to_csv('preprocessed_mental_health_data.csv', index=False)
print("\nDonnées prétraitées sauvegardées dans 'preprocessed_mental_health_data.csv'")

print("\n" + "="*50)
print("--- Step 6: Standardisation des variables et Sauvegarde ---")

# 6.1 Scaling: Standardisation des variables quantitatives
print("-> Standardisation (Scaling) des variables quantitatives...")
scaling_vars = ['Age', 'Work_Hours_Week', 'Sleep_Hours_Night', 'Exercise_Freq_Week', 
                'GAD-7_Score', 'PHQ-9_Score', 'Stress_Level_Scale']

scaler = StandardScaler()
# Appliquer la standardisation
df_final[scaling_vars] = scaler.fit_transform(df_final[scaling_vars])

print("\nStatistiques des variables après Standardisation (Moyenne ≈ 0, Écart-type ≈ 1):")
print(df_final[scaling_vars].describe().loc[['mean', 'std']])

# 6.2 Final Check: Afficher les colonnes finales
print("\nColonnes du DataFrame FINAL prêt pour le Machine Learning:")
print(df_final.columns.tolist())

# 6.3 Save: Sauvegarder le dataset prétraité
OUTPUT_FILE = 'HealthMind_Preprocessed_Data.csv'
df_final.to_csv(OUTPUT_FILE, index=False)

print("\n" + "="*50)
print(f"✅ Données prétraitées et prêtes pour le ML sauvegardées dans '{OUTPUT_FILE}'")
print(f"Format final: {df_final.shape}")
print("="*50)


Données prétraitées sauvegardées dans 'preprocessed_mental_health_data.csv'

--- Step 6: Standardisation des variables et Sauvegarde ---
-> Standardisation (Scaling) des variables quantitatives...

Statistiques des variables après Standardisation (Moyenne ≈ 0, Écart-type ≈ 1):
               Age  Work_Hours_Week  Sleep_Hours_Night  Exercise_Freq_Week  \
mean  1.827110e-16     7.105427e-17       1.644399e-16        2.639159e-17   
std   1.000143e+00     1.000143e+00       1.000143e+00        1.000143e+00   

       GAD-7_Score   PHQ-9_Score  Stress_Level_Scale  
mean  5.379824e-17  4.567775e-17        1.098804e-16  
std   1.000143e+00  1.000143e+00        1.000143e+00  

Colonnes du DataFrame FINAL prêt pour le Machine Learning:
['Age', 'Work_Hours_Week', 'Sleep_Hours_Night', 'Exercise_Freq_Week', 'GAD-7_Score', 'PHQ-9_Score', 'Stress_Level_Scale', 'Education_Level_Encoded', 'Social_Support_Encoded', 'Risk_Level_Encoded', 'Gender_Male', 'Gender_Non-binary', 'Gender_Other', 'Employment_

### Summary

Le "Mental Health Dataset" a été prétraité à travers les étapes suivantes :
1. Chargement du dataset depuis le fichier CSV spécifié.
2. Exploration des colonnes, types de données et statistiques descriptives.
3. Identification des variables qualitatives (toutes les colonnes sauf `Timestamp`) et quantitatives (aucune pour l’instant).
4. Gestion des valeurs manquantes :
   - Suppression des lignes avec valeurs manquantes pour `df1` et `df2`.
   - Imputation des valeurs manquantes dans `self_employed` pour `df3` avec la mode.
5. Encodage des variables catégoriques nominales (`Gender`, `Country`, `Occupation`) avec one-hot encoding.
6. Sauvegarde des données prétraitées dans un fichier CSV.

Chaque étape est modulaire et peut être exécutée indépendamment après le chargement des données.