# Chapitre 2 - Analyse exploratoire et pré-traitement de données

L'apprentissage automatique nécessite de grandes quantités de données, mais les données brutes provenant de diverses sources (audio, vidéo, texte, etc.) ne sont pas directement exploitables. Le prétraitement des données est une étape cruciale qui consiste à nettoyer, transformer et formater ces données afin qu'elles puissent être utilisées efficacement par les algorithmes. Bien que cette phase soit essentielle pour la réussite du projet, elle est souvent la plus longue et complexe.

L'objectif principal de ce TP consiste à appliquer deux techniques essentielles de prétraitement :
- Nettoyage des données : Identifier et gérer les valeurs manquantes et les erreurs.
- Transformation des données : Ajuster les données pour qu'elles soient prêtes à être analysées.

### Exercice 1: Analyse du Mental Health Dataset

Dans cet exercice, vous allez utiliser le "Mental Health Dataset" pour appliquer les notions de population, échantillon, et les différents types de variables statistiques.

**Objectifs** :
- Comprendre les concepts de population, échantillon, individus et variables.
- Manipuler des variables qualitatives et quantitatives.
- Explorer les caractéristiques de la population (via un échantillon).
- Gérer les valeurs manquantes.
- Appliquer des transformations comme l'encodage des variables catégoriques.

**Étapes** :
1. Charger et explorer les données :
   - Charger le dataset depuis le fichier CSV spécifié.
   - Afficher un échantillon de quelques observations.
2. Identification des types de variables :
   - Identifier les colonnes qualitatives (nominales/ordinales) et quantitatives (s’il y en a).
   - Effectuer des statistiques descriptives sur les variables.
   - Analyser la répartition des variables qualitatives.
3. Gestion des valeurs manquantes :
   - Vérifier la présence de valeurs manquantes et les compter par colonne.
   - Créer un DataFrame `df1` en supprimant les lignes avec des valeurs manquantes.
   - Créer un DataFrame `df2` en supprimant les lignes avec des valeurs manquantes (aucune colonne à supprimer, car pas de colonne équivalente à `deck`).
   - Créer un DataFrame `df3` avec une variable (e.g., `self_employed`) et imputer les valeurs manquantes par la mode.
4. Encodage des variables qualitatives :
   - Appliquer un encodage one-hot sur les variables catégoriques nominales (e.g., `Gender`, `Country`).


### Step 1: Charger le dataset

Charger le "Mental Health Dataset" depuis le fichier CSV spécifié et afficher les premières lignes.

In [None]:
import seaborn as sns
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer

# Charger le dataset depuis le fichier CSV
data = pd.read_csv('D:\\codePack\\OneDrive\\Desktop\\ProjectsClouds\\MentallHealthAwareness\\HealthMind_Mental_Health_Data_3500.csv.csv')

# Afficher les premières lignes
print("First 5 rows of the dataset:")
print(data.head())

First 5 rows of the dataset:
         Timestamp  Gender        Country Occupation self_employed  \
0  8/27/2014 11:29  Female  United States  Corporate           NaN   
1  8/27/2014 11:31  Female  United States  Corporate           NaN   
2  8/27/2014 11:32  Female  United States  Corporate           NaN   
3  8/27/2014 11:37  Female  United States  Corporate            No   
4  8/27/2014 11:43  Female  United States  Corporate            No   

  family_history treatment Days_Indoors Growing_Stress Changes_Habits  ...  \
0             No       Yes    1-14 days            Yes             No  ...   
1            Yes       Yes    1-14 days            Yes             No  ...   
2            Yes       Yes    1-14 days            Yes             No  ...   
3            Yes       Yes    1-14 days            Yes             No  ...   
4            Yes       Yes    1-14 days            Yes             No  ...   

  Coping_Struggles Work_Interest Social_Weakness mental_health_interview  \
0    

### Step 2: Explorer les données

Examiner la structure du dataset, les types de données, et les statistiques descriptives.

In [6]:
# Afficher les colonnes du dataset
print("\nColonnes du dataset:")
print(data.columns)

# Afficher les types de chaque colonne
print("\nTypes de données:")
print(data.dtypes)

# Statistiques descriptives pour toutes les colonnes
print("\nStatistiques descriptives:")
print(data.describe(include='all'))


Colonnes du dataset:
Index(['Timestamp', 'Gender', 'Country', 'Occupation', 'self_employed',
       'family_history', 'treatment', 'Days_Indoors', 'Growing_Stress',
       'Changes_Habits', 'Mental_Health_History', 'Mood_Swings',
       'Coping_Struggles', 'Work_Interest', 'Social_Weakness',
       'mental_health_interview', 'care_options', 'Age', 'Stress_Level',
       'Sleep_Hours', 'Productivity_Score', 'Social_Interactions_Per_Week'],
      dtype='object')

Types de données:
Timestamp                        object
Gender                           object
Country                          object
Occupation                       object
self_employed                    object
family_history                   object
treatment                        object
Days_Indoors                     object
Growing_Stress                   object
Changes_Habits                   object
Mental_Health_History            object
Mood_Swings                      object
Coping_Struggles                 ob

### Step 3: Identification des types de variables

Identifier les variables qualitatives (nominales/ordinales) et quantitatives (s’il y en a). Toutes les colonnes semblent être qualitatives (catégoriques) sauf potentiellement `Timestamp`, qui peut être converti en une variable quantitative si nécessaire.

In [7]:
# Définir les variables qualitatives (toutes sauf Timestamp, qui pourrait être converti)
qualitative_vars = ['Gender', 'Country', 'Occupation', 'self_employed', 'family_history', 
                    'treatment', 'Days_Indoors', 'Growing_Stress', 'Changes_Habits', 
                    'Mental_Health_History', 'Mood_Swings', 'Coping_Struggles', 
                    'Work_Interest', 'Social_Weakness', 'mental_health_interview', 
                    'care_options']

# Pas de variables quantitatives continues identifiées, mais Timestamp pourrait être converti
quantitative_vars = []  # Aucune variable numérique pour l'instant

# Afficher les variables
print("\nVariables qualitatives:", qualitative_vars)
print("Variables quantitatives:", quantitative_vars)

# Afficher les modalités pour chaque variable qualitative
for var in qualitative_vars:
    print(f"\nModalités pour la variable '{var}':")
    print(data[var].unique())

# Répartition des variables qualitatives
for var in qualitative_vars:
    print(f"\nRépartition de {var}:")
    print(data[var].value_counts())


Variables qualitatives: ['Gender', 'Country', 'Occupation', 'self_employed', 'family_history', 'treatment', 'Days_Indoors', 'Growing_Stress', 'Changes_Habits', 'Mental_Health_History', 'Mood_Swings', 'Coping_Struggles', 'Work_Interest', 'Social_Weakness', 'mental_health_interview', 'care_options']
Variables quantitatives: []

Modalités pour la variable 'Gender':
['Female' 'Unknown' 'USA']

Modalités pour la variable 'Country':
['United States' 'Poland' 'Australia' 'Canada' 'United Kingdom'
 'South Africa' 'USA' 'Sweden' 'New Zealand' 'Netherlands' 'India'
 'Belgium' 'Ireland' 'Corporate']

Modalités pour la variable 'Occupation':
['Corporate' 'No']

Modalités pour la variable 'self_employed':
[nan 'No' 'Yes']

Modalités pour la variable 'family_history':
['No' 'Yes']

Modalités pour la variable 'treatment':
['Yes' 'No' '1-14 days']

Modalités pour la variable 'Days_Indoors':
['1-14 days' 'Yes']

Modalités pour la variable 'Growing_Stress':
['Yes' 'No']

Modalités pour la variable 'Cha

### Step 4: Gestion des valeurs manquantes

Vérifier les valeurs manquantes, créer des DataFrames en supprimant ou imputant les valeurs manquantes.

In [8]:
# Compter les valeurs manquantes par colonne
print("\nValeurs manquantes par colonne:")
print(data.isnull().sum())

# Nombre total de valeurs manquantes
print("\nNombre total de valeurs manquantes:")
print(data.isnull().sum().sum())

# Créer df1 en supprimant les lignes avec des valeurs manquantes
df1 = data.dropna()
print("\nTaille de df1 (après suppression des lignes avec valeurs manquantes):")
print(df1.shape)

# Créer df2 (pas de colonne équivalente à 'deck', donc juste supprimer les lignes)
df2 = data.dropna()
print("\nTaille de df2 (après suppression des lignes avec valeurs manquantes):")
print(df2.shape)
print("\nValeurs manquantes dans df2:")
print(df2.isnull().sum())

# Créer df3 avec la colonne 'self_employed' et imputer les valeurs manquantes par la mode
df3 = data[['self_employed']].copy()
imputer = SimpleImputer(strategy='most_frequent')
df3['self_employed'] = imputer.fit_transform(df3[['self_employed']])
print("\ndf3 après imputation des valeurs manquantes:")
print(df3.head())
print("\nValeurs manquantes dans df3:")
print(df3.isnull().sum())


Valeurs manquantes par colonne:
Timestamp                       2
Gender                          0
Country                         0
Occupation                      0
self_employed                   3
family_history                  0
treatment                       0
Days_Indoors                    0
Growing_Stress                  0
Changes_Habits                  0
Mental_Health_History           0
Mood_Swings                     0
Coping_Struggles                0
Work_Interest                   0
Social_Weakness                 0
mental_health_interview         0
care_options                    0
Age                             0
Stress_Level                    0
Sleep_Hours                     0
Productivity_Score              0
Social_Interactions_Per_Week    1
dtype: int64

Nombre total de valeurs manquantes:
6

Taille de df1 (après suppression des lignes avec valeurs manquantes):
(118, 22)

Taille de df2 (après suppression des lignes avec valeurs manquantes):
(118, 22)

Vale

ValueError: 2

### Step 5: Encodage des variables qualitatives

Appliquer un encodage one-hot sur les variables catégoriques nominales (e.g., `Gender`, `Country`, `Occupation`).

In [None]:
from sklearn.preprocessing import OneHotEncoder

# Sélectionner quelques colonnes nominales pour l'encodage (limiter pour éviter trop de colonnes)
nominal_vars = ['Gender', 'Country', 'Occupation']

# Initialiser l'encodeur
encoder = OneHotEncoder(sparse=False, handle_unknown='ignore')

# Appliquer l'encodage one-hot
encoded_data = encoder.fit_transform(data[nominal_vars])
encoded_df = pd.DataFrame(encoded_data, columns=encoder.get_feature_names_out(nominal_vars))

# Fusionner avec le dataset original (sans les colonnes encodées)
df_encoded = pd.concat([data.drop(nominal_vars, axis=1), encoded_df], axis=1)

# Afficher le dataset après encodage
print("\nDataset après encodage one-hot:")
print(df_encoded.head())

### Step 6: Sauvegarder les données prétraitées

Sauvegarder le dataset prétraité dans un nouveau fichier CSV.

In [None]:
# Sauvegarder le dataset prétraité
df_encoded.to_csv('preprocessed_mental_health_data.csv', index=False)
print("\nDonnées prétraitées sauvegardées dans 'preprocessed_mental_health_data.csv'")

### Summary

Le "Mental Health Dataset" a été prétraité à travers les étapes suivantes :
1. Chargement du dataset depuis le fichier CSV spécifié.
2. Exploration des colonnes, types de données et statistiques descriptives.
3. Identification des variables qualitatives (toutes les colonnes sauf `Timestamp`) et quantitatives (aucune pour l’instant).
4. Gestion des valeurs manquantes :
   - Suppression des lignes avec valeurs manquantes pour `df1` et `df2`.
   - Imputation des valeurs manquantes dans `self_employed` pour `df3` avec la mode.
5. Encodage des variables catégoriques nominales (`Gender`, `Country`, `Occupation`) avec one-hot encoding.
6. Sauvegarde des données prétraitées dans un fichier CSV.

Chaque étape est modulaire et peut être exécutée indépendamment après le chargement des données.