# Chapitre 2- Analyse exploratoire et pré-traitement de données:

> L'apprentissage automatique nécessite de grandes quantités de données , mais les données brutes provenant de diverses sources (audio, vidéo, texte, etc.) ne sont pas directement exploitables. 
Le prétraitement des données est une étape cruciale qui consiste à nettoyer, transformer et formater ces données afin qu'elles puissent être utilisées efficacement par les algorithmes. Bien que cette phase soit essentielle pour la réussite du projet, elle est souvent la plus longue et complexe.

L'objectif principal de ce TP consiste à appliquer deux techniques essentielles de prétraitement:
- Nettoyage des données : Comment identifier et gérer les valeurs manquantes et les erreurs.
- Transformation des données : Comment ajuster les données pour qu'elles soient prêtes à être analysées.

**Exercice1** : Analyse des Passagers du Titanic

>Dans cet exercice, vous allez utiliser le dataset des passagers du Titanic pour appliquer les notions de population, échantillon, et les différents types de variables statistiques.
Objectifs :

>- Comprendre les concepts de population, échantillon, individus et variables.
>- Manipuler des variables qualitatives et quantitatives.
>- Explorer les caractéristiques de la population de passagers (via un échantillon).
>- Gestion des valeurs manquantes

Étapes :

1. Charger et explorer les données :
>* Utilisez la bibliothèque `seaborn` et la commande `load_dataset('titanic')`  pour charger les données.
>* Affichez un échantillon de quelques passagers.

2. Identification des types de variables :
> * Identifiez quelles colonnes du dataset représentent des variables qualitatives (ordinales/nominales) et quantitatives (discrètes/continues).
>* Effectuez des statistiques descriptives sur les variables quantitatives (par exemple : âge, tarif du billet).
>* Analysez la répartition des variables qualitatives (par exemple : sexe, classe).

3. Gestion des valeurs manquantes :
>* Ce dataset contient-il des valeurs manquantes ? Si oui, comptez le nombre de valeurs manquantes par colonne ainsi que le nombre total de valeurs manquantes. Interprétez les résultats.
>* Créez un DataFrame `df1` en retirant les observations (lignes) qui contiennent des données manquantes. Calculez la taille de df1.
>* Créez un DataFrame `df2` en retirant d'abord la colonne deck, puis en supprimant les observations (lignes) qui contiennent des valeurs manquantes (respectez cet ordre de traitement). Calculez la taille de `df2` et interprétez les résultats.
>* Créez un DataFrame `df3` contenant les variables continues `age` et `fare`, puis remplacer les valeurs manquantes de la variable 'age' par sa médiane.


4. Normalisation des variables quantitives continues :

>* En utilisant ``scikit-learn`` et ``pandas``. Nous allons appliquer une normalisation ``Min-Max`` pour transformer les valeurs de chaque variable de `df3` en des valeurs entre 0 et 1.
>> **Remarque:**  Nous utilisons le <code>MinMaxScaler</code> de <code>scikit-learn</code> pour normaliser les caractéristiques de l'ensemble de données. Ce scaler ramène toutes les valeurs dans un intervalle entre 0 et 1 en utilisant la formule suivante:
>>> $$X_{normalized} = \frac{X - X_{min}}{X_{max} - X_{min}}$$



**Corrigé:**

1. Chargez le dataset des passagers du `Titanic` : Vous pouvez utiliser le dataset disponible via `seaborn` :

In [1]:
import seaborn as sns
import pandas as pd

# Charger le dataset Titanic depuis seaborn
titanic = pd.read_csv('D:\codePack\OneDrive\Desktop\ProjectsClouds\MentallHealthAwareness\Mental Health Dataset.csv')

# Afficher les premières lignes
print(titanic.head())


         Timestamp  Gender        Country Occupation self_employed  \
0  8/27/2014 11:29  Female  United States  Corporate           NaN   
1  8/27/2014 11:31  Female  United States  Corporate           NaN   
2  8/27/2014 11:32  Female  United States  Corporate           NaN   
3  8/27/2014 11:37  Female  United States  Corporate            No   
4  8/27/2014 11:43  Female  United States  Corporate            No   

  family_history treatment Days_Indoors Growing_Stress Changes_Habits  \
0             No       Yes    1-14 days            Yes             No   
1            Yes       Yes    1-14 days            Yes             No   
2            Yes       Yes    1-14 days            Yes             No   
3            Yes       Yes    1-14 days            Yes             No   
4            Yes       Yes    1-14 days            Yes             No   

  Mental_Health_History Mood_Swings Coping_Struggles Work_Interest  \
0                   Yes      Medium               No            No   


**Aperçu global sur les variables du dataset Titanic**

Le dataset Titanic contient des informations sur les passagers du Titanic, souvent utilisé pour l'apprentissage de l'analyse de données et du machine learning. Voici une explication des principales variables.



1. **`survived`** (Survécu) :
   - **Type** : Quantitatif discret
   - **Description** : Indique si le passager a survécu ou non au naufrage.
     - 0 = Non (le passager n'a pas survécu)
     - 1 = Oui (le passager a survécu)

2. **`pclass`** (Classe de billet) :
   - **Type** : Qualitatif ordinal
   - **Description** : La classe du billet du passager (indicatif de la position sociale).
     - 1 = Première classe
     - 2 = Deuxième classe
     - 3 = Troisième classe

3. **`sex`** (Sexe) :
   - **Type** : Qualitatif nominal
   - **Description** : Le sexe du passager.
     - `male` = Homme
     - `female` = Femme

4. **`age`** (Âge) :
   - **Type** : Quantitatif continu
   - **Description** : Âge du passager en années. Les valeurs manquantes sont indiquées par `NaN`.

5. **`sibsp`** (Nombre de frères et sœurs / conjoints à bord) :
   - **Type** : Quantitatif discret
   - **Description** : Nombre de frères, sœurs ou conjoints à bord du Titanic.

6. **`parch`** (Nombre de parents/enfants à bord) :
   - **Type** : Quantitatif discret
   - **Description** : Nombre de parents ou enfants à bord du Titanic.

7. **`fare`** (Tarif du billet) :
   - **Type** : Quantitatif continu
   - **Description** : Prix du billet en livres sterling (GBP).

8. **`embarked`** (Port d'embarquement) :
   - **Type** : Qualitatif nominal
   - **Description** : Port où le passager a embarqué.
     - `C` = Cherbourg
     - `Q` = Queenstown
     - `S` = Southampton

9. **`class`** (Classe du passager) :
   - **Type** : Qualitatif ordinal
   - **Description** : Version textuelle de la variable `pclass`.
     - `First` = Première classe
     - `Second` = Deuxième classe
     - `Third` = Troisième classe

10. **`who`** (Catégorie de personne) :
    - **Type** : Qualitatif nominal
    - **Description** : Catégorie de la personne (homme, femme, enfant).
      - `man` = Homme adulte
      - `woman` = Femme adulte
      - `child` = Enfant

11. **`deck`** (Pont du bateau) :
    - **Type** : Qualitatif nominal
    - **Description** : Pont sur lequel se trouvait la cabine du passager. Valeurs manquantes pour certains passagers.

12. **`embark_town`** (Ville d'embarquement) :
    - **Type** : Qualitatif nominal
    - **Description** : Ville depuis laquelle le passager a embarqué.
      - `Cherbourg`, `Queenstown`, `Southampton`

13. **`alive`** (Survivant) :
    - **Type** : Qualitatif nominal
    - **Description** : Version textuelle de `survived`.
      - `yes` = Le passager a survécu
      - `no` = Le passager n'a pas survécu

14. **`alone`** (Seul à bord) :
    - **Type** : Qualitatif nominal
    - **Description** : Indique si le passager était seul à bord.
      - `True` = Seul
      - `False` = Avec famille


15. **`ticket`** (Numéro de billet) :  
    - **Type** : Qualitatif nominal
    - **Description** : Numéro de billet du passager.
  
16. **`cabin`** (Numéro de cabine) :  
    - **Type** : Qualitatif nominal
    - **Description** : Numéro de cabine du passager (beaucoup de valeurs manquantes).



2. Identification des types de variables :Identifiez quelles colonnes du dataset représentent des variables qualitatives (ordinales/nominales) et quantitatives (discrètes/continues).

In [2]:
##Afficher les colonnes de dataset
print(titanic.columns)


Index(['Timestamp', 'Gender', 'Country', 'Occupation', 'self_employed',
       'family_history', 'treatment', 'Days_Indoors', 'Growing_Stress',
       'Changes_Habits', 'Mental_Health_History', 'Mood_Swings',
       'Coping_Struggles', 'Work_Interest', 'Social_Weakness',
       'mental_health_interview', 'care_options'],
      dtype='object')


In [3]:
#afficher le type de chaque colonne
print(titanic.dtypes)

Timestamp                  object
Gender                     object
Country                    object
Occupation                 object
self_employed              object
family_history             object
treatment                  object
Days_Indoors               object
Growing_Stress             object
Changes_Habits             object
Mental_Health_History      object
Mood_Swings                object
Coping_Struggles           object
Work_Interest              object
Social_Weakness            object
mental_health_interview    object
care_options               object
dtype: object


In [112]:
# Séparer les colonnes en qualitatives et quantitatives
# Séparer les colonnes en qualitatives et quantitatives
qualitative_vars = ['sex', 'embarked', 'class', 'who', 'deck', 'embark_town', 'alive', 'alone']
quantitative_vars = ['age', 'fare', 'sibsp', 'parch']


In [113]:
# Afficher les modalités pour chaque variable catégorielle
for var in qualitative_vars:
    print(f"Modalités pour la variable '{var}':")
    print(titanic[var].unique())
    print()  # Ligne vide pour séparer les résultats

Modalités pour la variable 'sex':
['male' 'female']

Modalités pour la variable 'embarked':
['S' 'C' 'Q' nan]

Modalités pour la variable 'class':
['Third', 'First', 'Second']
Categories (3, object): ['First', 'Second', 'Third']

Modalités pour la variable 'who':
['man' 'woman' 'child']

Modalités pour la variable 'deck':
[NaN, 'C', 'E', 'G', 'D', 'A', 'B', 'F']
Categories (7, object): ['A', 'B', 'C', 'D', 'E', 'F', 'G']

Modalités pour la variable 'embark_town':
['Southampton' 'Cherbourg' 'Queenstown' nan]

Modalités pour la variable 'alive':
['no' 'yes']

Modalités pour la variable 'alone':
[False  True]



In [114]:
# Répartition des variables qualitatives
for var in qualitative_vars:
    print(f"Répartition de {var} :")
    print(titanic[var].value_counts())
    print("\n")


Répartition de sex :
male      577
female    314
Name: sex, dtype: int64


Répartition de embarked :
S    644
C    168
Q     77
Name: embarked, dtype: int64


Répartition de class :
Third     491
First     216
Second    184
Name: class, dtype: int64


Répartition de who :
man      537
woman    271
child     83
Name: who, dtype: int64


Répartition de deck :
C    59
B    47
D    33
E    32
A    15
F    13
G     4
Name: deck, dtype: int64


Répartition de embark_town :
Southampton    644
Cherbourg      168
Queenstown      77
Name: embark_town, dtype: int64


Répartition de alive :
no     549
yes    342
Name: alive, dtype: int64


Répartition de alone :
True     537
False    354
Name: alone, dtype: int64




In [4]:
# Description des variables quantitatives
print(titanic[quantitative_vars].describe())

NameError: name 'quantitative_vars' is not defined

3. Gestion des valeurs manquantes:

In [116]:
# Ce dataset contient-il des valeurs manquantes ? comptez le nombre de valeurs manquantes par colonne 
titanic.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [117]:
# le nombre total de valeurs manquantes. Interprétez les résultats.
titanic.isnull().sum().sum()

869

In [118]:
#  Créez un DataFrame df1 en retirant les observations (lignes) qui contiennent des données manquantes. Calculez la taille de df1.
df1 = titanic.dropna()
print(df1.shape)

(182, 15)


In [119]:
# Créez un DataFrame `df2` en retirant d'abord la colonne deck, puis en supprimant les observations (lignes) qui contiennent des valeurs manquantes (respectez cet ordre de traitement). Calculez la taille de `df2` et interprétez les résultats.

df2 = titanic.drop('deck', axis=1).dropna()
print(df2.shape)
df2.isnull().sum()

(712, 14)


survived       0
pclass         0
sex            0
age            0
sibsp          0
parch          0
fare           0
embarked       0
class          0
who            0
adult_male     0
embark_town    0
alive          0
alone          0
dtype: int64

**Bien qu'il soit généralement conseillé d'éviter de supprimer des colonnes entières, cela peut parfois être nécessaire. Dans notre cas, après avoir supprimé certaines observations (lignes), la taille de df1 est de 182 sur 891. En supprimant la colonne deck, puis en éliminant les lignes contenant des valeurs manquantes, nous obtenons un nouveau DataFrame df2 de taille 712 sur 891. Pour cela, l'analyse exploratoire des données est importante, car chaque dataset a ses propres spécificités.**

In [120]:
#créer un dataframe contenant les variables age et fare
df3=titanic[['age','fare']]

In [1]:
#remplacer les valeurs manquantes de la variable age par sa médiane
median = df3['age'].median() 
df3['age'].fillna(median, inplace=True)
df3


NameError: name 'df3' is not defined

4. Normalisation des variables quantitives continues :

In [122]:
#importer et instancier MinMaxScaler
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()


In [123]:
#appliquer MinMaxScaler sur df3
scaler_fit=scaler.fit_transform(df3)
df3_scaled = pd.DataFrame(scaler_fit)
df3_scaled

Unnamed: 0,0,1
0,0.271174,0.014151
1,0.472229,0.139136
2,0.321438,0.015469
3,0.434531,0.103644
4,0.434531,0.015713
...,...,...
886,0.334004,0.025374
887,0.233476,0.058556
888,0.346569,0.045771
889,0.321438,0.058556


**Exercice 2:**
>Le dataset ``flights`` dans ``seaborn`` contient des informations mensuelles sur le nombre de passagers aériens de 1949 à 1960. Nous allons appliquer un encodage One-Hot Encoding sur la colonne des mois (month), qui est une variable catégorielle.
>> **Remarque :** Nous utilisons ``OneHotEncoder`` de ``scikit-learn`` pour transformer la colonne ``Month`` en plusieurs colonnes binaires. Chaque colonne correspond à un mois (par exemple, "Month_Jan", "Month_Feb", etc.), et chaque ligne indique si le mois en question est présent (1) ou non (0). 

In [124]:
# Import des bibliothèques nécessaires
import seaborn as sns
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder

In [125]:
# Charger le dataset flights de seaborn
df = sns.load_dataset('flights')

# Affichage des premières lignes du DataFrame original
print("Dataset avant One-Hot Encoding :")
print(df.head())

Dataset avant One-Hot Encoding :
   year month  passengers
0  1949   Jan         112
1  1949   Feb         118
2  1949   Mar         132
3  1949   Apr         129
4  1949   May         121


In [126]:
# Instanciation du One-Hot Encoder
encoder = OneHotEncoder(sparse_output=False)

In [127]:
# Application du One-Hot Encoding sur la colonne 'month'
one_hot_encoded = encoder.fit_transform(df[['month']])

In [128]:
# Affichage de one_hot_encoded et de son type
print(one_hot_encoded,type(one_hot_encoded))

[[0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.

In [129]:
np.set_printoptions(threshold=np.inf)
print(one_hot_encoded,type(one_hot_encoded))

[[0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.

In [130]:
# Création d'un DataFrame des colonnes encodées
encoded_df = pd.DataFrame(one_hot_encoded, columns=encoder.get_feature_names_out(['month']))
encoded_df

Unnamed: 0,month_Apr,month_Aug,month_Dec,month_Feb,month_Jan,month_Jul,month_Jun,month_Mar,month_May,month_Nov,month_Oct,month_Sep
0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
3,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...
139,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
140,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
141,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
142,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


In [131]:
# Fusionner les colonnes encodées avec le DataFrame original sans la variable 'month'
df_encoded = pd.concat([df.drop('month', axis=1), encoded_df], axis=1)

In [132]:
# Affichage du DataFrame après One-Hot Encoding
print("\nDataset après One-Hot Encoding :")
print(df_encoded.head())


Dataset après One-Hot Encoding :
   year  passengers  month_Apr  month_Aug  month_Dec  month_Feb  month_Jan  \
0  1949         112        0.0        0.0        0.0        0.0        1.0   
1  1949         118        0.0        0.0        0.0        1.0        0.0   
2  1949         132        0.0        0.0        0.0        0.0        0.0   
3  1949         129        1.0        0.0        0.0        0.0        0.0   
4  1949         121        0.0        0.0        0.0        0.0        0.0   

   month_Jul  month_Jun  month_Mar  month_May  month_Nov  month_Oct  month_Sep  
0        0.0        0.0        0.0        0.0        0.0        0.0        0.0  
1        0.0        0.0        0.0        0.0        0.0        0.0        0.0  
2        0.0        0.0        1.0        0.0        0.0        0.0        0.0  
3        0.0        0.0        0.0        0.0        0.0        0.0        0.0  
4        0.0        0.0        0.0        1.0        0.0        0.0        0.0  
