# **Nettoyage du DataSet 'Student Depression'**

**Contexte :** 
- Cette section traite du nettoyage du dataset pour assurer la qualité des données.
- Les valeurs manquantes et incohérentes peuvent altérer les analyses et modèles, d'où leur traitement prioritaire.

**Objectif :**
- Identifier, comprendre et corriger les anomalies pour garantir des données fiables et prêtes à l'analyse.

### **Importation du DataSet et Informations Générales**

In [3]:
import pandas as pd

df = pd.read_csv("../donnees/brutes/Student Depression Dataset.csv")


In [4]:
df.head(1)

Unnamed: 0,id,Gender,Age,City,Profession,Academic Pressure,Work Pressure,CGPA,Study Satisfaction,Job Satisfaction,Sleep Duration,Dietary Habits,Degree,Have you ever had suicidal thoughts ?,Work/Study Hours,Financial Stress,Family History of Mental Illness,Depression
0,2,Male,33.0,Visakhapatnam,Student,5.0,0.0,8.97,2.0,0.0,5-6 hours,Healthy,B.Pharm,Yes,3.0,1.0,No,1


In [5]:
df.info()#3 lignes NaN dans 'Financial Stress', on peut dropper

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27901 entries, 0 to 27900
Data columns (total 18 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   id                                     27901 non-null  int64  
 1   Gender                                 27901 non-null  object 
 2   Age                                    27901 non-null  float64
 3   City                                   27901 non-null  object 
 4   Profession                             27901 non-null  object 
 5   Academic Pressure                      27901 non-null  float64
 6   Work Pressure                          27901 non-null  float64
 7   CGPA                                   27901 non-null  float64
 8   Study Satisfaction                     27901 non-null  float64
 9   Job Satisfaction                       27901 non-null  float64
 10  Sleep Duration                         27901 non-null  object 
 11  Di

In [6]:
df = df.dropna()

### **Description des colonnes du DataSet**

- **Academic Pressure** : Pression académique (0 = aucune, 5 = maximum).  
- **Work Pressure** : Pression professionnelle (0 = aucune, 5 = maximum).  
- **Sleep Duration** : Durée de sommeil.  
- **Dietary Habits** : Habitudes alimentaires.  
- **Study Satisfaction** : Satisfaction des études (0 = pas satisfait, 5 = très satisfait).  
- **Job Satisfaction** : Satisfaction professionnelle (0 = pas satisfait, 5 = très satisfait).  
- **Financial Stress** : Stress financier (0 = aucun, 5 = maximum).  
- **Family History of Mental Illness** : Antécédent familial de maladie mentale.  
- **Dépression** : Niveau de dépression (0 = pas de signes, 1 = présence de signes).  
- **CGPA** : Moyenne académique cumulée (échelle de 0 à 10).  
   - **9-10** : Excellent.  
   - **7-8.9** : Très bon.  
   - **5-6.9** : Moyen, nécessite des efforts.  
   - **<5** : Faible, nécessitant une attention urgente.  
   - Le CGPA peut refléter un stress académique, lié à des performances faibles ou à la pression pour maintenir un haut niveau.

### **Suppression des colonnes inutiles**

In [7]:
# Suppression de la colonne `id`
df= df.drop('id', axis = 1)

In [8]:
# Colonne 'Work Pressure'
df[df['Work Pressure'] == 0] # 27895 lignes valeur 0 > colonne à supprimer

# Colonne 'Job Satisfaction'
df[df['Job Satisfaction'] == 0] # 27890 lignes valeur 0 > colonne à supprimer

# Suppression des colonnes
df = df.drop(['Job Satisfaction', 'Work Pressure'], axis = 1)

In [9]:
# Colonne 'Student'
df = df[df['Profession'] == 'Student'] #27870 lignes = filtrage par Student puis colonne à supprimer
df = df.drop('Profession', axis = 1)

### **Traduction en Français des valeurs et intitulés de Colonnes**

- **Objectif** : Traduire le df en français pour faciliter la lecture et l'analyse

#### **Traduction des intitulés de colonnes**

In [10]:
#Traduction des colonnes
df = df.rename(columns = {'Gender' : 'Genre', 'City' : 'Ville', 'Academic Pressure' : 'Pression Académique', 'Study Satisfaction' : 'Satisfaction Académique', 'Sleep Duration' : 'Temps de sommeil', 'Dietary Habits' : 'Habitudes Alimentaires', 
       'Have you ever had suicidal thoughts ?' : 'Pensées Suicidaires', 'Work/Study Hours' : 'Temps études/jour(heures)', 'Financial Stress' : 'Stress Financier', 'Family History of Mental Illness' : 'Antécédents familiaux mentaux', 'Depression' : 'Dépression'})


#### **Définition de la fonction de Traduction des valeurs de Cellule**

In [11]:
def traduction(x):
    if x == '5-6 hours':
        return '5-6 heures'
    elif x == '7-8 hours':
        return '7-8 heures'
    elif x == 'Less than 5 hours':
        return 'Moins de 5 heures'
    elif x == 'More than 8 hours':
        return 'Plus de 8 heures'
    elif x == 'Others':
        return 'Autre'
    elif x == 'Healthy':
        return 'Saines'
    elif x == 'Moderate':
        return 'Modérées'
    elif x == 'Unhealthy':
        return 'Mauvaises'
    elif x == 'Male':
        return 'Homme'
    elif x == 'Female':
        return 'Femme'

#### **Traduction des Colonnes**

In [12]:
# Colonne Genre
df['Genre'] = df['Genre'].apply(traduction)

In [13]:
# Colonne Temps de Sommeil
df['Temps de sommeil'] = df['Temps de sommeil'].apply(traduction)

In [14]:
# Colonne Habitudes Alimentaires
df['Habitudes Alimentaires'] = df['Habitudes Alimentaires'].apply(traduction)

### **Changement de Type**

**Objectif :**
- S'assurer du bon format des valeurs numériques et textuelles en vue du machine learning et des calculs éventuels sur PowerBI

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 27867 entries, 0 to 27900
Data columns (total 14 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Genre                          27867 non-null  object 
 1   Age                            27867 non-null  float64
 2   Ville                          27867 non-null  object 
 3   Pression Académique            27867 non-null  float64
 4   CGPA                           27867 non-null  float64
 5   Satisfaction Académique        27867 non-null  float64
 6   Temps de sommeil               27867 non-null  object 
 7   Habitudes Alimentaires         27867 non-null  object 
 8   Degree                         27867 non-null  object 
 9   Pensées Suicidaires            27867 non-null  object 
 10  Temps études/jour(heures)      27867 non-null  float64
 11  Stress Financier               27867 non-null  float64
 12  Antécédents familiaux mentaux  27867 non-null  obje

In [16]:
# Colonnes 'Float' à transformer en 'INT'
df['Age'] = df['Age'].astype(int)
df['Temps études/jour(heures)'] = df['Temps études/jour(heures)'].astype(int)
df['Pression Académique'] = df['Pression Académique'].astype(int)
df['Satisfaction Académique'] = df['Satisfaction Académique'].astype(int)
df['Stress Financier'] = df['Stress Financier'].astype(int)

### **Suppression des lignes inutiles**

**Objectif :**
- Supprimer les lignes non pertinentes, incomplètes et où les valeurs ne sont pas représentatives.

#### **Colonne 'Ville'**

In [17]:
# Colonne 'Ville'
df['Ville'].value_counts()

Ville
Kalyan                1564
Srinagar              1372
Hyderabad             1338
Vasai-Virar           1289
Lucknow               1155
Thane                 1139
Ludhiana              1109
Agra                  1092
Surat                 1078
Kolkata               1065
Jaipur                1034
Patna                 1006
Visakhapatnam          968
Pune                   968
Ahmedabad              949
Bhopal                 933
Chennai                884
Meerut                 822
Rajkot                 815
Delhi                  767
Bangalore              766
Ghaziabad              744
Mumbai                 698
Vadodara               693
Varanasi               684
Nagpur                 651
Indore                 643
Kanpur                 607
Nashik                 547
Faridabad              461
Saanvi                   2
Bhavna                   2
City                     2
Harsha                   2
Kibara                   1
Nandini                  1
Nalini                

In [18]:
# Suppression des villes n'ayant que 1 ou 2 étudiants renseignés pour permettre un mapping pertinent
df = df[df['Ville'].map(df['Ville'].value_counts()) > 2]

#### **Colonne 'Temps de sommeil'**

In [19]:
df['Temps de sommeil'].unique() #Seulement 4 catégories + 'Others': on traduit les catégories et on drop les others

array(['5-6 heures', 'Moins de 5 heures', '7-8 heures',
       'Plus de 8 heures', 'Autre'], dtype=object)

In [20]:
df['Temps de sommeil'].value_counts()

Temps de sommeil
Moins de 5 heures    8295
7-8 heures           7327
5-6 heures           6169
Plus de 8 heures     6032
Autre                  18
Name: count, dtype: int64

In [21]:
# Suppression des 18 lignes 'Autre'
df = df[df['Temps de sommeil'] != 'Autre']

#### **Colonne 'Habitudes Alimentaires'**

In [22]:
df['Habitudes Alimentaires'].value_counts()

Habitudes Alimentaires
Mauvaises    10287
Modérées      9897
Saines        7627
Autre           12
Name: count, dtype: int64

In [23]:
# Suppression des 12 lignes 'Autre'
df = df[df['Habitudes Alimentaires'] != 'Autre']

#### **Colonne 'CGPA'**

In [24]:
# Suppressoin de 9 lignes valeurs nulles
df = df[df['CGPA'] > 0] 

### **Catégorisation de la colonne 'Degree'**

In [25]:
# Valeurs uniques dans df['Degree']
df['Degree'].unique()

array(['B.Pharm', 'BSc', 'BA', 'BCA', 'M.Tech', 'PhD', 'Class 12', 'B.Ed',
       'LLB', 'BE', 'M.Ed', 'MSc', 'BHM', 'M.Pharm', 'MCA', 'MA', 'B.Com',
       'MD', 'MBA', 'MBBS', 'M.Com', 'B.Arch', 'LLM', 'B.Tech', 'BBA',
       'ME', 'MHM', 'Others'], dtype=object)

**Objectif :**
- Regrouper les différents diplômes contenus dans la colonne `Degree` pour faciliter l'analyse.

**Méthodologie :**
- La colonne `Degree` recueille les différents diplômes visés par les étudiants de l'enquête.
- Un regroupement doit être fait par ***Niveau de diplôme***, afin de pouvoir filtrer et analyser plus facilement.
- Création d'une colonne `Niveau d'Etude` puis suppression de la colonne `Degree`

In [26]:
# Diplomes 'Others'
len(df[df['Degree'] == 'Others'])

35

- Suppression de 35 lignes non pertinentes

In [27]:
df = df[df['Degree'] != 'Others']

#### **Description des diplomes de la colonne `Degree`**

**Diplômes de premier cycle (Undergraduate):**

- B.Pharm - Bachelor of Pharmacy : Diplôme en pharmacie.
- BSc - Bachelor of Science : Diplôme en sciences générales ou spécialisées.
- BA - Bachelor of Arts : Diplôme en sciences humaines et sociales.
- BCA - Bachelor of Computer Applications : Diplôme en informatique.
- B.Ed - Bachelor of Education : Diplôme en pédagogie/enseignement.
- BE - Bachelor of Engineering : Diplôme en ingénierie.
- BHM - Bachelor of Hotel Management : Diplôme en gestion hôtelière.
- B.Com - Bachelor of Commerce : Diplôme en commerce et comptabilité.
- B.Arch - Bachelor of Architecture : Diplôme en architecture.
- B.Tech - Bachelor of Technology : Diplôme technique et d'ingénierie.
- BBA - Bachelor of Business Administration : Diplôme en gestion d’entreprise.

**Diplômes de deuxième cycle (Postgraduate):**

- M.Tech - Master of Technology : Diplôme avancé en technologie.
- M.Ed - Master of Education : Diplôme en enseignement avancé.
- MSc - Master of Science : Diplôme de maîtrise en sciences.
- M.Pharm - Master of Pharmacy : Diplôme avancé en pharmacie.
- MCA - Master of Computer Applications : Diplôme de maîtrise en informatique.
- MA - Master of Arts : Diplôme de maîtrise en sciences humaines.
- MBA - Master of Business Administration : Diplôme de maîtrise en gestion.
- M.Com - Master of Commerce : Diplôme de maîtrise en commerce.
- ME - Master of Engineering : Diplôme de maîtrise en ingénierie.
- MHM - Master of Hotel Management : Diplôme avancé en gestion hôtelière.

**Autres diplômes professionnels ou académiques :**

- PhD - Doctor of Philosophy : Doctorat dans un domaine spécifique.
- LLB - Bachelor of Laws : Diplôme en droit.
- LLM - Master of Laws : Diplôme de maîtrise en droit.
- MD - Doctor of Medicine : Diplôme médical avancé.
- MBBS - Bachelor of Medicine, Bachelor of Surgery : Diplôme de base en médecine.
- Class 12 - Equivalent du baccalauréat (niveau pré-universitaire).

#### **Catégorisation des diplômes**

In [28]:
#Les 'Degrees' peuvent être regroupés en niveau d'étude comme suit:
bachelors = ['BSc', 'BA', 'BCA', 'BE', 'BTech', 'B.Pharm', 'B.Ed', 'B.Com', 'B.Arch', 'BHM', 'BBA', 'Class 12', 'LLB', 'MBBS', "B.Tech"]
masters = ["MSc", "MA", "MCA", "MBA", "MTech", "ME", "M.Ed", "M.Com", "M.Pharm", "MHM", "LLM", "M.Tech"]
doctors = ["PhD", "MD"]

#Fonction pour nouvelle colonne:
def niv_etude(x):
    if x in bachelors:
        return 'Bachelor'
    elif x in masters:
        return 'Master'
    elif x in doctors:
        return 'Doctorat'

In [29]:
# Création de la colonne 'Niveau d'étude':
df['Niveau étude'] = df['Degree'].apply(niv_etude)

In [30]:
df['Niveau étude'].value_counts()

Niveau étude
Bachelor    19352
Master       7328
Doctorat     1087
Name: count, dtype: int64

In [31]:
# Suppression de la colonne 'Degree' inutile
df = df.drop('Degree', axis = 1)

### **Colonnes Booléennes**

**Objectif :**
- Transformer les colonnes possédant seulement 2 valeurs uniques (Yes ou No) en booléen pour préparer le machine learning.

#### **Colonne 'Pensées Suicidaires'**

In [32]:
df['Pensées Suicidaires'].unique()

array(['Yes', 'No'], dtype=object)

In [33]:
df['Pensées Suicidaires'] = df['Pensées Suicidaires'].apply(lambda x : True if x == 'Yes' else False)

#### **Colonne 'Pensées Suicidaires'**

In [34]:
df['Antécédents familiaux mentaux'].unique()

array(['No', 'Yes'], dtype=object)

In [35]:

df['Antécédents familiaux mentaux'] = df['Antécédents familiaux mentaux'].apply(lambda x : True if x == 'Yes' else False)

### **Finalisation du DataFrame et Exportation**

In [36]:
#Réorganisation des colonnes
df = df[['Genre', 'Age', 'Ville', 'Niveau étude', 'Pression Académique', 'CGPA', 'Satisfaction Académique', 'Temps de sommeil', 'Habitudes Alimentaires',
       'Pensées Suicidaires', 'Temps études/jour(heures)', 'Stress Financier', 'Antécédents familiaux mentaux', 'Dépression']]

In [37]:
df = df.reset_index().drop('index', axis = 1)

In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27767 entries, 0 to 27766
Data columns (total 14 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Genre                          27767 non-null  object 
 1   Age                            27767 non-null  int32  
 2   Ville                          27767 non-null  object 
 3   Niveau étude                   27767 non-null  object 
 4   Pression Académique            27767 non-null  int32  
 5   CGPA                           27767 non-null  float64
 6   Satisfaction Académique        27767 non-null  int32  
 7   Temps de sommeil               27767 non-null  object 
 8   Habitudes Alimentaires         27767 non-null  object 
 9   Pensées Suicidaires            27767 non-null  bool   
 10  Temps études/jour(heures)      27767 non-null  int32  
 11  Stress Financier               27767 non-null  int32  
 12  Antécédents familiaux mentaux  27767 non-null 

In [170]:
df.to_csv('../donnees/nettoyees/student_depression_dataset_nettoyees.csv', index = False)

**Conclusion**
- Le DataFrame nettoyé peut maintenant être utilisé pour l'analyse exploratoire et le machine learning.

### **BONUS : Incorporation des coordonnées géographiques pour mapping**

In [40]:
# import du df_ville
df_ville = pd.read_csv("../donnees/nettoyees/coordonnees_ville_inde.csv")

In [41]:
df_ville.head()

Unnamed: 0,Ville,Etat,Population,Latitude,Longitude
0,Agra,Uttar Pradesh,1585704,27.18,78.01
1,Ahmedabad,Gujarat,5577940,23.03,72.58
2,Bangalore,Karnataka,15386000,12.9789,77.5917
3,Bhopal,Madhya Pradesh,1798218,23.26,77.41
4,Chennai,Tamil Nadu,4646732,13.07,80.24


In [43]:
# Merger les datasets sur la colonne 'Ville'
df_kpi = pd.merge(df, df_ville, how='left', left_on='Ville', right_on='Ville')

In [44]:
df_kpi.head()

Unnamed: 0,Genre,Age,Ville,Niveau étude,Pression Académique,CGPA,Satisfaction Académique,Temps de sommeil,Habitudes Alimentaires,Pensées Suicidaires,Temps études/jour(heures),Stress Financier,Antécédents familiaux mentaux,Dépression,Etat,Population,Latitude,Longitude
0,Homme,33,Visakhapatnam,Bachelor,5,8.97,2,5-6 heures,Saines,True,3,1,False,1,Andhra Pradesh,969608,17.7,83.25
1,Femme,24,Bangalore,Bachelor,2,5.9,5,5-6 heures,Modérées,False,3,2,True,0,Karnataka,15386000,12.9789,77.5917
2,Homme,31,Srinagar,Bachelor,3,7.03,5,Moins de 5 heures,Saines,False,9,1,True,0,Jammu & Kashmir,1180570,34.08,74.8
3,Femme,28,Varanasi,Bachelor,3,5.59,2,7-8 heures,Modérées,True,4,5,True,1,Uttar Pradesh,1198491,25.32,82.99
4,Femme,25,Jaipur,Master,4,8.13,3,5-6 heures,Modérées,True,1,1,False,0,Rajasthan,3073350,26.92,75.78


In [45]:
df_kpi.isnull().sum()

Genre                            0
Age                              0
Ville                            0
Niveau étude                     0
Pression Académique              0
CGPA                             0
Satisfaction Académique          0
Temps de sommeil                 0
Habitudes Alimentaires           0
Pensées Suicidaires              0
Temps études/jour(heures)        0
Stress Financier                 0
Antécédents familiaux mentaux    0
Dépression                       0
Etat                             0
Population                       0
Latitude                         0
Longitude                        0
dtype: int64

In [46]:
df_kpi.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27767 entries, 0 to 27766
Data columns (total 18 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Genre                          27767 non-null  object 
 1   Age                            27767 non-null  int32  
 2   Ville                          27767 non-null  object 
 3   Niveau étude                   27767 non-null  object 
 4   Pression Académique            27767 non-null  int32  
 5   CGPA                           27767 non-null  float64
 6   Satisfaction Académique        27767 non-null  int32  
 7   Temps de sommeil               27767 non-null  object 
 8   Habitudes Alimentaires         27767 non-null  object 
 9   Pensées Suicidaires            27767 non-null  bool   
 10  Temps études/jour(heures)      27767 non-null  int32  
 11  Stress Financier               27767 non-null  int32  
 12  Antécédents familiaux mentaux  27767 non-null 

In [47]:
# Export de df_kpi
df_kpi.to_csv('../donnees/nettoyees/df_kpi_final.csv', index=False)