___
<img style="float: right; margin: 15px 15px 15px 15px;" src="https://img.freepik.com/free-vector/depression-concept-illustration_114360-3747.jpg?t=st=1657678284~exp=1657678884~hmac=b8b1d71ca0a8eb2e4ff5bf31d6a98624112f1a2254b0f39e92254ed12d7875b2" width="240px" height="180px" />

# <font color= #bbc28d> **Clasificación de Depresión - Informe Final** </font>
#### <font color= #2E9AFE> `Proyecto de Ciencia de Datos`</font>
- <Strong> Sofía Maldonado, Diana Valdivia, Samantha Sánchez & Vivienne Toledo </Strong>
- <Strong> Fecha </Strong>: 30/09/2025.

___

<p style="text-align:right;"> Image retrieved from: https://img.freepik.com/free-vector/depression-concept-illustration_114360-3747.jpg?t=st=1657678284~exp=1657678884~hmac=b8b1d71ca0a8eb2e4ff5bf31d6a98624112f1a2254b0f39e92254ed12d7875b2/p>

## <font color= #bbc28d>• **Data Loading** </font>

In [66]:
# Import modules
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [67]:
# Data import
df = pd.read_csv("../data/raw/depression_dataset.csv")
df

Unnamed: 0,id,Gender,Age,City,Profession,Academic Pressure,Work Pressure,CGPA,Study Satisfaction,Job Satisfaction,Sleep Duration,Dietary Habits,Degree,Have you ever had suicidal thoughts ?,Work/Study Hours,Financial Stress,Family History of Mental Illness,Depression
0,2,Male,33.0,Visakhapatnam,Student,5.0,0.0,8.97,2.0,0.0,5-6 hours,Healthy,B.Pharm,Yes,3.0,1.0,No,1
1,8,Female,24.0,Bangalore,Student,2.0,0.0,5.90,5.0,0.0,5-6 hours,Moderate,BSc,No,3.0,2.0,Yes,0
2,26,Male,31.0,Srinagar,Student,3.0,0.0,7.03,5.0,0.0,Less than 5 hours,Healthy,BA,No,9.0,1.0,Yes,0
3,30,Female,28.0,Varanasi,Student,3.0,0.0,5.59,2.0,0.0,7-8 hours,Moderate,BCA,Yes,4.0,5.0,Yes,1
4,32,Female,25.0,Jaipur,Student,4.0,0.0,8.13,3.0,0.0,5-6 hours,Moderate,M.Tech,Yes,1.0,1.0,No,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27896,140685,Female,27.0,Surat,Student,5.0,0.0,5.75,5.0,0.0,5-6 hours,Unhealthy,Class 12,Yes,7.0,1.0,Yes,0
27897,140686,Male,27.0,Ludhiana,Student,2.0,0.0,9.40,3.0,0.0,Less than 5 hours,Healthy,MSc,No,0.0,3.0,Yes,0
27898,140689,Male,31.0,Faridabad,Student,3.0,0.0,6.61,4.0,0.0,5-6 hours,Unhealthy,MD,No,12.0,2.0,No,0
27899,140690,Female,18.0,Ludhiana,Student,5.0,0.0,6.88,2.0,0.0,Less than 5 hours,Healthy,Class 12,Yes,10.0,5.0,No,1


## <font color= #bbc28d>• **Tratamiento de Valores Faltantes** </font>
Como pudimos ver en el EDA, solo la columna de **Financial Stress** presenta 3 valores nulos, al ser una cantidad pequeña, eliminaremos las filas por completo:

In [68]:
# Eliminar los valores faltantes
df.dropna(inplace=True)

# Comprobar que en efecto ya no contamos con valores faltantes
df.isnull().sum()

id                                       0
Gender                                   0
Age                                      0
City                                     0
Profession                               0
Academic Pressure                        0
Work Pressure                            0
CGPA                                     0
Study Satisfaction                       0
Job Satisfaction                         0
Sleep Duration                           0
Dietary Habits                           0
Degree                                   0
Have you ever had suicidal thoughts ?    0
Work/Study Hours                         0
Financial Stress                         0
Family History of Mental Illness         0
Depression                               0
dtype: int64

## <font color= #bbc28d>• **Filtrado de datos - Categóricas** </font>
Como pudimos ver en el EDA, si bien ya no contamos con valores faltantes, existen varias columnas en las cuáles los valores cuentan con una o dos filas por valor, como **City**, **Dietary Habits**, **Sleep Duration** & **Profesion**, además de que nuestro modelo va enfocado a los estudiantes por lo que eliminaremos los registros que si bien queremos conservar la variable, limpiaremos solo las filas que pueden llegar a aportar valor:

In [69]:
# Verificar que ciudades tienen muy pocos registros
df['City'].value_counts()

City
Kalyan                1570
Srinagar              1372
Hyderabad             1339
Vasai-Virar           1290
Lucknow               1155
Thane                 1139
Ludhiana              1111
Agra                  1094
Surat                 1078
Kolkata               1065
Jaipur                1036
Patna                 1007
Visakhapatnam          969
Pune                   968
Ahmedabad              951
Bhopal                 934
Chennai                885
Meerut                 825
Rajkot                 816
Delhi                  768
Bangalore              767
Ghaziabad              745
Mumbai                 699
Vadodara               694
Varanasi               684
Nagpur                 651
Indore                 643
Kanpur                 609
Nashik                 547
Faridabad              461
Saanvi                   2
Bhavna                   2
City                     2
Harsha                   2
Kibara                   1
Nandini                  1
Nalini                 

Podemos ver que después de **Faridabad**, la cantidad de registros por ciudad disminuyen a solo 2 o 1, por lo que hay que eliminarlos.

In [70]:
# Eliminar las filas con menos de 450 registros
# Seleccionar las ciudades
ciudades = df['City'].value_counts()[df['City'].value_counts() < 450]

# Filtrar el df
df = df[~df['City'].isin(ciudades.index)]

# Comprobar
df['City'].value_counts()

City
Kalyan           1570
Srinagar         1372
Hyderabad        1339
Vasai-Virar      1290
Lucknow          1155
Thane            1139
Ludhiana         1111
Agra             1094
Surat            1078
Kolkata          1065
Jaipur           1036
Patna            1007
Visakhapatnam     969
Pune              968
Ahmedabad         951
Bhopal            934
Chennai           885
Meerut            825
Rajkot            816
Delhi             768
Bangalore         767
Ghaziabad         745
Mumbai            699
Vadodara          694
Varanasi          684
Nagpur            651
Indore            643
Kanpur            609
Nashik            547
Faridabad         461
Name: count, dtype: int64

In [71]:
# Verificar que habitos alimenticios tienen muy pocos registros
df['Dietary Habits'].value_counts()

Dietary Habits
Unhealthy    10303
Moderate      9915
Healthy       7642
Others          12
Name: count, dtype: int64

Podemos ver que solo tenemos **12** registros para **Others** por lo que también habrá que eliminarlos ya que no aportaran mucha información.

In [72]:
# Filtrar los datos
df = df[df['Dietary Habits'] != 'Others']
df['Dietary Habits'].value_counts()

Dietary Habits
Unhealthy    10303
Moderate      9915
Healthy       7642
Name: count, dtype: int64

In [73]:
# Verificar que duración de siesta tienen muy pocos registros
df['Sleep Duration'].value_counts()

Sleep Duration
Less than 5 hours    8297
7-8 hours            7333
5-6 hours            6172
More than 8 hours    6040
Others                 18
Name: count, dtype: int64

Podemos ver que solo tenemos **18** registros para **Others** por lo que también habrá que eliminarlos ya que no aportaran mucha información.

In [74]:
# Filtrar los datos
df = df[df['Sleep Duration'] != 'Others']
df['Sleep Duration'].value_counts()

Sleep Duration
Less than 5 hours    8297
7-8 hours            7333
5-6 hours            6172
More than 8 hours    6040
Name: count, dtype: int64

Para la columna de **Profesion** no habrá filtrado ya que si solo filtramos a **Student** nos quedaríamos con una sola categoría y sería mejor eliminar la columna por completo, pero esto más adelante en su apartado.

## <font color= #bbc28d>• **Filtrado de datos - Numéricas** </font>
Como vimos también en el EDA, la columna de **edad** esta muy sesgada hacia la derecha, la mayoría de los datos se concentra desde los 18 a los 35 y hay valores atípicos de hasta los 50 años que si bien, pudieran ser reales, optaremos por eliminarlos.

Además de que también hay un sesgo ligero en las columnas de **Academic Pressure** & **Study Satisfaction** en donde todos los valores se concentran del 1 al 5, con pocas muestras en el 0 por lo que también eliminaremos estas filas.

In [None]:
# Filtrar edad
df = df[df['Age'] <= 35]

# Filtrar presión académica
df = df[df['Academic Pressure'] > 0]

# Filtrar study satisfaction
df = df[df['Study Satisfaction'] > 0]

# Ver el df
df

Unnamed: 0,id,Gender,Age,City,Profession,Academic Pressure,Work Pressure,CGPA,Study Satisfaction,Job Satisfaction,Sleep Duration,Dietary Habits,Degree,Have you ever had suicidal thoughts ?,Work/Study Hours,Financial Stress,Family History of Mental Illness,Depression
0,2,Male,33.0,Visakhapatnam,Student,5.0,0.0,8.97,2.0,0.0,5-6 hours,Healthy,B.Pharm,Yes,3.0,1.0,No,1
1,8,Female,24.0,Bangalore,Student,2.0,0.0,5.90,5.0,0.0,5-6 hours,Moderate,BSc,No,3.0,2.0,Yes,0
2,26,Male,31.0,Srinagar,Student,3.0,0.0,7.03,5.0,0.0,Less than 5 hours,Healthy,BA,No,9.0,1.0,Yes,0
3,30,Female,28.0,Varanasi,Student,3.0,0.0,5.59,2.0,0.0,7-8 hours,Moderate,BCA,Yes,4.0,5.0,Yes,1
4,32,Female,25.0,Jaipur,Student,4.0,0.0,8.13,3.0,0.0,5-6 hours,Moderate,M.Tech,Yes,1.0,1.0,No,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27896,140685,Female,27.0,Surat,Student,5.0,0.0,5.75,5.0,0.0,5-6 hours,Unhealthy,Class 12,Yes,7.0,1.0,Yes,0
27897,140686,Male,27.0,Ludhiana,Student,2.0,0.0,9.40,3.0,0.0,Less than 5 hours,Healthy,MSc,No,0.0,3.0,Yes,0
27898,140689,Male,31.0,Faridabad,Student,3.0,0.0,6.61,4.0,0.0,5-6 hours,Unhealthy,MD,No,12.0,2.0,No,0
27899,140690,Female,18.0,Ludhiana,Student,5.0,0.0,6.88,2.0,0.0,Less than 5 hours,Healthy,Class 12,Yes,10.0,5.0,No,1


Como podemos ver, mantenemos casi la cantidad original que al principio después de el filtrado.