In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

![Header Image](../images/cabecera.png)

# Proyecto de Machine Learning: Predicción de la Cronificación de la Depresión

## Introducción

Este proyecto se centra en el uso de técnicas de Machine Learning para predecir la probabilidad de cronificación de la depresión en pacientes, a partir de un conjunto de datos especializado obtenido de [Kaggle: Depression Dataset](https://www.kaggle.com/datasets/anthonytherrien/depression-dataset). La depresión crónica es una condición que puede afectar significativamente la calidad de vida y la productividad de los individuos, siendo crucial poder anticipar su desarrollo para diseñar intervenciones tempranas y efectivas.

## Objetivos del Proyecto

- **Analizar las características del dataset** y comprender su estructura.
- **Desarrollar un modelo predictivo** que estime la probabilidad de cronificación de la depresión en base a múltiples variables predictoras.
- **Evaluar el rendimiento del modelo** mediante métricas relevantes.

## Fuente de Datos

La fuente principal de datos es el *Depression Dataset* disponible en **Kaggle**. Este dataset contiene diversas variables relacionadas con la salud mental, demografía y otros factores de riesgo que pueden influir en la cronificación de la depresión.

In [3]:
df = pd.read_csv('../data/raw/dataset.csv/depression_data.csv')
df.head(5)

Unnamed: 0,Name,Age,Marital Status,Education Level,Number of Children,Smoking Status,Physical Activity Level,Employment Status,Income,Alcohol Consumption,Dietary Habits,Sleep Patterns,History of Mental Illness,History of Substance Abuse,Family History of Depression,Chronic Medical Conditions
0,Christine Barker,31,Married,Bachelor's Degree,2,Non-smoker,Active,Unemployed,26265.67,Moderate,Moderate,Fair,Yes,No,Yes,Yes
1,Jacqueline Lewis,55,Married,High School,1,Non-smoker,Sedentary,Employed,42710.36,High,Unhealthy,Fair,Yes,No,No,Yes
2,Shannon Church,78,Widowed,Master's Degree,1,Non-smoker,Sedentary,Employed,125332.79,Low,Unhealthy,Good,No,No,Yes,No
3,Charles Jordan,58,Divorced,Master's Degree,3,Non-smoker,Moderate,Unemployed,9992.78,Moderate,Moderate,Poor,No,No,No,No
4,Michael Rich,18,Single,High School,0,Non-smoker,Sedentary,Unemployed,8595.08,Low,Moderate,Fair,Yes,No,Yes,Yes


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 413768 entries, 0 to 413767
Data columns (total 16 columns):
 #   Column                        Non-Null Count   Dtype  
---  ------                        --------------   -----  
 0   Name                          413768 non-null  object 
 1   Age                           413768 non-null  int64  
 2   Marital Status                413768 non-null  object 
 3   Education Level               413768 non-null  object 
 4   Number of Children            413768 non-null  int64  
 5   Smoking Status                413768 non-null  object 
 6   Physical Activity Level       413768 non-null  object 
 7   Employment Status             413768 non-null  object 
 8   Income                        413768 non-null  float64
 9   Alcohol Consumption           413768 non-null  object 
 10  Dietary Habits                413768 non-null  object 
 11  Sleep Patterns                413768 non-null  object 
 12  History of Mental Illness     413768 non-nul

## Variables del Estudio

### Variable Objetivo (Target)

- **Chronic Medical Conditions**: Indicador de si la depresión se ha cronificado en un individuo (aunque el nombre se enfoque en condiciones médicas crónicas, en este contexto se usa para representar la cronificación de la depresión).

In [5]:
df[['Chronic Medical Conditions']]

Unnamed: 0,Chronic Medical Conditions
0,Yes
1,Yes
2,No
3,No
4,Yes
...,...
413763,No
413764,Yes
413765,Yes
413766,No



### Variables Predictoras

Las variables predictoras incluidas en el análisis son las siguientes:

- **Edad (`age`)**: Representa la edad del participante. Es una variable crucial, ya que la edad puede influir en la probabilidad de cronificación de la depresión debido a factores relacionados con el envejecimiento y la resiliencia emocional.

- **Género (`gender`)**: Indica el género del participante. Las investigaciones han demostrado que el género puede afectar la incidencia y la cronificación de trastornos depresivos, debido a diferencias biológicas y sociales.

- **Nivel de educación (`education`)**: Refleja el nivel de educación alcanzado por el participante. Un mayor nivel educativo puede estar asociado con una mejor comprensión y gestión de la salud mental.

- **Estado civil (`marital_status`)**: Variable que muestra si el participante está soltero, casado, divorciado, etc. Las relaciones interpersonales y el estado civil tienen un impacto significativo en la salud mental.

- **Estado laboral (`employment_status`)**: Describe si el individuo está empleado, desempleado, retirado, etc. El estado laboral es un factor que puede influir en la estabilidad emocional y el nivel de estrés del participante.

- **Ingresos anuales (`income`)**: Se refiere al nivel de ingresos del participante. El nivel socioeconómico es un determinante importante de la salud general y mental, ya que afecta el acceso a recursos de salud y la capacidad de manejar el estrés.

- **Hábitos de actividad física (`physical_activity`)**: Indica la frecuencia con la que el individuo realiza actividad física. La actividad física es un factor protector contra el desarrollo y la cronificación de la depresión.

- **Consumo de alcohol (`alcohol_consumption`)**: Mide el nivel de consumo de alcohol del participante. El consumo excesivo de alcohol se ha relacionado con un mayor riesgo de cronificación de la depresión.

- **Historial de enfermedades previas (`medical_history`)**: Describe si el participante tiene antecedentes de otras enfermedades o condiciones médicas. Las condiciones comórbidas pueden influir en la severidad y cronificación de la depresión.

- **Síntomas de depresión (`depression_symptoms`)**: Representa la gravedad de los síntomas depresivos actuales. Es una de las variables más relevantes para predecir la cronificación, ya que un mayor nivel de síntomas iniciales puede indicar un mayor riesgo de cronificación.

- **Niveles de ansiedad (`anxiety_levels`)**: Mide el nivel de ansiedad experimentado por el participante. La ansiedad es un trastorno frecuentemente asociado con la depresión y puede influir en su cronificación.

- **Soporte social (`social_support`)**: Indica el nivel de apoyo social que el participante percibe. Un alto nivel de soporte social es un factor protector que puede reducir el riesgo de cronificación de la depresión.

- **Hábitos de sueño (`sleep_quality`)**: Evalúa la calidad del sueño del participante. La calidad del sueño está estrechamente relacionada con la salud mental y la probabilidad de que la depresión se vuelva crónica.

## Metodología

1. **Preprocesamiento de datos**: Limpieza de datos, tratamiento de valores nulos y normalización de las variables.
2. **Feature Engineering**: Transformación y creación de nuevas características a partir de las variables existentes para mejorar el rendimiento del modelo. Esto incluye la codificación de variables categóricas, creación de interacciones entre variables y selección de las características más relevantes.
3. **Análisis exploratorio de datos (EDA)**: Visualización y análisis estadístico para identificar correlaciones y patrones relevantes.
4. **Desarrollo del modelo**: Prueba de algoritmos para predecir la cronificación de la depresión.
5. **Evaluación del modelo**: Uso de métricas para medir la efectividad del modelo.
6. **Conclusiones**: Interpretación de los resultados.

## Modelos de Machine Learning a Considerar

En este proyecto, se evaluará si el problema de predecir la cronificación de la depresión es mejor abordarlo como un caso de **clasificación binaria** (cronificación: sí/no) o como un **problema de regresión** (identificación de grupos vulnerables). Para la clasificación, modelos como **Clustering**, **Regresión Logística**, **Random Forest**, y **Gradient Boosting** son opciones viables, mientras que para la regresión se pueden considerar **Regresión Lineal**, **Decission Tree Regressor**, y **Gradient Boosting Regressor**.

La elección entre estos enfoques dependerá de los resultados obtenidos durante la fase de análisis exploratorio y validación de modelos, considerando cuál opción ofrece la mejor precisión y aplicabilidad en un contexto real.