# Explore here

In [None]:
#Paso 1: Definici√≥n del problema
#üéØ Problema de negocio
#La depresi√≥n es uno de los trastornos mentales m√°s prevalentes a nivel mundial. Se estima que millones de personas la padecen, y muchas de ellas no reciben el tratamiento adecuado debido a estigmas sociales, falta de diagn√≥stico o acceso limitado a servicios de salud mental. La detecci√≥n temprana es esencial para intervenir oportunamente y prevenir consecuencias graves como el deterioro en la calidad de vida o incluso el suicidio.

#El objetivo de este proyecto es desarrollar un sistema de predicci√≥n que, bas√°ndose en informaci√≥n sociodemogr√°fica, historial m√©dico y h√°bitos de vida de los individuos, sea capaz de detectar indicios de depresi√≥n. Esto permitir√≠a generar herramientas de apoyo para psic√≥logos, profesionales de salud, instituciones educativas o incluso en ambientes laborales, facilitando intervenciones tempranas y preventivas.

#ü§ñ Problema de Machine Learning
#Se plantea un problema de clasificaci√≥n binaria, donde a partir de variables como la edad, estado civil, nivel educativo, h√°bitos alimenticios, patrones de sue√±o, historial m√©dico, entre otras, se busca predecir si una persona se encuentra en un estado depresivo (1) o no (0).



In [None]:
#Paso 2: Obtencion y carga del conjunto de datos

In [13]:
import pandas as pd

df = pd.read_csv('../data/raw/depression_data.csv')
print(df.head())


               Name  Age Marital Status    Education Level  \
0  Christine Barker   31        Married  Bachelor's Degree   
1  Jacqueline Lewis   55        Married        High School   
2    Shannon Church   78        Widowed    Master's Degree   
3    Charles Jordan   58       Divorced    Master's Degree   
4      Michael Rich   18         Single        High School   

   Number of Children Smoking Status Physical Activity Level  \
0                   2     Non-smoker                  Active   
1                   1     Non-smoker               Sedentary   
2                   1     Non-smoker               Sedentary   
3                   3     Non-smoker                Moderate   
4                   0     Non-smoker               Sedentary   

  Employment Status     Income Alcohol Consumption Dietary Habits  \
0        Unemployed   26265.67            Moderate       Moderate   
1          Employed   42710.36                High      Unhealthy   
2          Employed  125332.79     

In [None]:
#Nota sobre la variable objetivo:
#Dado que el dataset original no inclu√≠a una columna expl√≠cita que indicara si una persona se encuentra en estado depresivo,
# se gener√≥ una variable sint√©tica Depressed basada en criterios cl√≠nicamente reconocidos como factores de riesgo de depresi√≥n,
# tales como: historial de enfermedad mental, trastornos del sue√±o, abuso de sustancias, antecedentes familiares, entre otros.
# Esta aproximaci√≥n se utiliz√≥ exclusivamente para fines acad√©micos, con el objetivo de demostrar el proceso completo de Machine
# Learning aplicado a datos de salud mental.

#Depressed = 1 ‚Üí indica un caso considerado con alto riesgo de depresi√≥n.
#Depressed = 0 ‚Üí indica un caso considerado sin riesgo significativo de depresi√≥n.

In [None]:
def calcular_depresion(row):
    factores = 0
    if row['History of Mental Illness'] == 'Yes':
        factores += 1
    if row['History of Substance Abuse'] == 'Yes':
        factores += 1
    if row['Family History of Depression'] == 'Yes':
        factores += 1
    if row['Sleep Patterns'] == 'Poor':
        factores += 1
    if row['Chronic Medical Conditions'] == 'Yes':
        factores += 1
    if row['Physical Activity Level'] == 'Sedentary':
        factores += 1
    if row['Alcohol Consumption'] == 'High':
        factores += 1
    return 1 if factores >= 2 else 0

df['Depressed'] = df.apply(calcular_depresion, axis=1)


In [None]:
#Paso 3: Almacenar la informaci√≥n



In [23]:
import sqlite3
import pandas as pd

#Conectar df a SQL
conn = sqlite3.connect("depression_data.db")

# Almacenar los datos en la base de datos SQLite en una tabla llamada 'health_data'
df.to_sql('health_data', conn, if_exists='replace', index=False)
print("Datos cargados correctamente en la base de datos 'mental_health.db'")


Datos cargados correctamente en la base de datos 'mental_health.db'


In [24]:
# 1: Ver las primeras 5 filas
query1 = "SELECT * FROM health_data LIMIT 5"
print("‚ñ∂ Consulta 1: Primeras 5 filas")
print(pd.read_sql(query1, conn), "\n")



‚ñ∂ Consulta 1: Primeras 5 filas
               Name  Age Marital Status    Education Level  \
0  Christine Barker   31        Married  Bachelor's Degree   
1  Jacqueline Lewis   55        Married        High School   
2    Shannon Church   78        Widowed    Master's Degree   
3    Charles Jordan   58       Divorced    Master's Degree   
4      Michael Rich   18         Single        High School   

   Number of Children Smoking Status Physical Activity Level  \
0                   2     Non-smoker                  Active   
1                   1     Non-smoker               Sedentary   
2                   1     Non-smoker               Sedentary   
3                   3     Non-smoker                Moderate   
4                   0     Non-smoker               Sedentary   

  Employment Status     Income Alcohol Consumption Dietary Habits  \
0        Unemployed   26265.67            Moderate       Moderate   
1          Employed   42710.36                High      Unhealthy   
2 

In [None]:
# 2: Contar personas deprimidas (1) vs no deprimidas (0)
query2 = "SELECT Depressed, COUNT(*) as Total FROM health_data GROUP BY Depressed"
print("‚ñ∂ Consulta 2: Conteo deprimidos vs no")
print(pd.read_sql(query2, conn), "\n")



‚ñ∂ Consulta 2: Conteo deprimidos vs no
   Depressed   Total
0          0  128135
1          1  285633 



In [26]:
# Consulta 3: Ver distribuci√≥n por nivel de actividad f√≠sica
query3 = "SELECT [Physical Activity Level], COUNT(*) as Total FROM health_data GROUP BY [Physical Activity Level]"
print("‚ñ∂ Consulta 3: Conteo por nivel de actividad f√≠sica")
print(pd.read_sql(query3, conn), "\n")

‚ñ∂ Consulta 3: Conteo por nivel de actividad f√≠sica
  Physical Activity Level   Total
0                  Active   78905
1                Moderate  158013
2               Sedentary  176850 



In [27]:
query4 = "SELECT [Sleep Patterns], COUNT(*) as Total FROM health_data GROUP BY [Sleep Patterns]"
print("‚ñ∂ Consulta 4: Conteo por patr√≥n de sue√±o")
print(pd.read_sql(query4, conn), "\n")

‚ñ∂ Consulta 4: Conteo por patr√≥n de sue√±o
  Sleep Patterns   Total
0           Fair  196789
1           Good   87397
2           Poor  129582 



In [28]:
# Consulta 5: Porcentaje promedio de depresi√≥n por consumo de alcohol
query5 = """
    SELECT [Alcohol Consumption], ROUND(AVG(Depressed), 2) as Porcentaje_Deprimidos
    FROM health_data
    GROUP BY [Alcohol Consumption]
"""
print("‚ñ∂ Consulta 5: Porcentaje de deprimidos por consumo de alcohol")
print(pd.read_sql(query5, conn), "\n")

# Cerrar conexi√≥n
conn.close()

‚ñ∂ Consulta 5: Porcentaje de deprimidos por consumo de alcohol
  Alcohol Consumption  Porcentaje_Deprimidos
0                High                   0.94
1                 Low                   0.61
2            Moderate                   0.61 

