#  Equipa 44. Salud Mental: Depresión, tratamientos e instrumentos

*La Salud Mental es un aspecto fundamental para lograr el bienestar personal, social y emocional, ya que influye directamente en la forma en que pensamos, sentimos y actuamos frente a los desafíos cotidianos. En un mundo cada vez más acelerado e interconectado, el cuidado de la salud mental es esencial para prevenir trastornos como la ansiedad, la depresión y el estrés, que afectan a millones de personas en todo el mundo. Es importante promover la conciencia sobre este tema, derribar estigmas y fomentar el acceso a recursos de apoyo y tratamiento adecuados.*

Para lograrlo, queremos saber:

*   ¿Cuál es la prevalencia de la depresión en los diferentes grupos de edad?
*   ¿Existen diferencias significativas en la tasa de depresión entre hombres y mujeres?
*   ¿Los tratamientos utilizados actualmente son eficaces o no para prevenirlo?
*   ¿Qué tan correlacionada esta la variable sueño con el grado de depresión que padece el paciente?
*   ¿Qué tan confiable podríamos considerar la actigrafía como un instrumento para poder diagnosticar de forma temprana los síntomas de la depresión?

---

# Setting up

La base de datos principal que utilizaremos es la siguiente: [The Depression Dataset](https://www.kaggle.com/datasets/arashnic/the-depression-dataset/data)

In [None]:
# Montamos Drive
# from google.colab import drive
# drive.mount('content/drive')

In [None]:
# bibliotecas utilizadas
import os                             # interactuar con carpeta y archivos
from IPython.display import display
import pandas as pd
import numpy as np
import json
import requests                       # utilización de APIs

In [None]:
# dataset1= "/content/drive/MyDrive/EQUIPA_44/data/condition" # pacientes con enfermedad
# dataset2= "/content/drive/MyDrive/EQUIPA_44/data/control" # pacientes sin enfermedad

dataset = "/content/drive/MyDrive/EQUIPA_44/data/"

In [None]:
# cargando el archivo, manejando posibles errores

try:
  df_scores = pd.read_csv(dataset + "scores.csv")   # datos de cada paciente
  #df_con = pd.read_csv(dataset + "scores.csv", index_col = 0)   # actigrafo de cada paciente
  display(df_scores)
except FileNotFoundError as e:
  print("El archivo no se encontró, verifica la ruta")
  print(f'Error: {e}')
except pd.errors.ParserError as e:
  print("Problema al analizar el archivo")
  print(f'Error: {e}')
except Exception as e:
  print("Ocurrió un error inesperado")
  print(f'Error: {e}')
else:
  print("Lectura finalizada")

Unnamed: 0,number,days,gender,age,afftype,melanch,inpatient,edu,marriage,work,madrs1,madrs2
0,condition_1,11,2,35-39,2.0,2.0,2.0,6-10,1.0,2.0,19.0,19.0
1,condition_2,18,2,40-44,1.0,2.0,2.0,6-10,2.0,2.0,24.0,11.0
2,condition_3,13,1,45-49,2.0,2.0,2.0,6-10,2.0,2.0,24.0,25.0
3,condition_4,13,2,25-29,2.0,2.0,2.0,11-15,1.0,1.0,20.0,16.0
4,condition_5,13,2,50-54,2.0,2.0,2.0,11-15,2.0,2.0,26.0,26.0
5,condition_6,7,1,35-39,2.0,2.0,2.0,6-10,1.0,2.0,18.0,15.0
6,condition_7,11,1,20-24,1.0,,2.0,11-15,2.0,1.0,24.0,25.0
7,condition_8,5,2,25-29,2.0,,2.0,11-15,1.0,2.0,20.0,16.0
8,condition_9,13,2,45-49,1.0,,2.0,6-10,1.0,2.0,26.0,26.0
9,condition_10,9,2,45-49,2.0,2.0,2.0,6-10,1.0,2.0,28.0,21.0


Lectura finalizada


In [None]:
# para poder hacer el siguiente paso necesitamos ocupar la primer columna no como índice
df_scores.reset_index(drop=True, inplace=False)

Unnamed: 0,number,days,gender,age,afftype,melanch,inpatient,edu,marriage,work,madrs1,madrs2
0,condition_1,11,2,35-39,2.0,2.0,2.0,6-10,1.0,2.0,19.0,19.0
1,condition_2,18,2,40-44,1.0,2.0,2.0,6-10,2.0,2.0,24.0,11.0
2,condition_3,13,1,45-49,2.0,2.0,2.0,6-10,2.0,2.0,24.0,25.0
3,condition_4,13,2,25-29,2.0,2.0,2.0,11-15,1.0,1.0,20.0,16.0
4,condition_5,13,2,50-54,2.0,2.0,2.0,11-15,2.0,2.0,26.0,26.0
5,condition_6,7,1,35-39,2.0,2.0,2.0,6-10,1.0,2.0,18.0,15.0
6,condition_7,11,1,20-24,1.0,,2.0,11-15,2.0,1.0,24.0,25.0
7,condition_8,5,2,25-29,2.0,,2.0,11-15,1.0,2.0,20.0,16.0
8,condition_9,13,2,45-49,1.0,,2.0,6-10,1.0,2.0,26.0,26.0
9,condition_10,9,2,45-49,2.0,2.0,2.0,6-10,1.0,2.0,28.0,21.0


In [None]:
# utilizaremos los datos de condition y control para obtener la actividad de ellos y la pondremos toda en un mismo df
# aprovecharemos para tratar los dentro, como conversión a tipo de dato datatime y la key con la que podremos juntar los datos a score

actigrafo = pd.DataFrame()                                                # crea un df nuevo

for dirname, _, filenames in os.walk(dataset):                            # itera sobre la carpeta, los archivos tienen nombre [conditional/control]_#
    for filename in filenames:
        if filename == 'scores.csv':                                      # ignoramos el archivo scores porque ya lo tenemos listo
            continue
        temp = pd.read_csv(os.path.join(dirname, filename))               # se lee el archivo actual
        temp['number'] = filename[:-4]                                    # crea la columna como igual al usado para el índice de df_scores

        try:
          temp['timestamp'] = pd.to_datetime(temp['timestamp'])           # convierte timestamp a datatime y cacha error
        except Exception as e:
          print(f'Error de conversión de fecha: {e}')

        temp = temp.drop(columns=['date'])                                # se deshace de la columna fecha (irrelevante para análisis)
        actigrafo = pd.concat([actigrafo, temp])                          # pone el archivo temporal en el df nuevo, haciendo "append" a las filas


In [None]:
# hacemos copia para manipular sin perder datos permanentemente
df = df_scores.copy()
df.head()

Unnamed: 0,number,days,gender,age,afftype,melanch,inpatient,edu,marriage,work,madrs1,madrs2
0,condition_1,11,2,35-39,2.0,2.0,2.0,6-10,1.0,2.0,19.0,19.0
1,condition_2,18,2,40-44,1.0,2.0,2.0,6-10,2.0,2.0,24.0,11.0
2,condition_3,13,1,45-49,2.0,2.0,2.0,6-10,2.0,2.0,24.0,25.0
3,condition_4,13,2,25-29,2.0,2.0,2.0,11-15,1.0,1.0,20.0,16.0
4,condition_5,13,2,50-54,2.0,2.0,2.0,11-15,2.0,2.0,26.0,26.0


In [None]:
df_act = actigrafo.copy()

# Limpieza, organización y estandarización de los datos

## Entendiendo nuestra db

### METADATA

#### *El primer nombre es con datos crudos, la flecha indica el cambio de nombre de columnas después de tratar los datos*
*   **number -> indiv:** object. indentificación de cada sujeto estudiado.
*   **condicion:** int64. interpretación booleana de cada sujeto, donde 1: Padece depresión y 2: No padece depresión.
*   **days -> dias:** int64. días en los que se midieron resultados con el actígrafo.
*   **gender -> genero:** int64. 1 : Femenino, 2: Masculino.
*   **age -> edad:** object. 10 diferentes rangos de edad de 20 a 69 años.
*   **edad_num:** int64. se reinterpretan los rangos de valores edad de manera numérica. '20-24': 1, '25-29': 2, '30-34': 3, '35-39': 4, '40-44': 5, '45-49': 6,'50-54': 7, '55-59': 8,'60-64': 9, '65-69': 10
*   **afftype -> tipo_diagnostico:** int64. Indica el padecimiento o no de tipo bipolar 1: bipolar II, 2: unipolar depresivo, 3: bipolar I.
*   **melanch:** int64. tipo de depresión 1: melancolía, 2: sin melancolía
*   **inpatient -> hospitalizacion:** int64. 1: Hospitalizado, 2: No Hospitalizado.
*   **edu:** object. años de educación de cada paciente, categorizados en tres rangos de 6 a 20 años.
*   **edu_num:** int64. asigna un valor numérico a cada rango de educación.
*   **marriage -> edo_civil:** int64. 1: unión legal/cohabita, 2: solterx.
*   **work:** int64. 1: trabaja/estudia, 2: sin empleo/pension/incapacidad.
*   **madrs1:** float64. Registro inicial del indicador Montgomery-Asberg Depression Rating Scale que evalua la intensidad de los síntomas depresivos en adultos, así como los efectos del tratamiento antidepresivo.
*   **madrs2:** float64. Registro final del indicador Montgomery-Asberg Depression Rating Scale.
*   **res_madrs:** Cálculo del progreso al iniciar y terminar la investigación.
*   **sum_act:** int64. Suma total de los datos de actividad obtenidos con el actígrafo en los días registrados
*   **prom_act:** float64. Promedio de actividad registrada de cada paciente.
*   **min_act:** int64. Registro de actividad mínima del paciente.
*   **max_act:** int64. Registro de actividad máxima del paciente.
*   **estres:** float64. Indicador de la cantidad de movimiento por día.
*   **nvl_depresion:** object. Categorización del indicador MADRS sobre el grado de depresión.
---

In [None]:
# función resumen df (para este momento raw)

def summary_data(df):
  print("- "*9, "Información comprimida", "- "*9)
  print(df.info())                                                     # recuento gral
  print("- "*9, "Desglose de los datos", "- "*9)
  print(f'▻  Tamaño: {df.shape}')                                     # num filas y columnas
  print(f'\n▻  Tipos de datos por columna: \n{df.dtypes}')            # tipos de dato (raw)
  print(f'\n▻  Datos únicos por columna: \n{df.nunique()}')
  #colum_null = df.columns[df.isnull().any(axis=0)]
  #colum_null[colum_null == True].index
  #fila_null = df.isnull().any(axis=1)
  #fila_null[fila_null == True].index
  print(f'\n▻  Columnas con datos faltantes: \n{(df.isnull().any(axis=0)) == True}')
  #print(f'▻  Columnas con datos faltantes: \n')
  #for col in colum_null:
  #   print(f"{col}       True")
  print(f'\n▻  Filas con datos faltantes: \n{(df.isnull().any(axis=1)) == True}')
  print(f'\n▻  Filas con datos NaN: \n{df.isna()}')                               # qué datos son de tipo NaN ya que trabajamos en su mayoría con datos numéricos
  print(f'\n▻  Filas con datos NaN: \n{df.isna().sum()}')                         # NaNs por columna
  print("- "*9, "Estadísticos", "- "*9)
  print(f'▻  Dato más común por columna: \n{df.mode().iloc[0]}')
  print(f'\n▻  Resumen estadístico:\n')
  print(df.describe(include='all'))

In [None]:
summary_data(df)

- - - - - - - - -  Información comprimida - - - - - - - - - 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55 entries, 0 to 54
Data columns (total 12 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   number     55 non-null     object 
 1   days       55 non-null     int64  
 2   gender     55 non-null     int64  
 3   age        55 non-null     object 
 4   afftype    23 non-null     float64
 5   melanch    20 non-null     float64
 6   inpatient  23 non-null     float64
 7   edu        53 non-null     object 
 8   marriage   23 non-null     float64
 9   work       23 non-null     float64
 10  madrs1     23 non-null     float64
 11  madrs2     23 non-null     float64
dtypes: float64(7), int64(2), object(3)
memory usage: 5.3+ KB
None
- - - - - - - - -  Desglose de los datos - - - - - - - - - 
▻  Tamaño: (55, 12)

▻  Tipos de datos por columna: 
number        object
days           int64
gender         int64
age           object
afftype     

In [None]:
summary_data(actigrafo)

- - - - - - - - -  Información comprimida - - - - - - - - - 
<class 'pandas.core.frame.DataFrame'>
Index: 1571706 entries, 0 to 51610
Data columns (total 3 columns):
 #   Column     Non-Null Count    Dtype         
---  ------     --------------    -----         
 0   timestamp  1571706 non-null  datetime64[ns]
 1   activity   1571706 non-null  int64         
 2   number     1571706 non-null  object        
dtypes: datetime64[ns](1), int64(1), object(1)
memory usage: 48.0+ MB
None
- - - - - - - - -  Desglose de los datos - - - - - - - - - 
▻  Tamaño: (1571706, 3)

▻  Tipos de datos por columna: 
timestamp    datetime64[ns]
activity              int64
number               object
dtype: object

▻  Datos únicos por columna: 
timestamp    834859
activity        916
number           55
dtype: int64

▻  Columnas con datos faltantes: 
timestamp    False
activity     False
number       False
dtype: bool

▻  Filas con datos faltantes: 
0        False
1        False
2        False
3        False

In [None]:
# tenemos variables flotantes que no cuentan con parte decimal, entonces convertimos
conv = ['afftype','melanch','inpatient','marriage','work']

for columna in conv:
  df[columna] = pd.to_numeric(df[columna], errors = 'coerce').astype('Int64')

df.dtypes

Unnamed: 0,0
number,object
days,int64
gender,int64
age,object
afftype,Int64
melanch,Int64
inpatient,Int64
edu,object
marriage,Int64
work,Int64


In [None]:
display(df)

Unnamed: 0,number,days,gender,age,afftype,melanch,inpatient,edu,marriage,work,madrs1,madrs2
0,condition_1,11,2,35-39,2.0,2.0,2.0,6-10,1.0,2.0,19.0,19.0
1,condition_2,18,2,40-44,1.0,2.0,2.0,6-10,2.0,2.0,24.0,11.0
2,condition_3,13,1,45-49,2.0,2.0,2.0,6-10,2.0,2.0,24.0,25.0
3,condition_4,13,2,25-29,2.0,2.0,2.0,11-15,1.0,1.0,20.0,16.0
4,condition_5,13,2,50-54,2.0,2.0,2.0,11-15,2.0,2.0,26.0,26.0
5,condition_6,7,1,35-39,2.0,2.0,2.0,6-10,1.0,2.0,18.0,15.0
6,condition_7,11,1,20-24,1.0,,2.0,11-15,2.0,1.0,24.0,25.0
7,condition_8,5,2,25-29,2.0,,2.0,11-15,1.0,2.0,20.0,16.0
8,condition_9,13,2,45-49,1.0,,2.0,6-10,1.0,2.0,26.0,26.0
9,condition_10,9,2,45-49,2.0,2.0,2.0,6-10,1.0,2.0,28.0,21.0


In [None]:
# la columna educación tiene valores nulos que no son NaN, para mejor tratamiento
df['edu'] = df['edu'].replace(' ', np.NaN)
df

Unnamed: 0,number,days,gender,age,afftype,melanch,inpatient,edu,marriage,work,madrs1,madrs2
0,condition_1,11,2,35-39,2.0,2.0,2.0,6-10,1.0,2.0,19.0,19.0
1,condition_2,18,2,40-44,1.0,2.0,2.0,6-10,2.0,2.0,24.0,11.0
2,condition_3,13,1,45-49,2.0,2.0,2.0,6-10,2.0,2.0,24.0,25.0
3,condition_4,13,2,25-29,2.0,2.0,2.0,11-15,1.0,1.0,20.0,16.0
4,condition_5,13,2,50-54,2.0,2.0,2.0,11-15,2.0,2.0,26.0,26.0
5,condition_6,7,1,35-39,2.0,2.0,2.0,6-10,1.0,2.0,18.0,15.0
6,condition_7,11,1,20-24,1.0,,2.0,11-15,2.0,1.0,24.0,25.0
7,condition_8,5,2,25-29,2.0,,2.0,11-15,1.0,2.0,20.0,16.0
8,condition_9,13,2,45-49,1.0,,2.0,6-10,1.0,2.0,26.0,26.0
9,condition_10,9,2,45-49,2.0,2.0,2.0,6-10,1.0,2.0,28.0,21.0


In [None]:
# Creamos nuevas columnas para unir los datos de actigrafo a df
df['condition'] = df['number'].apply(lambda x: 1 if 'condition' in x else 0)              # poder distinguir de pacientes con depresión y pacientes que no

indic_actigrafo = actigrafo.groupby('number')['activity'].agg(['mean','min','max','sum'])       # agrupamos y sacamos estadisticos de toda la actividad para sintetizar la información

df = df.join(indic_actigrafo, on='number')                                                # une lo obtenido con el df en el que trabajaremos mediante el number

In [None]:
display(df)

Unnamed: 0,number,days,gender,age,afftype,melanch,inpatient,edu,marriage,work,madrs1,madrs2,condition,mean,min,max,sum
0,condition_1,11,2,35-39,2.0,2.0,2.0,6-10,1.0,2.0,19.0,19.0,1,146.94803,0,3526,3415660
1,condition_2,18,2,40-44,1.0,2.0,2.0,6-10,2.0,2.0,24.0,11.0,1,153.664748,0,4228,5981554
2,condition_3,13,1,45-49,2.0,2.0,2.0,6-10,2.0,2.0,24.0,25.0,1,265.299704,3,3847,5743208
3,condition_4,13,2,25-29,2.0,2.0,2.0,11-15,1.0,1.0,20.0,16.0,1,274.866998,0,6776,5925033
4,condition_5,13,2,50-54,2.0,2.0,2.0,11-15,2.0,2.0,26.0,26.0,1,167.245987,0,4609,3594618
5,condition_6,7,1,35-39,2.0,2.0,2.0,6-10,1.0,2.0,18.0,15.0,1,196.416414,0,4129,4209793
6,condition_7,11,1,20-24,1.0,,2.0,11-15,2.0,1.0,24.0,25.0,1,261.805502,0,4778,5805537
7,condition_8,5,2,25-29,2.0,,2.0,11-15,1.0,2.0,20.0,16.0,1,184.934453,0,5437,3569050
8,condition_9,13,2,45-49,1.0,,2.0,6-10,1.0,2.0,26.0,26.0,1,178.773304,0,2821,3632316
9,condition_10,9,2,45-49,2.0,2.0,2.0,6-10,1.0,2.0,28.0,21.0,1,289.647228,0,4935,6243346


In [None]:
# Tratamieno de datos nulo
column_na = {
    'afftype': 'afftype',
    'melanch': 'melanch',
    'inpatient': 'inpatient',
    'edu': 'edu',
    'marriage': 'marriage',
    'work': 'work',
    'madrs1': 'madrs1',
    'madrs2': 'madrs2'
}

# Aplicamos fillna(0) a las columnas seleccionadas
# no se aplican valores de media ni predicciones porque no se dan otros datos adicionales a control
for col in column_na.values():
  df[col] = df[col].fillna(0)

display(df)

Unnamed: 0,number,days,gender,age,afftype,melanch,inpatient,edu,marriage,work,madrs1,madrs2,condition,mean,min,max,sum
0,condition_1,11,2,35-39,2,2,2,6-10,1,2,19.0,19.0,1,146.94803,0,3526,3415660
1,condition_2,18,2,40-44,1,2,2,6-10,2,2,24.0,11.0,1,153.664748,0,4228,5981554
2,condition_3,13,1,45-49,2,2,2,6-10,2,2,24.0,25.0,1,265.299704,3,3847,5743208
3,condition_4,13,2,25-29,2,2,2,11-15,1,1,20.0,16.0,1,274.866998,0,6776,5925033
4,condition_5,13,2,50-54,2,2,2,11-15,2,2,26.0,26.0,1,167.245987,0,4609,3594618
5,condition_6,7,1,35-39,2,2,2,6-10,1,2,18.0,15.0,1,196.416414,0,4129,4209793
6,condition_7,11,1,20-24,1,0,2,11-15,2,1,24.0,25.0,1,261.805502,0,4778,5805537
7,condition_8,5,2,25-29,2,0,2,11-15,1,2,20.0,16.0,1,184.934453,0,5437,3569050
8,condition_9,13,2,45-49,1,0,2,6-10,1,2,26.0,26.0,1,178.773304,0,2821,3632316
9,condition_10,9,2,45-49,2,2,2,6-10,1,2,28.0,21.0,1,289.647228,0,4935,6243346


In [None]:
# Tratando los datos tipo objeto
df.age.unique()
df.edu.unique()
print(f'valores únicos edad: {df.age.unique()}\nvalores únicos educación: {df.edu.unique()}')
print(f'valores nulos:\n{df.isnull().sum()}')

valores únicos edad: ['35-39' '40-44' '45-49' '25-29' '50-54' '20-24' '60-64' '55-59' '30-34'
 '65-69']
valores únicos educación: ['6-10' '11-15' '16-20' 0]
valores nulos:
number       0
days         0
gender       0
age          0
afftype      0
melanch      0
inpatient    0
edu          0
marriage     0
work         0
madrs1       0
madrs2       0
condition    0
mean         0
min          0
max          0
sum          0
dtype: int64


In [None]:
# para poder tratar fácilmente los datos objeto, agregamos columnas con su equivalencia numérica
# para AGE de menor a mayor años

df['edad_num'] = df['age'].replace({
    '20-24': 1, '25-29': 2,
    '30-34': 3, '35-39': 4,
    '40-44': 5, '45-49': 6,
    '50-54': 7, '55-59': 8,
    '60-64': 9, '65-69': 10
})

df.insert(4, 'edad_num', df.pop('edad_num'))

In [None]:
# para EDU de menor a mayor años
df['edu_num'] = df['edu'].replace({
    '6-10': 1,
    '11-15': 2,
    '16-20': 3,
    '0': 0
})

df.insert(9, 'edu_num', df.pop('edu_num'))

In [None]:
display(df)

Unnamed: 0,number,days,gender,age,edad_num,afftype,melanch,inpatient,edu,edu_num,marriage,work,madrs1,madrs2,condition,mean,min,max,sum
0,condition_1,11,2,35-39,4,2,2,2,6-10,1,1,2,19.0,19.0,1,146.94803,0,3526,3415660
1,condition_2,18,2,40-44,5,1,2,2,6-10,1,2,2,24.0,11.0,1,153.664748,0,4228,5981554
2,condition_3,13,1,45-49,6,2,2,2,6-10,1,2,2,24.0,25.0,1,265.299704,3,3847,5743208
3,condition_4,13,2,25-29,2,2,2,2,11-15,2,1,1,20.0,16.0,1,274.866998,0,6776,5925033
4,condition_5,13,2,50-54,7,2,2,2,11-15,2,2,2,26.0,26.0,1,167.245987,0,4609,3594618
5,condition_6,7,1,35-39,4,2,2,2,6-10,1,1,2,18.0,15.0,1,196.416414,0,4129,4209793
6,condition_7,11,1,20-24,1,1,0,2,11-15,2,2,1,24.0,25.0,1,261.805502,0,4778,5805537
7,condition_8,5,2,25-29,2,2,0,2,11-15,2,1,2,20.0,16.0,1,184.934453,0,5437,3569050
8,condition_9,13,2,45-49,6,1,0,2,6-10,1,1,2,26.0,26.0,1,178.773304,0,2821,3632316
9,condition_10,9,2,45-49,6,2,2,2,6-10,1,1,2,28.0,21.0,1,289.647228,0,4935,6243346


In [None]:
summary_data(df)

- - - - - - - - -  Información comprimida - - - - - - - - - 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55 entries, 0 to 54
Data columns (total 19 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   number     55 non-null     object 
 1   days       55 non-null     int64  
 2   gender     55 non-null     int64  
 3   age        55 non-null     object 
 4   edad_num   55 non-null     int64  
 5   afftype    55 non-null     Int64  
 6   melanch    55 non-null     Int64  
 7   inpatient  55 non-null     Int64  
 8   edu        55 non-null     object 
 9   edu_num    55 non-null     int64  
 10  marriage   55 non-null     Int64  
 11  work       55 non-null     Int64  
 12  madrs1     55 non-null     float64
 13  madrs2     55 non-null     float64
 14  condition  55 non-null     int64  
 15  mean       55 non-null     float64
 16  min        55 non-null     int64  
 17  max        55 non-null     int64  
 18  sum        55 non-null     int6

In [None]:
# organizar columnas, se hace una prueba antes de aplicarla al df que estamos utilizando

def reorganizar(df_name, columna, posicion):
  cols = list(df_name.columns)                                         # hacemos una lista con todas los identificadores columna del df
  cols.insert(posicion, cols.pop(cols.index(columna)))                 # inserta en la posicion que indicamos la columna que se saca con pop del df
  return df_name[cols]                                                 # retorna df reorganizado

In [None]:
df = reorganizar(df, 'condition', 1)
display(df)

Unnamed: 0,number,condition,days,gender,age,edad_num,afftype,melanch,inpatient,edu,edu_num,marriage,work,madrs1,madrs2,mean,min,max,sum
0,condition_1,1,11,2,35-39,4,2,2,2,6-10,1,1,2,19.0,19.0,146.94803,0,3526,3415660
1,condition_2,1,18,2,40-44,5,1,2,2,6-10,1,2,2,24.0,11.0,153.664748,0,4228,5981554
2,condition_3,1,13,1,45-49,6,2,2,2,6-10,1,2,2,24.0,25.0,265.299704,3,3847,5743208
3,condition_4,1,13,2,25-29,2,2,2,2,11-15,2,1,1,20.0,16.0,274.866998,0,6776,5925033
4,condition_5,1,13,2,50-54,7,2,2,2,11-15,2,2,2,26.0,26.0,167.245987,0,4609,3594618
5,condition_6,1,7,1,35-39,4,2,2,2,6-10,1,1,2,18.0,15.0,196.416414,0,4129,4209793
6,condition_7,1,11,1,20-24,1,1,0,2,11-15,2,2,1,24.0,25.0,261.805502,0,4778,5805537
7,condition_8,1,5,2,25-29,2,2,0,2,11-15,2,1,2,20.0,16.0,184.934453,0,5437,3569050
8,condition_9,1,13,2,45-49,6,1,0,2,6-10,1,1,2,26.0,26.0,178.773304,0,2821,3632316
9,condition_10,1,9,2,45-49,6,2,2,2,6-10,1,1,2,28.0,21.0,289.647228,0,4935,6243346


In [None]:
df = reorganizar(df, 'sum', 15)
display(df)

Unnamed: 0,number,condition,days,gender,age,edad_num,afftype,melanch,inpatient,edu,edu_num,marriage,work,madrs1,madrs2,sum,mean,min,max
0,condition_1,1,11,2,35-39,4,2,2,2,6-10,1,1,2,19.0,19.0,3415660,146.94803,0,3526
1,condition_2,1,18,2,40-44,5,1,2,2,6-10,1,2,2,24.0,11.0,5981554,153.664748,0,4228
2,condition_3,1,13,1,45-49,6,2,2,2,6-10,1,2,2,24.0,25.0,5743208,265.299704,3,3847
3,condition_4,1,13,2,25-29,2,2,2,2,11-15,2,1,1,20.0,16.0,5925033,274.866998,0,6776
4,condition_5,1,13,2,50-54,7,2,2,2,11-15,2,2,2,26.0,26.0,3594618,167.245987,0,4609
5,condition_6,1,7,1,35-39,4,2,2,2,6-10,1,1,2,18.0,15.0,4209793,196.416414,0,4129
6,condition_7,1,11,1,20-24,1,1,0,2,11-15,2,2,1,24.0,25.0,5805537,261.805502,0,4778
7,condition_8,1,5,2,25-29,2,2,0,2,11-15,2,1,2,20.0,16.0,3569050,184.934453,0,5437
8,condition_9,1,13,2,45-49,6,1,0,2,6-10,1,1,2,26.0,26.0,3632316,178.773304,0,2821
9,condition_10,1,9,2,45-49,6,2,2,2,6-10,1,1,2,28.0,21.0,6243346,289.647228,0,4935


In [None]:
# Renombramos columnas para ser más entendibles además de traducir al inglés
column_name_mapping = {
    'number': 'indiv',
    'condition': 'condicion',
    'days': 'dias',
    'gender': 'genero',
    'age': 'edad',
    'afftype': 'tipo_diagnostico',
    'inpatient': 'hospitalizacion',
    'edu': 'educacion',
    'marriage': 'edo_civil',
    'sum': 'sum_act',
    'mean': 'prom_act',
    'min': 'min_act',
    'max': 'max_act'
}

df.rename(columns=column_name_mapping, inplace=True)
display(df)

Unnamed: 0,indiv,condicion,dias,genero,edad,edad_num,tipo_diagnostico,melanch,hospitalizacion,educacion,edu_num,edo_civil,work,madrs1,madrs2,sum_act,prom_act,min_act,max_act
0,condition_1,1,11,2,35-39,4,2,2,2,6-10,1,1,2,19.0,19.0,3415660,146.94803,0,3526
1,condition_2,1,18,2,40-44,5,1,2,2,6-10,1,2,2,24.0,11.0,5981554,153.664748,0,4228
2,condition_3,1,13,1,45-49,6,2,2,2,6-10,1,2,2,24.0,25.0,5743208,265.299704,3,3847
3,condition_4,1,13,2,25-29,2,2,2,2,11-15,2,1,1,20.0,16.0,5925033,274.866998,0,6776
4,condition_5,1,13,2,50-54,7,2,2,2,11-15,2,2,2,26.0,26.0,3594618,167.245987,0,4609
5,condition_6,1,7,1,35-39,4,2,2,2,6-10,1,1,2,18.0,15.0,4209793,196.416414,0,4129
6,condition_7,1,11,1,20-24,1,1,0,2,11-15,2,2,1,24.0,25.0,5805537,261.805502,0,4778
7,condition_8,1,5,2,25-29,2,2,0,2,11-15,2,1,2,20.0,16.0,3569050,184.934453,0,5437
8,condition_9,1,13,2,45-49,6,1,0,2,6-10,1,1,2,26.0,26.0,3632316,178.773304,0,2821
9,condition_10,1,9,2,45-49,6,2,2,2,6-10,1,1,2,28.0,21.0,6243346,289.647228,0,4935


In [None]:
# Checamos valores duplicados
df.duplicated().sum()

0

In [None]:
df = df.drop_duplicates()
df.duplicated().sum()

0

In [None]:
summary_data(df)

- - - - - - - - -  Información comprimida - - - - - - - - - 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55 entries, 0 to 54
Data columns (total 19 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   indiv             55 non-null     object 
 1   condicion         55 non-null     int64  
 2   dias              55 non-null     int64  
 3   genero            55 non-null     int64  
 4   edad              55 non-null     object 
 5   edad_num          55 non-null     int64  
 6   tipo_diagnostico  55 non-null     Int64  
 7   melanch           55 non-null     Int64  
 8   hospitalizacion   55 non-null     Int64  
 9   educacion         55 non-null     object 
 10  edu_num           55 non-null     int64  
 11  edo_civil         55 non-null     Int64  
 12  work              55 non-null     Int64  
 13  madrs1            55 non-null     float64
 14  madrs2            55 non-null     float64
 15  sum_act           55 non-null   

# Calcular metricas y rangos de datos

In [None]:
display(df)

Unnamed: 0,indiv,condicion,dias,genero,edad,edad_num,tipo_diagnostico,melanch,hospitalizacion,educacion,edu_num,edo_civil,work,madrs1,madrs2,sum_act,prom_act,min_act,max_act
0,condition_1,1,11,2,35-39,4,2,2,2,6-10,1,1,2,19.0,19.0,3415660,146.94803,0,3526
1,condition_2,1,18,2,40-44,5,1,2,2,6-10,1,2,2,24.0,11.0,5981554,153.664748,0,4228
2,condition_3,1,13,1,45-49,6,2,2,2,6-10,1,2,2,24.0,25.0,5743208,265.299704,3,3847
3,condition_4,1,13,2,25-29,2,2,2,2,11-15,2,1,1,20.0,16.0,5925033,274.866998,0,6776
4,condition_5,1,13,2,50-54,7,2,2,2,11-15,2,2,2,26.0,26.0,3594618,167.245987,0,4609
5,condition_6,1,7,1,35-39,4,2,2,2,6-10,1,1,2,18.0,15.0,4209793,196.416414,0,4129
6,condition_7,1,11,1,20-24,1,1,0,2,11-15,2,2,1,24.0,25.0,5805537,261.805502,0,4778
7,condition_8,1,5,2,25-29,2,2,0,2,11-15,2,1,2,20.0,16.0,3569050,184.934453,0,5437
8,condition_9,1,13,2,45-49,6,1,0,2,6-10,1,1,2,26.0,26.0,3632316,178.773304,0,2821
9,condition_10,1,9,2,45-49,6,2,2,2,6-10,1,1,2,28.0,21.0,6243346,289.647228,0,4935


In [None]:
# madrs (escala de severidad de depresión) se obtuvo en la etapa inicial y final de la investigación, por tanto se puede obtener el progreso que tuvo
df['res_madrs'] = df['madrs2'] - df['madrs1']
df.insert(15, 'res_madrs', df.pop('res_madrs'))
display(df)

Unnamed: 0,indiv,condicion,dias,genero,edad,edad_num,tipo_diagnostico,melanch,hospitalizacion,educacion,edu_num,edo_civil,work,madrs1,madrs2,res_madrs,sum_act,prom_act,min_act,max_act
0,condition_1,1,11,2,35-39,4,2,2,2,6-10,1,1,2,19.0,19.0,0.0,3415660,146.94803,0,3526
1,condition_2,1,18,2,40-44,5,1,2,2,6-10,1,2,2,24.0,11.0,-13.0,5981554,153.664748,0,4228
2,condition_3,1,13,1,45-49,6,2,2,2,6-10,1,2,2,24.0,25.0,1.0,5743208,265.299704,3,3847
3,condition_4,1,13,2,25-29,2,2,2,2,11-15,2,1,1,20.0,16.0,-4.0,5925033,274.866998,0,6776
4,condition_5,1,13,2,50-54,7,2,2,2,11-15,2,2,2,26.0,26.0,0.0,3594618,167.245987,0,4609
5,condition_6,1,7,1,35-39,4,2,2,2,6-10,1,1,2,18.0,15.0,-3.0,4209793,196.416414,0,4129
6,condition_7,1,11,1,20-24,1,1,0,2,11-15,2,2,1,24.0,25.0,1.0,5805537,261.805502,0,4778
7,condition_8,1,5,2,25-29,2,2,0,2,11-15,2,1,2,20.0,16.0,-4.0,3569050,184.934453,0,5437
8,condition_9,1,13,2,45-49,6,1,0,2,6-10,1,1,2,26.0,26.0,0.0,3632316,178.773304,0,2821
9,condition_10,1,9,2,45-49,6,2,2,2,6-10,1,1,2,28.0,21.0,-7.0,6243346,289.647228,0,4935


In [None]:
df.describe()

Unnamed: 0,condicion,dias,genero,edad_num,tipo_diagnostico,melanch,hospitalizacion,edu_num,edo_civil,work,madrs1,madrs2,res_madrs,sum_act,prom_act,min_act,max_act
count,55.0,55.0,55.0,55.0,55.0,55.0,55.0,55.0,55.0,55.0,55.0,55.0,55.0,55.0,55.0,55.0,55.0
mean,0.418182,12.6,1.454545,4.672727,0.727273,0.709091,0.745455,0.618182,0.636364,0.781818,9.509091,8.363636,-1.145455,5131341.0,189.862636,0.054545,4834.345455
std,0.497807,2.491467,0.502519,2.449902,0.932034,0.955931,0.927326,0.871162,0.824703,0.956283,11.726628,10.403638,2.876586,2119601.0,80.547674,0.40452,1700.860776
min,0.0,5.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-13.0,1413779.0,54.697992,0.0,1355.0
25%,0.0,13.0,1.0,3.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-1.5,3546065.0,142.301726,0.0,3574.0
50%,0.0,13.0,1.0,5.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5109508.0,172.288577,0.0,4609.0
75%,1.0,13.0,2.0,6.5,2.0,2.0,2.0,1.0,1.0,2.0,22.0,18.5,0.0,6276906.0,243.378252,0.0,6024.0
max,1.0,20.0,2.0,10.0,3.0,2.0,2.0,3.0,2.0,2.0,29.0,28.0,4.0,12554060.0,398.883456,3.0,8000.0


*   ¿Cuál es la prevalencia de la depresión en los diferentes grupos de edad?
*   ¿Existen diferencias significativas en la tasa de depresión entre hombres y mujeres?
*   ¿Los tratamientos utilizados actualmente son eficaces o no para prevenirlo?
*   ¿Qué tan correlacionada esta la variable sueño con el grado de depresión que padece el paciente?
*   ¿Qué tan confiable podríamos considerar la actigrafía como un instrumento para poder diagnosticar de forma temprana los síntomas de la depresión?
---

In [None]:
# calculamos el promedio de actividad de cada individuo
mean_act = df['prom_act'].mean()
print(f'Promedio de actividad entre personas con y sin depresión: {mean_act}')

Promedio de actividad entre personas con y sin depresión: 189.8626357874935


In [None]:
# Filtrar número de personas con actividad menor al promedio
df[df['prom_act']< mean_act]

Unnamed: 0,indiv,condicion,dias,genero,edad,edad_num,tipo_diagnostico,melanch,hospitalizacion,educacion,edu_num,edo_civil,work,madrs1,madrs2,res_madrs,sum_act,prom_act,min_act,max_act
0,condition_1,1,11,2,35-39,4,2,2,2,6-10,1,1,2,19.0,19.0,0.0,3415660,146.94803,0,3526
1,condition_2,1,18,2,40-44,5,1,2,2,6-10,1,2,2,24.0,11.0,-13.0,5981554,153.664748,0,4228
4,condition_5,1,13,2,50-54,7,2,2,2,11-15,2,2,2,26.0,26.0,0.0,3594618,167.245987,0,4609
7,condition_8,1,5,2,25-29,2,2,0,2,11-15,2,1,2,20.0,16.0,-4.0,3569050,184.934453,0,5437
8,condition_9,1,13,2,45-49,6,1,0,2,6-10,1,1,2,26.0,26.0,0.0,3632316,178.773304,0,2821
10,condition_11,1,14,1,45-49,6,2,2,2,6-10,1,1,2,24.0,24.0,0.0,2974516,129.383036,0,3506
11,condition_12,1,12,2,40-44,5,1,2,2,6-10,1,2,2,25.0,21.0,-4.0,3354049,151.444846,0,3622
13,condition_14,1,14,1,60-64,9,1,2,2,6-10,1,2,2,28.0,19.0,-9.0,1624530,75.049894,0,2929
14,condition_15,1,13,2,55-59,8,2,2,2,11-15,2,1,1,14.0,18.0,4.0,2391019,109.53406,0,6825
15,condition_16,1,16,1,45-49,6,2,2,2,11-15,2,1,2,13.0,17.0,4.0,6128175,146.442397,0,6964


In [None]:
# Filtrar número de personas con actividad mayor+ al promedio
df[df['prom_act']> mean_act]

Unnamed: 0,indiv,condicion,dias,genero,edad,edad_num,tipo_diagnostico,melanch,hospitalizacion,educacion,edu_num,edo_civil,work,madrs1,madrs2,res_madrs,sum_act,prom_act,min_act,max_act
2,condition_3,1,13,1,45-49,6,2,2,2,6-10,1,2,2,24.0,25.0,1.0,5743208,265.299704,3,3847
3,condition_4,1,13,2,25-29,2,2,2,2,11-15,2,1,1,20.0,16.0,-4.0,5925033,274.866998,0,6776
5,condition_6,1,7,1,35-39,4,2,2,2,6-10,1,1,2,18.0,15.0,-3.0,4209793,196.416414,0,4129
6,condition_7,1,11,1,20-24,1,1,0,2,11-15,2,2,1,24.0,25.0,1.0,5805537,261.805502,0,4778
9,condition_10,1,9,2,45-49,6,2,2,2,6-10,1,1,2,28.0,21.0,-7.0,6243346,289.647228,0,4935
12,condition_13,1,14,2,35-39,4,1,2,2,11-15,2,2,2,18.0,13.0,-5.0,5735146,221.348746,0,4859
22,condition_23,1,16,1,30-34,3,2,2,1,16-20,3,2,2,29.0,23.0,-6.0,6379462,202.619088,0,5931
24,control_2,0,20,1,30-34,3,0,0,0,0,0,0,0,0.0,0.0,0.0,12554059,398.883456,0,4927
30,control_8,0,13,2,40-44,5,0,0,0,0,0,0,0,0.0,0.0,0.0,8400335,290.488104,0,6321
32,control_10,0,8,1,30-34,3,0,0,0,0,0,0,0,0.0,0.0,0.0,6072259,280.409097,0,4245


In [None]:
# número de personas con actividad menor al promedio
print(f"Cantidad con actividad menor al promedio: {len(df[df['prom_act'] < mean_act])}")

# número de personas con actividad menor al promedio
print(f"Cantidad con actividad mayor al promedio: {len(df[df['prom_act'] > mean_act])}")

# cuantos tienen el diagnostico y cuantos no MENOR AL PROMEDIO
filtro1 = (df['prom_act'] < mean_act) & (df['condicion'] == 0)
cant_sin = df[filtro1].shape[0]
print(f"Menor al promedio sin depresión: {cant_sin}")

filtro2 = (df['prom_act'] < mean_act) & (df['condicion'] == 1)
cant_con = df[filtro2].shape[0]
print(f"Menor al promedio con depresión: {cant_con}")


# cuantos tienen el diagnostico y cuantos no MAYOR AL PROMEDIO
filtro3 = (df['prom_act'] > mean_act) & (df['condicion'] == 0)
cant_sin2 = df[filtro3].shape[0]
print(f"Mayor al promedio sin depresión: {cant_sin2}")

filtro4 = (df['prom_act'] > mean_act) & (df['condicion'] == 1)
cant_con2 = df[filtro4].shape[0]
print(f"Mayor al promedio con depresión: {cant_con2}")


Cantidad con actividad menor al promedio: 32
Cantidad con actividad mayor al promedio: 23
Menor al promedio sin depresión: 16
Menor al promedio con depresión: 16
Mayor al promedio sin depresión: 16
Mayor al promedio con depresión: 7


In [None]:
# Calcular la media por edad_num para cada columna
mean_madrs1 = df.groupby('edad_num')['madrs1'].mean()
mean_madrs2 = df.groupby('edad_num')['madrs2'].mean()
mean_res = df.groupby('edad_num')['res_madrs'].mean()

# combinamos para tenerlo en uno solo
res = pd.concat([mean_madrs1, mean_madrs2, mean_res], axis=1)
# renombre
res.columns = ['prom_madrs1', 'prom_madrs2', 'prom_res']

display(res)

Unnamed: 0_level_0,prom_madrs1,prom_madrs2,prom_res
edad_num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,4.0,4.166667,0.166667
2,5.714286,4.571429,-1.142857
3,8.0,6.857143,-1.142857
4,11.571429,9.714286,-1.857143
5,13.4,9.4,-4.0
6,12.777778,12.555556,-0.222222
7,7.666667,6.888889,-0.777778
8,14.0,18.0,4.0
9,14.0,9.5,-4.5
10,14.5,14.0,-0.5


In [None]:
# users.groupby(['gender', 'age_range'])['occupation'].value_counts()
df.groupby(['genero', 'edad_num', 'hospitalizacion'])['res_madrs'].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,res_madrs
genero,edad_num,hospitalizacion,Unnamed: 3_level_1
1,1,0,3
1,1,2,1
1,2,0,3
1,3,0,3
1,3,1,2
1,4,0,2
1,4,2,1
1,6,0,3
1,6,2,3
1,7,0,4


In [None]:
display(df)

Unnamed: 0,indiv,condicion,dias,genero,edad,edad_num,tipo_diagnostico,melanch,hospitalizacion,educacion,edu_num,edo_civil,work,madrs1,madrs2,res_madrs,sum_act,prom_act,min_act,max_act
0,condition_1,1,11,2,35-39,4,2,2,2,6-10,1,1,2,19.0,19.0,0.0,3415660,146.94803,0,3526
1,condition_2,1,18,2,40-44,5,1,2,2,6-10,1,2,2,24.0,11.0,-13.0,5981554,153.664748,0,4228
2,condition_3,1,13,1,45-49,6,2,2,2,6-10,1,2,2,24.0,25.0,1.0,5743208,265.299704,3,3847
3,condition_4,1,13,2,25-29,2,2,2,2,11-15,2,1,1,20.0,16.0,-4.0,5925033,274.866998,0,6776
4,condition_5,1,13,2,50-54,7,2,2,2,11-15,2,2,2,26.0,26.0,0.0,3594618,167.245987,0,4609
5,condition_6,1,7,1,35-39,4,2,2,2,6-10,1,1,2,18.0,15.0,-3.0,4209793,196.416414,0,4129
6,condition_7,1,11,1,20-24,1,1,0,2,11-15,2,2,1,24.0,25.0,1.0,5805537,261.805502,0,4778
7,condition_8,1,5,2,25-29,2,2,0,2,11-15,2,1,2,20.0,16.0,-4.0,3569050,184.934453,0,5437
8,condition_9,1,13,2,45-49,6,1,0,2,6-10,1,1,2,26.0,26.0,0.0,3632316,178.773304,0,2821
9,condition_10,1,9,2,45-49,6,2,2,2,6-10,1,1,2,28.0,21.0,-7.0,6243346,289.647228,0,4935


In [None]:
summary_data(df)

- - - - - - - - -  Información comprimida - - - - - - - - - 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55 entries, 0 to 54
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   indiv             55 non-null     object 
 1   condicion         55 non-null     int64  
 2   dias              55 non-null     int64  
 3   genero            55 non-null     int64  
 4   edad              55 non-null     object 
 5   edad_num          55 non-null     int64  
 6   tipo_diagnostico  55 non-null     Int64  
 7   melanch           55 non-null     Int64  
 8   hospitalizacion   55 non-null     Int64  
 9   educacion         55 non-null     object 
 10  edu_num           55 non-null     int64  
 11  edo_civil         55 non-null     Int64  
 12  work              55 non-null     Int64  
 13  madrs1            55 non-null     float64
 14  madrs2            55 non-null     float64
 15  res_madrs         55 non-null   

In [None]:
try:
  df['estres'] = df['sum_act'] / df['dias']
  df.insert(20, 'estres', df.pop('estres'))
  display(df)
except ZeroDivisionError as e:
  print(f"Error, no se puede dividir entre cero: {e}")
except Exception as e:
   print(f"Error procesando fila: {e}")

Unnamed: 0,indiv,condicion,dias,genero,edad,edad_num,tipo_diagnostico,melanch,hospitalizacion,educacion,...,edo_civil,work,madrs1,madrs2,res_madrs,sum_act,prom_act,min_act,max_act,estres
0,condition_1,1,11,2,35-39,4,2,2,2,6-10,...,1,2,19.0,19.0,0.0,3415660,146.94803,0,3526,310514.545455
1,condition_2,1,18,2,40-44,5,1,2,2,6-10,...,2,2,24.0,11.0,-13.0,5981554,153.664748,0,4228,332308.555556
2,condition_3,1,13,1,45-49,6,2,2,2,6-10,...,2,2,24.0,25.0,1.0,5743208,265.299704,3,3847,441785.230769
3,condition_4,1,13,2,25-29,2,2,2,2,11-15,...,1,1,20.0,16.0,-4.0,5925033,274.866998,0,6776,455771.769231
4,condition_5,1,13,2,50-54,7,2,2,2,11-15,...,2,2,26.0,26.0,0.0,3594618,167.245987,0,4609,276509.076923
5,condition_6,1,7,1,35-39,4,2,2,2,6-10,...,1,2,18.0,15.0,-3.0,4209793,196.416414,0,4129,601399.0
6,condition_7,1,11,1,20-24,1,1,0,2,11-15,...,2,1,24.0,25.0,1.0,5805537,261.805502,0,4778,527776.090909
7,condition_8,1,5,2,25-29,2,2,0,2,11-15,...,1,2,20.0,16.0,-4.0,3569050,184.934453,0,5437,713810.0
8,condition_9,1,13,2,45-49,6,1,0,2,6-10,...,1,2,26.0,26.0,0.0,3632316,178.773304,0,2821,279408.923077
9,condition_10,1,9,2,45-49,6,2,2,2,6-10,...,1,2,28.0,21.0,-7.0,6243346,289.647228,0,4935,693705.111111


In [None]:
# redondeamos los valores flotantes
dict_redondo = {
    'prom_act': 2,
    'estres': 2
}

for col, decimal in dict_redondo.items():
  if col in df.columns:
     df[col] = df[col].round(decimal)

display(df)

Unnamed: 0,indiv,condicion,dias,genero,edad,edad_num,tipo_diagnostico,melanch,hospitalizacion,educacion,...,edo_civil,work,madrs1,madrs2,res_madrs,sum_act,prom_act,min_act,max_act,estres
0,condition_1,1,11,2,35-39,4,2,2,2,6-10,...,1,2,19.0,19.0,0.0,3415660,146.95,0,3526,310514.55
1,condition_2,1,18,2,40-44,5,1,2,2,6-10,...,2,2,24.0,11.0,-13.0,5981554,153.66,0,4228,332308.56
2,condition_3,1,13,1,45-49,6,2,2,2,6-10,...,2,2,24.0,25.0,1.0,5743208,265.3,3,3847,441785.23
3,condition_4,1,13,2,25-29,2,2,2,2,11-15,...,1,1,20.0,16.0,-4.0,5925033,274.87,0,6776,455771.77
4,condition_5,1,13,2,50-54,7,2,2,2,11-15,...,2,2,26.0,26.0,0.0,3594618,167.25,0,4609,276509.08
5,condition_6,1,7,1,35-39,4,2,2,2,6-10,...,1,2,18.0,15.0,-3.0,4209793,196.42,0,4129,601399.0
6,condition_7,1,11,1,20-24,1,1,0,2,11-15,...,2,1,24.0,25.0,1.0,5805537,261.81,0,4778,527776.09
7,condition_8,1,5,2,25-29,2,2,0,2,11-15,...,1,2,20.0,16.0,-4.0,3569050,184.93,0,5437,713810.0
8,condition_9,1,13,2,45-49,6,1,0,2,6-10,...,1,2,26.0,26.0,0.0,3632316,178.77,0,2821,279408.92
9,condition_10,1,9,2,45-49,6,2,2,2,6-10,...,1,2,28.0,21.0,-7.0,6243346,289.65,0,4935,693705.11


In [None]:
df.sort_values(by=['res_madrs', 'educacion'], ascending=[True, True])

Unnamed: 0,indiv,condicion,dias,genero,edad,edad_num,tipo_diagnostico,melanch,hospitalizacion,educacion,...,madrs1,madrs2,res_madrs,sum_act,prom_act,min_act,max_act,estres,nvl_depresion,variabilidad_act
1,condition_2,1,18,2,40-44,5,1,2,2,6-10,...,24.0,11.0,-13.0,5981554,153.66,0,4228,332308.56,Leve,4228
13,condition_14,1,14,1,60-64,9,1,2,2,6-10,...,28.0,19.0,-9.0,1624530,75.05,0,2929,116037.86,Leve,2929
9,condition_10,1,9,2,45-49,6,2,2,2,6-10,...,28.0,21.0,-7.0,6243346,289.65,0,4935,693705.11,Moderada,4935
22,condition_23,1,16,1,30-34,3,2,2,1,16-20,...,29.0,23.0,-6.0,6379462,202.62,0,5931,398716.38,Moderada,5931
12,condition_13,1,14,2,35-39,4,1,2,2,11-15,...,18.0,13.0,-5.0,5735146,221.35,0,4859,409653.29,Leve,4859
18,condition_19,1,13,2,50-54,7,2,2,1,16-20,...,26.0,21.0,-5.0,3338367,157.24,0,8000,256797.46,Moderada,8000
20,condition_21,1,13,2,35-39,4,2,2,1,6-10,...,26.0,21.0,-5.0,1628308,79.48,0,3869,125254.46,Moderada,3869
3,condition_4,1,13,2,25-29,2,2,2,2,11-15,...,20.0,16.0,-4.0,5925033,274.87,0,6776,455771.77,Leve,6776
7,condition_8,1,5,2,25-29,2,2,0,2,11-15,...,20.0,16.0,-4.0,3569050,184.93,0,5437,713810.0,Leve,5437
11,condition_12,1,12,2,40-44,5,1,2,2,6-10,...,25.0,21.0,-4.0,3354049,151.44,0,3622,279504.08,Moderada,3622


In [None]:
# calculamos dos indicadores para verificar la eficacia a través de la investigación,
eficacia = df.groupby(['genero','hospitalizacion'])['res_madrs'].agg(
    pos = lambda x:(x>0).sum(),
    neg = lambda x:(x<0).sum(),
    ntr = lambda x:(x==0).sum()
)

display(eficacia)

Unnamed: 0_level_0,Unnamed: 1_level_0,pos,neg,ntr
genero,hospitalizacion,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,0,0,0,20
1,1,0,3,0
1,2,3,3,1
2,0,0,0,12
2,1,0,2,0
2,2,1,7,3


In [None]:
# Clasificando los grados de depresión (categórico) en base a investigación

def classify_madrs(madrs_final):
    if 0 <= madrs_final <= 6:
        return 'Sin sintomas'
    elif 7 <= madrs_final <= 19:
        return 'Leve'
    elif 20 <=  madrs_final <= 30:
        return 'Moderada'
    elif 31 <=  madrs_final <= 39:
      return 'Severa'
    else:
      return 'Extremo severo'

# Aplicar la función
df['nvl_depresion'] = df['madrs2'].map(classify_madrs)
display(df)

Unnamed: 0,indiv,condicion,dias,genero,edad,edad_num,tipo_diagnostico,melanch,hospitalizacion,educacion,...,work,madrs1,madrs2,res_madrs,sum_act,prom_act,min_act,max_act,estres,nvl_depresion
0,condition_1,1,11,2,35-39,4,2,2,2,6-10,...,2,19.0,19.0,0.0,3415660,146.95,0,3526,310514.55,Leve
1,condition_2,1,18,2,40-44,5,1,2,2,6-10,...,2,24.0,11.0,-13.0,5981554,153.66,0,4228,332308.56,Leve
2,condition_3,1,13,1,45-49,6,2,2,2,6-10,...,2,24.0,25.0,1.0,5743208,265.3,3,3847,441785.23,Moderada
3,condition_4,1,13,2,25-29,2,2,2,2,11-15,...,1,20.0,16.0,-4.0,5925033,274.87,0,6776,455771.77,Leve
4,condition_5,1,13,2,50-54,7,2,2,2,11-15,...,2,26.0,26.0,0.0,3594618,167.25,0,4609,276509.08,Moderada
5,condition_6,1,7,1,35-39,4,2,2,2,6-10,...,2,18.0,15.0,-3.0,4209793,196.42,0,4129,601399.0,Leve
6,condition_7,1,11,1,20-24,1,1,0,2,11-15,...,1,24.0,25.0,1.0,5805537,261.81,0,4778,527776.09,Moderada
7,condition_8,1,5,2,25-29,2,2,0,2,11-15,...,2,20.0,16.0,-4.0,3569050,184.93,0,5437,713810.0,Leve
8,condition_9,1,13,2,45-49,6,1,0,2,6-10,...,2,26.0,26.0,0.0,3632316,178.77,0,2821,279408.92,Moderada
9,condition_10,1,9,2,45-49,6,2,2,2,6-10,...,2,28.0,21.0,-7.0,6243346,289.65,0,4935,693705.11,Moderada


In [None]:
# analizando los dos grupos separadamente

df_condicion = df[df['condicion'] == 1]

# df_control = df[df.number.str.contains('control')].copy()
display(df_condicion)

Unnamed: 0,indiv,condicion,dias,genero,edad,edad_num,tipo_diagnostico,melanch,hospitalizacion,educacion,...,work,madrs1,madrs2,res_madrs,sum_act,prom_act,min_act,max_act,estres,nvl_depresion
0,condition_1,1,11,2,35-39,4,2,2,2,6-10,...,2,19.0,19.0,0.0,3415660,146.95,0,3526,310514.55,Leve
1,condition_2,1,18,2,40-44,5,1,2,2,6-10,...,2,24.0,11.0,-13.0,5981554,153.66,0,4228,332308.56,Leve
2,condition_3,1,13,1,45-49,6,2,2,2,6-10,...,2,24.0,25.0,1.0,5743208,265.3,3,3847,441785.23,Moderada
3,condition_4,1,13,2,25-29,2,2,2,2,11-15,...,1,20.0,16.0,-4.0,5925033,274.87,0,6776,455771.77,Leve
4,condition_5,1,13,2,50-54,7,2,2,2,11-15,...,2,26.0,26.0,0.0,3594618,167.25,0,4609,276509.08,Moderada
5,condition_6,1,7,1,35-39,4,2,2,2,6-10,...,2,18.0,15.0,-3.0,4209793,196.42,0,4129,601399.0,Leve
6,condition_7,1,11,1,20-24,1,1,0,2,11-15,...,1,24.0,25.0,1.0,5805537,261.81,0,4778,527776.09,Moderada
7,condition_8,1,5,2,25-29,2,2,0,2,11-15,...,2,20.0,16.0,-4.0,3569050,184.93,0,5437,713810.0,Leve
8,condition_9,1,13,2,45-49,6,1,0,2,6-10,...,2,26.0,26.0,0.0,3632316,178.77,0,2821,279408.92,Moderada
9,condition_10,1,9,2,45-49,6,2,2,2,6-10,...,2,28.0,21.0,-7.0,6243346,289.65,0,4935,693705.11,Moderada


In [None]:
display(df)

Unnamed: 0,indiv,condicion,dias,genero,edad,edad_num,tipo_diagnostico,melanch,hospitalizacion,educacion,...,madrs1,madrs2,res_madrs,sum_act,prom_act,min_act,max_act,estres,nvl_depresion,variabilidad_act
0,condition_1,1,11,2,35-39,4,2,2,2,6-10,...,19.0,19.0,0.0,3415660,146.95,0,3526,310514.55,Leve,3526
1,condition_2,1,18,2,40-44,5,1,2,2,6-10,...,24.0,11.0,-13.0,5981554,153.66,0,4228,332308.56,Leve,4228
2,condition_3,1,13,1,45-49,6,2,2,2,6-10,...,24.0,25.0,1.0,5743208,265.3,3,3847,441785.23,Moderada,3844
3,condition_4,1,13,2,25-29,2,2,2,2,11-15,...,20.0,16.0,-4.0,5925033,274.87,0,6776,455771.77,Leve,6776
4,condition_5,1,13,2,50-54,7,2,2,2,11-15,...,26.0,26.0,0.0,3594618,167.25,0,4609,276509.08,Moderada,4609
5,condition_6,1,7,1,35-39,4,2,2,2,6-10,...,18.0,15.0,-3.0,4209793,196.42,0,4129,601399.0,Leve,4129
6,condition_7,1,11,1,20-24,1,1,0,2,11-15,...,24.0,25.0,1.0,5805537,261.81,0,4778,527776.09,Moderada,4778
7,condition_8,1,5,2,25-29,2,2,0,2,11-15,...,20.0,16.0,-4.0,3569050,184.93,0,5437,713810.0,Leve,5437
8,condition_9,1,13,2,45-49,6,1,0,2,6-10,...,26.0,26.0,0.0,3632316,178.77,0,2821,279408.92,Moderada,2821
9,condition_10,1,9,2,45-49,6,2,2,2,6-10,...,28.0,21.0,-7.0,6243346,289.65,0,4935,693705.11,Moderada,4935


In [None]:
nvl_1 = df_condicion.groupby(['genero', 'edad_num', 'nvl_depresion']).size()

display(nvl_1)

# Encontrar el nivel de depresión con más personas
nivel_max = df_condicion['nvl_depresion'].value_counts().idxmax()
cantidad_max = df_condicion['nvl_depresion'].value_counts().max()

print(f"El nivel de depresión con más personas en pacientes con condición 1 es: {nivel_max} con {cantidad_max} personas.")

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,0
genero,edad_num,nvl_depresion,Unnamed: 3_level_1
1,1,Moderada,1
1,3,Moderada,2
1,4,Leve,1
1,6,Leve,1
1,6,Moderada,2
1,7,Leve,1
1,9,Leve,1
1,10,Moderada,1
2,2,Leve,2
2,4,Leve,2


El nivel de depresión con más personas en pacientes con condición 1 es: Moderada con 12 personas.


In [None]:
nvl_genero = df_condicion.groupby(['genero', 'nvl_depresion']).size()

print(f"Mujeres con depresión: \n{nvl_genero.loc[1]}")            # hace conteo de Mujeres
print(f"Hombres con depresión: \n{nvl_genero.loc[2] }")           # hace conteo de Hombres

porcentaje_hombres = (nvl_genero.loc[2].sum() / (nvl_genero.loc[1].sum() + nvl_genero.loc[2].sum())) *100
print(f"El porcentaje de personas hombres en depresión: {porcentaje_hombres:.2f}%.")

Mujeres con depresión: 
nvl_depresion
Leve        4
Moderada    6
dtype: int64
Hombres con depresión: 
nvl_depresion
Leve        7
Moderada    6
dtype: int64
El porcentaje de personas hombres en depresión: 56.52%.


In [None]:
# Agrupamos para saber si hay relación entre trabajar/estudiar y el nivel de depresión
res_T = df_condicion.groupby(['work', 'nvl_depresion']).size()
display(res_T)

Unnamed: 0_level_0,Unnamed: 1_level_0,0
work,nvl_depresion,Unnamed: 2_level_1
1,Leve,2
1,Moderada,1
2,Leve,9
2,Moderada,11


In [None]:
df_WvsLvl = df[(df['condicion'] == 1) & (df['nvl_depresion'] == 'Moderada')]
# Contar cuántas personas tienen un valor de 2 dentro del grupo con depresión moderada
conteo_work = df_WvsLvl[df_WvsLvl['work'] == 2].shape[0]

# Contar el total de personas con depresión moderada
total_moderada = df_WvsLvl.shape[0]
# Calcular el porcentaje
porcentaje_work = (conteo_work/total_moderada) *100

print(f"El porcentaje de personas sin empleo/pensionadas/incapacidad es: {porcentaje_work:.2f}%.")

El porcentaje de personas sin empleo/pensionadas/incapacidad es: 91.67%.


In [None]:
nvl = df.groupby(['genero', 'edad_num', 'nvl_depresion']).size()

display(nvl)

tcantidad_max = df['nvl_depresion'].value_counts().max()

print(f"El nivel de depresión con más personas es: {nivel_max} con {cantidad_max}")

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,0
genero,edad_num,nvl_depresion,Unnamed: 3_level_1
1,1,Moderada,1
1,1,Sin sintomas,3
1,2,Sin sintomas,3
1,3,Moderada,2
1,3,Sin sintomas,3
1,4,Leve,1
1,4,Sin sintomas,2
1,6,Leve,1
1,6,Moderada,2
1,6,Sin sintomas,3


El nivel de depresión con más personas es: Moderada con 12


In [None]:
df.sort_values(by=['madrs2'], ascending=[False])

Unnamed: 0,indiv,condicion,dias,genero,edad,edad_num,tipo_diagnostico,melanch,hospitalizacion,educacion,...,madrs1,madrs2,res_madrs,sum_act,prom_act,min_act,max_act,estres,nvl_depresion,variabilidad_act
21,condition_22,1,14,1,65-69,10,2,2,1,0,...,29.0,28.0,-1.0,3521753,161.76,0,3222,251553.79,Moderada,3222
4,condition_5,1,13,2,50-54,7,2,2,2,11-15,...,26.0,26.0,0.0,3594618,167.25,0,4609,276509.08,Moderada,4609
8,condition_9,1,13,2,45-49,6,1,0,2,6-10,...,26.0,26.0,0.0,3632316,178.77,0,2821,279408.92,Moderada,2821
19,condition_20,1,13,1,30-34,3,2,1,1,6-10,...,27.0,25.0,-2.0,1413779,54.7,0,2150,108752.23,Moderada,2150
2,condition_3,1,13,1,45-49,6,2,2,2,6-10,...,24.0,25.0,1.0,5743208,265.3,3,3847,441785.23,Moderada,3844
6,condition_7,1,11,1,20-24,1,1,0,2,11-15,...,24.0,25.0,1.0,5805537,261.81,0,4778,527776.09,Moderada,4778
10,condition_11,1,14,1,45-49,6,2,2,2,6-10,...,24.0,24.0,0.0,2974516,129.38,0,3506,212465.43,Moderada,3506
22,condition_23,1,16,1,30-34,3,2,2,1,16-20,...,29.0,23.0,-6.0,6379462,202.62,0,5931,398716.38,Moderada,5931
20,condition_21,1,13,2,35-39,4,2,2,1,6-10,...,26.0,21.0,-5.0,1628308,79.48,0,3869,125254.46,Moderada,3869
9,condition_10,1,9,2,45-49,6,2,2,2,6-10,...,28.0,21.0,-7.0,6243346,289.65,0,4935,693705.11,Moderada,4935


In [None]:
# Para nivel leve
nvl_leve = df[df['nvl_depresion'] == 'Leve']
edad_leve = nvl_leve['edad_num'].value_counts().idxmax()
cantidad_leve = nvl_leve['edad_num'].value_counts().max()

print(f"La edad en la que más personas sufren de depresión leve es: {edad_leve} con {cantidad_leve} personas.")

# Para nivel moderada
nivel_moderada = df[df['nvl_depresion'] == 'Moderada']
edad_moderada = nivel_moderada['edad_num'].value_counts().idxmax()
cantidad_moderada = nivel_moderada['edad_num'].value_counts().max()

print(f"La edad en la que más personas sufren de depresión moderada es: {edad_moderada} con {cantidad_moderada} personas.")

La edad en la que más personas sufren de depresión leve es: 4 con 3 personas.
La edad en la que más personas sufren de depresión moderada es: 6 con 4 personas.


In [None]:
# relacionamos la variabilidad de la actividad con los extremos con el nivel de depresión
df['variabilidad_act'] = df['max_act'] - df['min_act']
corr_var_depresion = df[['variabilidad_act', 'madrs2']].corr()
display(corr_var_depresion)

Unnamed: 0,variabilidad_act,madrs2
variabilidad_act,1.0,-0.232769
madrs2,-0.232769,1.0


In [None]:
# relacionamos la actividad por día con el nivel de depresión

correlacion_estres = df[['estres', 'madrs2']].corr()
display(correlacion_estres)

Unnamed: 0,estres,madrs2
estres,1.0,-0.449008
madrs2,-0.449008,1.0


In [None]:
summary_data(df)

- - - - - - - - -  Información comprimida - - - - - - - - - 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55 entries, 0 to 54
Data columns (total 23 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   indiv             55 non-null     object 
 1   condicion         55 non-null     int64  
 2   dias              55 non-null     int64  
 3   genero            55 non-null     int64  
 4   edad              55 non-null     object 
 5   edad_num          55 non-null     int64  
 6   tipo_diagnostico  55 non-null     Int64  
 7   melanch           55 non-null     Int64  
 8   hospitalizacion   55 non-null     Int64  
 9   educacion         55 non-null     object 
 10  edu_num           55 non-null     int64  
 11  edo_civil         55 non-null     Int64  
 12  work              55 non-null     Int64  
 13  madrs1            55 non-null     float64
 14  madrs2            55 non-null     float64
 15  res_madrs         55 non-null   

In [None]:
# Guardamos el archivo final
try:
   df.to_csv('datos_limpiados.csv', index=False)
except PermissionError:
  print("Error: No tienes permiso para escribir en este archivo.")