In [16]:
import pandas as pd
import numpy as np

In [17]:
df1 = pd.read_csv('healthcareTest.csv')
df2 = pd.read_csv('healthcareTrain.csv')
healthcare = pd.concat([df1, df2], ignore_index=True)

In [18]:
healthcare.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1722 entries, 0 to 1721
Data columns (total 96 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   patIndex                    1722 non-null   int64  
 1   pdc                         1722 non-null   float64
 2   num_ip_post                 1722 non-null   int64  
 3   total_los_post              1722 non-null   int64  
 4   num_op_post                 1722 non-null   int64  
 5   num_er_post                 1722 non-null   int64  
 6   num_ndc_post                1722 non-null   int64  
 7   num_gpi6_post               1722 non-null   int64  
 8   adjust_total_30d_post       1722 non-null   float64
 9   generic_rate_post           1722 non-null   float64
 10  post_ip_flag                1722 non-null   int64  
 11  post_er_flag                1722 non-null   int64  
 12  pdc_cat                     1722 non-null   int64  
 13  post_ip_cost                1722 

# Descripción de las columnas del dataset de Healthcare

Este dataset contiene información a nivel de paciente sobre demografía, condiciones comórbidas, utilización de servicios de salud, costos y métricas de adherencia. Está estructurado para comparar comportamientos y gastos de salud antes y después de un evento índice.

| Columna                        | Descripción breve                                                                 |
|--------------------------------|----------------------------------------------------------------------------------|
| patIndex                       | Índice único del paciente                                                        |
| pdc                            | Proporción de días cubiertos (adherencia medicamentosa)                          |
| num_ip_post                    | Número de hospitalizaciones post índice                                           |
| total_los_post                 | Días totales de estancia hospitalaria post índice                                |
| num_op_post                    | Número de visitas ambulatorias post índice                                       |
| num_er_post                    | Número de visitas a urgencias post índice                                        |
| num_ndc_post                   | Número de medicamentos (NDC) post índice                                         |
| num_gpi6_post                  | Número de medicamentos (GPI6) post índice                                        |
| adjust_total_30d_post          | Costo total ajustado a 30 días post índice                                       |
| generic_rate_post              | Proporción de medicamentos genéricos post índice                                 |
| post_ip_flag                   | Indicador de hospitalización post índice                                         |
| post_er_flag                   | Indicador de visita a urgencias post índice                                      |
| pdc_cat                        | Categoría de adherencia (según porcentaje de PDC)                                |
| post_ip_cost                   | Costo de hospitalización post índice                                             |
| post_er_cost                   | Costo de urgencias post índice                                                   |
| post_rx_cost                   | Costo de medicamentos post índice                                                |
| post_op_cost                   | Costo de atención ambulatoria post índice                                        |
| post_total_cost                | Costo total post índice                                                          |
| post_medical_cost              | Costo médico post índice (excluye farmacia)                                      |
| idx_copay                      | Copago en el índice (gasto de bolsillo del paciente)                             |
| age_grpN                       | Grupo de edad (numérico)                                                         |
| sexN                           | Sexo (numérico)                                                                  |
| regionN                        | Región (numérico, basado en regiones US Census)                                  |
| idx_prodtypeN                  | Tipo de plan de salud en el índice (HMO, PPO, etc.)                              |
| idx_paytypN                    | Tipo de pagador principal (Comercial, Medicaid, Medicare, etc.)                  |
| age_cat                        | Categoría de edad                                                                |
| log_idx_copay                  | Logaritmo del copago en el índice                                                |
| ALCOHOL_DRUG                   | Indicador de abuso de alcohol/drogas                                             |
| ASTHMA                         | Indicador de asma                                                                |
| CARDIAC_ARRYTHMIA              | Indicador de arritmia cardíaca                                                   |
| CARDIAC_VALVULAR               | Indicador de enfermedad valvular cardíaca                                        |
| CEREBROVASCULAR                | Indicador de enfermedad cerebrovascular                                          |
| CHRONIC_KIDNEY                 | Indicador de enfermedad renal crónica                                            |
| CHRONIC_PAIN_FIBRO             | Indicador de dolor crónico/fibromialgia                                          |
| CHF                            | Indicador de insuficiencia cardíaca congestiva                                   |
| COPD                           | Indicador de EPOC                                                                |
| DEMENTIA                       | Indicador de demencia                                                            |
| DEPRESSION                     | Indicador de depresión                                                           |
| DIABETES                       | Indicador de diabetes                                                            |
| DYSLIPIDEMIA                   | Indicador de dislipidemia                                                        |
| EPILEPSY_SEIZURE               | Indicador de epilepsia/convulsiones                                              |
| HEPATITIS                      | Indicador de hepatitis                                                           |
| HIV_AIDS                       | Indicador de VIH/SIDA                                                            |
| HYPERTENSION                   | Indicador de hipertensión                                                        |
| LIVER_GALLBLADDER_PANCREAS     | Indicador de enfermedad hepática/biliar/páncreas                                 |
| MI_CAD                         | Indicador de infarto/enfermedad coronaria                                        |
| OSTEOARTHRITIS                 | Indicador de osteoartritis                                                       |
| PARALYSIS                      | Indicador de parálisis                                                           |
| PEPTIC_ULCER                   | Indicador de úlcera péptica                                                      |
| PERIPHERAL_VASCULAR            | Indicador de enfermedad vascular periférica                                      |
| RENAL_FAILURE                  | Indicador de insuficiencia renal                                                 |
| RHEUMATOLOGIC                  | Indicador de enfermedad reumatológica                                            |
| SCHIZOPHRENIA                  | Indicador de esquizofrenia                                                       |
| SLEEP_DISORDERS                | Indicador de trastornos del sueño                                                |
| SMOKING                        | Indicador de tabaquismo                                                          |
| THYROID                        | Indicador de enfermedad tiroidea                                                 |
| Solid_Tumor                    | Indicador de tumor sólido                                                        |
| Metastatic                     | Indicador de cáncer metastásico                                                  |
| Leukemia_Lymphoma              | Indicador de leucemia/linfoma                                                    |
| Other_Cancer                   | Indicador de otros tipos de cáncer                                               |
| Cancer_In_Situ                 | Indicador de cáncer in situ                                                      |
| pre_CCI                        | Índice de comorbilidad de Charlson previo (gravedad por comorbilidades)          |
| pre_ip_cost                    | Costo de hospitalización previo                                                  |
| pre_er_cost                    | Costo de urgencias previo                                                        |
| pre_rx_cost                    | Costo de medicamentos previo                                                     |
| pre_op_cost                    | Costo de atención ambulatoria previo                                             |
| pre_total_cost                 | Costo total previo                                                               |
| pre_medical_cost               | Costo médico previo (excluye farmacia)                                           |
| num_ip                         | Número de hospitalizaciones previas                                              |
| total_los                      | Días totales de estancia hospitalaria previa                                     |
| num_op                         | Número de visitas ambulatorias previas                                           |
| num_er                         | Número de visitas a urgencias previas                                            |
| num_ndc                        | Número de medicamentos (NDC) previos                                             |
| num_gpi6                       | Número de medicamentos (GPI6) previos                                            |
| adjust_total_30d               | Costo total ajustado a 30 días previo                                            |
| generic_rate                   | Proporción de medicamentos genéricos previo                                      |
| pre_ip_flag                    | Indicador de hospitalización previa                                              |
| pre_er_flag                    | Indicador de visita a urgencias previa                                           |
| log_pre_ip_cost                | Logaritmo del costo de hospitalización previo                                    |
| log_pre_er_cost                | Logaritmo del costo de urgencias previo                                          |
| log_pre_op_cost                | Logaritmo del costo de atención ambulatoria previa                               |
| log_pre_rx_cost                | Logaritmo del costo de medicamentos previo                                       |
| pre_total_cat                  | Categoría de costo total previo                                                  |
| numofgen                       | Número de medicamentos genéricos previos                                         |
| numofbrand                     | Número de medicamentos de marca previos                                          |
| generic_cost                   | Costo de medicamentos genéricos previo                                           |
| brand_cost                     | Costo de medicamentos de marca previo                                            |
| ratio_G_total_cost             | Proporción de costo genérico sobre total previo                                  |
| numofgen_post                  | Número de medicamentos genéricos post índice                                     |
| numofbrand_post                | Número de medicamentos de marca post índice                                      |
| generic_cost_post              | Costo de medicamentos genéricos post índice                                      |
| brand_cost_post                | Costo de medicamentos de marca post índice                                       |
| ratio_G_total_cost_post        | Proporción de costo genérico sobre total post índice                             |
| pdc_80_flag                    | Indicador de adherencia ≥80%                                                     |
| drug_class                     | Clase terapéutica del medicamento                                                |
| patient_key                    | Identificador único del paciente                                                 |

**Notas:**
- Las variables con sufijo `_post` se refieren al periodo posterior al evento índice; las de sufijo `_pre` o sin sufijo, al periodo previo.
- Los indicadores de comorbilidad son binarios (1 = presente, 0 = ausente).
- Las variables de costos están en dólares estadounidenses.

In [19]:
# Lista de columnas de enfermedades (ajusta según tu dataset)
cols_enfermedades = [
    'ALCOHOL_DRUG', 'ASTHMA', 'CARDIAC_ARRYTHMIA', 'CARDIAC_VALVULAR', 'CEREBROVASCULAR',
    'CHRONIC_KIDNEY', 'CHRONIC_PAIN_FIBRO', 'CHF', 'COPD', 'DEMENTIA', 'DEPRESSION',
    'DIABETES', 'DYSLIPIDEMIA', 'EPILEPSY_SEIZURE', 'HEPATITIS', 'HIV_AIDS', 'HYPERTENSION',
    'LIVER_GALLBLADDER_PANCREAS', 'MI_CAD', 'OSTEOARTHRITIS', 'PARALYSIS', 'PEPTIC_ULCER',
    'PERIPHERAL_VASCULAR', 'RENAL_FAILURE', 'RHEUMATOLOGIC', 'SCHIZOPHRENIA', 'SLEEP_DISORDERS',
    'SMOKING', 'THYROID', 'Solid_Tumor', 'Metastatic', 'Leukemia_Lymphoma', 'Other_Cancer', 'Cancer_In_Situ'
]

In [20]:
# Ejemplo: enfermedades más frecuentes por grupo de edad y género
agrupado = healthcare.groupby(['age_grpN', 'sexN'])[cols_enfermedades].sum()

In [21]:
agrupado.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,ALCOHOL_DRUG,ASTHMA,CARDIAC_ARRYTHMIA,CARDIAC_VALVULAR,CEREBROVASCULAR,CHRONIC_KIDNEY,CHRONIC_PAIN_FIBRO,CHF,COPD,DEMENTIA,...,RHEUMATOLOGIC,SCHIZOPHRENIA,SLEEP_DISORDERS,SMOKING,THYROID,Solid_Tumor,Metastatic,Leukemia_Lymphoma,Other_Cancer,Cancer_In_Situ
age_grpN,sexN,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
2,1,1,4,3,2,2,0,5,2,2,0,...,2,1,19,10,3,0,0,0,2,0
2,2,3,10,4,1,0,1,12,2,1,0,...,6,0,13,14,29,4,0,0,6,0
3,1,11,11,26,13,9,14,20,6,11,0,...,11,0,70,39,31,19,2,2,21,0
3,2,3,15,11,10,8,6,27,6,6,2,...,15,0,49,20,57,19,2,2,20,3
4,1,1,2,6,5,10,5,4,4,1,0,...,1,0,13,6,5,3,0,0,5,0
4,2,0,5,7,2,3,1,4,3,0,2,...,4,0,5,3,10,3,0,0,1,1
