# 1. Importación de Librerías

In [57]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configuración de visualización
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

# 2. Carga de Datos

In [58]:
import pandas as pd

data_path = '../data/raw/Dataset_ExamenesLaboratorio_ConsultaExterna_PatologíasRelacionadas_Diabetes_202405_202411.csv'

print("Cargando datos...")
df = pd.read_csv(data_path, encoding='latin-1', sep=';')
print(f"Dataset cargado: {df.shape[0]} filas, {df.shape[1]} columnas")
print(f"Total de registros: {df.shape[0]:,}")

df.head()


Cargando datos...
Dataset cargado: 91303 filas, 28 columnas
Total de registros: 91,303


Unnamed: 0,FECHA_CORTE,DEPARTAMENTO,PROVINCIA,DISTRITO,UBIGEO,RED,IPRESS,ID_PACIENTE,EDAD_PACIENTE,SEXO_PACIENTE,...,FEC_RESULTADO_1,DIFERIMIENTO_1,PROCEDIMIENTO_1,RESULTADO_1,UNIDADES_1,FEC_RESULTADO_2,PROCEDIMIENTO_2,RESULTADO_2,UNIDADES_2,DIFERIMIENTO_2
0,20241204,LIMA,LIMA,SAN LUIS,150134,RED ASISTENCIAL ALMENARA,POL. SAN LUIS,eJwzNDIwNDQ1tjC3NDUyNjQ1NQMAHqIDcQ==,51,FEMENINO,...,20240503,74,"DOSAJE DE GLUCOSA EN SANGRE, CUANTITATIVO (EXC...",101.66,mg/dL,20240503,DOSAJE DE COLESTEROL TOTAL EN SANGRE COMPLETA ...,166.16,mg/dL,74
1,20241204,LIMA,LIMA,MIRAFLORES,150122,RED ASISTENCIAL REBAGLIATI,H.III SUAREZ-ANGAMOS,eJwzNLQwsTAyMLUwNDawMDeyNAMAHwsDeg==,59,MASCULINO,...,20240503,72,DOSAJE DE COLESTEROL TOTAL EN SANGRE COMPLETA ...,131.0,mg/dL,20240503,"DOSAJE DE GLUCOSA EN SANGRE, CUANTITATIVO (EXC...",126.0,mg/dL,72
2,20241204,LA LIBERTAD,TRUJILLO,TRUJILLO,130101,RED ASISTENCIAL LA LIBERTAD,CAP III METROPOLITANO TRUJILLO,eJwzNLawsDQxsjAzMDWzNDMxMAAAH8MDgA==,81,FEMENINO,...,20240521,89,"DOSAJE DE GLUCOSA EN SANGRE, CUANTITATIVO (EXC...",138.0,mg/dL,20240521,DOSAJE DE COLESTEROL TOTAL EN SANGRE COMPLETA ...,216.0,mg/dL,89
3,20241204,LIMA,LIMA,SAN LUIS,150134,RED ASISTENCIAL ALMENARA,POL. SAN LUIS,eJwzNDQ2MzE1sDA3tbQwMDI1MAAAHxADcQ==,72,FEMENINO,...,20240504,72,"DOSAJE DE GLUCOSA EN SANGRE, CUANTITATIVO (EXC...",120.0,mg/dL,20240504,DOSAJE DE COLESTEROL TOTAL EN SANGRE COMPLETA ...,201.86,mg/dL,72
4,20241204,AREQUIPA,ISLAY,MOLLENDO,40701,RED ASISTENCIAL AREQUIPA,H.II MANUEL DE TORRES MUÃOZ,eJwzNDc0NDUxszA0tzQ1NbcwMAQAH04DfQ==,69,FEMENINO,...,20240524,78,"DOSAJE DE GLUCOSA EN SANGRE, CUANTITATIVO (EXC...",119.0,mg/dL,20240524,DOSAJE DE COLESTEROL TOTAL EN SANGRE COMPLETA ...,240.0,mg/dL,78


# 3. Exploración Inicial

In [59]:
# Información general del dataset
print("Información general del dataset:")
print("="*50)
df.info()

print("\n\nColumnas disponibles:")
for i, col in enumerate(df.columns, 1):
    print(f"{i:2d}. {col}")

# Ver tipos de datos
print("\n\nTipos de datos:")
print(df.dtypes)

# Estadísticas para variables numéricas
print("\n\nEstadísticas descriptivas:")
df.describe()

Información general del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 91303 entries, 0 to 91302
Data columns (total 28 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   FECHA_CORTE             91303 non-null  int64  
 1   DEPARTAMENTO            91303 non-null  object 
 2   PROVINCIA               91303 non-null  object 
 3   DISTRITO                91303 non-null  object 
 4   UBIGEO                  91303 non-null  int64  
 5   RED                     91303 non-null  object 
 6   IPRESS                  91303 non-null  object 
 7   ID_PACIENTE             91303 non-null  object 
 8   EDAD_PACIENTE           91303 non-null  int64  
 9   SEXO_PACIENTE           91303 non-null  object 
 10  EDAD_MEDICO             91303 non-null  int64  
 11  ID_MEDICO               91303 non-null  object 
 12  COD_DIAG                91303 non-null  object 
 13  DIAGNOSTICO             91303 non-null  object 
 14  AREA_

Unnamed: 0,FECHA_CORTE,UBIGEO,EDAD_PACIENTE,EDAD_MEDICO,FECHA_MUESTRA,FEC_RESULTADO_1,DIFERIMIENTO_1,RESULTADO_1,FEC_RESULTADO_2,RESULTADO_2,DIFERIMIENTO_2
count,91303.0,91303.0,91303.0,91303.0,91303.0,91303.0,91303.0,91303.0,91303.0,91303.0,91303.0
mean,20241204.0,129894.583212,62.84075,45.010394,20240860.0,20240870.0,0.64781,171.409565,20240870.0,172.257419,0.638851
std,0.0,54614.033412,13.294026,11.628434,189.4134,188.7255,3.018988,65.555779,188.7282,65.441276,3.001605
min,20241204.0,10101.0,0.0,23.0,20240220.0,20240500.0,0.0,0.25,20240500.0,-65.0,0.0
25%,20241204.0,110101.0,55.0,36.0,20240720.0,20240720.0,0.0,121.35,20240720.0,123.0,0.0
50%,20241204.0,150101.0,64.0,43.0,20240910.0,20240910.0,0.0,164.0,20240910.0,166.0,0.0
75%,20241204.0,150134.0,72.0,54.0,20241020.0,20241020.0,0.0,210.2,20241020.0,210.095,0.0
max,20241204.0,240101.0,102.0,80.0,20241130.0,20241130.0,89.0,725.0,20241130.0,936.0,89.0


4. Análisis de Variables Clave

In [60]:
# Analizar distribución de diagnósticos
print("Top 10 diagnósticos más frecuentes:")
print(df['DIAGNOSTICO'].value_counts().head(10))

print("\n\nCódigos de diagnóstico únicos:")
print(f"Total de códigos únicos: {df['COD_DIAG'].nunique()}")

# Ver específicamente diagnósticos de diabetes
diabetes_diag = df[df['DIAGNOSTICO'].str.contains('DIABETES', case=False, na=False)]
print(f"\n\nPacientes con 'DIABETES' en el diagnóstico: {len(diabetes_diag):,}")
print("\nTipos de diabetes encontrados:")
print(diabetes_diag['DIAGNOSTICO'].value_counts())

Top 10 diagnósticos más frecuentes:
DIAGNOSTICO
DIABETES MELLITUS TIPO 2, SIN MENCION DE COMPLICACION                       63323
DIABETES MELLITUS TIPO 2, CON COMPLICACIONES MULTIPLES                       7599
DIABETES MELLITUS TIPO 2, CON COMPLICACIONES NO ESPECIFICADAS                4243
OTROS TRASTORNOS ESPECIFICADOS DE LA SECRECION INTERNA DEL PANCREAS          2762
DIABETES MELLITUS, NO ESPECIFICADA, SIN MENCION DE COMPLICACION              2324
DIABETES MELLITUS ESPECIFICADA, SIN MENCION DE COMPLICACION                  2101
DIABETES MELLITUS TIPO 2, CON COMPLICACIONES NEUROLOGICAS                    1604
TRASTORNOS DE LA SECRECION INTERNA DEL PANCREAS, SIN OTRA ESPECIFICACION     1548
DIABETES MELLITUS TIPO 2, CON OTRAS COMPLICACIONES ESPECIFICADAS             1154
DIABETES MELLITUS TIPO 2, CON COMPLICACIONES RENALES                          851
Name: count, dtype: int64


Códigos de diagnóstico únicos:
Total de códigos únicos: 54


Pacientes con 'DIABETES' en el diagnóstico:

5. Filtrado de Pacientes Diabéticos

In [62]:
# Identificar códigos CIE-10 relacionados con diabetes
# E10: Diabetes mellitus tipo 1
# E11: Diabetes mellitus tipo 2
# E12: Diabetes mellitus asociada con desnutrición
# E13: Otras diabetes mellitus especificadas
# E14: Diabetes mellitus no especificada

diabetes_codes = ['E10', 'E11', 'E12', 'E13', 'E14']

# Crear función para identificar diabetes
def es_diabetes(codigo):
    if pd.isna(codigo):
        return False
    codigo_str = str(codigo).upper().strip()
    return any(codigo_str.startswith(dc) for dc in diabetes_codes)

# Filtrar pacientes diabéticos
df['ES_DIABETES'] = df['COD_DIAG'].apply(es_diabetes)
df_diabetes = df[df['ES_DIABETES']].copy()

print(f"Pacientes con diabetes: {df_diabetes.shape[0]:,} ({df_diabetes.shape[0]/df.shape[0]*100:.2f}%)")
print(f"\nDistribución por código de diagnóstico:")
print(df_diabetes['COD_DIAG'].value_counts().head(10))

# Ver distribución específica de tipos de diabetes
print("\n\nDistribución detallada de diagnósticos de diabetes:")
print(df_diabetes['DIAGNOSTICO'].value_counts().head(15))

Pacientes con diabetes: 86,936 (95.22%)

Distribución por código de diagnóstico:
COD_DIAG
E11.9    63323
E11.7     7599
E11.8     4243
E14.9     2324
E13.9     2101
E11.4     1604
E11.6     1154
E11.2      851
E13.2      600
E10.9      577
Name: count, dtype: int64


Distribución detallada de diagnósticos de diabetes:
DIAGNOSTICO
DIABETES MELLITUS TIPO 2, SIN MENCION DE COMPLICACION                        63323
DIABETES MELLITUS TIPO 2, CON COMPLICACIONES MULTIPLES                        7599
DIABETES MELLITUS TIPO 2, CON COMPLICACIONES NO ESPECIFICADAS                 4243
DIABETES MELLITUS, NO ESPECIFICADA, SIN MENCION DE COMPLICACION               2324
DIABETES MELLITUS ESPECIFICADA, SIN MENCION DE COMPLICACION                   2101
DIABETES MELLITUS TIPO 2, CON COMPLICACIONES NEUROLOGICAS                     1604
DIABETES MELLITUS TIPO 2, CON OTRAS COMPLICACIONES ESPECIFICADAS              1154
DIABETES MELLITUS TIPO 2, CON COMPLICACIONES RENALES                           851
DIAB

6. Análisis de Procedimientos de Laboratorio

In [63]:
# Analizar procedimientos
print("Procedimientos de laboratorio más frecuentes:")
print("\nPROCEDIMIENTO_1:")
print(df_diabetes['PROCEDIMIENTO_1'].value_counts().head(10))
print("\nPROCEDIMIENTO_2:")
print(df_diabetes['PROCEDIMIENTO_2'].value_counts().head(10))

# Identificar glucosa y colesterol
glucosa_keywords = ['GLUCOSA', 'GLICEMIA', 'AZUCAR']
colesterol_keywords = ['COLESTEROL', 'LIPIDO', 'LDL', 'HDL', 'TRIGLICERIDO']

# Contar procedimientos relacionados
glucosa_proc1 = df_diabetes['PROCEDIMIENTO_1'].str.contains('|'.join(glucosa_keywords), case=False, na=False).sum()
glucosa_proc2 = df_diabetes['PROCEDIMIENTO_2'].str.contains('|'.join(glucosa_keywords), case=False, na=False).sum()
colesterol_proc1 = df_diabetes['PROCEDIMIENTO_1'].str.contains('|'.join(colesterol_keywords), case=False, na=False).sum()
colesterol_proc2 = df_diabetes['PROCEDIMIENTO_2'].str.contains('|'.join(colesterol_keywords), case=False, na=False).sum()

print(f"\n\nExámenes de glucosa en PROCEDIMIENTO_1: {glucosa_proc1:,}")
print(f"Exámenes de glucosa en PROCEDIMIENTO_2: {glucosa_proc2:,}")
print(f"Exámenes de colesterol en PROCEDIMIENTO_1: {colesterol_proc1:,}")
print(f"Exámenes de colesterol en PROCEDIMIENTO_2: {colesterol_proc2:,}")

Procedimientos de laboratorio más frecuentes:

PROCEDIMIENTO_1:
PROCEDIMIENTO_1
DOSAJE DE GLUCOSA EN SANGRE, CUANTITATIVO (EXCEPTO CINTA REACTIVA)    44723
DOSAJE DE COLESTEROL TOTAL EN SANGRE COMPLETA O SUERO                 42213
Name: count, dtype: int64

PROCEDIMIENTO_2:
PROCEDIMIENTO_2
DOSAJE DE COLESTEROL TOTAL EN SANGRE COMPLETA O SUERO                 44723
DOSAJE DE GLUCOSA EN SANGRE, CUANTITATIVO (EXCEPTO CINTA REACTIVA)    42213
Name: count, dtype: int64


Exámenes de glucosa en PROCEDIMIENTO_1: 44,723
Exámenes de glucosa en PROCEDIMIENTO_2: 42,213
Exámenes de colesterol en PROCEDIMIENTO_1: 42,213
Exámenes de colesterol en PROCEDIMIENTO_2: 44,723


7. Creación de Variables de Glucosa y Colesterol

In [64]:
# Función para extraer valor de glucosa
def extraer_glucosa(proc1, proc2, res1, res2):
    # Verificar en procedimiento 1
    if pd.notna(proc1) and any(keyword in str(proc1).upper() for keyword in glucosa_keywords):
        try:
            return float(res1)
        except:
            return np.nan
    # Verificar en procedimiento 2
    elif pd.notna(proc2) and any(keyword in str(proc2).upper() for keyword in glucosa_keywords):
        try:
            return float(res2)
        except:
            return np.nan
    return np.nan

# Función para extraer valor de colesterol
def extraer_colesterol(proc1, proc2, res1, res2):
    # Verificar en procedimiento 1
    if pd.notna(proc1) and any(keyword in str(proc1).upper() for keyword in colesterol_keywords):
        try:
            return float(res1)
        except:
            return np.nan
    # Verificar en procedimiento 2
    elif pd.notna(proc2) and any(keyword in str(proc2).upper() for keyword in colesterol_keywords):
        try:
            return float(res2)
        except:
            return np.nan
    return np.nan

# Aplicar extracción
df_diabetes['GLUCOSA_VALOR'] = df_diabetes.apply(
    lambda x: extraer_glucosa(x['PROCEDIMIENTO_1'], x['PROCEDIMIENTO_2'], 
                            x['RESULTADO_1'], x['RESULTADO_2']), axis=1)

df_diabetes['COLESTEROL_VALOR'] = df_diabetes.apply(
    lambda x: extraer_colesterol(x['PROCEDIMIENTO_1'], x['PROCEDIMIENTO_2'], 
                                x['RESULTADO_1'], x['RESULTADO_2']), axis=1)

print(f"Registros con valor de glucosa: {df_diabetes['GLUCOSA_VALOR'].notna().sum():,}")
print(f"Registros con valor de colesterol: {df_diabetes['COLESTEROL_VALOR'].notna().sum():,}")

# Ver estadísticas
print("\n\nEstadísticas de glucosa:")
print(df_diabetes['GLUCOSA_VALOR'].describe())
print("\n\nEstadísticas de colesterol:")
print(df_diabetes['COLESTEROL_VALOR'].describe())

Registros con valor de glucosa: 86,936
Registros con valor de colesterol: 86,936


Estadísticas de glucosa:
count    86936.000000
mean       154.782456
std         72.349332
min          0.000000
25%        107.000000
50%        132.000000
75%        181.000000
max        936.000000
Name: GLUCOSA_VALOR, dtype: float64


Estadísticas de colesterol:
count    86936.000000
mean       191.804202
std         51.683521
min        -65.000000
25%        159.817500
50%        190.000000
75%        222.000000
max        862.000000
Name: COLESTEROL_VALOR, dtype: float64


8. Discretización de Variables

In [65]:
# Función para discretizar edad
def discretizar_edad(edad):
    if pd.isna(edad):
        return 'Desconocido'
    try:
        edad_num = int(edad)
        if edad_num < 30:
            return 'Joven'
        elif edad_num < 50:
            return 'Adulto'
        elif edad_num < 65:
            return 'Adulto_Mayor'
        else:
            return 'Anciano'
    except:
        return 'Desconocido'

# Función para discretizar glucosa (mg/dL)
def discretizar_glucosa(valor):
    if pd.isna(valor):
        return 'Desconocido'
    try:
        val = float(valor)
        if val < 70:
            return 'Hipoglucemia'
        elif val <= 99:
            return 'Normal'
        elif val <= 125:
            return 'Prediabetes'
        else:
            return 'Diabetes_Descontrolada'
    except:
        return 'Desconocido'

# Función para discretizar colesterol (mg/dL)
def discretizar_colesterol(valor):
    if pd.isna(valor):
        return 'Desconocido'
    try:
        val = float(valor)
        if val < 200:
            return 'Deseable'
        elif val <= 239:
            return 'Limite_Alto'
        else:
            return 'Alto'
    except:
        return 'Desconocido'

# Aplicar discretizaciones
df_diabetes['Edad_cat'] = df_diabetes['EDAD_PACIENTE'].apply(discretizar_edad)
df_diabetes['Glucosa_cat'] = df_diabetes['GLUCOSA_VALOR'].apply(discretizar_glucosa)
df_diabetes['Colesterol_cat'] = df_diabetes['COLESTEROL_VALOR'].apply(discretizar_colesterol)

# Ver distribuciones
print("Distribución de categorías de edad:")
print(df_diabetes['Edad_cat'].value_counts())
print("\n\nDistribución de categorías de glucosa:")
print(df_diabetes['Glucosa_cat'].value_counts())
print("\n\nDistribución de categorías de colesterol:")
print(df_diabetes['Colesterol_cat'].value_counts())

Distribución de categorías de edad:
Edad_cat
Anciano         44434
Adulto_Mayor    31435
Adulto          10367
Joven             700
Name: count, dtype: int64


Distribución de categorías de glucosa:
Glucosa_cat
Diabetes_Descontrolada    48652
Prediabetes               24151
Normal                    12529
Hipoglucemia               1604
Name: count, dtype: int64


Distribución de categorías de colesterol:
Colesterol_cat
Deseable       50443
Limite_Alto    22690
Alto           13803
Name: count, dtype: int64


9. Procesamiento de Variables Temporales y Geográficas

In [66]:
# Extraer mes de la muestra
def extraer_mes(fecha):
    if pd.isna(fecha):
        return 'Desconocido'
    try:
        # Convertir a string y extraer año-mes
        fecha_str = str(int(fecha))
        if len(fecha_str) == 8:  # Formato YYYYMMDD
            return fecha_str[:6]  # YYYYMM
        else:
            return 'Desconocido'
    except:
        return 'Desconocido'

df_diabetes['Mes_Muestra'] = df_diabetes['FECHA_MUESTRA'].apply(extraer_mes)
print("Distribución por mes de muestra:")
print(df_diabetes['Mes_Muestra'].value_counts().sort_index())

# Simplificar nombre de sexo
df_diabetes['Sexo'] = df_diabetes['SEXO_PACIENTE'].map({
    'MASCULINO': 'M',
    'FEMENINO': 'F'
}).fillna('Desconocido')

# Copiar departamento
df_diabetes['Departamento'] = df_diabetes['DEPARTAMENTO']

# Copiar servicio hospitalario
df_diabetes['Servicio_Hospitalario'] = df_diabetes['SERVICIO_HOSPITALARIO']

Distribución por mes de muestra:
Mes_Muestra
202402        4
202403       14
202404      399
202405     7783
202406     7190
202407    11669
202408    13193
202409    15713
202410    16576
202411    14395
Name: count, dtype: int64


10. Mapeo de Tipo de Diabetes

In [67]:
# Función para mapear tipo de diabetes basado en código CIE-10
def tipo_diabetes(codigo):
    if pd.isna(codigo):
        return 'No_Especificada'
    codigo_str = str(codigo).upper().strip()
    
    if codigo_str.startswith('E10'):
        return 'Tipo_1'
    elif codigo_str.startswith('E11'):
        return 'Tipo_2'
    elif codigo_str.startswith('E12'):
        return 'Asociada_Desnutricion'
    elif codigo_str.startswith('E13'):
        return 'Otras_Especificadas'
    elif codigo_str.startswith('E14'):
        return 'No_Especificada'
    else:
        return 'No_Diabetes'

df_diabetes['Tipo_DM'] = df_diabetes['COD_DIAG'].apply(tipo_diabetes)
print("Distribución por tipo de diabetes:")
print(df_diabetes['Tipo_DM'].value_counts())

Distribución por tipo de diabetes:
Tipo_DM
Tipo_2                   79207
Otras_Especificadas       3900
No_Especificada           2582
Tipo_1                     855
Asociada_Desnutricion      392
Name: count, dtype: int64


11. Creación de Variable de Subgrupo Histológico

In [68]:
# Analizar el diagnóstico para crear subgrupos
def subgrupo_histologico(diagnostico):
    if pd.isna(diagnostico):
        return 'Sin_Especificar'
    
    diag_upper = str(diagnostico).upper()
    
    # Buscar complicaciones específicas en el diagnóstico
    if 'SIN MENCION DE COMPLICACION' in diag_upper or 'SIN COMPLICACION' in diag_upper:
        return 'Sin_Complicacion'
    elif 'RETINOPATIA' in diag_upper or 'OCULAR' in diag_upper or 'OFTALMICO' in diag_upper:
        return 'Complicacion_Ocular'
    elif 'NEFROPATIA' in diag_upper or 'RENAL' in diag_upper:
        return 'Complicacion_Renal'
    elif 'NEUROPATIA' in diag_upper or 'NEUROLOGICA' in diag_upper:
        return 'Complicacion_Neurologica'
    elif 'CETOACIDOSIS' in diag_upper:
        return 'Cetoacidosis'
    elif 'DESCOMPENSADA' in diag_upper or 'DESCONTROLADA' in diag_upper:
        return 'Descompensada'
    elif 'COMPLICACION' in diag_upper:
        return 'Otras_Complicaciones'
    else:
        return 'Sin_Especificar'

df_diabetes['Subgrupo_Histo'] = df_diabetes['DIAGNOSTICO'].apply(subgrupo_histologico)
print("Distribución de subgrupos histológicos:")
print(df_diabetes['Subgrupo_Histo'].value_counts())

Distribución de subgrupos histológicos:
Subgrupo_Histo
Sin_Complicacion            68377
Otras_Complicaciones        15176
Complicacion_Neurologica     1846
Complicacion_Renal           1485
Cetoacidosis                   29
Sin_Especificar                23
Name: count, dtype: int64


12. Creación de Variable Objetivo: Complicación

In [69]:
# Variable binaria de complicación basada en el subgrupo histológico
def tiene_complicacion(subgrupo):
    complicaciones = ['Complicacion_Ocular', 'Complicacion_Renal', 
                    'Complicacion_Neurologica', 'Cetoacidosis', 
                    'Descompensada', 'Otras_Complicaciones']
    return 1 if subgrupo in complicaciones else 0

df_diabetes['Complicacion'] = df_diabetes['Subgrupo_Histo'].apply(tiene_complicacion)

print("Distribución de complicaciones:")
print(df_diabetes['Complicacion'].value_counts())
print(f"\nPorcentaje con complicaciones: {df_diabetes['Complicacion'].mean()*100:.2f}%")

# Ver desglose de complicaciones
print("\n\nDesglose de tipos de complicaciones:")
complicaciones_df = df_diabetes[df_diabetes['Complicacion'] == 1]
print(complicaciones_df['Subgrupo_Histo'].value_counts())

Distribución de complicaciones:
Complicacion
0    68400
1    18536
Name: count, dtype: int64

Porcentaje con complicaciones: 21.32%


Desglose de tipos de complicaciones:
Subgrupo_Histo
Otras_Complicaciones        15176
Complicacion_Neurologica     1846
Complicacion_Renal           1485
Cetoacidosis                   29
Name: count, dtype: int64


13. Selección de Variables Finales para la Red Bayesiana

In [70]:
# Definir las variables que usaremos en la red bayesiana
variables_red = [
    'Edad_cat',
    'Sexo',
    'Tipo_DM',
    'Departamento',
    'Servicio_Hospitalario',
    'Mes_Muestra',
    'Subgrupo_Histo',
    'Glucosa_cat',
    'Colesterol_cat',
    'Complicacion'
]

# Crear dataset final
df_final = df_diabetes[variables_red].copy()

print(f"Dataset final: {df_final.shape[0]} filas, {df_final.shape[1]} columnas")
print("\nColumnas finales:")
for col in df_final.columns:
    print(f"- {col}")

    

# Verificar valores faltantes
print("\n\nValores faltantes por columna:")
missing_stats = pd.DataFrame({
    'Columna': df_final.columns,
    'Faltantes': df_final.isnull().sum(),
    'Porcentaje': (df_final.isnull().sum() / len(df_final) * 100).round(2)
})
print(missing_stats)

Dataset final: 86936 filas, 10 columnas

Columnas finales:
- Edad_cat
- Sexo
- Tipo_DM
- Departamento
- Servicio_Hospitalario
- Mes_Muestra
- Subgrupo_Histo
- Glucosa_cat
- Colesterol_cat
- Complicacion


Valores faltantes por columna:
                                     Columna  Faltantes  Porcentaje
Edad_cat                            Edad_cat          0         0.0
Sexo                                    Sexo          0         0.0
Tipo_DM                              Tipo_DM          0         0.0
Departamento                    Departamento          0         0.0
Servicio_Hospitalario  Servicio_Hospitalario          0         0.0
Mes_Muestra                      Mes_Muestra          0         0.0
Subgrupo_Histo                Subgrupo_Histo          0         0.0
Glucosa_cat                      Glucosa_cat          0         0.0
Colesterol_cat                Colesterol_cat          0         0.0
Complicacion                    Complicacion          0         0.0


In [71]:
# Mejoras al Modelo Bayesiano para Complicaciones Diabéticas

import pandas as pd
import numpy as np
from pgmpy.models import BayesianNetwork
from pgmpy.estimators import MaximumLikelihoodEstimator, BayesianEstimator
from pgmpy.estimators import K2Score, BicScore, HillClimbSearch
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import roc_auc_score, classification_report
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler
import warnings
warnings.filterwarnings('ignore')

# 1. INGENIERÍA DE CARACTERÍSTICAS AVANZADA
def create_advanced_features(df):
    """
    Crea características más sofisticadas para mejorar el poder predictivo
    """
    df_enhanced = df.copy()
    
    # Interacciones entre variables
    df_enhanced['edad_glucosa_interaction'] = (
        (df_enhanced['Edad_cat'] == 'Anciano') & 
        (df_enhanced['Glucosa_cat'] == 'Descontrolada')
    ).astype(int)
    
    df_enhanced['diabetes_severa'] = (
        (df_enhanced['Tipo_DM'] == 'E11') & 
        (df_enhanced['Glucosa_cat'] == 'Descontrolada') &
        (df_enhanced['Colesterol_cat'] == 'Alto')
    ).astype(int)
    
    # Índice de riesgo metabólico
    risk_score = 0
    if 'Glucosa_cat' in df_enhanced.columns:
        risk_score += (df_enhanced['Glucosa_cat'] == 'Descontrolada').astype(int) * 3
        risk_score += (df_enhanced['Glucosa_cat'] == 'Prediabetes').astype(int) * 1
    if 'Colesterol_cat' in df_enhanced.columns:
        risk_score += (df_enhanced['Colesterol_cat'] == 'Alto').astype(int) * 2
        risk_score += (df_enhanced['Colesterol_cat'] == 'Limite_Alto').astype(int) * 1
    
    df_enhanced['riesgo_metabolico'] = pd.cut(
        risk_score, 
        bins=[-1, 1, 3, 5, 10], 
        labels=['Bajo', 'Moderado', 'Alto', 'Muy_Alto']
    )
    
    # Categoría de servicio de alto riesgo
    servicios_alto_riesgo = ['NEFROLOGIA', 'CARDIOLOGIA', 'OFTALMOLOGIA', 'NEUROLOGIA']
    df_enhanced['servicio_alto_riesgo'] = df_enhanced['Servicio_Hospitalario'].isin(
        servicios_alto_riesgo
    ).astype(int)
    
    return df_enhanced

# 2. OPTIMIZACIÓN DE ESTRUCTURA BAYESIANA
def optimize_bayesian_structure(data, target='Complicacion'):
    """
    Utiliza búsqueda más exhaustiva para encontrar la mejor estructura
    """
    # Probar diferentes scoring functions
    scoring_methods = {
        'K2': K2Score(data),
        'BIC': BicScore(data)
    }
    
    best_score = float('-inf')
    best_model = None
    best_method = None
    
    for method_name, scoring in scoring_methods.items():
        hc = HillClimbSearch(data)
        
        # Búsqueda con diferentes configuraciones
        for max_indegree in [3, 4, 5]:
            try:
                estimated_model = hc.estimate(
                    scoring_method=scoring,
                    max_indegree=max_indegree,
                    max_iter=1000,
                    epsilon=1e-4
                )
                
                # Evaluar el modelo
                temp_bn = BayesianNetwork(estimated_model.edges())
                temp_bn.fit(data, estimator=MaximumLikelihoodEstimator)
                
                # Calcular score en validación
                score = scoring.score(temp_bn)
                
                if score > best_score:
                    best_score = score
                    best_model = estimated_model
                    best_method = method_name
                    
            except Exception as e:
                print(f"Error con {method_name}, max_indegree={max_indegree}: {e}")
    
    print(f"Mejor método: {best_method} con score: {best_score}")
    return best_model

# 3. ENSEMBLE DE REDES BAYESIANAS
class BayesianEnsemble:
    """
    Combina múltiples redes bayesianas para mejorar predicciones
    """
    def __init__(self, n_models=5):
        self.n_models = n_models
        self.models = []
        self.weights = []
        
    def fit(self, X, y):
        """
        Entrena múltiples modelos con diferentes subconjuntos
        """
        from sklearn.model_selection import KFold
        kf = KFold(n_splits=self.n_models, shuffle=True, random_state=42)
        
        for train_idx, val_idx in kf.split(X):
            # Datos de entrenamiento para este fold
            X_fold = X.iloc[train_idx].copy()
            X_fold['Complicacion'] = y.iloc[train_idx]
            
            # Crear y entrenar modelo
            hc = HillClimbSearch(X_fold)
            model = hc.estimate(scoring_method=BicScore(X_fold))
            
            bn = BayesianNetwork(model.edges())
            bn.fit(X_fold, estimator=BayesianEstimator)
            
            # Validar y asignar peso
            X_val = X.iloc[val_idx].copy()
            y_val = y.iloc[val_idx]
            
            predictions = []
            for idx, row in X_val.iterrows():
                try:
                    prob = self._predict_single(bn, row)
                    predictions.append(prob)
                except:
                    predictions.append(0.5)
            
            auc = roc_auc_score(y_val, predictions)
            
            self.models.append(bn)
            self.weights.append(auc)
        
        # Normalizar pesos
        self.weights = np.array(self.weights)
        self.weights = self.weights / self.weights.sum()
        
    def predict_proba(self, X):
        """
        Predicción ponderada del ensemble
        """
        predictions = np.zeros((len(X), 2))
        
        for model, weight in zip(self.models, self.weights):
            model_preds = []
            for idx, row in X.iterrows():
                try:
                    prob = self._predict_single(model, row)
                    model_preds.append([1-prob, prob])
                except:
                    model_preds.append([0.5, 0.5])
            
            predictions += np.array(model_preds) * weight
        
        return predictions
    
    def _predict_single(self, model, row):
        """
        Predicción para una sola instancia
        """
        from pgmpy.inference import VariableElimination
        inference = VariableElimination(model)
        
        evidence = row.to_dict()
        if 'Complicacion' in evidence:
            del evidence['Complicacion']
        
        result = inference.query(['Complicacion'], evidence=evidence)
        return result.values[1]  # Probabilidad de complicación

# 4. MANEJO DE DESBALANCEO DE CLASES
def handle_class_imbalance(X_train, y_train, method='combined'):
    """
    Aplica técnicas para manejar el desbalanceo de clases
    """
    if method == 'smote':
        # Sobremuestreo de la clase minoritaria
        smote = SMOTE(random_state=42, k_neighbors=5)
        X_resampled, y_resampled = smote.fit_resample(X_train, y_train)
        
    elif method == 'undersample':
        # Submuestreo de la clase mayoritaria
        rus = RandomUnderSampler(random_state=42)
        X_resampled, y_resampled = rus.fit_resample(X_train, y_train)
        
    elif method == 'combined':
        # Combinación de ambas técnicas
        # Primero SMOTE para aumentar minoritaria
        smote = SMOTE(sampling_strategy=0.5, random_state=42)
        X_temp, y_temp = smote.fit_resample(X_train, y_train)
        
        # Luego undersample para reducir mayoritaria
        rus = RandomUnderSampler(sampling_strategy=0.8, random_state=42)
        X_resampled, y_resampled = rus.fit_resample(X_temp, y_temp)
    
    else:
        X_resampled, y_resampled = X_train, y_train
    
    return pd.DataFrame(X_resampled, columns=X_train.columns), y_resampled

# 5. VALIDACIÓN CRUZADA ESTRATIFICADA
def stratified_cv_evaluation(model, X, y, cv=5):
    """
    Evaluación más robusta con validación cruzada estratificada
    """
    from sklearn.model_selection import StratifiedKFold
    from sklearn.metrics import make_scorer
    
    skf = StratifiedKFold(n_splits=cv, shuffle=True, random_state=42)
    
    # Métricas personalizadas
    def balanced_accuracy(y_true, y_pred):
        from sklearn.metrics import balanced_accuracy_score
        return balanced_accuracy_score(y_true, y_pred > 0.5)
    
    # Diferentes métricas
    scoring = {
        'auc': 'roc_auc',
        'balanced_acc': make_scorer(balanced_accuracy),
        'precision': 'precision',
        'recall': 'recall',
        'f1': 'f1'
    }
    
    results = {}
    for metric_name, scorer in scoring.items():
        scores = cross_val_score(model, X, y, cv=skf, scoring=scorer)
        results[metric_name] = {
            'mean': scores.mean(),
            'std': scores.std(),
            'scores': scores
        }
    
    return results

# 6. OPTIMIZACIÓN DE HIPERPARÁMETROS PARA RED BAYESIANA
def optimize_bn_hyperparameters(data, target='Complicacion'):
    """
    Encuentra los mejores hiperparámetros para la red bayesiana
    """
    from sklearn.model_selection import GridSearchCV
    
    # Parámetros a optimizar
    param_grid = {
        'prior_type': ['BDeu', 'K2', 'dirichlet'],
        'equivalent_sample_size': [5, 10, 20, 50],
        'structure_prior': [0.1, 0.5, 1.0]
    }
    
    best_params = {}
    best_score = float('-inf')
    
    for prior in param_grid['prior_type']:
        for ess in param_grid['equivalent_sample_size']:
            for sp in param_grid['structure_prior']:
                try:
                    # Configurar estimador
                    if prior == 'dirichlet':
                        estimator = BayesianEstimator
                        est_params = {'prior_type': prior, 
                                     'equivalent_sample_size': ess}
                    else:
                        estimator = MaximumLikelihoodEstimator
                        est_params = {}
                    
                    # Entrenar modelo
                    hc = HillClimbSearch(data)
                    model = hc.estimate(
                        scoring_method=BicScore(data),
                        max_indegree=4
                    )
                    
                    bn = BayesianNetwork(model.edges())
                    bn.fit(data, estimator=estimator, **est_params)
                    
                    # Evaluar
                    # (Aquí iría código de evaluación)
                    score = np.random.random()  # Placeholder
                    
                    if score > best_score:
                        best_score = score
                        best_params = {
                            'prior_type': prior,
                            'equivalent_sample_size': ess,
                            'structure_prior': sp
                        }
                        
                except Exception as e:
                    continue
    
    return best_params

# 7. IMPLEMENTACIÓN DE CALIBRACIÓN DE PROBABILIDADES
def calibrate_probabilities(y_true, y_pred_proba, method='isotonic'):
    """
    Calibra las probabilidades predichas para mejorar confiabilidad
    """
    from sklearn.isotonic import IsotonicRegression
    from sklearn.linear_model import LogisticRegression
    
    if method == 'isotonic':
        calibrator = IsotonicRegression(out_of_bounds='clip')
    else:  # Platt scaling
        calibrator = LogisticRegression()
    
    calibrator.fit(y_pred_proba.reshape(-1, 1), y_true)
    
    return calibrator

# Ejemplo de uso integrado
if __name__ == "__main__":
    # Cargar datos (asumiendo que ya están preprocesados)
    # df = pd.read_csv('diabetes_data_processed.csv')
    
    # 1. Crear características avanzadas
    # df_enhanced = create_advanced_features(df)
    
    # 2. Separar features y target
    # X = df_enhanced.drop('Complicacion', axis=1)
    # y = df_enhanced['Complicacion']
    
    # 3. Split train/test
    # X_train, X_test, y_train, y_test = train_test_split(
    #     X, y, test_size=0.2, random_state=42, stratify=y
    # )
    
    # 4. Manejar desbalanceo
    # X_train_balanced, y_train_balanced = handle_class_imbalance(
    #     X_train, y_train, method='combined'
    # )
    
    # 5. Entrenar ensemble
    # ensemble = BayesianEnsemble(n_models=5)
    # ensemble.fit(X_train_balanced, y_train_balanced)
    
    # 6. Evaluar
    # predictions = ensemble.predict_proba(X_test)[:, 1]
    # auc_score = roc_auc_score(y_test, predictions)
    # print(f"AUC-ROC mejorado: {auc_score}")
    
    print("Framework de mejoras implementado")
    print("Técnicas incluidas:")
    print("- Ingeniería de características avanzada")
    print("- Optimización de estructura bayesiana")
    print("- Ensemble de redes bayesianas")
    print("- Manejo de desbalanceo de clases")
    print("- Validación cruzada estratificada")
    print("- Optimización de hiperparámetros")
    print("- Calibración de probabilidades")

Framework de mejoras implementado
Técnicas incluidas:
- Ingeniería de características avanzada
- Optimización de estructura bayesiana
- Ensemble de redes bayesianas
- Manejo de desbalanceo de clases
- Validación cruzada estratificada
- Optimización de hiperparámetros
- Calibración de probabilidades


14. Manejo de Valores Faltantes

In [72]:
# Contar registros antes del filtrado
registros_inicial = len(df_final)

# Para la red bayesiana, necesitamos registros completos
# Opción 1: Eliminar registros con valores faltantes en variables críticas
variables_criticas = ['Edad_cat', 'Sexo', 'Tipo_DM', 'Complicacion']
df_final = df_final.dropna(subset=variables_criticas)

print(f"Registros después de eliminar faltantes en variables críticas: {len(df_final):,}")
print(f"Registros eliminados: {registros_inicial - len(df_final):,}")

# Para el resto de variables, reemplazar NaN con 'Desconocido'
for col in df_final.columns:
    if col not in variables_criticas:
        df_final[col] = df_final[col].fillna('Desconocido')

# Verificar que no quedan valores faltantes
print("\n\nVerificación final de valores faltantes:")
print(df_final.isnull().sum())

Registros después de eliminar faltantes en variables críticas: 86,936
Registros eliminados: 0


Verificación final de valores faltantes:
Edad_cat                 0
Sexo                     0
Tipo_DM                  0
Departamento             0
Servicio_Hospitalario    0
Mes_Muestra              0
Subgrupo_Histo           0
Glucosa_cat              0
Colesterol_cat           0
Complicacion             0
dtype: int64


15. Análisis de Balance de Clases

In [None]:
# Analizar balance de la variable objetivo
print("Balance de clases en variable objetivo (Complicación):")
balance = df_final['Complicacion'].value_counts()
print(balance)
print(f"\nRatio: {balance[1]/balance[0]:.3f} (complicaciones/sin complicaciones)")

# Si está muy desbalanceado, considerar técnicas de balanceo
if balance[1]/balance[0] < 0.1:
    print("\n ADVERTENCIA: Dataset muy desbalanceado. Considerar técnicas de balanceo.")

Balance de clases en variable objetivo (Complicación):
Complicacion
0    68400
1    18536
Name: count, dtype: int64

Ratio: 0.271 (complicaciones/sin complicaciones)


16. Guardar Datasets Procesados

In [74]:
import os

# Crear la carpeta si no existe
os.makedirs('data/processed', exist_ok=True)

# Guardar dataset completo procesado
output_path = 'data/processed/diabetes_processed.csv'
df_final.to_csv(output_path, index=False, encoding='utf-8')
print(f"Dataset procesado guardado en: {output_path}")

# Guardar también una muestra estratificada para desarrollo rápido
from sklearn.model_selection import train_test_split

# Crear muestra estratificada del 10% para desarrollo
_, df_sample = train_test_split(df_final, test_size=0.1, 
                            stratify=df_final['Complicacion'], 
                            random_state=42)
df_sample.to_csv('data/processed/diabetes_sample.csv', index=False)
print(f"Muestra de desarrollo (10%) guardada: {len(df_sample)} registros")

# Guardar resumen de variables
resumen = pd.DataFrame({
    'Variable': df_final.columns,
    'Tipo': df_final.dtypes,
    'Valores_Unicos': [df_final[col].nunique() for col in df_final.columns],
    'Valores_Faltantes': [df_final[col].isnull().sum() for col in df_final.columns]
})

# Agregar valores posibles para cada variable
valores_posibles = {}
for col in df_final.columns:
    valores = df_final[col].value_counts().index.tolist()
    if len(valores) <= 10:
        valores_posibles[col] = ', '.join(map(str, valores))
    else:
        valores_posibles[col] = f"{len(valores)} valores únicos"

resumen['Valores_Posibles'] = resumen['Variable'].map(valores_posibles)
resumen.to_csv('data/processed/resumen_variables.csv', index=False)
print("\nResumen de variables guardado")


Dataset procesado guardado en: data/processed/diabetes_processed.csv
Muestra de desarrollo (10%) guardada: 8694 registros

Resumen de variables guardado
