# An√°lisis de Negocio ‚Äî Proyecto ML en Salud Cardiometab√≥lica

Este cuadernillo documenta el paso **Business Understanding** del EDA utilizando dos datasets:
- `cardio_data_processed.csv`
- `smoking_driking_dataset_Ver01.csv`

Se definen objetivos, casos de uso de ML, m√©tricas de √©xito y criterios de valor, y se realiza una exploraci√≥n inicial para orientar el EDA t√©cnico posterior.

## 1. Introducci√≥n

### 1.1 Objetivos del An√°lisis
- Comprender la estructura y relaciones potenciales entre los datasets cl√≠nicos y conductuales.
- Identificar variables clave candidatas para casos de uso de predicci√≥n/estratificaci√≥n de riesgo.
- Definir m√©tricas de √©xito (negocio y t√©cnicas) y valor esperado.
- Establecer un plan de implementaci√≥n de alto nivel y riesgos principales.

## Hip√≥tesis:
- **Clasificaci√≥n binaria:** ¬øPodemos predecir si un individuo tiene (o tendr√°) enfermedad cardiovascular en base a sus factores de riesgo?
- **Regresi√≥n continua:** ¬øPodemos estimar el valor esperado de un factor cuantitativo de riesgo, como presi√≥n arterial sist√≥lica, nivel de colesterol o consumo de alcohol, a partir de otras variables del perfil del paciente?

## 2. Configuraci√≥n del Entorno

In [12]:
# Cargar extensi√≥n de Kedro (solo hace falta una vez al inicio del notebook)
%load_ext kedro.ipython

# Recargar contexto y cat√°logo de Kedro
%reload_kedro

The kedro.ipython extension is already loaded. To reload it, use:
  %reload_ext kedro.ipython


In [9]:
# Importaci√≥n de librer√≠as necesarias
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', lambda x: '%.3f' % x)

print("Entorno listo.")

Entorno listo.


## 3. Carga y Exploraci√≥n de Datos
### 3.1 Carga de Datasets

In [13]:
FILES = ["cardio", "lifestyle"]

datasets = {}
print("Cargando datasets desde el cat√°logo de Kedro...\n")

for name in FILES:
    try:
        datasets[name] = catalog.load(name)
        print(f"O Dataset '{name}' cargado ({datasets[name].shape[0]} filas, {datasets[name].shape[1]} columnas)")
    except Exception as e:
        print(f"X Error cargando dataset '{name}': {e}")

print(f"\nTotal de datasets cargados: {len(datasets)}")

Cargando datasets desde el cat√°logo de Kedro...



O Dataset 'cardio' cargado (68205 filas, 17 columnas)


O Dataset 'lifestyle' cargado (991346 filas, 24 columnas)

Total de datasets cargados: 2


### 3.2 Descripci√≥n de Tablas
An√°lisis descriptivo de cada dataset y su utilidad en el contexto de salud cardiometab√≥lica.

In [15]:
dataset_descriptions = {
    'cardio': 'Variables cl√≠nicas/antropom√©tricas (p. ej., presi√≥n arterial, l√≠pidos, glucosa, IMC, edad, sexo)',
    'lifestyle': 'Conductas de salud (tabaquismo, alcohol, estilo de vida).'
}

print("DESCRIPCI√ìN DE DATASETS" + "="*80)
for name, df in datasets.items():
    description = dataset_descriptions.get(name, '‚Äî')
    print(f"\nüìä {name.upper()}")
    print(f"   Descripci√≥n: {description}")
    print(f"   Dimensiones: {df.shape[0]:,} filas √ó {df.shape[1]} columnas")
    cols_preview = ', '.join(map(str, df.columns[:10]))
    print(f"   Columnas: {cols_preview}{'...' if len(df.columns) > 10 else ''}")


üìä CARDIO
   Descripci√≥n: Variables cl√≠nicas/antropom√©tricas (p. ej., presi√≥n arterial, l√≠pidos, glucosa, IMC, edad, sexo)
   Dimensiones: 68,205 filas √ó 17 columnas
   Columnas: id, age, gender, height, weight, ap_hi, ap_lo, cholesterol, gluc, smoke...

üìä LIFESTYLE
   Descripci√≥n: Conductas de salud (tabaquismo, alcohol, estilo de vida).
   Dimensiones: 991,346 filas √ó 24 columnas
   Columnas: sex, age, height, weight, waistline, sight_left, sight_right, hear_left, hear_right, SBP...


### 3.3 An√°lisis de Estructura de Datos

In [18]:
def analyze_dataset(df, name):
    """An√°lisis estructural y de calidad para un DataFrame."""
    print(f"\n{'-'*100}\nAN√ÅLISIS DE: {name.upper()}\n{'-'*100}")
    print(f"\nüìã Informaci√≥n General:")
    print(f"   - Total de registros: {len(df):,}")
    print(f"   - Total de columnas: {len(df.columns)}")
    print(f"   - Memoria utilizada: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

    # Tipos de datos
    dtype_counts = df.dtypes.value_counts()
    print(f"\nüìä Tipos de Datos:")
    for dtype, count in dtype_counts.items():
        print(f"   - {dtype}: {count} columnas")

    # Nulos
    null_counts = df.isnull().sum()
    null_cols = null_counts[null_counts > 0]
    if len(null_cols) > 0:
        print(f"\n‚ö†Ô∏è Columnas con Valores Nulos:")
        for col, count in null_cols.sort_values(ascending=False).items():
            percentage = (count / len(df)) * 100 if len(df) else 0
            print(f"   - {col}: {count:,} ({percentage:.1f}%)")
    else:
        print(f"\n‚úì No hay valores nulos en este dataset (o no se detectaron)")

    # Columnas
    print(f"\nüé≤ Columnas del Dataset (primeras 30):")
    for i, col in enumerate(df.columns[:30], 1):
        dtype_str = str(df[col].dtype)
        print(f"   {i:2}. {col:40} ({dtype_str})")

    # Estad√≠sticas num√©ricas
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    if len(numeric_cols) > 0:
        print(f"\nüìà Resumen Estad√≠stico (num√©ricas):")
        print(df[numeric_cols].describe().round(2).to_string())
    else:
        print("\n‚ÑπÔ∏è No se encontraron columnas num√©ricas para resumen estad√≠stico.")

for dataset_name, df in datasets.items():
    analyze_dataset(df, dataset_name)


----------------------------------------------------------------------------------------------------
AN√ÅLISIS DE: CARDIO
----------------------------------------------------------------------------------------------------

üìã Informaci√≥n General:
   - Total de registros: 68,205
   - Total de columnas: 17
   - Memoria utilizada: 16.46 MB

üìä Tipos de Datos:
   - int64: 13 columnas
   - float64: 2 columnas
   - object: 2 columnas

‚úì No hay valores nulos en este dataset (o no se detectaron)

üé≤ Columnas del Dataset (primeras 30):
    1. id                                       (int64)
    2. age                                      (int64)
    3. gender                                   (int64)
    4. height                                   (int64)
    5. weight                                   (float64)
    6. ap_hi                                    (int64)
    7. ap_lo                                    (int64)
    8. cholesterol                              (int64)
    9.

## 4. Entendimiento del Negocio (Salud Cardiometab√≥lica)
### 4.1 Contexto
Las enfermedades cardiovasculares y metab√≥licas representan una carga significativa para sistemas de salud. Modelos ML pueden apoyar estratificaci√≥n de riesgo, priorizaci√≥n de pesquisa y asignaci√≥n eficiente de recursos cl√≠nicos.

### 4.2 Stakeholders y Necesidades

In [22]:
stakeholders = pd.DataFrame({
    'Stakeholder': [
        'Cl√≠nicos (Medicina Familiar/Interna)',
        'Pacientes/Usuarios',
        'Gesti√≥n Hospitalaria/Cl√≠nicas',
        'Aseguradoras/Financiadores',
        'Salud P√∫blica',
        'Equipo de Datos/Producto'
    ],
    'Necesidad Principal': [
        'Priorizar controles y derivaciones por riesgo',
        'Prevenci√≥n personalizada y alertas comprensibles',
        'Optimizar cupos, tiempos y costos asistenciales',
        'Gestionar riesgo poblacional y costos futuros',
        'Monitorear factores de riesgo a nivel poblacional',
        'Sistemas reproducibles, auditables y escalables'
    ],
    'Valor del ML': [
        'Listas de trabajo por riesgo y reglas operativas',
        'Recomendaciones accionables y explicables',
        'Planificaci√≥n basada en carga esperada',
        'Modelos de propensi√≥n y costo-efectividad',
        'Mapas de riesgo y vigilancia sindr√≥mica',
        'Pipelines versionados, monitoreo de drift'
    ]
})
print("AN√ÅLISIS DE STAKEHOLDERS")
print("-"*135)
print(stakeholders.to_string(index=False))

AN√ÅLISIS DE STAKEHOLDERS
---------------------------------------------------------------------------------------------------------------------------------------
                         Stakeholder                               Necesidad Principal                                     Valor del ML
Cl√≠nicos (Medicina Familiar/Interna)     Priorizar controles y derivaciones por riesgo Listas de trabajo por riesgo y reglas operativas
                  Pacientes/Usuarios  Prevenci√≥n personalizada y alertas comprensibles        Recomendaciones accionables y explicables
       Gesti√≥n Hospitalaria/Cl√≠nicas   Optimizar cupos, tiempos y costos asistenciales           Planificaci√≥n basada en carga esperada
          Aseguradoras/Financiadores     Gestionar riesgo poblacional y costos futuros        Modelos de propensi√≥n y costo-efectividad
                       Salud P√∫blica Monitorear factores de riesgo a nivel poblacional          Mapas de riesgo y vigilancia sindr√≥mica
            Eq

## 5. Definici√≥n de Casos de Uso de Machine Learning
Se proponen dos casos de uso gen√©ricos, ajustables seg√∫n disponibilidad de variables/labels.

### 5.1 Caso de Clasificaci√≥n (binaria) ‚Äî Riesgo Cardiometab√≥lico Alto
**Objetivo:** Predecir probabilidad de pertenecer a un grupo de *alto riesgo* para priorizar intervenci√≥n preventiva.

**M√©trica Principal:** AUROC y/o PR-AUC.  
**M√©tricas Operativas:** PPV/NPV a umbrales, *Lift* en deciles altos, Brier score (calibraci√≥n).  
**Valor:** Priorizaci√≥n de pacientes y asignaci√≥n eficiente de recursos.

In [23]:
from typing import List

def find_candidate_label_columns(df) -> List[str]:
    candidates = []
    label_keys = ['target','label','outcome','y','event','cardio','cardiovascular','disease','risk','hypertension','diabetes']
    for col in df.columns:
        low = str(col).lower()
        if any(k in low for k in label_keys):
            candidates.append(col)
    return candidates

label_candidates = {}
for name, df in datasets.items():
    label_candidates[name] = find_candidate_label_columns(df)

print("POSIBLES COLUMNAS DE ETIQUETA (para clasificaci√≥n):")
for name, cols in label_candidates.items():
    print(f" - {name}: {cols if cols else 'No se detectaron candidatos obvios'}")

POSIBLES COLUMNAS DE ETIQUETA (para clasificaci√≥n):
 - cardio: ['cardio', 'age_years', 'bp_category', 'bp_category_encoded']
 - lifestyle: ['triglyceride', 'SMK_stat_type_cd', 'DRK_YN']


**Nota:** Si no existe una etiqueta expl√≠cita, se puede definir un label derivado (ej.: *hipertensi√≥n alta* si `systolic_bp ‚â• 140` o *s√≠ndrome metab√≥lico proxy* seg√∫n umbrales cl√≠nicos acordados). Esta definici√≥n debe validarse con stakeholders cl√≠nicos para evitar *label leakage*.

### 5.2 Caso de Regresi√≥n ‚Äî Score de Riesgo Continuo / Marcador Cl√≠nico
**Objetivo:** Estimar un **score continuo de riesgo** (o un marcador cl√≠nico, p. ej., presi√≥n sist√≥lica) como indicador de severidad/urgencia.

**M√©trica Principal:** MAE/RMSE.  
**M√©tricas Secundarias:** R¬≤, error absoluto relativo por subgrupo.  
**Valor:** Seguimiento longitudinal y objetivos personalizados.

In [24]:
# Detecci√≥n de posibles objetivos continuos (marcadores cl√≠nicos) por nombre
def find_candidate_regression_targets(df) -> List[str]:
    keys = ['systolic','diastolic','sbp','dbp','chol','trig','hdl','ldl','glucose','hba1c','bmi','weight','waist']
    candidates = []
    for col in df.select_dtypes(include=[np.number]).columns:
        low = str(col).lower()
        if any(k in low for k in keys):
            candidates.append(col)
    return candidates

reg_targets = {}
for name, df in datasets.items():
    reg_targets[name] = find_candidate_regression_targets(df)

print("POSIBLES VARIABLES OBJETIVO PARA REGRESI√ìN (cl√≠nicas continuas):")
for name, cols in reg_targets.items():
    print(f" - {name}: {cols if cols else 'No se detectaron candidatos por nombre'}")

POSIBLES VARIABLES OBJETIVO PARA REGRESI√ìN (cl√≠nicas continuas):
 - cardio: ['weight', 'cholesterol', 'bmi']
 - lifestyle: ['weight', 'waistline', 'SBP', 'DBP', 'tot_chole', 'HDL_chole', 'LDL_chole', 'triglyceride']


## 6. An√°lisis de Calidad de Datos

In [27]:
print("EVALUACI√ìN DE CALIDAD DE DATOS")
print("-"*100)

quality_metrics = []
for name, df in datasets.items():
    total_cells = df.shape[0] * df.shape[1]
    null_cells = int(df.isnull().sum().sum())
    completeness = ((total_cells - null_cells) / total_cells * 100) if total_cells > 0 else 0
    duplicate_rows = int(df.duplicated().sum()) if len(df) > 0 else 0

    quality_metrics.append({
        'Dataset': name,
        'Filas': len(df),
        'Columnas': df.shape[1],
        'Completitud_%': round(completeness, 1),
        'Duplicados': duplicate_rows,
        'Calidad': '‚úì Alta' if completeness > 95 and duplicate_rows == 0 else
                   '‚ö† Media' if completeness > 80 else '‚úó Baja'
    })

quality_df = pd.DataFrame(quality_metrics)
print(quality_df.to_string(index=False))

high_quality = sum(1 for m in quality_metrics if '‚úì' in m['Calidad'])
medium_quality = sum(1 for m in quality_metrics if '‚ö†' in m['Calidad'])
low_quality = sum(1 for m in quality_metrics if '‚úó' in m['Calidad'])

print(f"\n Resumen de Calidad:")
print(f"   - Datasets de alta calidad: {high_quality}")
print(f"   - Datasets de calidad media: {medium_quality}")
print(f"   - Datasets de baja calidad: {low_quality}")

EVALUACI√ìN DE CALIDAD DE DATOS
----------------------------------------------------------------------------------------------------
  Dataset  Filas  Columnas  Completitud_%  Duplicados Calidad
   cardio  68205        17        100.000           0  ‚úì Alta
lifestyle 991346        24        100.000          26 ‚ö† Media

 Resumen de Calidad:
   - Datasets de alta calidad: 1
   - Datasets de calidad media: 1
   - Datasets de baja calidad: 0


## 7. Variables Clave Identificadas (Candidatas)
**Nota:** Este listado es preliminar. La selecci√≥n final debe validarse con criterio cl√≠nico y disponibilidad real en columnas.

In [28]:
key_vars = pd.DataFrame({
    'Categor√≠a': [
        'Cl√≠nicas/Antropom√©tricas','Cl√≠nicas/Antropom√©tricas','Cl√≠nicas/Antropom√©tricas',
        'Cl√≠nicas/Antropom√©tricas','Cl√≠nicas/Antropom√©tricas','Cl√≠nicas/Antropom√©tricas',
        'Conductuales','Conductuales','Conductuales',
        'Demogr√°ficas','Demogr√°ficas'
    ],
    'Variable (candidata)': [
        'systolic_bp / diastolic_bp (si existen)',
        'glucose / HbA1c (si existen)',
        'lipids: LDL/HDL/TG/TC (si existen)',
        'BMI / weight / waist (si existen)',
        'renal/liver markers (si existen)',
        'comorbidities flags (si existen)',
        'smoking_status / intensity',
        'alcohol_frequency / units',
        'physical_activity / sleep (si existen)',
        'age',
        'sex'
    ],
    'Tipo': [
        'Num√©rica','Num√©rica','Num√©rica','Num√©rica','Num√©rica','Categ√≥rica/Binaria',
        'Categ√≥rica/Ordinal','Num√©rica/Ordinal','Categ√≥rica/Ordinal','Num√©rica','Categ√≥rica'
    ],
    'Uso Potencial': [
        'Objetivo regresi√≥n o feature',
        'Feature/criterio de riesgo',
        'Feature/estratificaci√≥n',
        'Feature/estratificaci√≥n',
        'Feature/riesgo adicional',
        'Interacciones/ajustes',
        'Feature conductual clave',
        'Feature conductual clave',
        'Features estilo de vida',
        'Ajuste y segmentaci√≥n',
        'Ajuste y segmentaci√≥n'
    ]
})
print(key_vars.to_string(index=False))

               Categor√≠a                    Variable (candidata)               Tipo                Uso Potencial
Cl√≠nicas/Antropom√©tricas systolic_bp / diastolic_bp (si existen)           Num√©rica Objetivo regresi√≥n o feature
Cl√≠nicas/Antropom√©tricas            glucose / HbA1c (si existen)           Num√©rica   Feature/criterio de riesgo
Cl√≠nicas/Antropom√©tricas      lipids: LDL/HDL/TG/TC (si existen)           Num√©rica      Feature/estratificaci√≥n
Cl√≠nicas/Antropom√©tricas       BMI / weight / waist (si existen)           Num√©rica      Feature/estratificaci√≥n
Cl√≠nicas/Antropom√©tricas        renal/liver markers (si existen)           Num√©rica     Feature/riesgo adicional
Cl√≠nicas/Antropom√©tricas        comorbidities flags (si existen) Categ√≥rica/Binaria        Interacciones/ajustes
            Conductuales              smoking_status / intensity Categ√≥rica/Ordinal     Feature conductual clave
            Conductuales               alcohol_frequency / units   Num√©r

## 8. Plan de Implementaci√≥n (Alto Nivel)
1. Cerrar **definici√≥n de label** (cl√≠nico-aceptable, sin leakage).  
2. Establecer **diccionario de variables** y reglas de limpieza.  
3. Pipeline reproducible de **feature engineering** (versionado).  
4. **Baselines** (log√≠stica/√°rboles) y evaluaci√≥n por subgrupos.  
5. Calibraci√≥n, curvas decisi√≥n (net benefit) y umbrales operativos.  
6. Documentaci√≥n, *model card*, y plan de **monitoreo de drift**.

## 9. Riesgos y Mitigaciones
- **Leakage**: variables pos-evento o derivadas del outcome ‚Üí revisi√≥n cl√≠nica + auditor√≠a de features.
- **Desbalance de clases**: m√©trica enfocada en utilidad (PR-AUC, PPV por umbral), ponderaci√≥n/muestreo.
- **Shift temporal**: validaci√≥n temporal + monitoreo continuo.
- **Calidad de captura**: reglas de plausibilidad y *data contracts*.
- **Equidad**: m√©tricas por subgrupo y ajuste de umbrales si procede.

## 10. Conclusiones y Pr√≥ximos Pasos

In [30]:
print("CONCLUSIONES DEL AN√ÅLISIS DE NEGOCIO")
print("-"*100)
conclusions = [
    "Se dispone de datos cl√≠nicos y conductuales con potencial para predicci√≥n/estratificaci√≥n.",
    "Los casos de uso (clasificaci√≥n de alto riesgo, regresi√≥n de score/marcador) son viables condicionados a la definici√≥n cl√≠nica del label.",
    "El valor de negocio reside en priorizar intervenci√≥n y optimizar recursos.",
    "Se identificaron variables candidatas y se estableci√≥ un plan de implementaci√≥n de alto nivel."
]
for c in conclusions:
    print("\n‚Ä¢ " + c)

print("\n" + "-"*100)
print("\nPR√ìXIMOS PASOS INMEDIATOS:")
print("-"*100)
next_steps = [
    "1) Validar con stakeholders la definici√≥n del label (o reglas de derivaci√≥n).",
    "2) Elaborar diccionario de datos y plan de limpieza/imputaci√≥n.",
    "3) Construir baselines y comparar desempe√±o por subgrupos.",
    "4) Dise√±ar umbrales operativos y curvas de decisi√≥n.",
    "5) Documentar supuestos y riesgos en una model card."
]
for s in next_steps:
    print("\n" + s)

CONCLUSIONES DEL AN√ÅLISIS DE NEGOCIO
----------------------------------------------------------------------------------------------------

‚Ä¢ Se dispone de datos cl√≠nicos y conductuales con potencial para predicci√≥n/estratificaci√≥n.

‚Ä¢ Los casos de uso (clasificaci√≥n de alto riesgo, regresi√≥n de score/marcador) son viables condicionados a la definici√≥n cl√≠nica del label.

‚Ä¢ El valor de negocio reside en priorizar intervenci√≥n y optimizar recursos.

‚Ä¢ Se identificaron variables candidatas y se estableci√≥ un plan de implementaci√≥n de alto nivel.

----------------------------------------------------------------------------------------------------

PR√ìXIMOS PASOS INMEDIATOS:
----------------------------------------------------------------------------------------------------

1) Validar con stakeholders la definici√≥n del label (o reglas de derivaci√≥n).

2) Elaborar diccionario de datos y plan de limpieza/imputaci√≥n.

3) Construir baselines y comparar desempe√±o por sub