# Proyecto Dataset Diab√©tico

## üìä Resumen del Dataset

- **Dimensiones**: 101,766 registros √ó 50 columnas
- **Variable objetivo**: `readmitted` (NO, <30 d√≠as, >30 d√≠as)
- **Tipo de problema**: Clasificaci√≥n multiclase (puede convertirse a binaria)

---


In [32]:
import pandas as pd
import numpy as np
import warnings
from sklearn.impute import SimpleImputer
warnings.filterwarnings('ignore')

## Limpieza y Preprocesamiento de Datos

In [33]:
df = pd.read_csv("data/diabetic_data.csv")
    
print(f"\n‚úì Dataset cargado exitosamente")
print(f"  Dimensiones originales: {df.shape[0]} filas √ó {df.shape[1]} columnas")


‚úì Dataset cargado exitosamente
  Dimensiones originales: 101766 filas √ó 50 columnas


### Inspecci√≥n Inicial del Dataset

In [34]:
# Informaci√≥n general del dataset
print("=" * 80)
print("INFORMACI√ìN GENERAL DEL DATASET")
print("=" * 80)
df.info()

INFORMACI√ìN GENERAL DEL DATASET
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 101766 entries, 0 to 101765
Data columns (total 50 columns):
 #   Column                    Non-Null Count   Dtype 
---  ------                    --------------   ----- 
 0   encounter_id              101766 non-null  int64 
 1   patient_nbr               101766 non-null  int64 
 2   race                      101766 non-null  object
 3   gender                    101766 non-null  object
 4   age                       101766 non-null  object
 5   weight                    101766 non-null  object
 6   admission_type_id         101766 non-null  int64 
 7   discharge_disposition_id  101766 non-null  int64 
 8   admission_source_id       101766 non-null  int64 
 9   time_in_hospital          101766 non-null  int64 
 10  payer_code                101766 non-null  object
 11  medical_specialty         101766 non-null  object
 12  num_lab_procedures        101766 non-null  int64 
 13  num_procedures            

In [35]:
# Primeras filas del dataset
print("\n" + "=" * 80)
print("PRIMERAS 5 FILAS DEL DATASET")
print("=" * 80)
display(df.head())


PRIMERAS 5 FILAS DEL DATASET


Unnamed: 0,encounter_id,patient_nbr,race,gender,age,weight,admission_type_id,discharge_disposition_id,admission_source_id,time_in_hospital,...,citoglipton,insulin,glyburide-metformin,glipizide-metformin,glimepiride-pioglitazone,metformin-rosiglitazone,metformin-pioglitazone,change,diabetesMed,readmitted
0,2278392,8222157,Caucasian,Female,[0-10),?,6,25,1,1,...,No,No,No,No,No,No,No,No,No,NO
1,149190,55629189,Caucasian,Female,[10-20),?,1,1,7,3,...,No,Up,No,No,No,No,No,Ch,Yes,>30
2,64410,86047875,AfricanAmerican,Female,[20-30),?,1,1,7,2,...,No,No,No,No,No,No,No,No,Yes,NO
3,500364,82442376,Caucasian,Male,[30-40),?,1,1,7,2,...,No,Up,No,No,No,No,No,Ch,Yes,NO
4,16680,42519267,Caucasian,Male,[40-50),?,1,1,7,1,...,No,Steady,No,No,No,No,No,Ch,Yes,NO


In [36]:
# Estad√≠sticas descriptivas
print("\n" + "=" * 80)
print("ESTAD√çSTICAS DESCRIPTIVAS")
print("=" * 80)
display(df.describe())


ESTAD√çSTICAS DESCRIPTIVAS


Unnamed: 0,encounter_id,patient_nbr,admission_type_id,discharge_disposition_id,admission_source_id,time_in_hospital,num_lab_procedures,num_procedures,num_medications,number_outpatient,number_emergency,number_inpatient,number_diagnoses
count,101766.0,101766.0,101766.0,101766.0,101766.0,101766.0,101766.0,101766.0,101766.0,101766.0,101766.0,101766.0,101766.0
mean,165201600.0,54330400.0,2.024006,3.715642,5.754437,4.395987,43.095641,1.33973,16.021844,0.369357,0.197836,0.635566,7.422607
std,102640300.0,38696360.0,1.445403,5.280166,4.064081,2.985108,19.674362,1.705807,8.127566,1.267265,0.930472,1.262863,1.9336
min,12522.0,135.0,1.0,1.0,1.0,1.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0
25%,84961190.0,23413220.0,1.0,1.0,1.0,2.0,31.0,0.0,10.0,0.0,0.0,0.0,6.0
50%,152389000.0,45505140.0,1.0,1.0,7.0,4.0,44.0,1.0,15.0,0.0,0.0,0.0,8.0
75%,230270900.0,87545950.0,3.0,4.0,7.0,6.0,57.0,2.0,20.0,0.0,0.0,1.0,9.0
max,443867200.0,189502600.0,8.0,28.0,25.0,14.0,132.0,6.0,81.0,42.0,76.0,21.0,16.0


In [37]:
# An√°lisis de valores faltantes
print("\n" + "=" * 80)
print("AN√ÅLISIS DE VALORES FALTANTES")
print("=" * 80)

# Valores '?' que se consideran como faltantes
missing_counts = (df == '?').sum()
missing_counts = missing_counts[missing_counts > 0].sort_values(ascending=False)

if len(missing_counts) > 0:
    print("\nColumnas con '?' (valores faltantes):")
    for col, count in missing_counts.items():
        pct = (count / len(df)) * 100
        print(f"  {col:30s}: {count:6d} ({pct:5.2f}%)")
else:
    print("No hay valores '?' en el dataset")

# Valores NaN tradicionales
nan_counts = df.isnull().sum()
nan_counts = nan_counts[nan_counts > 0].sort_values(ascending=False)

if len(nan_counts) > 0:
    print("\nColumnas con NaN:")
    for col, count in nan_counts.items():
        pct = (count / len(df)) * 100
        print(f"  {col:30s}: {count:6d} ({pct:5.2f}%)")
else:
    print("\nNo hay valores NaN en el dataset")


AN√ÅLISIS DE VALORES FALTANTES

Columnas con '?' (valores faltantes):
  weight                        :  98569 (96.86%)
  medical_specialty             :  49949 (49.08%)
  payer_code                    :  40256 (39.56%)
  race                          :   2273 ( 2.23%)
  diag_3                        :   1423 ( 1.40%)
  diag_2                        :    358 ( 0.35%)
  diag_1                        :     21 ( 0.02%)

Columnas con NaN:
  max_glu_serum                 :  96420 (94.75%)
  A1Cresult                     :  84748 (83.28%)


In [38]:
# An√°lisis de duplicados
print("\n" + "=" * 80)
print("AN√ÅLISIS DE DUPLICADOS")
print("=" * 80)

# Duplicados por encounter_id (cada encuentro debe ser √∫nico)
duplicate_encounters = df['encounter_id'].duplicated().sum()
print(f"Registros duplicados por encounter_id: {duplicate_encounters}")

# Duplicados por patient_nbr (un paciente puede tener m√∫ltiples encuentros)
unique_patients = df['patient_nbr'].nunique()
total_encounters = len(df)
print(f"Pacientes √∫nicos: {unique_patients}")
print(f"Total de encuentros: {total_encounters}")
print(f"Promedio de encuentros por paciente: {total_encounters / unique_patients:.2f}")


AN√ÅLISIS DE DUPLICADOS
Registros duplicados por encounter_id: 0
Pacientes √∫nicos: 71518
Total de encuentros: 101766
Promedio de encuentros por paciente: 1.42


### Demostraci√≥n de Operaciones Vectorizadas con NumPy

In [39]:
import time

# Convertir columna num√©rica a array de NumPy
time_in_hospital = df['time_in_hospital'].values

print("=" * 80)
print("COMPARACI√ìN: OPERACIONES VECTORIZADAS vs LOOPS TRADICIONALES")
print("=" * 80)

# Operaci√≥n 1: Calcular suma usando loop tradicional
start_time = time.time()
total_loop = 0
for value in time_in_hospital:
    total_loop += value
time_loop = time.time() - start_time

# Operaci√≥n 1: Calcular suma usando NumPy (vectorizado)
start_time = time.time()
total_numpy = np.sum(time_in_hospital)
time_numpy = time.time() - start_time

print(f"\n1. SUMA DE VALORES:")
print(f"   Loop tradicional: {total_loop:.2f} - Tiempo: {time_loop*1000:.4f} ms")
print(f"   NumPy vectorizado: {total_numpy:.2f} - Tiempo: {time_numpy*1000:.4f} ms")
if time_numpy > 0:
    print(f"   Speedup: {time_loop/time_numpy:.1f}x m√°s r√°pido")
else:
    print(f"   Speedup: NumPy es extremadamente r√°pido (< 0.01ms)")

# Operaci√≥n 2: Calcular media usando loop
start_time = time.time()
mean_loop = sum(time_in_hospital) / len(time_in_hospital)
time_loop = time.time() - start_time

# Operaci√≥n 2: Calcular media usando NumPy
start_time = time.time()
mean_numpy = np.mean(time_in_hospital)
time_numpy = time.time() - start_time

print(f"\n2. MEDIA:")
print(f"   Loop tradicional: {mean_loop:.2f} - Tiempo: {time_loop*1000:.4f} ms")
print(f"   NumPy vectorizado: {mean_numpy:.2f} - Tiempo: {time_numpy*1000:.4f} ms")
if time_numpy > 0:
    print(f"   Speedup: {time_loop/time_numpy:.1f}x m√°s r√°pido")
else:
    print(f"   Speedup: NumPy es extremadamente r√°pido (< 0.01ms)")

# Operaci√≥n 3: Normalizaci√≥n Min-Max usando loop
start_time = time.time()
min_val = min(time_in_hospital)
max_val = max(time_in_hospital)
normalized_loop = [(x - min_val) / (max_val - min_val) for x in time_in_hospital]
time_loop = time.time() - start_time

# Operaci√≥n 3: Normalizaci√≥n Min-Max usando NumPy
start_time = time.time()
normalized_numpy = (time_in_hospital - np.min(time_in_hospital)) / (np.max(time_in_hospital) - np.min(time_in_hospital))
time_numpy = time.time() - start_time

print(f"\n3. NORMALIZACI√ìN MIN-MAX:")
print(f"   Loop tradicional: Tiempo: {time_loop*1000:.4f} ms")
print(f"   NumPy vectorizado: Tiempo: {time_numpy*1000:.4f} ms")
if time_numpy > 0:
    print(f"   Speedup: {time_loop/time_numpy:.1f}x m√°s r√°pido")
else:
    print(f"   Speedup: NumPy es extremadamente r√°pido (< 0.01ms)")

print(f"\n‚úì Las operaciones vectorizadas de NumPy son significativamente m√°s r√°pidas")

COMPARACI√ìN: OPERACIONES VECTORIZADAS vs LOOPS TRADICIONALES

1. SUMA DE VALORES:
   Loop tradicional: 447362.00 - Tiempo: 26.9496 ms
   NumPy vectorizado: 447362.00 - Tiempo: 0.3104 ms
   Speedup: 86.8x m√°s r√°pido

2. MEDIA:
   Loop tradicional: 4.40 - Tiempo: 10.1466 ms
   NumPy vectorizado: 4.40 - Tiempo: 1.0841 ms
   Speedup: 9.4x m√°s r√°pido

3. NORMALIZACI√ìN MIN-MAX:
   Loop tradicional: Tiempo: 46.7839 ms
   NumPy vectorizado: Tiempo: 2.6407 ms
   Speedup: 17.7x m√°s r√°pido

‚úì Las operaciones vectorizadas de NumPy son significativamente m√°s r√°pidas


### Eliminaci√≥n de columnas con mayor√≠a de nulos

Dado que la columna ``weight`` tiene un 97% de nulos, consideramos que la mejor estrategia es eliminarla.

In [40]:
# Drop columna 'weight'
df = df.drop(columns=['weight'])
print(f"  Dimensiones despu√©s de eliminar 'weight': {df.shape[0]} filas √ó {df.shape[1]} columnas")

  Dimensiones despu√©s de eliminar 'weight': 101766 filas √ó 49 columnas


### Imputaci√≥n de Nulos Menores

**Imputaci√≥n de ``race`` con la moda**

In [41]:
# Paso 1: Convertir '?' a NaN solo en la columna 'race'
df['race'] = df['race'].replace('?', np.nan)


In [42]:
# Paso 2: Backup y verificaci√≥n
print("Valores nulos originales en 'race':", df['race'].isna().sum())
df['race_backup'] = df['race'].copy()

Valores nulos originales en 'race': 2273


In [43]:
# Paso 3: Imputaci√≥n
race_imputer = SimpleImputer(strategy='most_frequent')
df['race'] = race_imputer.fit_transform(df[['race']]).ravel()

In [44]:
# Paso 4: Identificar valores imputados
imputed_mask = df['race_backup'].isna() & df['race'].notna()
imputed_values = df.loc[imputed_mask, 'race']

print(f"\nSe imputaron {len(imputed_values)} valores:")
print(imputed_values.value_counts())


Se imputaron 2273 valores:
race
Caucasian    2273
Name: count, dtype: int64


### Sustituci√≥n de nulos en ``payer_code`` y ``medical_specialty`` por ``unknown``

In [45]:
# Sustituir '?' por 'Unknown' en payer_code y medical_specialty
df['payer_code'] = df['payer_code'].replace('?', 'Unknown')
df['medical_specialty'] = df['medical_specialty'].replace('?', 'Unknown')

print(f"‚úì Valores '?' reemplazados por 'Unknown' en payer_code y medical_specialty")
print(f"  payer_code: {(df['payer_code'] == 'Unknown').sum()} valores 'Unknown'")
print(f"  medical_specialty: {(df['medical_specialty'] == 'Unknown').sum()} valores 'Unknown'")

‚úì Valores '?' reemplazados por 'Unknown' en payer_code y medical_specialty
  payer_code: 40256 valores 'Unknown'
  medical_specialty: 49949 valores 'Unknown'


### Transformaci√≥n de Variable Objetivo

In [46]:
# Opci√≥n 1: Readmitido vs No readmitido ¬ø?
df['readmitted_binary'] = (df['readmitted'] != 'NO').astype(int)

# Opci√≥n 2: Readmitido en <30 d√≠as vs resto  ¬ø?
df['early_readmission'] = (df['readmitted'] == '<30').astype(int)

### Encoding de Variables Categ√≥ricas

In [47]:
# Identificar columnas categ√≥ricas y num√©ricas
print("=" * 80)
print("PREPARACI√ìN PARA ENCODING")
print("=" * 80)

# Columnas a excluir del encoding (IDs y columnas ya procesadas)
exclude_cols = ['encounter_id', 'patient_nbr', 'readmitted', 'readmitted_binary', 'early_readmission']

# Identificar columnas categ√≥ricas (object type)
categorical_cols = df.select_dtypes(include=['object']).columns.tolist()
categorical_cols = [col for col in categorical_cols if col not in exclude_cols]

print(f"\nColumnas categ√≥ricas identificadas ({len(categorical_cols)}):")
for col in categorical_cols:
    unique_count = df[col].nunique()
    print(f"  {col:30s}: {unique_count:3d} valores √∫nicos")

# Separar entre nominales (muchos valores) y binarias/ordinales
high_cardinality_cols = [col for col in categorical_cols if df[col].nunique() > 10]
low_cardinality_cols = [col for col in categorical_cols if df[col].nunique() <= 10]

print(f"\nColumnas de alta cardinalidad (>10 valores): {len(high_cardinality_cols)}")
print(f"Columnas de baja cardinalidad (‚â§10 valores): {len(low_cardinality_cols)}")

PREPARACI√ìN PARA ENCODING

Columnas categ√≥ricas identificadas (36):
  race                          :   5 valores √∫nicos
  gender                        :   3 valores √∫nicos
  age                           :  10 valores √∫nicos
  payer_code                    :  18 valores √∫nicos
  medical_specialty             :  73 valores √∫nicos
  diag_1                        : 717 valores √∫nicos
  diag_2                        : 749 valores √∫nicos
  diag_3                        : 790 valores √∫nicos
  max_glu_serum                 :   3 valores √∫nicos
  A1Cresult                     :   3 valores √∫nicos
  metformin                     :   4 valores √∫nicos
  repaglinide                   :   4 valores √∫nicos
  nateglinide                   :   4 valores √∫nicos
  chlorpropamide                :   4 valores √∫nicos
  glimepiride                   :   4 valores √∫nicos
  acetohexamide                 :   2 valores √∫nicos
  glipizide                     :   4 valores √∫nicos
  glyburide 

In [48]:
# Aplicar Label Encoding a columnas de baja cardinalidad
from sklearn.preprocessing import LabelEncoder

print("\n" + "=" * 80)
print("LABEL ENCODING (para columnas de baja cardinalidad)")
print("=" * 80)

label_encoders = {}
df_encoded = df.copy()

for col in low_cardinality_cols:
    le = LabelEncoder()
    df_encoded[col] = le.fit_transform(df_encoded[col].astype(str))
    label_encoders[col] = le
    print(f"‚úì {col}: {len(le.classes_)} clases codificadas")

print(f"\n‚úì Total de columnas con Label Encoding: {len(low_cardinality_cols)}")


LABEL ENCODING (para columnas de baja cardinalidad)
‚úì race: 5 clases codificadas
‚úì gender: 3 clases codificadas
‚úì age: 10 clases codificadas
‚úì max_glu_serum: 4 clases codificadas
‚úì A1Cresult: 4 clases codificadas
‚úì metformin: 4 clases codificadas
‚úì repaglinide: 4 clases codificadas
‚úì nateglinide: 4 clases codificadas
‚úì chlorpropamide: 4 clases codificadas
‚úì glimepiride: 4 clases codificadas
‚úì acetohexamide: 2 clases codificadas
‚úì glipizide: 4 clases codificadas
‚úì glyburide: 4 clases codificadas
‚úì tolbutamide: 2 clases codificadas
‚úì pioglitazone: 4 clases codificadas
‚úì rosiglitazone: 4 clases codificadas
‚úì acarbose: 4 clases codificadas
‚úì miglitol: 4 clases codificadas
‚úì troglitazone: 2 clases codificadas
‚úì tolazamide: 3 clases codificadas
‚úì examide: 1 clases codificadas
‚úì citoglipton: 1 clases codificadas
‚úì insulin: 4 clases codificadas
‚úì glyburide-metformin: 4 clases codificadas
‚úì glipizide-metformin: 2 clases codificadas
‚úì glimepir

In [49]:
# Aplicar One-Hot Encoding a columnas de alta cardinalidad
print("\n" + "=" * 80)
print("ONE-HOT ENCODING (para columnas de alta cardinalidad)")
print("=" * 80)

# Para evitar explosi√≥n dimensional, limitaremos las columnas de alta cardinalidad
# o usaremos frequency encoding como alternativa

print(f"\nColumnas de alta cardinalidad que se procesar√°n:")
for col in high_cardinality_cols:
    print(f"  {col}: {df_encoded[col].nunique()} valores √∫nicos")

# Decisi√≥n: Para payer_code (18 valores) aplicaremos One-Hot
# Para las dem√°s columnas con demasiados valores (diagnosis codes),
# usaremos Label Encoding ya que One-Hot crear√≠a demasiadas columnas

# Columnas para One-Hot (cardinalidad moderada)
onehot_cols = ['payer_code']  # 18 valores √∫nicos es manejable
onehot_cols = [col for col in onehot_cols if col in high_cardinality_cols]

if onehot_cols:
    df_encoded = pd.get_dummies(df_encoded, columns=onehot_cols, prefix=onehot_cols, drop_first=True)
    print(f"\n‚úì One-Hot Encoding aplicado a: {onehot_cols}")
    print(f"  Nuevas columnas creadas: {len([c for c in df_encoded.columns if any(pc in c for pc in onehot_cols)])}")
else:
    print("\n‚ö†Ô∏è  No hay columnas seleccionadas para One-Hot Encoding")

# Para las dem√°s columnas de alta cardinalidad, aplicar Label Encoding
remaining_high_card = [col for col in high_cardinality_cols if col not in onehot_cols]
for col in remaining_high_card:
    le = LabelEncoder()
    df_encoded[col] = le.fit_transform(df_encoded[col].astype(str))
    label_encoders[col] = le
    print(f"‚úì Label Encoding aplicado a {col}")

print(f"\n‚úì Encoding completo. Nueva dimensi√≥n: {df_encoded.shape}")


ONE-HOT ENCODING (para columnas de alta cardinalidad)

Columnas de alta cardinalidad que se procesar√°n:
  payer_code: 18 valores √∫nicos
  medical_specialty: 73 valores √∫nicos
  diag_1: 717 valores √∫nicos
  diag_2: 749 valores √∫nicos
  diag_3: 790 valores √∫nicos

‚úì One-Hot Encoding aplicado a: ['payer_code']
  Nuevas columnas creadas: 17
‚úì Label Encoding aplicado a medical_specialty
‚úì Label Encoding aplicado a diag_1
‚úì Label Encoding aplicado a diag_2
‚úì Label Encoding aplicado a diag_3

‚úì Encoding completo. Nueva dimensi√≥n: (101766, 68)


### Feature Engineering

In [50]:
# Crear nuevas caracter√≠sticas combinadas
print("=" * 80)
print("FEATURE ENGINEERING")
print("=" * 80)

# Feature 1: Total de visitas (outpatient + emergency + inpatient)
df_encoded['total_visits'] = (df_encoded['number_outpatient'] + 
                               df_encoded['number_emergency'] + 
                               df_encoded['number_inpatient'])
print(f"‚úì Feature creada: total_visits")
print(f"  Rango: [{df_encoded['total_visits'].min()}, {df_encoded['total_visits'].max()}]")
print(f"  Media: {df_encoded['total_visits'].mean():.2f}")

# Feature 2: Cambios en medicaci√≥n (change + diabetesMed)
# Primero, convertir a num√©rico si no lo son
if df_encoded['change'].dtype == 'object':
    df_encoded['change'] = df_encoded['change'].map({'No': 0, 'Ch': 1})
if df_encoded['diabetesMed'].dtype == 'object':
    df_encoded['diabetesMed'] = df_encoded['diabetesMed'].map({'No': 0, 'Yes': 1})

df_encoded['medication_changes'] = df_encoded['change'] + df_encoded['diabetesMed']
print(f"\n‚úì Feature creada: medication_changes")
print(f"  Rango: [{df_encoded['medication_changes'].min()}, {df_encoded['medication_changes'].max()}]")
print(f"  Distribuci√≥n:")
print(df_encoded['medication_changes'].value_counts().sort_index())

# Feature 3: Ratio de procedimientos por d√≠a hospitalizado
df_encoded['procedures_per_day'] = df_encoded['num_procedures'] / (df_encoded['time_in_hospital'] + 1)  # +1 para evitar divisi√≥n por 0
print(f"\n‚úì Feature creada: procedures_per_day")
print(f"  Media: {df_encoded['procedures_per_day'].mean():.2f}")

print(f"\n‚úì Feature Engineering completado. Total de features: {df_encoded.shape[1]}")

FEATURE ENGINEERING
‚úì Feature creada: total_visits
  Rango: [0, 80]
  Media: 1.20

‚úì Feature creada: medication_changes
  Rango: [1, 2]
  Distribuci√≥n:
medication_changes
1    70414
2    31352
Name: count, dtype: int64

‚úì Feature creada: procedures_per_day
  Media: 0.30

‚úì Feature Engineering completado. Total de features: 71


### Standard Scaler para variables num√©ricas

In [51]:
from sklearn.preprocessing import StandardScaler

print("=" * 80)
print("NORMALIZACI√ìN DE VARIABLES NUM√âRICAS")
print("=" * 80)

scaler = StandardScaler()

# Identificar columnas num√©ricas (excluyendo las variables objetivo y IDs)
numerical_cols = ['time_in_hospital', 'num_lab_procedures', 'num_procedures', 
                  'num_medications', 'number_outpatient', 'number_emergency', 
                  'number_inpatient', 'number_diagnoses', 'total_visits', 
                  'medication_changes', 'procedures_per_day']

# Verificar que las columnas existen
numerical_cols = [col for col in numerical_cols if col in df_encoded.columns]

print(f"\nColumnas num√©ricas a normalizar ({len(numerical_cols)}):")
for col in numerical_cols:
    print(f"  - {col}")

# Aplicar StandardScaler
df_encoded[numerical_cols] = scaler.fit_transform(df_encoded[numerical_cols])

print(f"\n‚úì Normalizaci√≥n completada")
print(f"  Media despu√©s de escalar (debe ser ~0): {df_encoded[numerical_cols].mean().mean():.6f}")
print(f"  Desviaci√≥n est√°ndar (debe ser ~1): {df_encoded[numerical_cols].std().mean():.6f}")

NORMALIZACI√ìN DE VARIABLES NUM√âRICAS

Columnas num√©ricas a normalizar (11):
  - time_in_hospital
  - num_lab_procedures
  - num_procedures
  - num_medications
  - number_outpatient
  - number_emergency
  - number_inpatient
  - number_diagnoses
  - total_visits
  - medication_changes
  - procedures_per_day

‚úì Normalizaci√≥n completada
  Media despu√©s de escalar (debe ser ~0): 0.000000
  Desviaci√≥n est√°ndar (debe ser ~1): 1.000005


In [52]:
# Decodificaci√≥n inteligente de c√≥digos ICD-9 (diag_1, diag_2, diag_3)
# Crear flags binarios por grupo cl√≠nico y un `comorbidity_score` agregando las condiciones encontradas.

# Asegurar que `df_encoded` existe (si no, crear a partir de `df` cargado previamente)
if 'df_encoded' not in globals():
    if 'df' in globals():
        df_encoded = df.copy()
        print("df_encoded no exist√≠a: creado a partir de df")
    else:
        raise NameError("Neither df_encoded nor df found in the kernel. Ejecuta las celdas previas que cargan el dataset antes de correr esta celda.")


def _prefix_int(code):
    """Return the integer prefix of an ICD-9 code or None for non-numeric codes.
    Examples: '250.01' -> 250, '428' -> 428, 'V45' -> None
    """
    if pd.isna(code):
        return None
    s = str(code).strip()
    if s == '' or s == '?':
        return None
    # take part before dot
    pref = s.split('.')[0]
    # if it starts with non-digit (V, E), ignore for our groups
    if not pref[0].isdigit():
        return None
    try:
        return int(pref)
    except Exception:
        return None


def is_diabetes(code):
    p = _prefix_int(code)
    return p == 250


def is_circulatory(code):
    p = _prefix_int(code)
    if p is None:
        return False
    return (390 <= p <= 459) or (p == 785)


def is_respiratory(code):
    p = _prefix_int(code)
    if p is None:
        return False
    return (460 <= p <= 519) or (p == 786)

# Aplicar a las tres columnas de diagn√≥stico
for i in [1, 2, 3]:
    col = f"diag_{i}"
    # defensivo: si la columna no existe, crear con NaNs
    if col not in df_encoded.columns:
        df_encoded[col] = np.nan
    df_encoded[f"{col}_is_diabetes"] = df_encoded[col].apply(lambda x: 1 if is_diabetes(x) else 0)
    df_encoded[f"{col}_is_circulatory"] = df_encoded[col].apply(lambda x: 1 if is_circulatory(x) else 0)
    df_encoded[f"{col}_is_respiratory"] = df_encoded[col].apply(lambda x: 1 if is_respiratory(x) else 0)

# Flags a nivel paciente
# diabetes_primary: diag_1 es diabetes
if 'diag_1' in df_encoded.columns:
    df_encoded['diabetes_primary'] = df_encoded['diag_1'].apply(lambda x: 1 if is_diabetes(x) else 0)
else:
    df_encoded['diabetes_primary'] = 0

# diabetes_secondary: no es primaria pero aparece en diag_2 o diag_3
diag2_has = df_encoded['diag_2'].apply(lambda x: True if is_diabetes(x) else False) if 'diag_2' in df_encoded.columns else False
diag3_has = df_encoded['diag_3'].apply(lambda x: True if is_diabetes(x) else False) if 'diag_3' in df_encoded.columns else False

df_encoded['diabetes_secondary'] = (((df_encoded['diabetes_primary'] == 0) & (diag2_has | diag3_has))).astype(int)

# Any flags
df_encoded['diabetes_any'] = df_encoded[[f'diag_{i}_is_diabetes' for i in [1,2,3]]].max(axis=1)
df_encoded['circulatory_any'] = df_encoded[[f'diag_{i}_is_circulatory' for i in [1,2,3]]].max(axis=1)
df_encoded['respiratory_any'] = df_encoded[[f'diag_{i}_is_respiratory' for i in [1,2,3]]].max(axis=1)

# Comorbidity score: count how many of these major disease groups are present (0-3)
df_encoded['comorbidity_score'] = (df_encoded['diabetes_any'].astype(int) +
                                   df_encoded['circulatory_any'].astype(int) +
                                   df_encoded['respiratory_any'].astype(int))

# Informes r√°pidos
print("=" * 80)
print("ICD-9 DECODING Y COMORBIDITY FEATURES")
print("=" * 80)
print(f"Total registros: {len(df_encoded)}")
print("\nSuma de banderas principales (n√∫mero de registros que tienen la condici√≥n):")
print(df_encoded[['diabetes_any','diabetes_primary','diabetes_secondary','circulatory_any','respiratory_any','comorbidity_score']].sum())
print("\nComorbidity score - valores y porcentajes:")
print(df_encoded['comorbidity_score'].value_counts().sort_index())
print((df_encoded['comorbidity_score'].value_counts(normalize=True)*100).sort_index())

# Mostrar algunas filas de ejemplo
print("\n" + "-"*80)
print("VISTA PREVIA: columnas relevantes para comorbilidades")
display(df_encoded[[ 'diag_1','diag_2','diag_3', 'diabetes_primary','diabetes_secondary', 'diabetes_any','circulatory_any','respiratory_any','comorbidity_score']].head(10))

# Re-guardar el dataset limpio incluyendo las nuevas features
output_path = "data/diabetes_clean.csv"
df_encoded.to_csv(output_path, index=False)
print(f"\n‚úì Dataset limpio (actualizado) guardado en: {output_path}")


ICD-9 DECODING Y COMORBIDITY FEATURES
Total registros: 101766

Suma de banderas principales (n√∫mero de registros que tienen la condici√≥n):
diabetes_any            146
diabetes_primary         30
diabetes_secondary      116
circulatory_any       20551
respiratory_any       17007
comorbidity_score     37704
dtype: int64

Comorbidity score - valores y porcentajes:
comorbidity_score
0    66998
1    31835
2     2930
3        3
Name: count, dtype: int64
comorbidity_score
0    65.835348
1    31.282550
2     2.879154
3     0.002948
Name: proportion, dtype: float64

--------------------------------------------------------------------------------
VISTA PREVIA: columnas relevantes para comorbilidades


Unnamed: 0,diag_1,diag_2,diag_3,diabetes_primary,diabetes_secondary,diabetes_any,circulatory_any,respiratory_any,comorbidity_score
0,124,650,670,0,0,0,0,0,0
1,143,79,121,0,0,0,0,0,0
2,454,78,767,0,0,0,1,0,1
3,554,97,248,0,0,0,0,0,0
4,54,24,86,0,0,0,0,0,0
5,263,246,86,0,0,0,0,0,0
6,263,246,771,0,0,0,0,0,0
7,276,314,86,0,0,0,0,0,0
8,252,260,229,0,0,0,0,0,0
9,282,46,317,0,0,0,0,0,0



‚úì Dataset limpio (actualizado) guardado en: data/diabetes_clean.csv


In [53]:
# --- CODIGO DE EXTENSI√ìN: DIGESTIVE & NEOPLASMS ---

# 1. Definimos las nuevas funciones de chequeo basadas en los rangos ICD-9 est√°ndar
def is_digestive(code):
    """C√≥digos 520-579 (Enf. Sistema Digestivo) y 787 (S√≠ntomas sistema digestivo)"""
    p = _prefix_int(code)
    if p is None: return False
    return (520 <= p <= 579) or (p == 787)

def is_neoplasms(code):
    """C√≥digos 140-239 (Tumores / C√°ncer)"""
    p = _prefix_int(code)
    if p is None: return False
    return (140 <= p <= 239)

def is_injury(code):
    """C√≥digos 800-999 (Lesiones y envenenamientos) - Opcional pero recomendado"""
    p = _prefix_int(code)
    if p is None: return False
    return (800 <= p <= 999)

# 2. Aplicamos a las columnas diag_1, diag_2, diag_3
# (Asumimos que df_encoded ya tiene las anteriores procesadas)

groups_to_add = [
    ('digestive', is_digestive),
    ('neoplasms', is_neoplasms),
    ('injury', is_injury) # Puedes quitar esta l√≠nea si no quieres incluir lesiones
]

for col_name, func in groups_to_add:
    # Flag por cada columna de diagn√≥stico (diag_1, diag_2, diag_3)
    for i in [1, 2, 3]:
        df_encoded[f'diag_{i}_is_{col_name}'] = df_encoded[f'diag_{i}'].apply(lambda x: 1 if func(x) else 0)
    
    # Flag global "ANY" (¬øTiene esta condici√≥n en alguno de los 3 diagn√≥sticos?)
    cols_to_check = [f'diag_{i}_is_{col_name}' for i in [1, 2, 3]]
    df_encoded[f'{col_name}_any'] = df_encoded[cols_to_check].max(axis=1)

# 3. ACTUALIZACI√ìN DEL COMORBIDITY SCORE
# Ahora sumamos las 3 anteriores + las nuevas. El score m√°ximo sube.
# (Nota: Aseg√∫rate de tener calculadas diabetes_any, circulatory_any, respiratory_any del paso anterior)

df_encoded['comorbidity_score_v2'] = (
    df_encoded['diabetes_any'].astype(int) +
    df_encoded['circulatory_any'].astype(int) +
    df_encoded['respiratory_any'].astype(int) +
    df_encoded['digestive_any'].astype(int) +
    df_encoded['neoplasms_any'].astype(int) +
    df_encoded['injury_any'].astype(int)
)

# --- REPORTING DE RESULTADOS ---
print("=" * 60)
print("NUEVAS COMORBILIDADES AGREGADAS")
print("=" * 60)
print("\nConteo de pacientes con las nuevas condiciones (ANY):")
print(df_encoded[['digestive_any', 'neoplasms_any', 'injury_any']].sum())

print("\nComparaci√≥n de Scores:")
print("Score Original (0-3) vs Nuevo Score V2 (0-6)")
print("-" * 40)
print(df_encoded['comorbidity_score_v2'].value_counts().sort_index())

# Verificamos un paciente que tenga Neoplasms para ver si funcion√≥
print("\nEjemplo de pacientes con Neoplasms (C√°ncer):")
example_neoplasms = df_encoded[df_encoded['neoplasms_any'] == 1][['diag_1', 'diag_2', 'neoplasms_any', 'comorbidity_score_v2']].head(5)
display(example_neoplasms)

NUEVAS COMORBILIDADES AGREGADAS

Conteo de pacientes con las nuevas condiciones (ANY):
digestive_any    16330
neoplasms_any    24240
injury_any           0
dtype: int64

Comparaci√≥n de Scores:
Score Original (0-3) vs Nuevo Score V2 (0-6)
----------------------------------------
comorbidity_score_v2
0    40129
1    45795
2    15047
3      795
Name: count, dtype: int64

Ejemplo de pacientes con Neoplasms (C√°ncer):


Unnamed: 0,diag_1,diag_2,neoplasms_any,comorbidity_score_v2
1,143,79,1,1
8,252,260,1,1
11,26,145,1,1
22,259,239,1,2
25,540,239,1,2


In [54]:
# Eliminar columnas innecesarias antes de guardar
print("=" * 80)
print("PREPARACI√ìN FINAL Y GUARDADO")
print("=" * 80)

# Eliminar la columna original 'readmitted' y columnas de backup
cols_to_drop = ['readmitted']
if 'race_backup' in df_encoded.columns:
    cols_to_drop.append('race_backup')

df_encoded = df_encoded.drop(cols_to_drop, axis=1, errors='ignore')

print(f"\n‚úì Columnas eliminadas: {cols_to_drop}")
print(f"  Dimensiones finales: {df_encoded.shape[0]} filas √ó {df_encoded.shape[1]} columnas")

# Guardar el dataset limpio
output_path = "data/diabetes_clean.csv"
df_encoded.to_csv(output_path, index=False)
print(f"\n‚úì Dataset limpio guardado en: {output_path}")

# Mostrar vista previa
print("\n" + "=" * 80)
print("VISTA PREVIA DEL DATASET LIMPIO")
print("=" * 80)
display(df_encoded.head())

# Informaci√≥n final
print("\n" + "=" * 80)
print("RESUMEN FINAL")
print("=" * 80)
print(f"Total de registros: {len(df_encoded)}")
print(f"Total de features: {df_encoded.shape[1]}")
print(f"\nVariables objetivo disponibles:")
print(f"  - readmitted_binary: Clasificaci√≥n binaria (readmitido vs no readmitido)")
print(f"  - early_readmission: Readmisi√≥n temprana <30 d√≠as (m√°s cr√≠tica)")
print(f"\nDistribuci√≥n de early_readmission:")
print(df_encoded['early_readmission'].value_counts())
print(f"\nTipos de datos:")
print(df_encoded.dtypes.value_counts())

PREPARACI√ìN FINAL Y GUARDADO

‚úì Columnas eliminadas: ['readmitted', 'race_backup']
  Dimensiones finales: 101766 filas √ó 97 columnas

‚úì Dataset limpio guardado en: data/diabetes_clean.csv

VISTA PREVIA DEL DATASET LIMPIO


Unnamed: 0,encounter_id,patient_nbr,race,gender,age,admission_type_id,discharge_disposition_id,admission_source_id,time_in_hospital,medical_specialty,...,digestive_any,diag_1_is_neoplasms,diag_2_is_neoplasms,diag_3_is_neoplasms,neoplasms_any,diag_1_is_injury,diag_2_is_injury,diag_3_is_injury,injury_any,comorbidity_score_v2
0,2278392,8222157,2,0,0,6,25,1,-1.137649,37,...,0,0,0,0,0,0,0,0,0,0
1,149190,55629189,2,0,1,1,1,7,-0.467653,71,...,0,1,0,0,1,0,0,0,0,1
2,64410,86047875,0,0,2,1,1,7,-0.802651,71,...,0,0,0,0,0,0,0,0,0,1
3,500364,82442376,2,1,3,1,1,7,-0.802651,71,...,1,0,0,0,0,0,0,0,0,1
4,16680,42519267,2,1,4,1,1,7,-1.137649,71,...,0,0,0,0,0,0,0,0,0,0



RESUMEN FINAL
Total de registros: 101766
Total de features: 97

Variables objetivo disponibles:
  - readmitted_binary: Clasificaci√≥n binaria (readmitido vs no readmitido)
  - early_readmission: Readmisi√≥n temprana <30 d√≠as (m√°s cr√≠tica)

Distribuci√≥n de early_readmission:
early_readmission
0    90409
1    11357
Name: count, dtype: int64

Tipos de datos:
int64      69
bool       17
float64    11
Name: count, dtype: int64


### TODO: An√°lisis del Desbalance de Clases


### Balanceo con SMOTE o class_weight = 'balanced' (VA JUSTO DESPU√âS DE HACER LA DIVISI√ìN DE ENTRENAMIENTO )
**Nota:** El balanceo de clases se manejar√° durante el entrenamiento de modelos usando `class_weight='balanced'` en los algoritmos o aplicando SMOTE si es necesario.