# An√°lisis Exploratorio de Datos (EDA) - Pipeline

Este notebook proporciona un an√°lisis exploratorio completo y autom√°tico para cualquier dataset.

**Funcionalidades:**
- Carga autom√°tica de datos desde CSV
- Detecci√≥n autom√°tica de tipos de datos
- An√°lisis estad√≠stico descriptivo
- Detecci√≥n de valores faltantes y outliers
- Visualizaciones autom√°ticas por tipo de variable
- Correlaci√≥n entre variables num√©ricas
- Distribuci√≥n de variables categ√≥ricas
- Resumen ejecutivo del dataset

In [1]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Configurar estilos visuales
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

print("‚úì Librer√≠as importadas correctamente")

‚úì Librer√≠as importadas correctamente


## 1. Cargar el Dataset

Carga de datos desde CSV. Por defecto busca `Base_de_datos.csv` en la ra√≠z del proyecto.

In [2]:
import os
import json

# Posibles rutas donde puede estar el dataset
possible_paths = [
    "../../alzheimers_disease_data.csv",
    "../../../alzheimers_disease_data.csv", 
    "../../data/alzheimers_disease_data.csv",
    "../../../data/alzheimers_disease_data.csv",
    "alzheimers_disease_data.csv",
    "./data/alzheimers_disease_data.csv"
]

# Cargar configuraci√≥n
config_path = "../../config.json"
data_path = None

if os.path.exists(config_path):
    with open(config_path, 'r') as f:
        config = json.load(f)
        configured_path = config.get('data_path', '')
        if configured_path and os.path.exists(configured_path):
            data_path = configured_path

# Si no se encontr√≥ en config, buscar en rutas posibles
if data_path is None:
    for path in possible_paths:
        if os.path.exists(path):
            data_path = path
            break

# Si a√∫n no se encuentra, mostrar error informativo
if data_path is None:
    print("‚ùå No se encontr√≥ el archivo del dataset.")
    print("üìÅ Rutas buscadas:")
    for path in possible_paths:
        print(f"   ‚Ä¢ {path}")
    print("\nüí° Soluciones:")
    print("   1. Colocar 'alzheimers_disease_data.csv' en la carpeta ra√≠z del proyecto")
    print("   2. Actualizar la ruta en config.json")
    print("   3. Verificar la estructura de carpetas del proyecto")
    raise FileNotFoundError("Dataset no encontrado en ninguna de las rutas esperadas")

# Cargar dataset
df = pd.read_csv(data_path)

print(f"‚úì Dataset cargado desde: {data_path}")
print(f"  Dimensiones: {df.shape[0]} filas √ó {df.shape[1]} columnas")
print(f"\n  Primeras filas del dataset:")
df.head()

‚úì Dataset cargado desde: ../../../alzheimers_disease_data.csv
  Dimensiones: 2149 filas √ó 35 columnas

  Primeras filas del dataset:


Unnamed: 0,PatientID,Age,Gender,Ethnicity,EducationLevel,BMI,Smoking,AlcoholConsumption,PhysicalActivity,DietQuality,...,MemoryComplaints,BehavioralProblems,ADL,Confusion,Disorientation,PersonalityChanges,DifficultyCompletingTasks,Forgetfulness,Diagnosis,DoctorInCharge
0,4751,73,0,0,2,22.927749,0,13.297218,6.327112,1.347214,...,0,0,1.725883,0,0,0,1,0,0,XXXConfid
1,4752,89,0,0,0,26.827681,0,4.542524,7.619885,0.518767,...,0,0,2.592424,0,0,0,0,1,0,XXXConfid
2,4753,73,0,3,1,17.795882,0,19.555085,7.844988,1.826335,...,0,0,7.119548,0,1,0,1,0,0,XXXConfid
3,4754,74,1,0,1,33.800817,1,12.209266,8.428001,7.435604,...,0,1,6.481226,0,0,0,0,0,0,XXXConfid
4,4755,89,0,0,0,20.716974,0,18.454356,6.310461,0.795498,...,0,0,0.014691,0,0,1,1,0,0,XXXConfid


## 1.5 Clasificaci√≥n y Tipificaci√≥n de Variables

Identificaci√≥n expl√≠cita del rol y tipo de cada variable en el dataset.


In [3]:
# CLASIFICACI√ìN EXPL√çCITA DE VARIABLES
print("="*80)
print("CLASIFICACI√ìN Y TIPIFICACI√ìN DE VARIABLES")
print("="*80)

# Identificar variables de ID (irrelevantes para an√°lisis)
id_columns = [col for col in df.columns if any(x in col.lower() for x in ['id', 'index', 'patientid', 'doctorincharge'])]

# Identificar target
target_candidates = ['Diagnosis', 'diagnosis', 'target', 'Target']
target_column = None
for col in target_candidates:
    if col in df.columns:
        target_column = col
        break

# Clasificar variables num√©ricas
numeric_continuous = []
numeric_discrete = []

for col in df.select_dtypes(include=[np.number]).columns:
    if col in id_columns or col == target_column:
        continue
    
    # Heur√≠stica: si tiene menos de 10 valores √∫nicos, probablemente es discreta
    unique_count = df[col].nunique()
    if unique_count < 10:
        numeric_discrete.append(col)
    else:
        numeric_continuous.append(col)

# Clasificar variables categ√≥ricas
categorical_nominal = []
categorical_ordinal = []
categorical_binary = []

# Palabras clave que sugieren orden
ordinal_keywords = ['severity', 'stage', 'level', 'grade', 'quality', 'score', 'rating']

for col in df.select_dtypes(include=['object', 'category']).columns:
    if col in id_columns or col == target_column:
        continue
    
    unique_count = df[col].nunique()
    
    # Variables binarias
    if unique_count == 2:
        categorical_binary.append(col)
    # Variables ordinales (basado en palabras clave)
    elif any(keyword in col.lower() for keyword in ordinal_keywords):
        categorical_ordinal.append(col)
    # Variables nominales
    else:
        categorical_nominal.append(col)

# Variables num√©ricas que son realmente categ√≥ricas binarias (0/1)
for col in df.select_dtypes(include=[np.number]).columns:
    if col not in id_columns and col != target_column:
        if df[col].nunique() == 2 and set(df[col].unique()).issubset({0, 1, np.nan}):
            # Mover de num√©rica a binaria
            if col in numeric_discrete:
                numeric_discrete.remove(col)
            categorical_binary.append(col)

print("\nüìä RESUMEN DE CLASIFICACI√ìN:")
print("-"*80)
print(f"Total de variables: {len(df.columns)}")
print(f"\nüéØ Variable Objetivo: {target_column if target_column else 'No identificada'}")
print(f"üî¢ Variables de Identificaci√≥n (a eliminar): {len(id_columns)}")
if id_columns:
    for col in id_columns:
        print(f"   ‚Ä¢ {col}")

print(f"\nüìà VARIABLES NUM√âRICAS ({len(numeric_continuous) + len(numeric_discrete)}):")
print(f"   ‚Ä¢ Continuas: {len(numeric_continuous)}")
if numeric_continuous:
    for col in numeric_continuous[:10]:  # Mostrar m√°ximo 10
        print(f"      - {col}")
    if len(numeric_continuous) > 10:
        print(f"      ... y {len(numeric_continuous) - 10} m√°s")

print(f"\n   ‚Ä¢ Discretas: {len(numeric_discrete)}")
if numeric_discrete:
    for col in numeric_discrete:
        print(f"      - {col}")

print(f"\nüìä VARIABLES CATEG√ìRICAS ({len(categorical_binary) + len(categorical_nominal) + len(categorical_ordinal)}):")
print(f"   ‚Ä¢ Binarias: {len(categorical_binary)}")
if categorical_binary:
    for col in categorical_binary[:10]:
        print(f"      - {col}")
    if len(categorical_binary) > 10:
        print(f"      ... y {len(categorical_binary) - 10} m√°s")

print(f"\n   ‚Ä¢ Nominales: {len(categorical_nominal)}")
if categorical_nominal:
    for col in categorical_nominal:
        print(f"      - {col}")

print(f"\n   ‚Ä¢ Ordinales: {len(categorical_ordinal)}")
if categorical_ordinal:
    for col in categorical_ordinal:
        print(f"      - {col}")

# Guardar clasificaci√≥n para uso posterior
variable_classification = {
    'target': target_column,
    'id_columns': id_columns,
    'numeric_continuous': numeric_continuous,
    'numeric_discrete': numeric_discrete,
    'categorical_binary': categorical_binary,
    'categorical_nominal': categorical_nominal,
    'categorical_ordinal': categorical_ordinal
}

print("\n" + "="*80)
print("‚úÖ Clasificaci√≥n completada y guardada en 'variable_classification'")
print("="*80)


CLASIFICACI√ìN Y TIPIFICACI√ìN DE VARIABLES

üìä RESUMEN DE CLASIFICACI√ìN:
--------------------------------------------------------------------------------
Total de variables: 35

üéØ Variable Objetivo: Diagnosis
üî¢ Variables de Identificaci√≥n (a eliminar): 3
   ‚Ä¢ PatientID
   ‚Ä¢ CholesterolTriglycerides
   ‚Ä¢ DoctorInCharge

üìà VARIABLES NUM√âRICAS (16):
   ‚Ä¢ Continuas: 14
      - Age
      - BMI
      - AlcoholConsumption
      - PhysicalActivity
      - DietQuality
      - SleepQuality
      - SystolicBP
      - DiastolicBP
      - CholesterolTotal
      - CholesterolLDL
      ... y 4 m√°s

   ‚Ä¢ Discretas: 2
      - Ethnicity
      - EducationLevel

üìä VARIABLES CATEG√ìRICAS (15):
   ‚Ä¢ Binarias: 15
      - Gender
      - Smoking
      - FamilyHistoryAlzheimers
      - CardiovascularDisease
      - Diabetes
      - Depression
      - HeadInjury
      - Hypertension
      - MemoryComplaints
      - BehavioralProblems
      ... y 5 m√°s

   ‚Ä¢ Nominales: 0

   ‚Ä¢ 

## 2. Informaci√≥n General del Dataset

Inspecci√≥n de tipos de datos, memoria utilizada y estructura general.

In [4]:
# Crear resumen de informaci√≥n
print("="*80)
print("INFORMACI√ìN GENERAL DEL DATASET")
print("="*80)
print(f"\nDimensiones: {df.shape[0]} filas √ó {df.shape[1]} columnas")
print(f"Memoria utilizada: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB\n")

print("TIPOS DE DATOS:")
print("-" * 80)
dtype_info = pd.DataFrame({
    'Columna': df.columns,
    'Tipo': df.dtypes,
    'No Nulos': df.count(),
    'Nulos': df.isnull().sum(),
    '% Nulos': (df.isnull().sum() / len(df) * 100).round(2)
})
print(dtype_info.to_string(index=False))
print("\n" + "="*80)

INFORMACI√ìN GENERAL DEL DATASET

Dimensiones: 2149 filas √ó 35 columnas
Memoria utilizada: 0.69 MB

TIPOS DE DATOS:
--------------------------------------------------------------------------------
                  Columna    Tipo  No Nulos  Nulos  % Nulos
                PatientID   int64      2149      0      0.0
                      Age   int64      2149      0      0.0
                   Gender   int64      2149      0      0.0
                Ethnicity   int64      2149      0      0.0
           EducationLevel   int64      2149      0      0.0
                      BMI float64      2149      0      0.0
                  Smoking   int64      2149      0      0.0
       AlcoholConsumption float64      2149      0      0.0
         PhysicalActivity float64      2149      0      0.0
              DietQuality float64      2149      0      0.0
             SleepQuality float64      2149      0      0.0
  FamilyHistoryAlzheimers   int64      2149      0      0.0
    CardiovascularDise

## 3. Estad√≠sticas Descriptivas

An√°lisis estad√≠stico autom√°tico seg√∫n el tipo de variable.

In [5]:
# Estad√≠sticas para variables num√©ricas
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
categorical_cols = df.select_dtypes(include=['object']).columns.tolist()

print("\n" + "="*80)
print("ESTAD√çSTICAS NUM√âRICAS")
print("="*80 + "\n")

if numeric_cols:
    stats = df[numeric_cols].describe().T
    stats['Rango'] = df[numeric_cols].max() - df[numeric_cols].min()
    stats['Asimetr√≠a'] = df[numeric_cols].skew()
    stats['Curtosis'] = df[numeric_cols].kurtosis()
    print(stats.round(3))
else:
    print("No hay variables num√©ricas en el dataset.")

print("\n" + "="*80)
print("ESTAD√çSTICAS CATEG√ìRICAS")
print("="*80 + "\n")

if categorical_cols:
    for col in categorical_cols:
        print(f"üìä {col}")
        print(f"   Valores √∫nicos: {df[col].nunique()}")
        print(f"   M√°s frecuente: {df[col].value_counts().index[0]} ({df[col].value_counts().values[0]} veces)")
        print(f"   Distribuci√≥n:\n{df[col].value_counts()}\n")
else:
    print("No hay variables categ√≥ricas en el dataset.")


ESTAD√çSTICAS NUM√âRICAS

                            count      mean      std       min       25%  \
PatientID                  2149.0  5825.000  620.507  4751.000  5288.000   
Age                        2149.0    74.909    8.990    60.000    67.000   
Gender                     2149.0     0.506    0.500     0.000     0.000   
Ethnicity                  2149.0     0.698    0.996     0.000     0.000   
EducationLevel             2149.0     1.287    0.905     0.000     1.000   
BMI                        2149.0    27.656    7.217    15.009    21.611   
Smoking                    2149.0     0.289    0.453     0.000     0.000   
AlcoholConsumption         2149.0    10.039    5.758     0.002     5.140   
PhysicalActivity           2149.0     4.920    2.857     0.004     2.571   
DietQuality                2149.0     4.993    2.909     0.009     2.458   
SleepQuality               2149.0     7.051    1.764     4.003     5.483   
FamilyHistoryAlzheimers    2149.0     0.252    0.434     0.00

## 4. An√°lisis de Valores Faltantes

Detecci√≥n y visualizaci√≥n de datos faltantes.

In [6]:
# An√°lisis de valores faltantes
print("\n" + "="*80)
print("AN√ÅLISIS DE VALORES FALTANTES")
print("="*80 + "\n")

missing_data = pd.DataFrame({
    'Columna': df.columns,
    'Nulos': df.isnull().sum(),
    '% Nulos': (df.isnull().sum() / len(df) * 100).round(2),
    'Tipo': df.dtypes
})

missing_data = missing_data[missing_data['Nulos'] > 0].sort_values('% Nulos', ascending=False)

if len(missing_data) > 0:
    print("Columnas con valores faltantes:")
    print(missing_data.to_string(index=False))
    
    # Visualizar patrones de valores faltantes
    if len(missing_data) <= 10:
        fig, ax = plt.subplots(figsize=(10, 4))
        missing_data_sorted = missing_data.sort_values('% Nulos', ascending=True)
        ax.barh(missing_data_sorted['Columna'], missing_data_sorted['% Nulos'], color='coral')
        ax.set_xlabel('% de Valores Faltantes')
        ax.set_title('Distribuci√≥n de Valores Faltantes')
        ax.grid(axis='x', alpha=0.3)
        plt.tight_layout()
        plt.show()
else:
    print("‚úì No hay valores faltantes en el dataset")


AN√ÅLISIS DE VALORES FALTANTES

‚úì No hay valores faltantes en el dataset


## 4.5 Unificaci√≥n de Representaciones de Valores Nulos

Estandarizaci√≥n de distintas representaciones de valores faltantes a un formato √∫nico.


In [7]:
# Unificar representaciones de valores nulos
print("\n" + "="*80)
print("UNIFICACI√ìN DE VALORES NULOS")
print("="*80 + "\n")

# Valores que representan "nulo" en diferentes formatos
null_representations = ['NA', 'N/A', 'na', 'n/a', 'NULL', 'null', 'None', 'none', 
                        '', ' ', '  ', 'NaN', 'nan', 'missing', 'Missing', '-', '--', '?', 'unknown', 'Unknown']

print("üîç Buscando representaciones alternativas de valores nulos...")
print(f"   Representaciones buscadas: {len(null_representations)}")

# Analizar cada columna
unification_report = []
total_unified = 0

for col in df.columns:
    if df[col].dtype == 'object':  # Solo en columnas de texto
        # Contar valores antes
        nulls_before = df[col].isnull().sum()
        
        # Reemplazar representaciones alternativas con NaN
        df[col] = df[col].replace(null_representations, np.nan)
        
        # Tambi√©n remover strings que son solo espacios
        df[col] = df[col].apply(lambda x: np.nan if isinstance(x, str) and x.strip() == '' else x)
        
        # Contar valores despu√©s
        nulls_after = df[col].isnull().sum()
        
        # Si hubo cambios, reportar
        if nulls_after > nulls_before:
            unified_count = nulls_after - nulls_before
            total_unified += unified_count
            unification_report.append({
                'Columna': col,
                'Nulos Antes': nulls_before,
                'Nulos Despu√©s': nulls_after,
                'Unificados': unified_count
            })

if unification_report:
    print(f"\n‚úÖ Se unificaron {total_unified} valores nulos en {len(unification_report)} columna(s):\n")
    
    unification_df = pd.DataFrame(unification_report)
    print(unification_df.to_string(index=False))
    
    print(f"\nüìä Total de valores unificados: {total_unified}")
    print(f"   Porcentaje del dataset: {(total_unified / (df.shape[0] * df.shape[1]) * 100):.3f}%")
else:
    print("\n‚úì No se encontraron representaciones alternativas de valores nulos")
    print("  Todos los valores nulos ya est√°n en formato est√°ndar (NaN)")

print("\nüí° Recomendaci√≥n:")
print("   En el preprocesamiento, asegurar que todas las fuentes de datos")
print("   usen un formato consistente para valores nulos (preferiblemente NaN/NULL)")

print("\n" + "="*80)



UNIFICACI√ìN DE VALORES NULOS

üîç Buscando representaciones alternativas de valores nulos...
   Representaciones buscadas: 20

‚úì No se encontraron representaciones alternativas de valores nulos
  Todos los valores nulos ya est√°n en formato est√°ndar (NaN)

üí° Recomendaci√≥n:
   En el preprocesamiento, asegurar que todas las fuentes de datos
   usen un formato consistente para valores nulos (preferiblemente NaN/NULL)



## 4.6 Identificaci√≥n y Eliminaci√≥n de Variables Irrelevantes

Detecci√≥n de columnas sin valor anal√≠tico (IDs, columnas constantes, alta cardinalidad sin informaci√≥n).


In [12]:
# Identificar y eliminar variables irrelevantes
print("\n" + "="*80)
print("IDENTIFICACI√ìN DE VARIABLES IRRELEVANTES")
print("="*80 + "\n")

irrelevant_columns = []
irrelevant_reasons = {}

# 1. Columnas de identificaci√≥n (sin valor predictivo)
# Solo identificar por palabras clave expl√≠citas en el nombre
id_keywords = ['id', 'index', 'patient', 'doctor', 'uid', 'key', 'code']
for col in df.columns:
    if any(keyword in col.lower() for keyword in id_keywords):
        if col not in irrelevant_columns:
            irrelevant_columns.append(col)
            irrelevant_reasons[col] = "Columna de identificaci√≥n (sin valor predictivo)"

# 2. Columnas con un solo valor √∫nico (constantes)
for col in df.columns:
    if df[col].nunique() == 1:
        if col not in irrelevant_columns:
            irrelevant_columns.append(col)
            irrelevant_reasons[col] = f"Columna constante (1 √∫nico valor: {df[col].unique()[0]})"

# 3. Columnas con casi todos valores nulos (>95%)
null_threshold = 0.95
for col in df.columns:
    null_pct = df[col].isnull().sum() / len(df)
    if null_pct > null_threshold:
        if col not in irrelevant_columns:
            irrelevant_columns.append(col)
            irrelevant_reasons[col] = f"Exceso de nulos ({null_pct*100:.1f}% faltantes)"

# 4. Columnas categ√≥ricas con cardinalidad extremadamente alta (>90% valores √∫nicos)
# Estas podr√≠an ser texto libre o IDs enmascarados
for col in df.select_dtypes(include=['object']).columns:
    if col not in irrelevant_columns:
        unique_ratio = df[col].nunique() / len(df)
        if unique_ratio > 0.9:
            irrelevant_columns.append(col)
            irrelevant_reasons[col] = f"Cardinalidad muy alta - Posible ID/Texto libre ({df[col].nunique()} valores √∫nicos, {unique_ratio*100:.1f}% del dataset)"

print(f"üîç VARIABLES IRRELEVANTES IDENTIFICADAS: {len(irrelevant_columns)}")
print("-"*80)

if irrelevant_columns:
    for col in irrelevant_columns:
        print(f"\n‚ùå {col}")
        print(f"   Raz√≥n: {irrelevant_reasons[col]}")
        print(f"   Tipo: {df[col].dtype}")
        print(f"   Valores √∫nicos: {df[col].nunique()}")
        print(f"   Valores nulos: {df[col].isnull().sum()} ({df[col].isnull().sum()/len(df)*100:.1f}%)")
    
    # Crear dataframe limpio (sin eliminar del original para preservar an√°lisis)
    df_clean = df.drop(columns=irrelevant_columns)
    
    print("\n" + "="*80)
    print(f"‚úÖ Se identificaron {len(irrelevant_columns)} variable(s) irrelevante(s)")
    print(f"üìä Dataset original: {df.shape[0]} filas √ó {df.shape[1]} columnas")
    print(f"üìä Dataset limpio: {df_clean.shape[0]} filas √ó {df_clean.shape[1]} columnas")
    print(f"   Columnas eliminadas: {len(irrelevant_columns)}")
    
    print("\nüí° Recomendaci√≥n:")
    print("   Estas columnas deben eliminarse en el preprocesamiento de datos")
    print("   antes de construir modelos de Machine Learning.")
    
    # Guardar lista para uso posterior
    columns_to_remove = irrelevant_columns
    
else:
    print("\n‚úì No se encontraron variables irrelevantes en el dataset")
    print("  Todas las columnas parecen tener valor anal√≠tico potencial")
    df_clean = df.copy()
    columns_to_remove = []

print("\n" + "="*80)



IDENTIFICACI√ìN DE VARIABLES IRRELEVANTES

üîç VARIABLES IRRELEVANTES IDENTIFICADAS: 3
--------------------------------------------------------------------------------

‚ùå PatientID
   Raz√≥n: Columna de identificaci√≥n (sin valor predictivo)
   Tipo: int64
   Valores √∫nicos: 2149
   Valores nulos: 0 (0.0%)

‚ùå CholesterolTriglycerides
   Raz√≥n: Columna de identificaci√≥n (sin valor predictivo)
   Tipo: float64
   Valores √∫nicos: 2149
   Valores nulos: 0 (0.0%)

‚ùå DoctorInCharge
   Raz√≥n: Columna de identificaci√≥n (sin valor predictivo)
   Tipo: object
   Valores √∫nicos: 1
   Valores nulos: 0 (0.0%)

‚úÖ Se identificaron 3 variable(s) irrelevante(s)
üìä Dataset original: 2149 filas √ó 35 columnas
üìä Dataset limpio: 2149 filas √ó 32 columnas
   Columnas eliminadas: 3

üí° Recomendaci√≥n:
   Estas columnas deben eliminarse en el preprocesamiento de datos
   antes de construir modelos de Machine Learning.



## 4.7 Conversi√≥n y Correcci√≥n de Tipos de Datos

Detecci√≥n y correcci√≥n de columnas con tipos de datos incorrectos.


In [13]:
# Detecci√≥n y correcci√≥n de tipos de datos incorrectos
print("\n" + "="*80)
print("CONVERSI√ìN Y CORRECCI√ìN DE TIPOS DE DATOS")
print("="*80 + "\n")

type_conversions = []

# Trabajar con df_clean si existe, sino con df
df_to_fix = df_clean.copy() if 'df_clean' in locals() else df.copy()

print("üîç Analizando tipos de datos actuales...\n")

# 1. Detectar n√∫meros almacenados como strings
for col in df_to_fix.select_dtypes(include=['object']).columns:
    # Intentar convertir a num√©rico
    try:
        # Verificar si la columna parece num√©rica
        sample = df_to_fix[col].dropna().head(100)
        
        # Intentar conversi√≥n
        converted = pd.to_numeric(sample, errors='coerce')
        
        # Si >80% se convirti√≥ exitosamente, probablemente es num√©rica
        success_rate = converted.notna().sum() / len(sample)
        
        if success_rate > 0.8:
            df_to_fix[col] = pd.to_numeric(df_to_fix[col], errors='coerce')
            type_conversions.append({
                'Columna': col,
                'Tipo Anterior': 'object',
                'Tipo Nuevo': 'numeric',
                'Raz√≥n': f'Columna num√©rica almacenada como texto ({success_rate*100:.0f}% conversi√≥n exitosa)'
            })
    except:
        pass

# 2. Detectar variables binarias que deber√≠an ser categ√≥ricas
for col in df_to_fix.select_dtypes(include=[np.number]).columns:
    unique_values = df_to_fix[col].dropna().unique()
    
    if len(unique_values) == 2:
        # Verificar si son 0/1 o similares
        if set(unique_values).issubset({0, 1, 0.0, 1.0}):
            df_to_fix[col] = df_to_fix[col].astype('category')
            type_conversions.append({
                'Columna': col,
                'Tipo Anterior': 'numeric',
                'Tipo Nuevo': 'category',
                'Raz√≥n': 'Variable binaria (0/1) - mejor como categ√≥rica'
            })

# 3. Detectar variables categ√≥ricas con pocos valores √∫nicos
for col in df_to_fix.select_dtypes(include=[np.number]).columns:
    if col not in [c['Columna'] for c in type_conversions]:  # Si no fue ya convertida
        unique_count = df_to_fix[col].nunique()
        
        # Si tiene menos de 10 valores √∫nicos y parecen ser c√≥digos
        if unique_count < 10 and unique_count > 2:
            # Verificar si son enteros consecutivos o c√≥digos
            unique_values = sorted(df_to_fix[col].dropna().unique())
            
            # Si son enteros peque√±os, probablemente categ√≥rica
            if all(isinstance(x, (int, np.integer)) or x.is_integer() for x in unique_values):
                if max(unique_values) < 20:  # C√≥digos peque√±os
                    df_to_fix[col] = df_to_fix[col].astype('category')
                    type_conversions.append({
                        'Columna': col,
                        'Tipo Anterior': 'numeric',
                        'Tipo Nuevo': 'category',
                        'Raz√≥n': f'Variable discreta con {unique_count} valores √∫nicos - posiblemente categ√≥rica'
                    })

# 4. Optimizar tipos num√©ricos (downcast para ahorrar memoria)
for col in df_to_fix.select_dtypes(include=['int64', 'int32']).columns:
    if col not in [c['Columna'] for c in type_conversions]:
        # Intentar downcast a int m√°s peque√±o
        original_dtype = df_to_fix[col].dtype
        df_to_fix[col] = pd.to_numeric(df_to_fix[col], downcast='integer')
        
        if df_to_fix[col].dtype != original_dtype:
            type_conversions.append({
                'Columna': col,
                'Tipo Anterior': str(original_dtype),
                'Tipo Nuevo': str(df_to_fix[col].dtype),
                'Raz√≥n': 'Optimizaci√≥n de memoria (downcast)'
            })

for col in df_to_fix.select_dtypes(include=['float64', 'float32']).columns:
    if col not in [c['Columna'] for c in type_conversions]:
        # Intentar downcast a float m√°s peque√±o
        original_dtype = df_to_fix[col].dtype
        df_to_fix[col] = pd.to_numeric(df_to_fix[col], downcast='float')
        
        if df_to_fix[col].dtype != original_dtype:
            type_conversions.append({
                'Columna': col,
                'Tipo Anterior': str(original_dtype),
                'Tipo Nuevo': str(df_to_fix[col].dtype),
                'Raz√≥n': 'Optimizaci√≥n de memoria (downcast)'
            })

print(f"üîÑ CONVERSIONES DE TIPOS REALIZADAS: {len(type_conversions)}")
print("-"*80)

if type_conversions:
    conversions_df = pd.DataFrame(type_conversions)
    print(conversions_df.to_string(index=False))
    
    # Calcular ahorro de memoria
    memory_before = df.memory_usage(deep=True).sum() / 1024**2
    memory_after = df_to_fix.memory_usage(deep=True).sum() / 1024**2
    memory_saved = memory_before - memory_after
    
    print(f"\nüìä IMPACTO EN MEMORIA:")
    print(f"   Memoria antes: {memory_before:.2f} MB")
    print(f"   Memoria despu√©s: {memory_after:.2f} MB")
    print(f"   Ahorro: {memory_saved:.2f} MB ({(memory_saved/memory_before*100):.1f}%)")
    
    # Actualizar dataframe limpio
    df_clean = df_to_fix
    
else:
    print("\n‚úì Todos los tipos de datos son correctos")
    print("  No se requieren conversiones")

print("\nüí° Recomendaci√≥n:")
print("   Aplicar estas conversiones al inicio del pipeline de preprocesamiento")
print("   para asegurar consistencia en el an√°lisis y modelado.")

print("\n" + "="*80)



CONVERSI√ìN Y CORRECCI√ìN DE TIPOS DE DATOS

üîç Analizando tipos de datos actuales...

üîÑ CONVERSIONES DE TIPOS REALIZADAS: 32
--------------------------------------------------------------------------------
                  Columna Tipo Anterior Tipo Nuevo                                                            Raz√≥n
                   Gender       numeric   category                   Variable binaria (0/1) - mejor como categ√≥rica
                  Smoking       numeric   category                   Variable binaria (0/1) - mejor como categ√≥rica
  FamilyHistoryAlzheimers       numeric   category                   Variable binaria (0/1) - mejor como categ√≥rica
    CardiovascularDisease       numeric   category                   Variable binaria (0/1) - mejor como categ√≥rica
                 Diabetes       numeric   category                   Variable binaria (0/1) - mejor como categ√≥rica
               Depression       numeric   category                   Variable binaria

## 4.8 Detecci√≥n y Correcci√≥n de Inconsistencias en Datos

Identificaci√≥n de duplicados, espacios, inconsistencias de formato y valores imposibles.


In [None]:
# Detecci√≥n y correcci√≥n de inconsistencias
print("\n" + "="*80)
print("DETECCI√ìN Y CORRECCI√ìN DE INCONSISTENCIAS")
print("="*80 + "\n")

inconsistencies_found = []

# Trabajar con df_clean
df_to_check = df_clean.copy() if 'df_clean' in locals() else df.copy()

# 1. DUPLICADOS
print("1Ô∏è‚É£ AN√ÅLISIS DE DUPLICADOS:")
print("-"*80)
n_duplicates = df_to_check.duplicated().sum()
print(f"   Filas duplicadas (completas): {n_duplicates}")

if n_duplicates > 0:
    print(f"   Porcentaje: {(n_duplicates/len(df_to_check)*100):.2f}%")
    inconsistencies_found.append(f"Duplicados: {n_duplicates} filas")
    
    # Eliminar duplicados
    df_to_check = df_to_check.drop_duplicates()
    print(f"   ‚úÖ Duplicados eliminados. Filas restantes: {len(df_to_check)}")
else:
    print("   ‚úì No hay filas duplicadas")

# 2. ESPACIOS EN BLANCO EN STRINGS
print("\n2Ô∏è‚É£ AN√ÅLISIS DE ESPACIOS EN STRINGS:")
print("-"*80)
string_issues = []

for col in df_to_check.select_dtypes(include=['object']).columns:
    # Detectar espacios al inicio/final
    if df_to_check[col].dtype == 'object':
        has_leading_spaces = df_to_check[col].apply(lambda x: isinstance(x, str) and x != x.strip()).sum()
        
        if has_leading_spaces > 0:
            string_issues.append(f"{col}: {has_leading_spaces} valores con espacios")
            # Corregir
            df_to_check[col] = df_to_check[col].apply(lambda x: x.strip() if isinstance(x, str) else x)

if string_issues:
    print(f"   ‚ö†Ô∏è Se encontraron {len(string_issues)} columna(s) con espacios:")
    for issue in string_issues:
        print(f"      ‚Ä¢ {issue}")
    print(f"   ‚úÖ Espacios eliminados")
    inconsistencies_found.extend(string_issues)
else:
    print("   ‚úì No hay problemas de espacios en strings")

# 3. INCONSISTENCIAS DE MAY√öSCULAS/MIN√öSCULAS
print("\n3Ô∏è‚É£ AN√ÅLISIS DE INCONSISTENCIAS DE FORMATO:")
print("-"*80)
case_issues = []

for col in df_to_check.select_dtypes(include=['object']).columns:
    unique_values = df_to_check[col].dropna().unique()
    
    if len(unique_values) < 100:  # Solo para columnas categ√≥ricas
        # Verificar si hay valores que son iguales excepto por may√∫sculas
        lower_values = [str(v).lower() for v in unique_values]
        
        if len(lower_values) != len(set(lower_values)):
            # Hay duplicados en min√∫sculas
            case_issues.append(col)
            
            # Estandarizar a t√≠tulo (capitalizar primera letra)
            df_to_check[col] = df_to_check[col].apply(lambda x: str(x).title() if pd.notna(x) else x)

if case_issues:
    print(f"   ‚ö†Ô∏è Se encontraron {len(case_issues)} columna(s) con inconsistencias:")
    for col in case_issues:
        print(f"      ‚Ä¢ {col}")
    print(f"   ‚úÖ Formato estandarizado (Title Case)")
    inconsistencies_found.append(f"Inconsistencias de formato: {len(case_issues)} columnas")
else:
    print("   ‚úì No hay inconsistencias de formato en variables categ√≥ricas")


# 4. RELACIONES L√ìGICAS IMPOSIBLES
print("\n4Ô∏è‚É£ AN√ÅLISIS DE RELACIONES L√ìGICAS:")
print("-"*80)
logical_issues = []

# Ejemplo: Systolic BP debe ser mayor que Diastolic BP
if 'SystolicBP' in df_to_check.columns and 'DiastolicBP' in df_to_check.columns:
    invalid_bp = (df_to_check['SystolicBP'] <= df_to_check['DiastolicBP']).sum()
    if invalid_bp > 0:
        logical_issues.append(f"Presi√≥n sist√≥lica ‚â§ diast√≥lica: {invalid_bp} casos")
        print(f"   ‚ö†Ô∏è {invalid_bp} casos donde Systolic BP ‚â§ Diastolic BP (imposible)")

# Ejemplo: LDL + HDL no puede ser mayor que Colesterol Total
if all(col in df_to_check.columns for col in ['CholesterolTotal', 'CholesterolLDL', 'CholesterolHDL']):
    invalid_chol = ((df_to_check['CholesterolLDL'] + df_to_check['CholesterolHDL']) > df_to_check['CholesterolTotal'] * 1.2).sum()
    if invalid_chol > 0:
        logical_issues.append(f"LDL+HDL > Total colesterol: {invalid_chol} casos")
        print(f"   ‚ö†Ô∏è {invalid_chol} casos donde LDL+HDL > Colesterol Total (inconsistente)")

if logical_issues:
    inconsistencies_found.extend(logical_issues)
    print(f"\n   üí° Se identificaron {len(logical_issues)} tipo(s) de inconsistencias l√≥gicas")
else:
    print("   ‚úì No se detectaron inconsistencias l√≥gicas entre variables")

# RESUMEN
print("\n" + "="*80)
print("üìä RESUMEN DE INCONSISTENCIAS:")
print("="*80)

if inconsistencies_found:
    print(f"\nTotal de problemas identificados: {len(inconsistencies_found)}\n")
    for idx, issue in enumerate(inconsistencies_found, 1):
        print(f"{idx}. {issue}")
    
    print(f"\n‚úÖ Dataset corregido guardado como 'df_clean'")
    print(f"   Filas originales: {len(df)}")
    print(f"   Filas despu√©s de limpieza: {len(df_to_check)}")
    print(f"   Filas eliminadas: {len(df) - len(df_to_check)}")
    
    # Actualizar df_clean
    df_clean = df_to_check
else:
    print("\n‚úì No se detectaron inconsistencias significativas")
    print("  El dataset es consistente y est√° listo para an√°lisis")

print("\n" + "="*80)



DETECCI√ìN Y CORRECCI√ìN DE INCONSISTENCIAS

1Ô∏è‚É£ AN√ÅLISIS DE DUPLICADOS:
--------------------------------------------------------------------------------
   Filas duplicadas (completas): 0
   ‚úì No hay filas duplicadas

2Ô∏è‚É£ AN√ÅLISIS DE ESPACIOS EN STRINGS:
--------------------------------------------------------------------------------
   ‚úì No hay problemas de espacios en strings

3Ô∏è‚É£ AN√ÅLISIS DE INCONSISTENCIAS DE FORMATO:
--------------------------------------------------------------------------------
   ‚úì No hay inconsistencias de formato en variables categ√≥ricas

5Ô∏è‚É£ AN√ÅLISIS DE RELACIONES L√ìGICAS:
--------------------------------------------------------------------------------
   ‚ö†Ô∏è 186 casos donde Systolic BP ‚â§ Diastolic BP (imposible)
   ‚ö†Ô∏è 238 casos donde LDL+HDL > Colesterol Total (inconsistente)

   üí° Se identificaron 2 tipo(s) de inconsistencias l√≥gicas

üìä RESUMEN DE INCONSISTENCIAS:

Total de problemas identificados: 2

1. Presi√

## 4.9 Estad√≠sticas Descriptivas Despu√©s de Limpieza

Comparaci√≥n de estad√≠sticas antes y despu√©s de ajustar tipos de datos y corregir inconsistencias.


In [None]:
# Ejecutar describe() despu√©s de limpieza y ajustes de tipos
print("\n" + "="*80)
print("ESTAD√çSTICAS DESCRIPTIVAS - DESPU√âS DE LIMPIEZA")
print("="*80 + "\n")

# Usar df_clean si existe
df_final = df_clean if 'df_clean' in locals() else df

# Separar variables num√©ricas y categ√≥ricas
numeric_cols_clean = df_final.select_dtypes(include=[np.number]).columns.tolist()
categorical_cols_clean = df_final.select_dtypes(include=['object', 'category']).columns.tolist()

print("üìä COMPARACI√ìN: ANTES vs DESPU√âS DE LIMPIEZA")
print("-"*80)
print(f"Dataset Original:")
print(f"   ‚Ä¢ Filas: {df.shape[0]}")
print(f"   ‚Ä¢ Columnas: {df.shape[1]}")
print(f"   ‚Ä¢ Variables num√©ricas: {len(numeric_cols)}")
print(f"   ‚Ä¢ Variables categ√≥ricas: {len(categorical_cols)}")
print(f"   ‚Ä¢ Memoria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

print(f"\nDataset Limpio:")
print(f"   ‚Ä¢ Filas: {df_final.shape[0]} ({df.shape[0] - df_final.shape[0]} eliminadas)")
print(f"   ‚Ä¢ Columnas: {df_final.shape[1]} ({df.shape[1] - df_final.shape[1]} eliminadas)")
print(f"   ‚Ä¢ Variables num√©ricas: {len(numeric_cols_clean)}")
print(f"   ‚Ä¢ Variables categ√≥ricas: {len(categorical_cols_clean)}")
print(f"   ‚Ä¢ Memoria: {df_final.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

# Estad√≠sticas descriptivas num√©ricas
if numeric_cols_clean:
    print("\n" + "="*80)
    print("ESTAD√çSTICAS NUM√âRICAS (DESPU√âS DE LIMPIEZA)")
    print("="*80 + "\n")
    
    stats_clean = df_final[numeric_cols_clean].describe().T
    stats_clean['Nulos'] = df_final[numeric_cols_clean].isnull().sum()
    stats_clean['% Nulos'] = (df_final[numeric_cols_clean].isnull().sum() / len(df_final) * 100).round(2)
    stats_clean['Rango'] = df_final[numeric_cols_clean].max() - df_final[numeric_cols_clean].min()
    stats_clean['Asimetr√≠a'] = df_final[numeric_cols_clean].skew()
    stats_clean['Curtosis'] = df_final[numeric_cols_clean].kurtosis()
    
    print(stats_clean.round(3))

# Estad√≠sticas descriptivas categ√≥ricas
if categorical_cols_clean:
    print("\n" + "="*80)
    print("ESTAD√çSTICAS CATEG√ìRICAS (DESPU√âS DE LIMPIEZA)")
    print("="*80 + "\n")
    
    for col in categorical_cols_clean:
        print(f"üìä {col}")
        print(f"   Tipo: {df_final[col].dtype}")
        print(f"   Valores √∫nicos: {df_final[col].nunique()}")
        print(f"   Valores nulos: {df_final[col].isnull().sum()} ({df_final[col].isnull().sum()/len(df_final)*100:.1f}%)")
        
        if df_final[col].nunique() <= 10:
            print(f"   Distribuci√≥n:")
            value_dist = df_final[col].value_counts()
            for val, count in value_dist.items():
                print(f"      ‚Ä¢ {val}: {count} ({count/len(df_final)*100:.1f}%)")
        else:
            print(f"   Top 5 valores m√°s frecuentes:")
            top_values = df_final[col].value_counts().head(5)
            for val, count in top_values.items():
                print(f"      ‚Ä¢ {val}: {count} ({count/len(df_final)*100:.1f}%)")
        print()

# Resumen de cambios en calidad de datos
print("\n" + "="*80)
print("üìà MEJORAS EN CALIDAD DE DATOS:")
print("="*80)

# Comparar nulos
nulos_antes = df.isnull().sum().sum()
nulos_despues = df_final.isnull().sum().sum()
pct_nulos_antes = (nulos_antes / (df.shape[0] * df.shape[1]) * 100)
pct_nulos_despues = (nulos_despues / (df_final.shape[0] * df_final.shape[1]) * 100)

print(f"\n1. Valores Nulos:")
print(f"   Antes: {nulos_antes} ({pct_nulos_antes:.2f}%)")
print(f"   Despu√©s: {nulos_despues} ({pct_nulos_despues:.2f}%)")
print(f"   Cambio: {nulos_antes - nulos_despues} valores {'eliminados' if nulos_despues < nulos_antes else 'a√±adidos'}")

print(f"\n2. Duplicados:")
print(f"   Antes: {df.duplicated().sum()}")
print(f"   Despu√©s: {df_final.duplicated().sum()}")

print(f"\n3. Filas:")
print(f"   Antes: {len(df)}")
print(f"   Despu√©s: {len(df_final)}")
print(f"   Eliminadas: {len(df) - len(df_final)} ({(len(df) - len(df_final))/len(df)*100:.2f}%)")

print(f"\n4. Columnas:")
print(f"   Antes: {df.shape[1]}")
print(f"   Despu√©s: {df_final.shape[1]}")
print(f"   Eliminadas: {df.shape[1] - df_final.shape[1]}")

print("\n‚úÖ Dataset limpio y listo para an√°lisis exploratorio detallado")
print("="*80)


## 5. Visualizaci√≥n de Distribuciones de Variables Num√©ricas

Histogramas y gr√°ficos de densidad para cada variable num√©rica.

In [None]:
if numeric_cols:
    print(f"\nüìà Visualizando {len(numeric_cols)} variable(s) num√©rica(s)...\n")
    
    # Calcular n√∫mero de filas y columnas para subplot
    n_cols = min(3, len(numeric_cols))
    n_rows = (len(numeric_cols) + n_cols - 1) // n_cols
    
    fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 4*n_rows))
    axes = axes.flatten() if len(numeric_cols) > 1 else [axes]
    
    for idx, col in enumerate(numeric_cols):
        ax = axes[idx]
        
        # Histograma con distribuci√≥n normal
        ax.hist(df[col].dropna(), bins=30, alpha=0.7, edgecolor='black', color='skyblue')
        ax2 = ax.twinx()
        df[col].dropna().plot(kind='density', ax=ax2, color='red', linewidth=2)
        
        ax.set_xlabel(col)
        ax.set_ylabel('Frecuencia', color='skyblue')
        ax2.set_ylabel('Densidad', color='red')
        ax.set_title(f'Distribuci√≥n de {col}')
        ax.grid(alpha=0.3)
    
    # Eliminar subplots vac√≠os
    for idx in range(len(numeric_cols), len(axes)):
        fig.delaxes(axes[idx])
    
    plt.tight_layout()
    plt.show()
else:
    print("No hay variables num√©ricas para visualizar.")

## 5.5 An√°lisis de Tipo de Distribuci√≥n (Skewness y Kurtosis)

Interpretaci√≥n estad√≠stica de la forma de las distribuciones mediante asimetr√≠a y curtosis.


In [17]:
# An√°lisis detallado de distribuciones con interpretaci√≥n
print("\n" + "="*80)
print("AN√ÅLISIS DE TIPO DE DISTRIBUCI√ìN")
print("="*80 + "\n")

# Usar df_clean si existe, sino df
df_dist = df_clean if 'df_clean' in locals() else df
numeric_cols_dist = df_dist.select_dtypes(include=[np.number]).columns.tolist()

if numeric_cols_dist:
    # Calcular m√©tricas de distribuci√≥n
    distribution_analysis = []
    
    for col in numeric_cols_dist:
        skew = df_dist[col].skew()
        kurt = df_dist[col].kurtosis()
        
        # Interpretar skewness
        if abs(skew) < 0.5:
            skew_interp = "Sim√©trica"
        elif skew < -0.5:
            skew_interp = "Asim√©trica izquierda (negativa)"
        else:
            skew_interp = "Asim√©trica derecha (positiva)"
        
        # Interpretar kurtosis
        if abs(kurt) < 0.5:
            kurt_interp = "Mesoc√∫rtica (normal)"
        elif kurt < -0.5:
            kurt_interp = "Platic√∫rtica (aplanada)"
        else:
            kurt_interp = "Leptoc√∫rtica (puntiaguda)"
        
        # Tipo de distribuci√≥n sugerido
        if abs(skew) < 0.5 and abs(kurt) < 0.5:
            dist_type = "Normal"
        elif skew > 1:
            dist_type = "Log-normal o Exponencial"
        elif skew < -1:
            dist_type = "Uniforme o Beta"
        else:
            dist_type = "Asim√©trica"
        
        distribution_analysis.append({
            'Variable': col,
            'Skewness': round(skew, 3),
            'Interpretaci√≥n Skew': skew_interp,
            'Kurtosis': round(kurt, 3),
            'Interpretaci√≥n Kurt': kurt_interp,
            'Tipo Sugerido': dist_type
        })
    
    # Crear DataFrame y mostrar
    dist_df = pd.DataFrame(distribution_analysis)
    
    print("üìä M√âTRICAS DE DISTRIBUCI√ìN POR VARIABLE:")
    print("-"*80)
    print(dist_df.to_string(index=False))
    
    # Resumen por categor√≠a
    print("\n\nüìà RESUMEN DE DISTRIBUCIONES:")
    print("-"*80)
    
    # Contar tipos de distribuci√≥n
    normal_count = dist_df[dist_df['Tipo Sugerido'] == 'Normal'].shape[0]
    lognormal_count = dist_df[dist_df['Tipo Sugerido'] == 'Log-normal o Exponencial'].shape[0]
    asym_count = dist_df[dist_df['Tipo Sugerido'] == 'Asim√©trica'].shape[0]
    other_count = len(dist_df) - normal_count - lognormal_count - asym_count
    
    print(f"\n1. Distribuciones Normales: {normal_count} variable(s)")
    if normal_count > 0:
        normal_vars = dist_df[dist_df['Tipo Sugerido'] == 'Normal']['Variable'].tolist()
        for var in normal_vars:
            print(f"   ‚Ä¢ {var}")
    
    print(f"\n2. Distribuciones Asim√©tricas Positivas (sesgadas derecha): {lognormal_count} variable(s)")
    if lognormal_count > 0:
        lognormal_vars = dist_df[dist_df['Tipo Sugerido'] == 'Log-normal o Exponencial']['Variable'].tolist()
        for var in lognormal_vars:
            print(f"   ‚Ä¢ {var}")
            print(f"     Skewness: {dist_df[dist_df['Variable']==var]['Skewness'].values[0]}")
    
    print(f"\n3. Distribuciones Asim√©tricas (otras): {asym_count} variable(s)")
    if asym_count > 0:
        asym_vars = dist_df[dist_df['Tipo Sugerido'] == 'Asim√©trica']['Variable'].tolist()
        for var in asym_vars:
            print(f"   ‚Ä¢ {var}")
    
    # Recomendaciones de transformaci√≥n
    print("\n\nüí° RECOMENDACIONES DE TRANSFORMACI√ìN:")
    print("-"*80)
    
    transform_recommendations = []
    
    for idx, row in dist_df.iterrows():
        if row['Skewness'] > 1:
            transform_recommendations.append({
                'Variable': row['Variable'],
                'Problema': f"Asimetr√≠a positiva fuerte (skew={row['Skewness']})",
                'Transformaci√≥n Sugerida': 'Logar√≠tmica: log(x + 1) o Box-Cox',
                'Raz√≥n': 'Reducir asimetr√≠a y acercar a distribuci√≥n normal'
            })
        elif row['Skewness'] < -1:
            transform_recommendations.append({
                'Variable': row['Variable'],
                'Problema': f"Asimetr√≠a negativa fuerte (skew={row['Skewness']})",
                'Transformaci√≥n Sugerida': 'Cuadrado: x^2 o reflexi√≥n + log',
                'Raz√≥n': 'Reducir asimetr√≠a negativa'
            })
        
        if row['Kurtosis'] > 3:
            transform_recommendations.append({
                'Variable': row['Variable'],
                'Problema': f"Curtosis excesiva (kurt={row['Kurtosis']})",
                'Transformaci√≥n Sugerida': 'Recorte de outliers o Winsorizaci√≥n',
                'Raz√≥n': 'Reducir influencia de valores extremos'
            })
    
    if transform_recommendations:
        print(f"\n{len(transform_recommendations)} transformaci√≥n(es) recomendada(s):\n")
        
        for idx, rec in enumerate(transform_recommendations, 1):
            print(f"{idx}. {rec['Variable']}")
            print(f"   Problema: {rec['Problema']}")
            print(f"   Transformaci√≥n: {rec['Transformaci√≥n Sugerida']}")
            print(f"   Raz√≥n: {rec['Raz√≥n']}")
            print()
    else:
        print("\n‚úì No se requieren transformaciones mayores")
        print("  Las distribuciones son razonablemente normales o sim√©tricas")
    
    # Interpretaci√≥n para modelos
    print("\nüìù IMPLICACIONES PARA MODELADO:")
    print("-"*80)
    print("""
    1. Variables con distribuci√≥n normal: Ideales para modelos lineales y regresi√≥n
    
    2. Variables asim√©tricas: Considerar transformaciones antes de modelos lineales
       ‚Ä¢ Skewness > 1: Aplicar log transform
       ‚Ä¢ Skewness < -1: Aplicar transformaci√≥n potencia
    
    3. Variables con alta curtosis: Pueden contener outliers influyentes
       ‚Ä¢ Verificar outliers antes de modelar
       ‚Ä¢ Considerar modelos robustos (e.g., Random Forest, Gradient Boosting)
    
    4. Modelos basados en √°rboles (Random Forest, XGBoost): No requieren
       transformaciones, son invariantes a distribuciones
    """)
    
else:
    print("\n‚ö†Ô∏è No hay variables num√©ricas para analizar distribuciones")

print("\n" + "="*80)



AN√ÅLISIS DE TIPO DE DISTRIBUCI√ìN

üìä M√âTRICAS DE DISTRIBUCI√ìN POR VARIABLE:
--------------------------------------------------------------------------------
            Variable  Skewness Interpretaci√≥n Skew  Kurtosis     Interpretaci√≥n Kurt Tipo Sugerido
                 Age     0.046           Sim√©trica    -1.189 Platic√∫rtica (aplanada)    Asim√©trica
                 BMI    -0.027           Sim√©trica    -1.185 Platic√∫rtica (aplanada)    Asim√©trica
  AlcoholConsumption     0.018           Sim√©trica    -1.203 Platic√∫rtica (aplanada)    Asim√©trica
    PhysicalActivity     0.045           Sim√©trica    -1.179 Platic√∫rtica (aplanada)    Asim√©trica
         DietQuality    -0.012           Sim√©trica    -1.229 Platic√∫rtica (aplanada)    Asim√©trica
        SleepQuality    -0.070           Sim√©trica    -1.212 Platic√∫rtica (aplanada)    Asim√©trica
          SystolicBP     0.010           Sim√©trica    -1.198 Platic√∫rtica (aplanada)    Asim√©trica
         DiastolicBP 

## 6. An√°lisis de Outliers

Detecci√≥n de outliers usando el m√©todo del Rango Intercuart√≠lico (IQR).

In [None]:
# Detecci√≥n de outliers usando IQR
print("\n" + "="*80)
print("AN√ÅLISIS DE OUTLIERS (M√©todo IQR)")
print("="*80 + "\n")

outlier_summary = []

if numeric_cols:
    for col in numeric_cols:
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        
        outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
        n_outliers = len(outliers)
        
        if n_outliers > 0:
            pct_outliers = round((n_outliers / len(df) * 100), 2)
            outlier_summary.append({
                'Columna': col,
                'Outliers': n_outliers,
                '% Outliers': pct_outliers,
                'Rango V√°lido': f"[{lower_bound:.2f}, {upper_bound:.2f}]"
            })
            print(f"‚ö†Ô∏è  {col}: {n_outliers} outliers ({pct_outliers}%)")
    
    if outlier_summary:
        outlier_df = pd.DataFrame(outlier_summary)
        print("\n" + outlier_df.to_string(index=False))
        
        # Boxplot de variables con outliers - Disposici√≥n vertical
        if len(outlier_summary) > 0:
            n_plots = len(outlier_summary)
            n_cols = 2  # 2 columnas
            n_rows = (n_plots + n_cols - 1) // n_cols  # Calcula filas necesarias
            
            fig, axes = plt.subplots(n_rows, n_cols, figsize=(12, 4*n_rows))
            axes = axes.flatten()  # Convierte a array 1D para indexar f√°cilmente
            
            for idx, item in enumerate(outlier_summary):
                col = item['Columna']
                axes[idx].boxplot(df[col].dropna(), vert=True)
                axes[idx].set_ylabel(col)
                axes[idx].set_title(f'Boxplot de {col}')
                axes[idx].grid(alpha=0.3, axis='y')
            
            # Eliminar subplots vac√≠os si los hay
            for idx in range(len(outlier_summary), len(axes)):
                fig.delaxes(axes[idx])
            
            plt.tight_layout()
            plt.show()
    else:
        print("\n‚úì No se detectaron outliers significativos en el dataset")
else:
    print("No hay variables num√©ricas para analizar outliers.")

## 7. An√°lisis de Variables Categ√≥ricas

Gr√°ficos de barras para variables categ√≥ricas.

In [None]:
if categorical_cols:
    print(f"\nüìä Visualizando {len(categorical_cols)} variable(s) categ√≥rica(s)...\n")
    
    # Calcular n√∫mero de filas y columnas para subplot
    n_cols = min(3, len(categorical_cols))
    n_rows = (len(categorical_cols) + n_cols - 1) // n_cols
    
    fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 4*n_rows))
    axes = axes.flatten() if len(categorical_cols) > 1 else [axes]
    
    for idx, col in enumerate(categorical_cols):
        ax = axes[idx]
        
        # Contar valores y crear gr√°fico
        value_counts = df[col].value_counts()
        
        # Limitar a 10 categor√≠as para mejor visualizaci√≥n
        if len(value_counts) > 10:
            value_counts = value_counts.head(10)
            title = f'Top 10 - {col} (hay m√°s categor√≠as)'
        else:
            title = f'Distribuci√≥n de {col}'
        
        value_counts.plot(kind='bar', ax=ax, color='teal', edgecolor='black')
        ax.set_title(title)
        ax.set_xlabel(col)
        ax.set_ylabel('Frecuencia')
        ax.grid(axis='y', alpha=0.3)
        plt.setp(ax.xaxis.get_majorticklabels(), rotation=45, ha='right')
    
    # Eliminar subplots vac√≠os
    for idx in range(len(categorical_cols), len(axes)):
        fig.delaxes(axes[idx])
    
    plt.tight_layout()
    plt.show()
else:
    print("No hay variables categ√≥ricas para visualizar.")

## 7.5 An√°lisis Profundo de Variables Categ√≥ricas (Countplots y Tablas Pivote)

Exploraci√≥n adicional con countplots de seaborn y tablas de contingencia.


In [None]:
# An√°lisis profundo de variables categ√≥ricas con countplot y tablas pivote
print("\n" + "="*80)
print("AN√ÅLISIS PROFUNDO DE VARIABLES CATEG√ìRICAS")
print("="*80 + "\n")

# Usar df_clean si existe
df_cat = df_clean if 'df_clean' in locals() else df
categorical_cols_cat = df_cat.select_dtypes(include=['object', 'category']).columns.tolist()

# Identificar target
target_for_analysis = target_column if 'target_column' in locals() and target_column else None

if categorical_cols_cat:
    # 1. COUNTPLOTS CON SEABORN
    print("1Ô∏è‚É£ COUNTPLOTS DE VARIABLES CATEG√ìRICAS:")
    print("-"*80)
    
    # Seleccionar primeras 6 variables para countplot
    cat_for_plot = categorical_cols_cat[:min(6, len(categorical_cols_cat))]
    
    if target_for_analysis and target_for_analysis in df_cat.columns:
        # Countplots con hue (color por target)
        n_cols = 2
        n_rows = (len(cat_for_plot) + n_cols - 1) // n_cols
        
        fig, axes = plt.subplots(n_rows, n_cols, figsize=(14, 4*n_rows))
        axes = axes.flatten() if len(cat_for_plot) > 1 else [axes]
        
        for idx, col in enumerate(cat_for_plot):
            if col != target_for_analysis:  # No graficar target contra s√≠ mismo
                ax = axes[idx]
                
                # Countplot con hue
                sns.countplot(data=df_cat, x=col, hue=target_for_analysis, ax=ax, palette='Set2')
                ax.set_title(f'Distribuci√≥n de {col} por {target_for_analysis}')
                ax.set_xlabel(col)
                ax.set_ylabel('Frecuencia')
                ax.legend(title=target_for_analysis)
                plt.setp(ax.xaxis.get_majorticklabels(), rotation=45, ha='right')
        
        # Eliminar subplots vac√≠os
        for idx in range(len(cat_for_plot), len(axes)):
            fig.delaxes(axes[idx])
        
        plt.tight_layout()
        plt.show()
    else:
        # Countplots simples sin hue
        n_cols = 3
        n_rows = (len(cat_for_plot) + n_cols - 1) // n_cols
        
        fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 4*n_rows))
        axes = axes.flatten() if len(cat_for_plot) > 1 else [axes]
        
        for idx, col in enumerate(cat_for_plot):
            ax = axes[idx]
            
            sns.countplot(data=df_cat, x=col, ax=ax, palette='viridis')
            ax.set_title(f'Distribuci√≥n de {col}')
            ax.set_xlabel(col)
            ax.set_ylabel('Frecuencia')
            plt.setp(ax.xaxis.get_majorticklabels(), rotation=45, ha='right')
        
        # Eliminar subplots vac√≠os
        for idx in range(len(cat_for_plot), len(axes)):
            fig.delaxes(axes[idx])
        
        plt.tight_layout()
        plt.show()
    
    print(f"‚úÖ Countplots generados para {len(cat_for_plot)} variable(s)\n")
    
    # 2. TABLAS PIVOTE (CROSSTAB)
    if target_for_analysis and target_for_analysis in df_cat.columns:
        print("\n2Ô∏è‚É£ TABLAS PIVOTE (CROSSTAB) - Variables vs Target:")
        print("-"*80)
        
        # Seleccionar variables categ√≥ricas (excluyendo target)
        cat_for_pivot = [col for col in categorical_cols_cat if col != target_for_analysis][:min(5, len(categorical_cols_cat)-1)]
        
        for col in cat_for_pivot:
            print(f"\nüìä Tabla de Contingencia: {col} vs {target_for_analysis}")
            print("-"*40)
            
            # Crear crosstab con totales
            crosstab = pd.crosstab(
                df_cat[col], 
                df_cat[target_for_analysis], 
                margins=True,
                margins_name='Total'
            )
            print(crosstab)
            
            # Tabla de contingencia con porcentajes (por fila)
            print(f"\nüìä Porcentajes por Fila ({col}):")
            print("-"*40)
            crosstab_pct = pd.crosstab(
                df_cat[col], 
                df_cat[target_for_analysis], 
                normalize='index'
            ) * 100
            print(crosstab_pct.round(2))
            
            # An√°lisis de asociaci√≥n (Chi-cuadrado)
            from scipy import stats
            
            contingency_table = pd.crosstab(df_cat[col], df_cat[target_for_analysis])
            chi2, p_value, dof, expected = stats.chi2_contingency(contingency_table)
            
            print(f"\nüî¨ Test de Independencia (Chi-cuadrado):")
            print(f"   Chi¬≤: {chi2:.4f}")
            print(f"   p-value: {p_value:.4f}")
            print(f"   Grados de libertad: {dof}")
            
            if p_value < 0.001:
                print(f"   ‚úÖ Asociaci√≥n ALTAMENTE SIGNIFICATIVA (p < 0.001) ***")
            elif p_value < 0.01:
                print(f"   ‚úÖ Asociaci√≥n MUY SIGNIFICATIVA (p < 0.01) **")
            elif p_value < 0.05:
                print(f"   ‚úÖ Asociaci√≥n SIGNIFICATIVA (p < 0.05) *")
            else:
                print(f"   ‚ùå NO hay asociaci√≥n significativa (p >= 0.05)")
            
            print("\n" + "="*80)
    
    # 3. VALUE_COUNTS DETALLADO
    print("\n3Ô∏è‚É£ VALUE_COUNTS DETALLADO:")
    print("-"*80)
    
    for col in categorical_cols_cat[:min(5, len(categorical_cols_cat))]:
        print(f"\nüìä {col}")
        print("-"*40)
        
        value_counts = df_cat[col].value_counts()
        value_pct = df_cat[col].value_counts(normalize=True) * 100
        
        # Crear DataFrame combinado
        value_summary = pd.DataFrame({
            'Frecuencia': value_counts,
            'Porcentaje (%)': value_pct.round(2)
        })
        
        print(value_summary)
        
        # Estad√≠sticas adicionales
        print(f"\n   Estad√≠sticas:")
        print(f"   ‚Ä¢ Total categor√≠as: {df_cat[col].nunique()}")
        print(f"   ‚Ä¢ Moda: {df_cat[col].mode()[0] if len(df_cat[col].mode()) > 0 else 'N/A'}")
        print(f"   ‚Ä¢ Categor√≠a m√°s frecuente: {value_counts.idxmax()} ({value_counts.max()} veces, {value_pct.max():.2f}%)")
        print(f"   ‚Ä¢ Categor√≠a menos frecuente: {value_counts.idxmin()} ({value_counts.min()} veces, {value_pct.min():.2f}%)")
        
        # Calcular entrop√≠a (medida de diversidad)
        entropy = -sum(value_pct/100 * np.log2(value_pct/100))
        max_entropy = np.log2(df_cat[col].nunique())
        normalized_entropy = entropy / max_entropy if max_entropy > 0 else 0
        
        print(f"   ‚Ä¢ Entrop√≠a normalizada: {normalized_entropy:.3f} (0=uniforme, 1=m√°xima diversidad)")
        
        if normalized_entropy < 0.3:
            print(f"   ‚ö†Ô∏è Variable poco diversa (dominada por pocas categor√≠as)")
        elif normalized_entropy > 0.8:
            print(f"   ‚úì Variable bien diversificada")
    
    print("\n" + "="*80)
    print("‚úÖ An√°lisis de variables categ√≥ricas completado")
    print("="*80)
    
else:
    print("\n‚ö†Ô∏è No hay variables categ√≥ricas para analizar")



## 8. An√°lisis de Correlaci√≥n

Correlaci√≥n entre variables num√©ricas y heatmap de correlaci√≥n.

In [None]:
if len(numeric_cols) > 1:
    print("\n" + "="*80)
    print("MATRIZ DE CORRELACI√ìN")
    print("="*80 + "\n")
    
    correlation_matrix = df[numeric_cols].corr()
    print(correlation_matrix.round(3))
    
    # Heatmap de correlaci√≥n - Mejorado para legibilidad
    fig_size = max(14, len(numeric_cols) + 2)
    fig, ax = plt.subplots(figsize=(fig_size, fig_size))
    
    sns.heatmap(correlation_matrix, 
                annot=True, 
                fmt='.2f', 
                cmap='coolwarm', 
                center=0, 
                square=True, 
                ax=ax, 
                cbar_kws={"shrink": 0.8},
                vmin=-1, 
                vmax=1,
                annot_kws={"size": 8},
                linewidths=0.5,
                linecolor='gray')
    
    ax.set_title('Matriz de Correlaci√≥n de Variables Num√©ricas', fontsize=14, pad=20)
    
    # Rotar etiquetas para mejor legibilidad
    plt.xticks(rotation=45, ha='right', fontsize=9)
    plt.yticks(rotation=0, fontsize=9)
    
    plt.tight_layout()
    plt.show()
    
    # Encontrar correlaciones fuertes (>0.7 o <-0.7)
    print("\n" + "-"*80)
    print("CORRELACIONES FUERTES (|r| > 0.7):")
    print("-"*80 + "\n")
    
    strong_corr = []
    for i in range(len(correlation_matrix.columns)):
        for j in range(i+1, len(correlation_matrix.columns)):
            if abs(correlation_matrix.iloc[i, j]) > 0.7:
                strong_corr.append({
                    'Variable 1': correlation_matrix.columns[i],
                    'Variable 2': correlation_matrix.columns[j],
                    'Correlaci√≥n': correlation_matrix.iloc[i, j].round(3)
                })
    
    if strong_corr:
        strong_corr_df = pd.DataFrame(strong_corr).sort_values('Correlaci√≥n', key=abs, ascending=False)
        print(strong_corr_df.to_string(index=False))
    else:
        print("No hay correlaciones fuertes entre variables.")
else:
    print("\nNo hay suficientes variables num√©ricas para calcular correlaci√≥n.")

## 8.5 An√°lisis Bivariado con Variable Objetivo

Exploraci√≥n de la relaci√≥n entre cada feature y la variable objetivo (Diagnosis).

In [None]:
# Verificar si existe variable objetivo (Diagnosis o similar)
target_col = None
possible_targets = ['Diagnosis', 'diagnosis', 'target', 'Target', 'label', 'Label']

for col in possible_targets:
    if col in df.columns:
        target_col = col
        break

if target_col and target_col in df.columns:
    print("\n" + "="*80)
    print(f"AN√ÅLISIS BIVARIADO: FEATURES vs {target_col}")
    print("="*80)
    
    # Distribuci√≥n de la variable objetivo
    print(f"\nüìä Distribuci√≥n de {target_col}:")
    target_dist = df[target_col].value_counts()
    print(target_dist)
    print(f"\nProporci√≥n:")
    for label, count in target_dist.items():
        print(f"   Clase {label}: {count/len(df)*100:.1f}%")
    
    # An√°lisis de variables num√©ricas vs target
    if numeric_cols:
        print(f"\nüìà An√°lisis de Variables Num√©ricas por {target_col}:")
        print("-"*80)
        
        # Seleccionar hasta 6 variables m√°s importantes (por correlaci√≥n si existe)
        features_to_analyze = numeric_cols[:min(6, len(numeric_cols))]
        
        n_cols = 3
        n_rows = (len(features_to_analyze) + n_cols - 1) // n_cols
        
        fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 4*n_rows))
        axes = axes.flatten() if len(features_to_analyze) > 1 else [axes]
        
        for idx, col in enumerate(features_to_analyze):
            ax = axes[idx]
            
            # Boxplot por clase
            df_plot = df[[col, target_col]].dropna()
            classes = sorted(df_plot[target_col].unique())
            
            data_by_class = [df_plot[df_plot[target_col] == c][col].values for c in classes]
            
            bp = ax.boxplot(data_by_class, labels=classes, patch_artist=True)
            
            # Colorear boxplots
            colors = ['lightblue', 'lightcoral', 'lightgreen', 'lightyellow']
            for patch, color in zip(bp['boxes'], colors):
                patch.set_facecolor(color)
            
            ax.set_xlabel(target_col)
            ax.set_ylabel(col)
            ax.set_title(f'{col} por {target_col}')
            ax.grid(alpha=0.3, axis='y')
        
        # Eliminar subplots vac√≠os
        for idx in range(len(features_to_analyze), len(axes)):
            fig.delaxes(axes[idx])
        
        plt.tight_layout()
        plt.show()
        
        # Tests estad√≠sticos de significancia (ejemplo con primeras 3 variables)
        print(f"\nüî¨ Tests Estad√≠sticos (t-test para diferencias entre grupos):")
        print("-"*80)
        
        from scipy import stats
        
        for col in features_to_analyze[:3]:
            df_test = df[[col, target_col]].dropna()
            classes = sorted(df_test[target_col].unique())
            
            if len(classes) == 2:
                # t-test para 2 grupos
                group1 = df_test[df_test[target_col] == classes[0]][col]
                group2 = df_test[df_test[target_col] == classes[1]][col]
                
                t_stat, p_value = stats.ttest_ind(group1, group2)
                
                significance = "***" if p_value < 0.001 else "**" if p_value < 0.01 else "*" if p_value < 0.05 else "ns"
                
                print(f"\n{col}:")
                print(f"   Media Clase {classes[0]}: {group1.mean():.3f}")
                print(f"   Media Clase {classes[1]}: {group2.mean():.3f}")
                print(f"   t-statistic: {t_stat:.3f}")
                print(f"   p-value: {p_value:.4f} {significance}")
                
                if p_value < 0.05:
                    print(f"   ‚úì Diferencia significativa entre grupos")
                else:
                    print(f"   ‚úó No hay diferencia significativa")
    
    # An√°lisis de variables categ√≥ricas vs target
    if categorical_cols and target_col not in categorical_cols:
        print(f"\n\nüìä An√°lisis de Variables Categ√≥ricas por {target_col}:")
        print("-"*80)
        
        # Seleccionar primeras 3-4 variables categ√≥ricas
        cat_to_analyze = categorical_cols[:min(4, len(categorical_cols))]
        
        for col in cat_to_analyze:
            print(f"\n{col}:")
            
            # Tabla de contingencia
            contingency = pd.crosstab(df[col], df[target_col], margins=True)
            print(contingency)
            
            # Chi-cuadrado test
            if len(df[col].unique()) > 1:
                contingency_no_margins = pd.crosstab(df[col], df[target_col])
                chi2, p_value, dof, expected = stats.chi2_contingency(contingency_no_margins)
                
                significance = "***" if p_value < 0.001 else "**" if p_value < 0.01 else "*" if p_value < 0.05 else "ns"
                
                print(f"\nChi-cuadrado: {chi2:.3f}, p-value: {p_value:.4f} {significance}")
                
                if p_value < 0.05:
                    print(f"‚úì Asociaci√≥n significativa con {target_col}")
                else:
                    print(f"‚úó No hay asociaci√≥n significativa")
                print("-"*40)
else:
    print("\n‚ö†Ô∏è No se encontr√≥ variable objetivo (Diagnosis) en el dataset")
    print("   Si existe con otro nombre, ajustar la variable 'target_col'")


## 8.6 An√°lisis Multivariado: Pairplot

Exploraci√≥n de relaciones entre m√∫ltiples variables simult√°neamente.

In [None]:
if target_col and len(numeric_cols) > 1:
    print("\n" + "="*80)
    print("AN√ÅLISIS MULTIVARIADO: PAIRPLOT")
    print("="*80)
    
    # Seleccionar top 5-6 variables con mayor correlaci√≥n con el target (si es num√©rico)
    # O simplemente las primeras 5-6 variables num√©ricas
    
    max_features = 5  # L√≠mite para que el pairplot sea legible
    
    if target_col in numeric_cols:
        # Si target es num√©rico, seleccionar por correlaci√≥n
        correlations = df[numeric_cols].corr()[target_col].abs().sort_values(ascending=False)
        top_features = correlations[1:max_features+1].index.tolist()  # Excluir el target mismo
        features_for_pairplot = top_features + [target_col]
    else:
        # Si target es categ√≥rico, seleccionar primeras N features
        features_for_pairplot = numeric_cols[:min(max_features, len(numeric_cols))]
    
    print(f"\nüìä Creando pairplot con {len(features_for_pairplot)} variables:")
    for feat in features_for_pairplot:
        print(f"   ‚Ä¢ {feat}")
    
    # Crear subset del dataframe
    df_pairplot = df[features_for_pairplot + ([target_col] if target_col not in features_for_pairplot else [])].dropna()
    
    print(f"\n‚è≥ Generando pairplot (esto puede tomar unos segundos)...")
    
    # Crear pairplot
    if target_col in df.columns and df[target_col].dtype in ['object', 'int64'] and df[target_col].nunique() <= 5:
        # Si target es categ√≥rico con pocas clases, usar como hue
        pairplot = sns.pairplot(
            df_pairplot, 
            hue=target_col,
            diag_kind='kde',
            plot_kws={'alpha': 0.6, 's': 30},
            height=2.5
        )
        pairplot.fig.suptitle(f'Pairplot de Variables Num√©ricas por {target_col}', y=1.02, fontsize=14)
    else:
        # Si no, pairplot simple
        pairplot = sns.pairplot(
            df_pairplot,
            diag_kind='kde',
            plot_kws={'alpha': 0.6},
            height=2.5
        )
        pairplot.fig.suptitle('Pairplot de Variables Num√©ricas Principales', y=1.02, fontsize=14)
    
    plt.tight_layout()
    plt.show()
    
    print("\n‚úÖ Pairplot completado")
    print("\nüí° Interpretaci√≥n:")
    print("   ‚Ä¢ Diagonal: Distribuci√≥n de cada variable")
    print("   ‚Ä¢ Fuera de diagonal: Scatter plots entre pares de variables")
    if target_col in df.columns and df[target_col].dtype in ['object', 'int64'] and df[target_col].nunique() <= 5:
        print(f"   ‚Ä¢ Colores: Representan diferentes clases de {target_col}")
        print("   ‚Ä¢ Buscar: Separaci√≥n clara entre colores indica poder predictivo")
    
elif len(numeric_cols) > 1:
    print("\n‚ö†Ô∏è Variable objetivo no encontrada. Creando pairplot sin clasificaci√≥n por color.")
    
    features_for_pairplot = numeric_cols[:min(5, len(numeric_cols))]
    df_pairplot = df[features_for_pairplot].dropna()
    
    pairplot = sns.pairplot(df_pairplot, diag_kind='kde', height=2.5)
    pairplot.fig.suptitle('Pairplot de Variables Num√©ricas', y=1.02)
    plt.tight_layout()
    plt.show()
else:
    print("\n‚ö†Ô∏è No hay suficientes variables num√©ricas para crear un pairplot")


## 8.7 Sugerencias de Features Derivados

Basado en el an√°lisis exploratorio, se identifican oportunidades para crear caracter√≠sticas calculadas.

In [None]:
print("\n" + "="*80)
print("FEATURES DERIVADOS POTENCIALES")
print("="*80)

derived_features = []

# Verificar columnas espec√≠ficas del dataset de Alzheimer
health_indicators = []
lifestyle_indicators = []
cognitive_indicators = []
cardiovascular_indicators = []

# Clasificar columnas por categor√≠a
for col in df.columns:
    col_lower = col.lower()
    
    if any(x in col_lower for x in ['cholesterol', 'bp', 'blood', 'systolic', 'diastolic']):
        cardiovascular_indicators.append(col)
    elif any(x in col_lower for x in ['mmse', 'memory', 'cognitive', 'functional', 'adl', 'confusion']):
        cognitive_indicators.append(col)
    elif any(x in col_lower for x in ['smoking', 'alcohol', 'physical', 'diet', 'sleep', 'bmi']):
        lifestyle_indicators.append(col)
    elif any(x in col_lower for x in ['diabetes', 'hypertension', 'cardiovascular', 'depression']):
        health_indicators.append(col)

print("\nüìã CATEGOR√çAS DE VARIABLES IDENTIFICADAS:")
print(f"   ‚Ä¢ Indicadores de Salud: {len(health_indicators)}")
print(f"   ‚Ä¢ Indicadores de Estilo de Vida: {len(lifestyle_indicators)}")
print(f"   ‚Ä¢ Indicadores Cognitivos: {len(cognitive_indicators)}")
print(f"   ‚Ä¢ Indicadores Cardiovasculares: {len(cardiovascular_indicators)}")

print("\n\nüí° FEATURES DERIVADOS SUGERIDOS:")
print("="*80)

# 1. Ratios de colesterol
if 'CholesterolLDL' in df.columns and 'CholesterolHDL' in df.columns:
    derived_features.append({
        'nombre': 'Cholesterol_Ratio_LDL_HDL',
        'f√≥rmula': 'CholesterolLDL / CholesterolHDL',
        'justificaci√≥n': 'Indicador de riesgo cardiovascular. Ratio alto asociado con mayor riesgo.',
        'implementaci√≥n': 'df["Cholesterol_Ratio"] = df["CholesterolLDL"] / df["CholesterolHDL"]'
    })

if 'CholesterolTotal' in df.columns and 'CholesterolHDL' in df.columns:
    derived_features.append({
        'nombre': 'Cholesterol_Total_HDL_Ratio',
        'f√≥rmula': 'CholesterolTotal / CholesterolHDL',
        'justificaci√≥n': 'Otro indicador cardiovascular. Valores normales < 5.',
        'implementaci√≥n': 'df["Total_HDL_Ratio"] = df["CholesterolTotal"] / df["CholesterolHDL"]'
    })

# 2. Presi√≥n arterial media
if 'SystolicBP' in df.columns and 'DiastolicBP' in df.columns:
    derived_features.append({
        'nombre': 'Mean_Arterial_Pressure',
        'f√≥rmula': 'DiastolicBP + (SystolicBP - DiastolicBP) / 3',
        'justificaci√≥n': 'Presi√≥n arterial media, mejor indicador de perfusi√≥n cerebral.',
        'implementaci√≥n': 'df["MAP"] = df["DiastolicBP"] + (df["SystolicBP"] - df["DiastolicBP"]) / 3'
    })

# 3. IMC categorizado
if 'BMI' in df.columns:
    derived_features.append({
        'nombre': 'BMI_Category',
        'f√≥rmula': 'Categorizaci√≥n: Bajo(<18.5), Normal(18.5-24.9), Sobrepeso(25-29.9), Obeso(>=30)',
        'justificaci√≥n': 'Categor√≠as cl√≠nicas de IMC m√°s interpretables que valor continuo.',
        'implementaci√≥n': 'pd.cut(df["BMI"], bins=[0, 18.5, 25, 30, 100], labels=["Bajo", "Normal", "Sobrepeso", "Obeso"])'
    })

# 4. Score de riesgo cardiovascular
if health_indicators:
    derived_features.append({
        'nombre': 'Cardiovascular_Risk_Score',
        'f√≥rmula': f'Suma de: {", ".join(health_indicators[:5])}',
        'justificaci√≥n': 'Agregaci√≥n de factores de riesgo cardiovascular.',
        'implementaci√≥n': f'df[{health_indicators[:5]}].sum(axis=1)'
    })

# 5. Score de estilo de vida saludable
if lifestyle_indicators:
    derived_features.append({
        'nombre': 'Healthy_Lifestyle_Score',
        'f√≥rmula': 'Combinaci√≥n ponderada de h√°bitos saludables',
        'justificaci√≥n': 'Agregaci√≥n de factores de estilo de vida que afectan salud cerebral.',
        'implementaci√≥n': 'Normalizar y sumar: PhysicalActivity, DietQuality, SleepQuality (invertir Smoking y AlcoholConsumption)'
    })

# 6. Score cognitivo compuesto
if cognitive_indicators:
    derived_features.append({
        'nombre': 'Cognitive_Impairment_Score',
        'f√≥rmula': f'Combinaci√≥n de: {", ".join(cognitive_indicators[:4])}',
        'justificaci√≥n': 'Indicador agregado de deterioro cognitivo.',
        'implementaci√≥n': 'Suma o promedio de indicadores cognitivos'
    })

# 7. Interacciones de edad
if 'Age' in df.columns:
    derived_features.append({
        'nombre': 'Age_Squared',
        'f√≥rmula': 'Age ** 2',
        'justificaci√≥n': 'Capturar relaci√≥n no lineal entre edad y riesgo.',
        'implementaci√≥n': 'df["Age_Squared"] = df["Age"] ** 2'
    })
    
    if 'FamilyHistoryAlzheimers' in df.columns:
        derived_features.append({
            'nombre': 'Age_Family_History_Interaction',
            'f√≥rmula': 'Age * FamilyHistoryAlzheimers',
            'justificaci√≥n': 'Interacci√≥n entre edad y predisposici√≥n gen√©tica.',
            'implementaci√≥n': 'df["Age_FH_Interaction"] = df["Age"] * df["FamilyHistoryAlzheimers"]'
        })

# 8. Binning de variables continuas
if 'Age' in df.columns:
    derived_features.append({
        'nombre': 'Age_Group',
        'f√≥rmula': 'Categor√≠as: <65, 65-74, 75-84, 85+',
        'justificaci√≥n': 'Grupos de edad cl√≠nicamente relevantes para Alzheimer.',
        'implementaci√≥n': 'pd.cut(df["Age"], bins=[0, 65, 75, 85, 120], labels=["<65", "65-74", "75-84", "85+"])'
    })

# Mostrar tabla de features sugeridos
if derived_features:
    print(f"\nTotal de features derivados sugeridos: {len(derived_features)}\n")
    
    for idx, feature in enumerate(derived_features, 1):
        print(f"{idx}. {feature['nombre']}")
        print(f"   F√≥rmula: {feature['f√≥rmula']}")
        print(f"   Justificaci√≥n: {feature['justificaci√≥n']}")
        print(f"   Implementaci√≥n: {feature['implementaci√≥n']}")
        print()
    
    print("\n" + "="*80)
    print("RECOMENDACIONES DE IMPLEMENTACI√ìN:")
    print("="*80)
    print("""
    1. Implementar estos features en el script 'ft_engineering.py'
    2. Crear una funci√≥n 'create_derived_features()' antes del preprocesamiento
    3. Validar que los features derivados no tengan valores infinitos o NaN
    4. Evaluar la importancia de estos features despu√©s del entrenamiento
    5. Considerar regularizaci√≥n si se agregan muchos features (evitar overfitting)
    """)
    
    # Ejemplo de implementaci√≥n
    print("\nüìù EJEMPLO DE C√ìDIGO PARA IMPLEMENTACI√ìN:")
    print("-"*80)
    print("""
def create_derived_features(df):
    '''Crea features derivados basados en an√°lisis EDA'''
    df_new = df.copy()
    
    # Ratio LDL/HDL
    if 'CholesterolLDL' in df.columns and 'CholesterolHDL' in df.columns:
        df_new['Cholesterol_Ratio'] = df_new['CholesterolLDL'] / df_new['CholesterolHDL']
    
    # Presi√≥n arterial media
    if 'SystolicBP' in df.columns and 'DiastolicBP' in df.columns:
        df_new['MAP'] = df_new['DiastolicBP'] + (df_new['SystolicBP'] - df_new['DiastolicBP']) / 3
    
    # IMC categorizado
    if 'BMI' in df.columns:
        df_new['BMI_Category'] = pd.cut(df_new['BMI'], 
                                         bins=[0, 18.5, 25, 30, 100], 
                                         labels=['Bajo', 'Normal', 'Sobrepeso', 'Obeso'])
    
    # Edad al cuadrado
    if 'Age' in df.columns:
        df_new['Age_Squared'] = df_new['Age'] ** 2
    
    return df_new
    """)
else:
    print("\n‚ö†Ô∏è No se identificaron oportunidades claras para features derivados.")
    print("   Esto puede deberse a que el dataset no contiene las columnas esperadas.")

print("\n" + "="*80)


## 8.8 Reglas de Validaci√≥n de Datos

Identificaci√≥n y documentaci√≥n de reglas de negocio y restricciones de integridad para el dataset.


In [None]:
# Identificar y documentar reglas de validaci√≥n de datos
print("\n" + "="*80)
print("REGLAS DE VALIDACI√ìN DE DATOS")
print("="*80 + "\n")

# Usar df_clean si existe
df_validate = df_clean if 'df_clean' in locals() else df

# Estructura para almacenar reglas
validation_rules_dict = {}

print("üìã REGLAS DE VALIDACI√ìN IDENTIFICADAS:")
print("="*80)

# REGLA 1: RANGOS V√ÅLIDOS PARA VARIABLES NUM√âRICAS
print("\n1Ô∏è‚É£ RANGOS V√ÅLIDOS PARA VARIABLES NUM√âRICAS:")
print("-"*80)

numeric_ranges = {
    'Age': {
        'min': 0,
        'max': 120,
        'tipo': 'Edad en a√±os',
        'justificaci√≥n': 'Rango biol√≥gico humano'
    },
    'BMI': {
        'min': 10,
        'max': 60,
        'tipo': '√çndice de Masa Corporal',
        'justificaci√≥n': 'Rango cl√≠nico v√°lido'
    },
    'SystolicBP': {
        'min': 70,
        'max': 250,
        'tipo': 'Presi√≥n arterial sist√≥lica (mmHg)',
        'justificaci√≥n': 'Rango fisiol√≥gico compatible con vida'
    },
    'DiastolicBP': {
        'min': 40,
        'max': 150,
        'tipo': 'Presi√≥n arterial diast√≥lica (mmHg)',
        'justificaci√≥n': 'Rango fisiol√≥gico compatible con vida'
    },
    'CholesterolTotal': {
        'min': 100,
        'max': 400,
        'tipo': 'Colesterol total (mg/dL)',
        'justificaci√≥n': 'Rango cl√≠nico observado'
    },
    'CholesterolLDL': {
        'min': 50,
        'max': 300,
        'tipo': 'Colesterol LDL (mg/dL)',
        'justificaci√≥n': 'Rango cl√≠nico observado'
    },
    'CholesterolHDL': {
        'min': 20,
        'max': 100,
        'tipo': 'Colesterol HDL (mg/dL)',
        'justificaci√≥n': 'Rango cl√≠nico observado'
    },
    'CholesterolTriglycerides': {
        'min': 50,
        'max': 500,
        'tipo': 'Triglic√©ridos (mg/dL)',
        'justificaci√≥n': 'Rango cl√≠nico observado'
    },
    'MMSE': {
        'min': 0,
        'max': 30,
        'tipo': 'Mini-Mental State Examination',
        'justificaci√≥n': 'Escala de 0-30 puntos'
    },
    'FunctionalAssessment': {
        'min': 0,
        'max': 10,
        'tipo': 'Evaluaci√≥n funcional',
        'justificaci√≥n': 'Escala de 0-10 puntos'
    },
    'ADL': {
        'min': 0,
        'max': 10,
        'tipo': 'Activities of Daily Living',
        'justificaci√≥n': 'Escala de 0-10 puntos'
    }
}

for col, rules in numeric_ranges.items():
    if col in df_validate.columns:
        print(f"\n   ‚Ä¢ {col}: [{rules['min']}, {rules['max']}]")
        print(f"     Tipo: {rules['tipo']}")
        print(f"     Justificaci√≥n: {rules['justificaci√≥n']}")
        
        # Validar
        out_of_range = df_validate[(df_validate[col] < rules['min']) | (df_validate[col] > rules['max'])][col].count()
        
        if out_of_range > 0:
            print(f"     ‚ö†Ô∏è {out_of_range} valor(es) fuera de rango")
        else:
            print(f"     ‚úì Todos los valores en rango v√°lido")
        
        validation_rules_dict[col] = rules

# REGLA 2: RELACIONES L√ìGICAS ENTRE VARIABLES
print("\n\n2Ô∏è‚É£ RELACIONES L√ìGICAS ENTRE VARIABLES:")
print("-"*80)

logical_rules = []

# Regla: Systolic BP > Diastolic BP
if 'SystolicBP' in df_validate.columns and 'DiastolicBP' in df_validate.columns:
    rule = {
        'nombre': 'Presi√≥n Sist√≥lica > Diast√≥lica',
        'condici√≥n': 'SystolicBP > DiastolicBP',
        'justificaci√≥n': 'Principio fisiol√≥gico b√°sico'
    }
    logical_rules.append(rule)
    
    violations = (df_validate['SystolicBP'] <= df_validate['DiastolicBP']).sum()
    print(f"\n   ‚Ä¢ {rule['nombre']}")
    print(f"     Condici√≥n: {rule['condici√≥n']}")
    print(f"     Justificaci√≥n: {rule['justificaci√≥n']}")
    print(f"     Violaciones: {violations} registro(s)")

# Regla: LDL + HDL ‚â§ Colesterol Total
if all(col in df_validate.columns for col in ['CholesterolTotal', 'CholesterolLDL', 'CholesterolHDL']):
    rule = {
        'nombre': 'LDL + HDL ‚â§ Colesterol Total',
        'condici√≥n': 'CholesterolLDL + CholesterolHDL ‚â§ CholesterolTotal * 1.1',
        'justificaci√≥n': 'El total debe ser suma de componentes (con margen 10%)'
    }
    logical_rules.append(rule)
    
    violations = ((df_validate['CholesterolLDL'] + df_validate['CholesterolHDL']) > 
                  df_validate['CholesterolTotal'] * 1.1).sum()
    print(f"\n   ‚Ä¢ {rule['nombre']}")
    print(f"     Condici√≥n: {rule['condici√≥n']}")
    print(f"     Justificaci√≥n: {rule['justificaci√≥n']}")
    print(f"     Violaciones: {violations} registro(s)")

# Regla: BMI coherente con altura/peso (si existen)
if all(col in df_validate.columns for col in ['Height', 'Weight', 'BMI']):
    rule = {
        'nombre': 'BMI = Weight / (Height¬≤)',
        'condici√≥n': 'BMI ‚âà Weight / ((Height/100)¬≤)',
        'justificaci√≥n': 'F√≥rmula matem√°tica del IMC'
    }
    logical_rules.append(rule)
    
    calculated_bmi = df_validate['Weight'] / ((df_validate['Height']/100) ** 2)
    violations = (abs(df_validate['BMI'] - calculated_bmi) > 2).sum()  # Margen de 2 unidades
    print(f"\n   ‚Ä¢ {rule['nombre']}")
    print(f"     Condici√≥n: {rule['condici√≥n']}")
    print(f"     Justificaci√≥n: {rule['justificaci√≥n']}")
    print(f"     Violaciones: {violations} registro(s) (diferencia > 2)")

# REGLA 3: VALORES OBLIGATORIOS (NO NULOS)
print("\n\n3Ô∏è‚É£ CAMPOS OBLIGATORIOS (NO NULOS):")
print("-"*80)

mandatory_fields = ['Age', 'Gender', 'Diagnosis']  # Campos que SIEMPRE deben tener valor

for field in mandatory_fields:
    if field in df_validate.columns:
        null_count = df_validate[field].isnull().sum()
        print(f"\n   ‚Ä¢ {field}")
        print(f"     Valores nulos: {null_count}")
        
        if null_count > 0:
            print(f"     ‚ö†Ô∏è VIOLACI√ìN: Campo obligatorio con valores nulos")
        else:
            print(f"     ‚úì Cumple: Sin valores nulos")

# REGLA 4: VALORES CATEG√ìRICOS V√ÅLIDOS
print("\n\n4Ô∏è‚É£ VALORES CATEG√ìRICOS V√ÅLIDOS:")
print("-"*80)

categorical_constraints = {
    'Gender': ['Male', 'Female', 'M', 'F', 0, 1],
    'Smoking': [0, 1, 'Yes', 'No'],
    'FamilyHistoryAlzheimers': [0, 1, 'Yes', 'No'],
    'CardiovascularDisease': [0, 1, 'Yes', 'No'],
    'Diabetes': [0, 1, 'Yes', 'No'],
    'Depression': [0, 1, 'Yes', 'No'],
    'HeadInjury': [0, 1, 'Yes', 'No'],
    'Hypertension': [0, 1, 'Yes', 'No']
}

for col, valid_values in categorical_constraints.items():
    if col in df_validate.columns:
        invalid_count = (~df_validate[col].isin(valid_values)).sum()
        unique_invalid = df_validate[~df_validate[col].isin(valid_values)][col].unique()
        
        print(f"\n   ‚Ä¢ {col}")
        print(f"     Valores v√°lidos: {valid_values}")
        print(f"     Valores inv√°lidos: {invalid_count}")
        
        if invalid_count > 0:
            print(f"     ‚ö†Ô∏è Valores no reconocidos: {unique_invalid}")
        else:
            print(f"     ‚úì Todos los valores son v√°lidos")

# REGLA 5: CONSISTENCIA TEMPORAL/L√ìGICA
print("\n\n5Ô∏è‚É£ CONSISTENCIA L√ìGICA ADICIONAL:")
print("-"*80)

consistency_rules = []

# Edad y diagn√≥stico de Alzheimer
if 'Age' in df_validate.columns and 'Diagnosis' in df_validate.columns:
    # Alzheimer es m√°s com√∫n en mayores de 65
    young_alzheimers = df_validate[(df_validate['Age'] < 50) & (df_validate['Diagnosis'] == 1)]
    
    print(f"\n   ‚Ä¢ Diagn√≥stico de Alzheimer en menores de 50 a√±os:")
    print(f"     Casos detectados: {len(young_alzheimers)}")
    
    if len(young_alzheimers) > 0:
        print(f"     ‚ö†Ô∏è Alzheimer de inicio temprano (early-onset) - revisar si es v√°lido")
    else:
        print(f"     ‚úì No hay casos de Alzheimer en menores de 50 a√±os")

# MMSE bajo con diagn√≥stico negativo (inconsistencia)
if 'MMSE' in df_validate.columns and 'Diagnosis' in df_validate.columns:
    low_mmse_no_diagnosis = df_validate[(df_validate['MMSE'] < 20) & (df_validate['Diagnosis'] == 0)]
    
    print(f"\n   ‚Ä¢ MMSE bajo (<20) sin diagn√≥stico de Alzheimer:")
    print(f"     Casos detectados: {len(low_mmse_no_diagnosis)}")
    
    if len(low_mmse_no_diagnosis) > 0:
        print(f"     ‚ö†Ô∏è Posible inconsistencia: MMSE bajo sugiere deterioro cognitivo")
    else:
        print(f"     ‚úì Consistente: MMSE bajo asociado con diagn√≥stico positivo")

# RESUMEN EJECUTIVO
print("\n\n" + "="*80)
print("üìä RESUMEN DE VALIDACI√ìN:")
print("="*80)

total_rules = len(numeric_ranges) + len(logical_rules) + len(mandatory_fields) + len(categorical_constraints)

print(f"\nTotal de reglas de validaci√≥n definidas: {total_rules}")
print(f"   ‚Ä¢ Rangos num√©ricos: {len(numeric_ranges)}")
print(f"   ‚Ä¢ Relaciones l√≥gicas: {len(logical_rules)}")
print(f"   ‚Ä¢ Campos obligatorios: {len(mandatory_fields)}")
print(f"   ‚Ä¢ Restricciones categ√≥ricas: {len(categorical_constraints)}")

print("\nüí° RECOMENDACIONES:")
print("-"*80)
print("""
1. Implementar estas reglas en el pipeline de ingesta de datos
2. Crear tests autom√°ticos que validen cada regla
3. Documentar excepciones v√°lidas (e.g., Alzheimer de inicio temprano)
4. Establecer alertas para violaciones cr√≠ticas
5. Revisar peri√≥dicamente rangos basados en nuevos datos
6. Crear funciones de validaci√≥n reutilizables
""")

# Guardar reglas para uso posterior
data_validation_rules = {
    'numeric_ranges': numeric_ranges,
    'logical_rules': logical_rules,
    'mandatory_fields': mandatory_fields,
    'categorical_constraints': categorical_constraints
}

print("\n‚úÖ Reglas de validaci√≥n documentadas y guardadas en 'data_validation_rules'")
print("="*80)


## 9. Resumen Ejecutivo

Conclusiones y recomendaciones generales sobre el dataset.

In [None]:
print("\n" + "="*80)
print("RESUMEN EJECUTIVO DEL EDA")
print("="*80 + "\n")

print(f"üìä Dataset: {data_path}")
print(f"üìà Dimensiones: {df.shape[0]:,} filas √ó {df.shape[1]} columnas")
print(f"\nüîç Composici√≥n del Dataset:")
print(f"   ‚Ä¢ Variables num√©ricas: {len(numeric_cols)}")
print(f"   ‚Ä¢ Variables categ√≥ricas: {len(categorical_cols)}")

# Calidad de datos
pct_missing = (df.isnull().sum().sum() / (df.shape[0] * df.shape[1]) * 100)
print(f"\n‚öôÔ∏è  Calidad de Datos:")
print(f"   ‚Ä¢ % Valores faltantes totales: {pct_missing:.2f}%")
print(f"   ‚Ä¢ Rows completas: {len(df.dropna()):,} ({(len(df.dropna())/len(df)*100):.1f}%)")

# Recomendaciones
print(f"\nüí° Recomendaciones:")

if pct_missing > 5:
    print(f"   ‚ö†Ô∏è  Alta proporci√≥n de valores faltantes ({pct_missing:.2f}%). Considerar:")
    print(f"       - Imputaci√≥n de valores")
    print(f"       - Eliminaci√≥n de columnas/filas con muchos faltantes")
else:
    print(f"   ‚úì Proporci√≥n aceptable de valores faltantes ({pct_missing:.2f}%)")

if len(outlier_summary) > 0:
    print(f"   ‚ö†Ô∏è  Se detectaron outliers. Considerar:")
    print(f"       - An√°lisis causa-efecto de los outliers")
    print(f"       - Posible transformaci√≥n o remoci√≥n")
else:
    print(f"   ‚úì No hay outliers significativos detectados")

if len(numeric_cols) > 1 and strong_corr:
    print(f"   üí¨ Se encontraron {len(strong_corr)} correlaci√≥n(es) fuerte(s)")
    print(f"       - Revisar multicolinealidad para modelos predictivos")

print(f"\n‚úÖ EDA completado exitosamente")
print("="*80)