# Comprensi√≥n y An√°lisis Exploratorio de Datos (EDA)

**Proyecto:** Pipeline MLOps - Predicci√≥n de Pago a Tiempo de Cr√©ditos

**Autor:** Data Science Team

---

## Objetivo

Realizar un an√°lisis exploratorio exhaustivo de los datos para:
1. Comprender la estructura y caracter√≠sticas de los datos
2. Identificar patrones, tendencias y anomal√≠as
3. Detectar problemas de calidad de datos
4. Establecer reglas de validaci√≥n
5. Identificar transformaciones necesarias para el modelado

## Contenido

1. Carga de Datos y Configuraci√≥n
2. Exploraci√≥n Inicial de Datos
3. An√°lisis Univariable
4. An√°lisis Bivariable
5. An√°lisis Multivariable
6. Reglas de Validaci√≥n
7. Transformaciones Identificadas
8. Conclusiones y Recomendaciones

## 1. Carga de Datos y Configuraci√≥n

In [None]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings
from scipy import stats
from scipy.stats import chi2_contingency, pearsonr, spearmanr

# Configuraci√≥n
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
%matplotlib inline

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.width', None)
pd.set_option('display.float_format', lambda x: '%.3f' % x)

np.random.seed(42)

print("‚úì Librer√≠as cargadas y configuradas")

In [None]:
# Cargar datos
# Intentamos cargar desde la ruta relativa esperada
try:
    df = pd.read_excel('../../Base_de_datos.xlsx')
    print("‚úì Datos cargados desde ruta relativa principal")
except FileNotFoundError:
    try:
        df = pd.read_excel('Base_de_datos.xlsx')
        print("‚úì Datos cargados desde directorio actual")
    except FileNotFoundError:
        # Ajuste para rutas absolutas si es necesario
        print("‚ùå No se encontr√≥ el archivo Base_de_datos.xlsx en las rutas esperadas")

# Verificar carga
if 'df' in locals():
    print(f"‚úì Datos cargados: {df.shape[0]:,} filas x {df.shape[1]} columnas")
    # Crear una copia para trabajar sin modificar el original
    df_original = df.copy()
    print("‚úì Copia de seguridad creada")
else:
    print("‚ö†Ô∏è Error cr√≠tico: No se pudieron cargar los datos")

## 2. Exploraci√≥n Inicial de Datos

### 2.1 Descripci√≥n General

In [None]:
print("="*80)
print("INFORMACI√ìN GENERAL DEL DATASET")
print("="*80)
print(f"\nDimensiones: {df.shape[0]:,} registros x {df.shape[1]} variables")
print(f"Memoria utilizada: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print("\n" + "="*80)

In [None]:
# Vista previa de los datos
print("Primeras 10 filas del dataset:")
df.head(10)

In [None]:
# Informaci√≥n detallada de columnas
df.info()

### 2.2 Caracterizaci√≥n de Variables

Clasificaremos las variables seg√∫n su tipo y naturaleza para un an√°lisis m√°s estructurado.

In [None]:
# Identificar tipos de variables
columnas_numericas = df.select_dtypes(include=['int64', 'float64']).columns.tolist()
columnas_categoricas = df.select_dtypes(include=['object']).columns.tolist()
columnas_fecha = [col for col in df.columns if 'fecha' in col.lower()]

# Variable objetivo
variable_objetivo = 'Pago_atiempo'

# Eliminar variable objetivo y fechas de las listas si est√°n presentes
if variable_objetivo in columnas_numericas:
    columnas_numericas.remove(variable_objetivo)
for fecha in columnas_fecha:
    if fecha in columnas_numericas:
        columnas_numericas.remove(fecha)
    if fecha in columnas_categoricas:
        columnas_categoricas.remove(fecha)

print("="*80)
print("CARACTERIZACI√ìN DE VARIABLES")
print("="*80)
print(f"\nüìä VARIABLE OBJETIVO:")
print(f"   {variable_objetivo}")
print(f"\nüî¢ VARIABLES NUM√âRICAS ({len(columnas_numericas)}):")
for i, col in enumerate(columnas_numericas, 1):
    print(f"   {i:2d}. {col}")
print(f"\nüìù VARIABLES CATEG√ìRICAS ({len(columnas_categoricas)}):")
for i, col in enumerate(columnas_categoricas, 1):
    print(f"   {i:2d}. {col}")
print(f"\nüìÖ VARIABLES DE FECHA ({len(columnas_fecha)}):")
for i, col in enumerate(columnas_fecha, 1):
    print(f"   {i:2d}. {col}")
print("\n" + "="*80)

### 2.3 An√°lisis de Valores Nulos

Identificaremos y cuantificaremos los valores nulos en cada columna.

In [None]:
# An√°lisis detallado de valores nulos
def analizar_nulos(dataframe):
    """
    Analiza valores nulos en el dataframe
    """
    nulos_count = dataframe.isnull().sum()
    nulos_pct = (nulos_count / len(dataframe)) * 100
    
    resumen = pd.DataFrame({
        'Columna': dataframe.columns,
        'Tipo_Dato': dataframe.dtypes,
        'Valores_Nulos': nulos_count.values,
        'Porcentaje_Nulos': nulos_pct.values,
        'Valores_Unicos': [dataframe[col].nunique() for col in dataframe.columns]
    })
    
    resumen = resumen.sort_values('Valores_Nulos', ascending=False)
    return resumen

resumen_nulos = analizar_nulos(df)

print("="*80)
print("AN√ÅLISIS DE VALORES NULOS")
print("="*80)
print(f"\nTotal de valores nulos en el dataset: {df.isnull().sum().sum():,}")
print(f"Porcentaje total de nulos: {(df.isnull().sum().sum() / df.size * 100):.2f}%\n")

# Mostrar solo columnas con nulos
resumen_con_nulos = resumen_nulos[resumen_nulos['Valores_Nulos'] > 0]

if len(resumen_con_nulos) > 0:
    print(f"\nColumnas con valores nulos: {len(resumen_con_nulos)}\n")
    print(resumen_con_nulos.to_string(index=False))
    
    # Visualizaci√≥n
    if len(resumen_con_nulos) > 0:
        plt.figure(figsize=(12, 6))
        plt.barh(resumen_con_nulos['Columna'], resumen_con_nulos['Porcentaje_Nulos'], 
                color='coral', edgecolor='black')
        plt.xlabel('Porcentaje de Valores Nulos (%)', fontsize=11)
        plt.title('Distribuci√≥n de Valores Nulos por Columna', fontsize=13, fontweight='bold')
        plt.grid(axis='x', alpha=0.3)
        plt.tight_layout()
        plt.show()
else:
    print("\n‚úì No se encontraron valores nulos en ninguna columna")

### 2.4 Unificar Representaci√≥n de Valores Nulos

Convertiremos diferentes representaciones de nulos a un formato est√°ndar.

In [None]:
# Valores que deben considerarse como nulos
valores_nulos = ['', ' ', 'NA', 'N/A', 'na', 'n/a', 'NULL', 'null', 'None', 'none', '-', '--', '?']

print("Unificando representaciones de valores nulos...")
print(f"\nValores tratados como nulos: {valores_nulos}")

# Reemplazar valores nulos en columnas categ√≥ricas
for col in columnas_categoricas:
    df[col] = df[col].replace(valores_nulos, np.nan)

# Verificar cambios
nulos_despues = df.isnull().sum().sum()
print(f"\nTotal de nulos despu√©s de unificar: {nulos_despues:,}")
print("‚úì Valores nulos unificados")

### 2.5 Conversi√≥n de Tipos de Datos

Aseguraremos que cada columna tenga el tipo de dato correcto.

In [None]:
print("="*80)
print("CONVERSI√ìN DE TIPOS DE DATOS")
print("="*80)

# Convertir columnas de fecha
for col in columnas_fecha:
    if col in df.columns:
        try:
            df[col] = pd.to_datetime(df[col])
            print(f"‚úì {col} convertida a datetime")
        except Exception as e:
            print(f"‚ùå Error al convertir {col}: {str(e)}")

# Verificar y convertir variable objetivo a entero
if variable_objetivo in df.columns:
    try:
        df[variable_objetivo] = df[variable_objetivo].astype(int)
        print(f"‚úì {variable_objetivo} confirmada como int")
    except ValueError:
        print(f"‚ö†Ô∏è No se pudo convertir {variable_objetivo} a int directamente (posibles nulos o valores no num√©ricos)")

print("\nTipos de datos actualizados:")
print(df.dtypes)

### 2.6 Identificaci√≥n de Variables Irrelevantes

Analizaremos si existen variables que no aportan informaci√≥n al modelo.

In [None]:
print("="*80)
print("AN√ÅLISIS DE VARIABLES IRRELEVANTES")
print("="*80)

variables_baja_varianza = []
variables_muchos_nulos = []
variables_constantes = []

for col in df.columns:
    # Variables con un solo valor √∫nico (constantes)
    if df[col].nunique() == 1:
        variables_constantes.append(col)
    
    # Variables con m√°s del 90% de nulos
    pct_nulos = (df[col].isnull().sum() / len(df)) * 100
    if pct_nulos > 90:
        variables_muchos_nulos.append(col)
    
    # Variables con muy baja varianza (>95% mismo valor para categ√≥ricas)
    if col in columnas_categoricas:
        if df[col].value_counts(normalize=True).iloc[0] > 0.95:
            variables_baja_varianza.append(col)

print(f"\nVariables constantes (1 valor √∫nico): {len(variables_constantes)}")
if variables_constantes:
    print(f"   {variables_constantes}")

print(f"\nVariables con >90% nulos: {len(variables_muchos_nulos)}")
if variables_muchos_nulos:
    print(f"   {variables_muchos_nulos}")

print(f"\nVariables con baja varianza (>95% mismo valor): {len(variables_baja_varianza)}")
if variables_baja_varianza:
    for var in variables_baja_varianza:
        print(f"   - {var}: {df[var].value_counts(normalize=True).iloc[0]*100:.1f}% es '{df[var].value_counts().index[0]}'")

variables_a_eliminar = list(set(variables_constantes + variables_muchos_nulos))

if len(variables_a_eliminar) > 0:
    print(f"\n‚ö†Ô∏è  Se recomienda eliminar {len(variables_a_eliminar)} variables")
    print(f"    Variables: {variables_a_eliminar}")
else:
    print("\n‚úì No se identificaron variables claramente irrelevantes")

## 3. An√°lisis Univariable

### 3.1 Variables Num√©ricas

In [None]:
# Estad√≠sticas descriptivas completas para variables num√©ricas
print("="*80)
print("ESTAD√çSTICAS DESCRIPTIVAS - VARIABLES NUM√âRICAS")
print("="*80)
df[columnas_numericas].describe().T

In [None]:
# Estad√≠sticas adicionales: skewness, kurtosis
print("="*80)
print("MEDIDAS DE FORMA DE DISTRIBUCI√ìN")
print("="*80)

estadisticas_forma = pd.DataFrame({
    'Variable': columnas_numericas,
    'Skewness': [df[col].skew() for col in columnas_numericas],
    'Kurtosis': [df[col].kurtosis() for col in columnas_numericas]
})

# Interpretaci√≥n de skewness
estadisticas_forma['Interpretacion_Skewness'] = estadisticas_forma['Skewness'].apply(
    lambda x: 'Sim√©trica' if abs(x) < 0.5 else ('Asim√©trica derecha' if x > 0 else 'Asim√©trica izquierda')
)

print(estadisticas_forma.to_string(index=False))

In [None]:
# Visualizaci√≥n: Histogramas y boxplots para variables num√©ricas
def plot_distribucion_numerica(df, columnas, filas=4, columnas_grafico=3):
    """
    Crea histogramas y boxplots para variables num√©ricas
    """
    n_cols = len(columnas)
    n_filas = (n_cols // columnas_grafico) + (1 if n_cols % columnas_grafico > 0 else 0)
    
    fig, axes = plt.subplots(n_filas, columnas_grafico, figsize=(18, n_filas * 4))
    axes = axes.flatten() if n_cols > 1 else [axes]
    
    for idx, col in enumerate(columnas):
        # Histograma con KDE
        axes[idx].hist(df[col].dropna(), bins=50, edgecolor='black', alpha=0.7, density=True)
        df[col].dropna().plot(kind='kde', ax=axes[idx], color='red', linewidth=2)
        axes[idx].set_title(f'Distribuci√≥n: {col}', fontweight='bold')
        axes[idx].set_xlabel('')
        axes[idx].grid(alpha=0.3)
    
    # Ocultar ejes vac√≠os
    for idx in range(n_cols, len(axes)):
        axes[idx].axis('off')
    
    plt.tight_layout()
    plt.show()

if len(columnas_numericas) > 0:
    print("Distribuciones de Variables Num√©ricas:")
    plot_distribucion_numerica(df, columnas_numericas[:9])  # Primeras 9 variables

In [None]:
# Continuar con m√°s variables si hay m√°s de 9
if len(columnas_numericas) > 9:
    plot_distribucion_numerica(df, columnas_numericas[9:])

In [None]:
# Boxplots para detectar outliers
def plot_boxplots(df, columnas, filas=4, columnas_grafico=3):
    """
    Crea boxplots para variables num√©ricas
    """
    n_cols = len(columnas)
    n_filas = (n_cols // columnas_grafico) + (1 if n_cols % columnas_grafico > 0 else 0)
    
    fig, axes = plt.subplots(n_filas, columnas_grafico, figsize=(18, n_filas * 3))
    axes = axes.flatten() if n_cols > 1 else [axes]
    
    for idx, col in enumerate(columnas):
        axes[idx].boxplot(df[col].dropna(), vert=True)
        axes[idx].set_title(f'Boxplot: {col}', fontweight='bold')
        axes[idx].set_ylabel(col)
        axes[idx].grid(alpha=0.3)
    
    # Ocultar ejes vac√≠os
    for idx in range(n_cols, len(axes)):
        axes[idx].axis('off')
    
    plt.tight_layout()
    plt.show()

if len(columnas_numericas) > 0:
    print("\nBoxplots para Detecci√≥n de Outliers:")
    plot_boxplots(df, columnas_numericas[:9])

In [None]:
if len(columnas_numericas) > 9:
    plot_boxplots(df, columnas_numericas[9:])

In [None]:
# An√°lisis de outliers usando IQR
def analizar_outliers(df, columnas):
    """
    Detecta outliers usando el m√©todo IQR
    """
    resultados = []
    
    for col in columnas:
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1
        
        limite_inferior = Q1 - 1.5 * IQR
        limite_superior = Q3 + 1.5 * IQR
        
        outliers = df[(df[col] < limite_inferior) | (df[col] > limite_superior)][col]
        
        resultados.append({
            'Variable': col,
            'Q1': Q1,
            'Q3': Q3,
            'IQR': IQR,
            'Limite_Inferior': limite_inferior,
            'Limite_Superior': limite_superior,
            'N_Outliers': len(outliers),
            'Porcentaje_Outliers': (len(outliers) / len(df)) * 100
        })
    
    return pd.DataFrame(resultados)

print("="*80)
print("AN√ÅLISIS DE OUTLIERS (M√âTODO IQR)")
print("="*80)
if len(columnas_numericas) > 0:
    outliers_df = analizar_outliers(df, columnas_numericas)
    print(outliers_df.to_string(index=False))
else:
    print("No hay variables num√©ricas para analizar outliers")

### 3.2 Variables Categ√≥ricas

In [None]:
# Estad√≠sticas descriptivas para variables categ√≥ricas
print("="*80)
print("ESTAD√çSTICAS DESCRIPTIVAS - VARIABLES CATEG√ìRICAS")
print("="*80)

for col in columnas_categoricas:
    print(f"\n{'='*60}")
    print(f"Variable: {col}")
    print(f"{'='*60}")
    print(f"Valores √∫nicos: {df[col].nunique()}")
    print(f"Valor m√°s frecuente: {df[col].mode()[0] if len(df[col].mode()) > 0 else 'N/A'}")
    print(f"\nDistribuci√≥n de frecuencias:")
    
    frecuencias = df[col].value_counts()
    frecuencias_pct = df[col].value_counts(normalize=True) * 100
    
    resumen = pd.DataFrame({
        'Frecuencia': frecuencias,
        'Porcentaje': frecuencias_pct
    })
    
    print(resumen.head(10))  # Mostrar top 10 categor√≠as

In [None]:
# Visualizaci√≥n de variables categ√≥ricas
def plot_categoricas(df, columnas):
    """
    Crea gr√°ficos de barras para variables categ√≥ricas
    """
    for col in columnas:
        # Verificar si la columna tiene demasiadas categor√≠as
        if df[col].nunique() > 50:
            print(f"\n‚ö†Ô∏è La variable {col} tiene demasiadas categor√≠as ({df[col].nunique()}) para graficar.")
            continue
            
        plt.figure(figsize=(12, 5))
        
        # Countplot
        value_counts = df[col].value_counts()
        plt.subplot(1, 2, 1)
        value_counts.head(20).plot(kind='bar', edgecolor='black', alpha=0.7)
        plt.title(f'Distribuci√≥n: {col}', fontweight='bold', fontsize=12)
        plt.xlabel(col)
        plt.ylabel('Frecuencia')
        plt.xticks(rotation=45, ha='right')
        plt.grid(axis='y', alpha=0.3)
        
        # Pie chart
        plt.subplot(1, 2, 2)
        if len(value_counts) <= 10:  # Solo si hay pocas categor√≠as
            plt.pie(value_counts, labels=value_counts.index, autopct='%1.1f%%', startangle=90)
            plt.title(f'Proporci√≥n: {col}', fontweight='bold', fontsize=12)
        else:
            top10 = value_counts.head(10)
            plt.pie(top10, labels=top10.index, autopct='%1.1f%%', startangle=90)
            plt.title(f'Proporci√≥n (Top 10): {col}', fontweight='bold', fontsize=12)
        
        plt.tight_layout()
        plt.show()

print("Distribuciones de Variables Categ√≥ricas:")
plot_categoricas(df, columnas_categoricas)

## 4. An√°lisis Bivariable

### 4.1 Relaci√≥n con la Variable Objetivo

In [None]:
# Distribuci√≥n de la variable objetivo
print("="*80)
print(f"AN√ÅLISIS DE LA VARIABLE OBJETIVO: {variable_objetivo}")
print("="*80)

distribucion_objetivo = df[variable_objetivo].value_counts().sort_index()
distribucion_pct = df[variable_objetivo].value_counts(normalize=True).sort_index() * 100

print(f"\nDistribuci√≥n:")
for clase, count in distribucion_objetivo.items():
    print(f"  Clase {clase}: {count:,} ({distribucion_pct[clase]:.2f}%)")

if len(distribucion_objetivo) > 1:
    ratio = min(distribucion_objetivo) / max(distribucion_objetivo)
    print(f"\nRatio de balance: {ratio:.3f}")

    if ratio < 0.5:
        print("‚ö†Ô∏è  Dataset desbalanceado - Considerar t√©cnicas de balanceo")
    else:
        print("‚úì Dataset razonablemente balanceado")
else:
    print("‚ö†Ô∏è  La variable objetivo solo tiene una clase!")

In [None]:
# Variables num√©ricas vs Variable objetivo
def analizar_numerica_vs_objetivo(df, columnas_num, var_objetivo):
    """
    Analiza la relaci√≥n entre variables num√©ricas y la variable objetivo
    """
    resultados = []
    
    for col in columnas_num:
        # Estad√≠sticas por clase
        try:
            clase_0 = df[df[var_objetivo] == 0][col]
            clase_1 = df[df[var_objetivo] == 1][col]
            
            # Test estad√≠stico (t-test)
            t_stat, p_value = stats.ttest_ind(clase_0.dropna(), clase_1.dropna())
            
            resultados.append({
                'Variable': col,
                'Media_Clase_0': clase_0.mean(),
                'Media_Clase_1': clase_1.mean(),
                'Diferencia_Medias': abs(clase_0.mean() - clase_1.mean()),
                'p_value': p_value,
                'Significativa': 'S√≠' if p_value < 0.05 else 'No'
            })
        except Exception as e:
            continue
    
    if not resultados:
        return pd.DataFrame(columns=['Variable', 'Media_Clase_0', 'Media_Clase_1', 
                                   'Diferencia_Medias', 'p_value', 'Significativa'])

    return pd.DataFrame(resultados).sort_values('p_value')

print("="*80)
print("AN√ÅLISIS BIVARIABLE: VARIABLES NUM√âRICAS VS OBJETIVO")
print("="*80)
analisis_num_objetivo = analizar_numerica_vs_objetivo(df, columnas_numericas, variable_objetivo)
print(analisis_num_objetivo.to_string(index=False))

In [None]:
# Visualizaci√≥n: Boxplots por clase objetivo
def plot_boxplots_por_clase(df, columnas_num, var_objetivo, n_vars=6):
    """
    Crea boxplots comparando distribuciones por clase objetivo
    """
    if len(analisis_num_objetivo) == 0:
        return

    # Seleccionar variables m√°s significativas
    vars_significativas = analisis_num_objetivo.head(n_vars)['Variable'].tolist()
    
    n_filas = (len(vars_significativas) // 3) + (1 if len(vars_significativas) % 3 > 0 else 0)
    fig, axes = plt.subplots(n_filas, 3, figsize=(18, n_filas*5))
    axes = axes.flatten() if len(vars_significativas) > 1 else [axes]
    
    for idx, col in enumerate(vars_significativas):
        df.boxplot(column=col, by=var_objetivo, ax=axes[idx])
        axes[idx].set_title(f'{col}', fontweight='bold')
        axes[idx].set_xlabel(var_objetivo)
        axes[idx].set_ylabel(col)
    
    # Ocultar ejes vac√≠os
    for idx in range(len(vars_significativas), len(axes)):
        axes[idx].axis('off')

    plt.suptitle('Distribuci√≥n de Variables por Clase Objetivo', y=1.02)
    plt.tight_layout()
    plt.show()

print("\nBoxplots de Variables M√°s Significativas por Clase:")
plot_boxplots_por_clase(df, columnas_numericas, variable_objetivo)

In [None]:
# Variables categ√≥ricas vs Variable objetivo
def analizar_categorica_vs_objetivo(df, columnas_cat, var_objetivo):
    """
    Analiza la relaci√≥n entre variables categ√≥ricas y la variable objetivo
    """
    resultados = []
    
    for col in columnas_cat:
        if df[col].nunique() > 50: # Saltar variables con demasiadas categor√≠as
            continue
            
        # Tabla de contingencia
        tabla_contingencia = pd.crosstab(df[col], df[var_objetivo])
        
        # Test Chi-cuadrado
        try:
            chi2, p_value, dof, expected = chi2_contingency(tabla_contingencia)
        except:
            chi2, p_value = np.nan, np.nan
        
        # Cram√©r's V (medida de asociaci√≥n)
        n = tabla_contingencia.sum().sum()
        cramers_v = np.sqrt(chi2 / (n * (min(tabla_contingencia.shape) - 1))) if not np.isnan(chi2) else np.nan
        
        resultados.append({
            'Variable': col,
            'Categorias_Unicas': df[col].nunique(),
            'Chi2': chi2,
            'p_value': p_value,
            'Cramers_V': cramers_v,
            'Significativa': 'S√≠' if p_value < 0.05 else 'No'
        })
    
    return pd.DataFrame(resultados).sort_values('p_value')

if len(columnas_categoricas) > 0:
    print("\n" + "="*80)
    print("AN√ÅLISIS BIVARIABLE: VARIABLES CATEG√ìRICAS VS OBJETIVO")
    print("="*80)
    analisis_cat_objetivo = analizar_categorica_vs_objetivo(df, columnas_categoricas, variable_objetivo)
    print(analisis_cat_objetivo.to_string(index=False))

In [None]:
# Visualizaci√≥n: Gr√°ficos de barras agrupadas
if len(columnas_categoricas) > 0:
    for col in columnas_categoricas:
        if df[col].nunique() > 20: continue
        
        plt.figure(figsize=(12, 5))
        
        # Tabla de contingencia normalizada
        tabla = pd.crosstab(df[col], df[variable_objetivo], normalize='index') * 100
        
        tabla.plot(kind='bar', stacked=False, edgecolor='black', alpha=0.7)
        plt.title(f'{col} vs {variable_objetivo}', fontweight='bold', fontsize=13)
        plt.xlabel(col)
        plt.ylabel('Porcentaje (%)')
        plt.xticks(rotation=45, ha='right')
        plt.grid(axis='y', alpha=0.3)
        plt.tight_layout()
        plt.show()

## 5. An√°lisis Multivariable

### 5.1 Matriz de Correlaci√≥n

In [None]:
# Calcular matriz de correlaci√≥n
print("="*80)
print("MATRIZ DE CORRELACI√ìN - VARIABLES NUM√âRICAS")
print("="*80)

# Incluir variable objetivo en la correlaci√≥n
cols_para_corr = columnas_numericas + [variable_objetivo]
if len(cols_para_corr) > 1:
    correlacion = df[cols_para_corr].corr()

    # Visualizaci√≥n de la matriz de correlaci√≥n
    plt.figure(figsize=(16, 14))
    mask = np.triu(np.ones_like(correlacion, dtype=bool))  # M√°scara para tri√°ngulo superior
    sns.heatmap(correlacion, mask=mask, annot=True, fmt='.2f', cmap='coolwarm', 
                center=0, square=True, linewidths=1, cbar_kws={"shrink": 0.8})
    plt.title('Matriz de Correlaci√≥n de Variables Num√©ricas', fontsize=14, fontweight='bold', pad=20)
    plt.tight_layout()
    plt.show()

In [None]:
# Identificar correlaciones fuertes
print("\n" + "="*80)
print("CORRELACIONES FUERTES (|r| > 0.7)")
print("="*80)

# Obtener correlaciones significativas (excluyendo diagonal)
correlaciones_fuertes = []
if 'correlacion' in locals():
    for i in range(len(correlacion.columns)):
        for j in range(i+1, len(correlacion.columns)):
            if abs(correlacion.iloc[i, j]) > 0.7:
                correlaciones_fuertes.append({
                    'Variable_1': correlacion.columns[i],
                    'Variable_2': correlacion.columns[j],
                    'Correlacion': correlacion.iloc[i, j]
                })

if correlaciones_fuertes:
    df_corr_fuertes = pd.DataFrame(correlaciones_fuertes).sort_values('Correlacion', 
                                                                        key=abs, ascending=False)
    print(df_corr_fuertes.to_string(index=False))
    print("\n‚ö†Ô∏è  Advertencia: Variables con correlaci√≥n muy alta pueden causar multicolinealidad")
else:
    print("No se encontraron correlaciones fuertes (|r| > 0.7)")

In [None]:
# Correlaci√≥n con la variable objetivo
print("\n" + "="*80)
print("CORRELACI√ìN CON LA VARIABLE OBJETIVO")
print("="*80)

if 'correlacion' in locals() and variable_objetivo in correlacion.columns:
    correlacion_objetivo = correlacion[variable_objetivo].drop(variable_objetivo).sort_values(
        key=abs, ascending=False
    )

    print(correlacion_objetivo)

    # Visualizaci√≥n
    plt.figure(figsize=(10, 8))
    correlacion_objetivo.plot(kind='barh', color=['green' if x > 0 else 'red' for x in correlacion_objetivo],
                              edgecolor='black', alpha=0.7)
    plt.title(f'Correlaci√≥n de Variables con {variable_objetivo}', fontsize=13, fontweight='bold')
    plt.xlabel('Coeficiente de Correlaci√≥n')
    plt.axvline(x=0, color='black', linestyle='--', linewidth=1)
    plt.grid(axis='x', alpha=0.3)
    plt.tight_layout()
    plt.show()

### 5.2 Pairplot de Variables Clave

In [None]:
# Seleccionar las 5 variables m√°s correlacionadas con el objetivo
if 'correlacion_objetivo' in locals() and not correlacion_objetivo.empty:
    top_vars = correlacion_objetivo.head(5).index.tolist()
    cols_pairplot = top_vars + [variable_objetivo]

    print(f"Creando pairplot con las variables m√°s relevantes: {top_vars}")
    print("Esto puede tomar unos momentos...")

    # Crear pairplot
    sns.pairplot(df[cols_pairplot], hue=variable_objetivo, diag_kind='kde', 
                 plot_kws={'alpha': 0.6}, height=2.5)
    plt.suptitle(f'Pairplot de Variables M√°s Correlacionadas con {variable_objetivo}', 
                 y=1.02, fontsize=14, fontweight='bold')
    plt.tight_layout()
    plt.show()

## 6. Reglas de Validaci√≥n de Datos

Bas√°ndonos en el EDA, establecemos reglas de validaci√≥n para el pipeline.

In [None]:
print("="*80)
print("REGLAS DE VALIDACI√ìN DE DATOS SUGERIDAS")
print("="*80)

reglas_validacion = {}

for col in df.columns:
    regla = {'tipo': str(df[col].dtype)}
    if pd.api.types.is_numeric_dtype(df[col]):
        regla['min'] = df[col].min()
        regla['max'] = df[col].max()
    elif pd.api.types.is_datetime64_any_dtype(df[col]):
        regla['min'] = df[col].min()
        regla['max'] = df[col].max()
    elif df[col].nunique() < 20:
        regla['valores_validos'] = df[col].dropna().unique().tolist()
    
    if df[col].isnull().sum() == 0:
        regla['permite_nulos'] = False
    else:
        regla['permite_nulos'] = True
        
    reglas_validacion[col] = regla

print("\nReglas de validaci√≥n inferidas:")
for variable, reglas in list(reglas_validacion.items())[:10]: # Mostrar primeros 10
    print(f"\n{variable}:")
    for regla, valor in reglas.items():
        print(f"  - {regla}: {valor}")

print("\n... (se muestran solo las primeras 10 variables)")

## 7. Transformaciones Identificadas

Documentamos las transformaciones necesarias para la fase de Feature Engineering.

In [None]:
print("="*80)
print("TRANSFORMACIONES IDENTIFICADAS PARA FEATURE ENGINEERING")
print("="*80)

transformaciones = {
    '1. Tratamiento de Nulos': [
        f"- Columnas con nulos: {', '.join(resumen_con_nulos['Columna'].tolist())}"
    ],
    '2. Encoding de Variables Categ√≥ricas': [
        f"- Variables a codificar: {', '.join(columnas_categoricas)}"
    ],
    '3. Escalado de Variables Num√©ricas': [
        "- Aplicar StandardScaler o MinMaxScaler a todas las variables num√©ricas"
    ]
}

for categoria, items in transformaciones.items():
    print(f"\n{categoria}")
    for item in items:
        print(f"  {item}")

print("\n" + "="*80)

## 8. Conclusiones y Recomendaciones

### 8.1 Resumen de Hallazgos

In [None]:
print("="*80)
print("CONCLUSIONES DEL AN√ÅLISIS EXPLORATORIO")
print("="*80)

print(f"An√°lisis completado para {df.shape[0]} registros.")
print(f"Se han identificado {len(resumen_con_nulos)} columnas con valores nulos que requieren imputaci√≥n.")
if 'outliers_df' in locals():
    print(f"Se detectaron outliers en {len(outliers_df[outliers_df['N_Outliers'] > 0])} variables num√©ricas.")

print("\nRecomendamos proceder a la fase de limpieza y feature engineering tomando en cuenta las reglas y transformaciones identificadas.")

### 8.2 Exportar Resumen del EDA

In [None]:
# Guardar resumen del EDA en archivo de texto
ruta_resumen = Path('eda_resumen.txt')

with open(ruta_resumen, 'w', encoding='utf-8') as f:
    f.write("RESUMEN DEL AN√ÅLISIS EXPLORATORIO DE DATOS\n")
    f.write("="*80 + "\n\n")
    f.write(f"Dimensiones: {df.shape}\n")

print(f"‚úì Resumen del EDA guardado en: {ruta_resumen.absolute()}")
print("\n‚úì An√°lisis Exploratorio completado exitosamente")