# 📊 Análisis Exploratorio de Datos - Credit Risk

Este notebook realiza el análisis inicial de los datos del reto de detección de riesgo crediticio.

In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configuración de visualización
plt.style.use('default')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)

print("✅ Librerías importadas correctamente")

In [None]:
# Cargar datos
data_path = Path("../data/credir_risk_reto.xlsx")
print(f"📂 Cargando datos desde: {data_path}")

df = pd.read_excel(data_path)
print(f"✅ Datos cargados exitosamente")
print(f"📊 Forma del dataset: {df.shape}")

In [None]:
# Información general del dataset
print("🔍 INFORMACIÓN GENERAL DEL DATASET")
print("=" * 50)
print(f"Número de filas: {df.shape[0]}")
print(f"Número de columnas: {df.shape[1]}")
print(f"\nColumnas disponibles:")
for i, col in enumerate(df.columns, 1):
    print(f"{i:2d}. {col}")

In [None]:
# Tipos de datos y valores nulos
print("📋 TIPOS DE DATOS Y VALORES NULOS")
print("=" * 50)

info_df = pd.DataFrame({
    'Tipo': df.dtypes,
    'Valores_Nulos': df.isnull().sum(),
    'Porcentaje_Nulos': (df.isnull().sum() / len(df) * 100).round(2),
    'Valores_Únicos': df.nunique()
})

display(info_df)

In [None]:
# Primeras filas del dataset
print("👀 PRIMERAS 10 FILAS DEL DATASET")
print("=" * 50)
display(df.head(10))

In [None]:
# Estadísticas descriptivas
print("📈 ESTADÍSTICAS DESCRIPTIVAS")
print("=" * 50)
display(df.describe(include='all'))

In [None]:
# Identificar variable target
print("🎯 IDENTIFICANDO VARIABLE TARGET")
print("=" * 50)

# Buscar columnas que podrían ser target
target_candidates = []
for col in df.columns:
    unique_vals = df[col].nunique()
    if unique_vals <= 5:  # Pocas categorías
        print(f"{col}: {unique_vals} valores únicos -> {df[col].unique()}")
        target_candidates.append(col)

print(f"\n🎯 Candidatos para variable target: {target_candidates}")

In [None]:
# Guardar dataset como CSV para uso posterior
csv_path = "../data/credit_risk_reto.csv"
df.to_csv(csv_path, index=False)
print(f"✅ Dataset guardado como CSV: {csv_path}")

# Mostrar resumen final
print(f"\n📊 RESUMEN FINAL:")
print(f"• Dataset: {df.shape[0]} filas x {df.shape[1]} columnas")
print(f"• Archivo CSV generado: {csv_path}")
print(f"• Listo para continuar con AWS Bedrock 🚀")