# 📊 Análisis Exploratorio de Datos - Credit Risk

Este notebook realiza el análisis inicial de los datos del reto de detección de riesgo crediticio.

In [1]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configuración de visualización
plt.style.use('default')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)

print("✅ Librerías importadas correctamente")

✅ Librerías importadas correctamente


In [2]:
# Cargar datos
data_path = Path("../data/credir_risk_reto.xlsx")
print(f"📂 Cargando datos desde: {data_path}")

df = pd.read_excel(data_path)
print(f"✅ Datos cargados exitosamente")
print(f"📊 Forma del dataset: {df.shape}")

📂 Cargando datos desde: ..\data\credir_risk_reto.xlsx
✅ Datos cargados exitosamente
📊 Forma del dataset: (1000, 9)


In [3]:
# Información general del dataset
print("🔍 INFORMACIÓN GENERAL DEL DATASET")
print("=" * 50)
print(f"Número de filas: {df.shape[0]}")
print(f"Número de columnas: {df.shape[1]}")
print(f"\nColumnas disponibles:")
for i, col in enumerate(df.columns, 1):
    print(f"{i:2d}. {col}")

🔍 INFORMACIÓN GENERAL DEL DATASET
Número de filas: 1000
Número de columnas: 9

Columnas disponibles:
 1. Age
 2. Sex
 3. Job
 4. Housing
 5. Saving accounts
 6. Checking account
 7. Credit amount
 8. Duration
 9. Purpose


In [4]:
# Tipos de datos y valores nulos
print("📋 TIPOS DE DATOS Y VALORES NULOS")
print("=" * 50)

info_df = pd.DataFrame({
    'Tipo': df.dtypes,
    'Valores_Nulos': df.isnull().sum(),
    'Porcentaje_Nulos': (df.isnull().sum() / len(df) * 100).round(2),
    'Valores_Únicos': df.nunique()
})

display(info_df)

📋 TIPOS DE DATOS Y VALORES NULOS


Unnamed: 0,Tipo,Valores_Nulos,Porcentaje_Nulos,Valores_Únicos
Age,int64,0,0.0,53
Sex,object,0,0.0,2
Job,int64,0,0.0,4
Housing,object,0,0.0,3
Saving accounts,object,183,18.3,4
Checking account,object,394,39.4,3
Credit amount,int64,0,0.0,921
Duration,int64,0,0.0,33
Purpose,object,0,0.0,8


In [5]:
# Primeras filas del dataset
print("👀 PRIMERAS 10 FILAS DEL DATASET")
print("=" * 50)
display(df.head(10))

👀 PRIMERAS 10 FILAS DEL DATASET


Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose
0,67,male,2,own,,little,1169,6,radio/TV
1,22,female,2,own,little,moderate,5951,48,radio/TV
2,49,male,1,own,little,,2096,12,education
3,45,male,2,free,little,little,7882,42,furniture/equipment
4,53,male,2,free,little,little,4870,24,car
5,35,male,1,free,,,9055,36,education
6,53,male,2,own,quite rich,,2835,24,furniture/equipment
7,35,male,3,rent,little,moderate,6948,36,car
8,61,male,1,own,rich,,3059,12,radio/TV
9,28,male,3,own,little,moderate,5234,30,car


In [6]:
# Estadísticas descriptivas
print("📈 ESTADÍSTICAS DESCRIPTIVAS")
print("=" * 50)
display(df.describe(include='all'))

📈 ESTADÍSTICAS DESCRIPTIVAS


Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose
count,1000.0,1000,1000.0,1000,817,606,1000.0,1000.0,1000
unique,,2,,3,4,3,,,8
top,,male,,own,little,little,,,car
freq,,690,,713,603,274,,,337
mean,35.546,,1.904,,,,3271.258,20.903,
std,11.375469,,0.653614,,,,2822.736876,12.058814,
min,19.0,,0.0,,,,250.0,4.0,
25%,27.0,,2.0,,,,1365.5,12.0,
50%,33.0,,2.0,,,,2319.5,18.0,
75%,42.0,,2.0,,,,3972.25,24.0,


In [7]:
# Identificar variable target
print("🎯 IDENTIFICANDO VARIABLE TARGET")
print("=" * 50)

# Buscar columnas que podrían ser target
target_candidates = []
for col in df.columns:
    unique_vals = df[col].nunique()
    if unique_vals <= 5:  # Pocas categorías
        print(f"{col}: {unique_vals} valores únicos -> {df[col].unique()}")
        target_candidates.append(col)

print(f"\n🎯 Candidatos para variable target: {target_candidates}")

🎯 IDENTIFICANDO VARIABLE TARGET
Sex: 2 valores únicos -> ['male' 'female']
Job: 4 valores únicos -> [2 1 3 0]
Housing: 3 valores únicos -> ['own' 'free' 'rent']
Saving accounts: 4 valores únicos -> [nan 'little' 'quite rich' 'rich' 'moderate']
Checking account: 3 valores únicos -> ['little' 'moderate' nan 'rich']

🎯 Candidatos para variable target: ['Sex', 'Job', 'Housing', 'Saving accounts', 'Checking account']


In [8]:
# Guardar dataset como CSV para uso posterior
csv_path = "../data/credit_risk_reto.csv"
df.to_csv(csv_path, index=False)
print(f"✅ Dataset guardado como CSV: {csv_path}")

# Mostrar resumen final
print(f"\n📊 RESUMEN FINAL:")
print(f"• Dataset: {df.shape[0]} filas x {df.shape[1]} columnas")
print(f"• Archivo CSV generado: {csv_path}")
print(f"• Listo para continuar con AWS Bedrock 🚀")

✅ Dataset guardado como CSV: ../data/credit_risk_reto.csv

📊 RESUMEN FINAL:
• Dataset: 1000 filas x 9 columnas
• Archivo CSV generado: ../data/credit_risk_reto.csv
• Listo para continuar con AWS Bedrock 🚀
