# Análisis Exploratorio de Datos (EDA) - Home Credit Default Risk

Este notebook tiene como objetivo entender la estructura de los datos, la calidad de los mismos y la distribución de la variable objetivo.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Configuración de visualización
plt.style.use('ggplot')
pd.set_option('display.max_columns', None)

## 1. Carga de Datos
Cargamos la tabla principal `application_.parquet`.

In [None]:
DATA_DIR = '../'
APP_FILE = os.path.join(DATA_DIR, 'application_.parquet')

try:
    df = pd.read_parquet(APP_FILE)
    print(f"Dataset cargado: {df.shape}")
except Exception as e:
    print(f"Error cargando datos: {e}")

## 2. Análisis de la Variable Objetivo (TARGET)
Revisamos el desbalance de clases.

In [None]:
if 'TARGET' in df.columns:
    target_counts = df['TARGET'].value_counts(normalize=True)
    print(target_counts)
    
    plt.figure(figsize=(6,4))
    sns.countplot(x='TARGET', data=df)
    plt.title('Distribución de TARGET')
    plt.show()
else:
    print("La columna TARGET no se encuentra en el dataset (¿es test set?).")

## 3. Valores Nulos
Identificamos columnas con alta cantidad de valores faltantes.

In [None]:
missing_data = df.isnull().sum().sort_values(ascending=False)
missing_percent = (df.isnull().sum() / df.isnull().count()).sort_values(ascending=False)
missing_info = pd.concat([missing_data, missing_percent], axis=1, keys=['Total', 'Percent'])

print(missing_info.head(20))

## 4. Tipos de Datos
Revisamos las columnas categóricas y numéricas.

In [None]:
print(df.dtypes.value_counts())