In [None]:
# 1. Importar las librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix
import matplotlib.ticker as ticker

# 2. Cargar los datos
df_app = pd.read_parquet("Data/Raw/application_parquet")
df_bureau = pd.read_parquet("Data/Raw/bureau_parquet")
df_prev_app = pd.read_parquet("Data/Raw/previous_application_parquet")

# 3. Visualizar las primeras filas
df_app.head()

# 4. Información general sobre el dataset
print("Información General del Dataset:")
df_app.info()

# 5. Verificar valores nulos y duplicados
# Verificar valores nulos
print("Valores Nulos en el Dataset:")
print(df_app.isnull().sum())

# Verificar valores duplicados
print("Valores Duplicados en el Dataset:")
print(df_app.duplicated().sum())

# 6. Distribución del TARGET (Incumplimiento de Pago)
sns.countplot(x='TARGET', data=df_app)
plt.title("Distribución de TARGET (Incumplimiento de Pago)")
plt.show()

# 7. Estadísticas descriptivas
df_app.describe()

# 8. Matriz de Correlación
corr_matrix = df_app.corr()
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title("Matriz de Correlación")
plt.show()

# 9. Histograma de variables numéricas
df_app.hist(bins=50, figsize=(20, 15))
plt.suptitle('Distribución de Variables Numéricas')
plt.show()

# 10. Boxplot para encontrar outliers
for col in df_app.select_dtypes(include=['float64', 'int64']).columns:
    plt.figure(figsize=(8, 6))
    sns.boxplot(x=df_app[col])
    plt.title(f"Boxplot de {col}")
    plt.show()

# 11. Comparar ingresos con TARGET
sns.boxplot(x='TARGET', y='AMT_INCOME_TOTAL', data=df_app)
plt.title("Comparación entre TARGET e Ingresos Totales")
plt.show()
