# SET UP

---
## Importación de librerías
---

In [1]:
# =============================================================
# ⚙️ Configuración inicial de entorno y librerías para limpieza
# -------------------------------------------------------------
# ➤ Importa librerías principales: pandas, numpy, matplotlib, seaborn.
# ➤ Configura estilos y formato de impresión en Jupyter.
# ➤ Mejora la visualización y autocompletado en notebooks.
# =============================================================

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt 
import seaborn as sns

# 🎯 Configuración de visualización
pd.options.display.float_format = '{:.2f}'.format    # Evita notación científica
pd.set_option('display.max_columns', None)           # Muestra todas las columnas
pd.set_option('display.max_colwidth', None)          # Muestra todo el contenido de celdas

# 🎯 Estilo visual en Jupyter
from IPython.display import display, HTML
display(HTML("""<style> th { text-align: center !important; font-weight: bold !important; } </style>"""))

# 🧠 Mejora el autocompletado en Jupyter mostrando sugerencias incluso dentro de objetos anidados (como df['col'].str.)
%config IPCompleter.greedy = True  

# 📊 Asegura que los gráficos de Matplotlib se muestren directamente en las celdas del notebook
%matplotlib inline

---
## Configuración del entorno para importar módulos internos
---

In [2]:

# =============================================================
# 🧭 Configuración del entorno para importar módulos internos
# -------------------------------------------------------------
# ➤ Añade la ruta del proyecto al sys.path para importar desde 'src'.
# ➤ Llama a la función `configurar_entorno()` si ya está disponible.
# ➤ Importa funciones necesarias desde módulos utilitarios.
# =============================================================

from pathlib import Path
import sys

# Añadir ruta a 'src/' si no está ya incluida (solo para Jupyter)
project_root = Path.cwd().resolve().parents[0]
src_path = project_root / "src"
if src_path.exists() and str(src_path) not in sys.path:
    sys.path.append(str(src_path))

# ✅ Importar configuración del entorno desde utils
from utils import configurar_entorno, load_data

# Ejecutar configuración del entorno
configurar_entorno()

# Importar funciones desde data_loading.py
from data_loading import mostrar_primeras_lineas

---
## Carga de datos originales
---

In [3]:
# =============================================================
# 📄 Visualizar primeras líneas del archivo CSV
# -------------------------------------------------------------
# ➤ Permite verificar manualmente si el archivo está bien estructurado.
# ➤ No carga el archivo entero, solo visualiza texto plano.
# =============================================================

mostrar_primeras_lineas("raw", "prestamos.csv")


📑 Primeras 5 líneas de: /Users/vicente/Library/CloudStorage/GoogleDrive-vicenteruedag@gmail.com/Mi unidad/Data Science/Proyectos/Financiacion Clientes/data/raw/prestamos.csv

id_cliente,empleo,antigüedad_empleo,ingresos,ingresos_verificados,rating,dti,vivienda,num_hipotecas,num_lineas_credito,porc_tarjetas_75p,porc_uso_revolving,num_cancelaciones_12meses,num_derogatorios,num_meses_desde_ult_retraso,id_prestamo,descripcion,finalidad,principal,tipo_interes,num_cuotas,imp_cuota,imp_amortizado,estado,imp_recuperado
137387967,Hvac technician ,3 years,54000.0,Source Verified,A,19.31,MORTGAGE,2.0,10.0,33.3,45.2,0.0,0.0,10.0,,,debt_consolidation,15000.0,7.21, 36 months,464.6,2669.06,Current,0.0
4798121,"Target Promotions and Marketing,Inc",10+ years,65000.0,Not Verified,D,25.4,RENT,1.0,15.0,85.7,86.2,0.0,0.0,,,,debt_consolidation,10000.0,17.77, 36 months,360.38,6362.96,Charged Off,0.0
46641215,Banker,5 years,135000.0,Verified,A,14.68,RENT,0.0,19.0,0.0,16.3,0.0,0.0,,,,debt_consolidation,24000.

In [4]:
# =============================================================
# 📥 Cargar dataset como DataFrame
# -------------------------------------------------------------
# ➤ Carga el CSV original y lo convierte en un DataFrame.
# ➤ Este archivo será utilizado para análisis posterior.
# =============================================================

print("\n📄 Cargando desde CSV original...")
df = load_data("raw", "prestamos.csv")

# Vista previa
print("\n✅ Vista previa del DataFrame:")
display(df)


📄 Cargando desde CSV original...

✅ Vista previa del DataFrame:


Unnamed: 0,id_cliente,empleo,antigüedad_empleo,ingresos,ingresos_verificados,rating,dti,vivienda,num_hipotecas,num_lineas_credito,porc_tarjetas_75p,porc_uso_revolving,num_cancelaciones_12meses,num_derogatorios,num_meses_desde_ult_retraso,id_prestamo,descripcion,finalidad,principal,tipo_interes,num_cuotas,imp_cuota,imp_amortizado,estado,imp_recuperado
0,137387967,Hvac technician,3 years,54000.00,Source Verified,A,19.31,MORTGAGE,2.00,10.00,33.30,45.20,0.00,0.00,10.00,,,debt_consolidation,15000.00,7.21,36 months,464.60,2669.06,Current,0.00
1,4798121,"Target Promotions and Marketing,Inc",10+ years,65000.00,Not Verified,D,25.40,RENT,1.00,15.00,85.70,86.20,0.00,0.00,,,,debt_consolidation,10000.00,17.77,36 months,360.38,6362.96,Charged Off,0.00
2,46641215,Banker,5 years,135000.00,Verified,A,14.68,RENT,0.00,19.00,0.00,16.30,0.00,0.00,,,,debt_consolidation,24000.00,6.39,36 months,734.38,24000.00,Fully Paid,0.00
3,87998444,executive director,9 years,188000.00,Source Verified,B,11.69,MORTGAGE,3.00,15.00,0.00,3.30,0.00,0.00,,,,credit_card,27000.00,8.99,60 months,560.35,12443.00,Current,0.00
4,132883631,Subsea Technician,7 years,125000.00,Source Verified,B,9.00,MORTGAGE,1.00,6.00,33.30,69.90,0.00,0.00,16.00,,,debt_consolidation,22000.00,10.90,36 months,719.22,22000.00,Fully Paid,0.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
199995,51876926,Office Manager,10+ years,42000.00,Not Verified,C,20.85,MORTGAGE,6.00,9.00,100.00,81.60,0.00,0.00,13.00,,,debt_consolidation,8000.00,12.29,36 months,266.83,8000.00,Fully Paid,0.00
199996,121031962,Owner & President,6 years,111697.00,Verified,B,16.63,MORTGAGE,2.00,10.00,50.00,26.30,0.00,1.00,6.00,,,other,10000.00,9.44,36 months,320.05,4388.51,Current,0.00
199997,135641397,Sr. Field Engineer,10+ years,285000.00,Source Verified,D,6.02,MORTGAGE,3.00,9.00,25.00,21.10,0.00,0.00,25.00,,,small_business,30000.00,17.47,36 months,1076.62,5387.53,Current,0.00
199998,53664762,Attorney,8 years,168000.00,Source Verified,E,4.69,RENT,0.00,8.00,0.00,52.40,0.00,2.00,,,,small_business,30050.00,18.25,60 months,767.17,2964.44,Charged Off,2750.88


In [5]:
# =============================================================
# 📊 Verificar la dimensionalidad del dataset
# -------------------------------------------------------------
# ➤ Comprueba si el número de registros es suficiente respecto a las variables.
# ➤ Una baja proporción puede indicar riesgo de sobreajuste.
# =============================================================
from utils import verificar_dimensionalidad

verificar_dimensionalidad(df)


📊 Verificación de la dimensionalidad:
✅ Adecuado: 200000 registros ≥ 25 variables x 100
   No se detectan problemas de sobreajuste por alta dimensionalidad.
📈 Ratio registros/variable: 8000.00



In [6]:
# =============================================================
# 📋 Resumen de estructura del DataFrame
# -------------------------------------------------------------
# ➤ Muestra información de tipos de datos y valores nulos.
# =============================================================

print("\n📋 Estructura del DataFrame:")
df.info()


📋 Estructura del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 25 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   id_cliente                   200000 non-null  int64  
 1   empleo                       185300 non-null  object 
 2   antigüedad_empleo            187112 non-null  object 
 3   ingresos                     200000 non-null  float64
 4   ingresos_verificados         200000 non-null  object 
 5   rating                       200000 non-null  object 
 6   dti                          199853 non-null  float64
 7   vivienda                     200000 non-null  object 
 8   num_hipotecas                195595 non-null  float64
 9   num_lineas_credito           199997 non-null  float64
 10  porc_tarjetas_75p            193368 non-null  float64
 11  porc_uso_revolving           199846 non-null  float64
 12  num_cancelaciones_12meses    

---
## Entendiendo el Dataset
---

In [7]:
# Diccionario con descripciones manuales
descripciones = {
    "id_cliente": "Identificador único del cliente",
    "empleo": "Profesión del cliente",
    "antigüedad_empleo": "Tiempo en años que el cliente ha estado en su empleo actual",
    "ingresos": "Ingresos anuales declarados por el cliente",
    "ingresos_verificados": "Método de verificación de ingresos",
    "rating": "Calificación crediticia del cliente",
    "dti": "Relación deuda-ingreso (Debt-To-Income)",
    "vivienda": "Tipo de vivienda del cliente",
    "num_hipotecas": "Número de hipotecas abiertas",
    "num_lineas_credito": "Número total de líneas de crédito abiertas",
    "porc_tarjetas_75p": "Porcentaje de uso de tarjetas respecto al percentil 75",
    "porc_uso_revolving": "Porcentaje de uso de crédito revolvente",
    "num_cancelaciones_12meses": "Número de cancelaciones de crédito en los últimos 12 meses",
    "num_derogatorios": "Número de registros derogatorios",
    "num_meses_desde_ult_retraso": "Meses desde el último pago atrasado",
    "id_prestamo": "Identificador único del préstamo solicitado",
    "descripcion": "Descripción del préstamo",
    "finalidad": "Finalidad o motivo del préstamo",
    "principal": "Monto principal solicitado",
    "tipo_interes": "Tasa de interés aplicada al préstamo",
    "num_cuotas": "Número de cuotas o plazos del préstamo",
    "imp_cuota": "Importe de la cuota mensual",
    "imp_amortizado": "Cantidad amortizada hasta el momento",
    "estado": "Estado actual del préstamo",
    "imp_recuperado": "Importe recuperado tras impago (si aplica)"
}

# Construir el DataFrame resumen
resumen = pd.DataFrame({
    "Variable": df.columns,
    "Descripción": [descripciones.get(col, "Descripción no disponible") for col in df.columns],
    "Nº Valores Únicos": [df[col].nunique(dropna=True) for col in df.columns]
})

resumen

Unnamed: 0,Variable,Descripción,Nº Valores Únicos
0,id_cliente,Identificador único del cliente,200000
1,empleo,Profesión del cliente,73272
2,antigüedad_empleo,Tiempo en años que el cliente ha estado en su empleo actual,11
3,ingresos,Ingresos anuales declarados por el cliente,15471
4,ingresos_verificados,Método de verificación de ingresos,3
5,rating,Calificación crediticia del cliente,7
6,dti,Relación deuda-ingreso (Debt-To-Income),5700
7,vivienda,Tipo de vivienda del cliente,6
8,num_hipotecas,Número de hipotecas abiertas,26
9,num_lineas_credito,Número total de líneas de crédito abiertas,65


---
## Guardar copia de DataFrame para trabajo
---

In [8]:
# =============================================================
# 💾 Guardado inicial de datos cargados
# -------------------------------------------------------------
# ➤ Se guarda el DataFrame original `df` en dos formatos:
#     - Formato binario (.pkl) en data/cache
#     - Formato texto (.csv) en data/processed
# ➤ Esto permite reutilizar los datos sin tener que recargarlos.
# =============================================================

from utils import guardar_multiples_archivos

# Guardar el archivo original
guardar_multiples_archivos({"trabajo_loading": df})

✅ Archivo guardado en: data/cache/trabajo_loading.pkl
✅ Archivo guardado en: data/processed/trabajo_loading.csv
