# SET UP

---
## Importaci√≥n de librer√≠as
---

In [1]:
# =============================================================
# ‚öôÔ∏è Configuraci√≥n inicial de entorno y librer√≠as para limpieza
# -------------------------------------------------------------
# ‚û§ Importa librer√≠as principales: pandas, numpy, matplotlib, seaborn.
# ‚û§ Configura estilos y formato de impresi√≥n en Jupyter.
# ‚û§ Mejora la visualizaci√≥n y autocompletado en notebooks.
# =============================================================

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt 
import seaborn as sns

# üéØ Configuraci√≥n de visualizaci√≥n
pd.options.display.float_format = '{:.2f}'.format    # Evita notaci√≥n cient√≠fica
pd.set_option('display.max_columns', None)           # Muestra todas las columnas
pd.set_option('display.max_colwidth', None)          # Muestra todo el contenido de celdas

# üéØ Estilo visual en Jupyter
from IPython.display import display, HTML
display(HTML("""<style> th { text-align: center !important; font-weight: bold !important; } </style>"""))

# üß† Mejora el autocompletado en Jupyter mostrando sugerencias incluso dentro de objetos anidados (como df['col'].str.)
%config IPCompleter.greedy = True  

# üìä Asegura que los gr√°ficos de Matplotlib se muestren directamente en las celdas del notebook
%matplotlib inline

---
## Configuraci√≥n del entorno para importar m√≥dulos internos
---

In [2]:

# =============================================================
# üß≠ Configuraci√≥n del entorno para importar m√≥dulos internos
# -------------------------------------------------------------
# ‚û§ A√±ade la ruta del proyecto al sys.path para importar desde 'src'.
# ‚û§ Llama a la funci√≥n `configurar_entorno()` si ya est√° disponible.
# ‚û§ Importa funciones necesarias desde m√≥dulos utilitarios.
# =============================================================

from pathlib import Path
import sys

# A√±adir ruta a 'src/' si no est√° ya incluida (solo para Jupyter)
project_root = Path.cwd().resolve().parents[0]
src_path = project_root / "src"
if src_path.exists() and str(src_path) not in sys.path:
    sys.path.append(str(src_path))

# ‚úÖ Importar configuraci√≥n del entorno desde utils
from utils import configurar_entorno, load_data

# Ejecutar configuraci√≥n del entorno
configurar_entorno()

# Importar funciones desde data_loading.py
from data_loading import mostrar_primeras_lineas

---
## Carga de datos originales
---

In [3]:
# =============================================================
# üìÑ Visualizar primeras l√≠neas del archivo CSV
# -------------------------------------------------------------
# ‚û§ Permite verificar manualmente si el archivo est√° bien estructurado.
# ‚û§ No carga el archivo entero, solo visualiza texto plano.
# =============================================================

mostrar_primeras_lineas("raw", "prestamos.csv")


üìë Primeras 5 l√≠neas de: /Users/vicente/Library/CloudStorage/GoogleDrive-vicenteruedag@gmail.com/Mi unidad/Data Science/Proyectos/Financiacion Clientes/data/raw/prestamos.csv

id_cliente,empleo,antig√ºedad_empleo,ingresos,ingresos_verificados,rating,dti,vivienda,num_hipotecas,num_lineas_credito,porc_tarjetas_75p,porc_uso_revolving,num_cancelaciones_12meses,num_derogatorios,num_meses_desde_ult_retraso,id_prestamo,descripcion,finalidad,principal,tipo_interes,num_cuotas,imp_cuota,imp_amortizado,estado,imp_recuperado
137387967,Hvac technician ,3 years,54000.0,Source Verified,A,19.31,MORTGAGE,2.0,10.0,33.3,45.2,0.0,0.0,10.0,,,debt_consolidation,15000.0,7.21, 36 months,464.6,2669.06,Current,0.0
4798121,"Target Promotions and Marketing,Inc",10+ years,65000.0,Not Verified,D,25.4,RENT,1.0,15.0,85.7,86.2,0.0,0.0,,,,debt_consolidation,10000.0,17.77, 36 months,360.38,6362.96,Charged Off,0.0
46641215,Banker,5 years,135000.0,Verified,A,14.68,RENT,0.0,19.0,0.0,16.3,0.0,0.0,,,,debt_consolidation,2

In [4]:
# =============================================================
# üì• Cargar dataset como DataFrame
# -------------------------------------------------------------
# ‚û§ Carga el CSV original y lo convierte en un DataFrame.
# ‚û§ Este archivo ser√° utilizado para an√°lisis posterior.
# =============================================================

print("\nüìÑ Cargando desde CSV original...")
df = load_data("raw", "prestamos.csv")

# Vista previa
print("\n‚úÖ Vista previa del DataFrame:")
display(df)


üìÑ Cargando desde CSV original...

‚úÖ Vista previa del DataFrame:


Unnamed: 0,id_cliente,empleo,antig√ºedad_empleo,ingresos,ingresos_verificados,rating,dti,vivienda,num_hipotecas,num_lineas_credito,porc_tarjetas_75p,porc_uso_revolving,num_cancelaciones_12meses,num_derogatorios,num_meses_desde_ult_retraso,id_prestamo,descripcion,finalidad,principal,tipo_interes,num_cuotas,imp_cuota,imp_amortizado,estado,imp_recuperado
0,137387967,Hvac technician,3 years,54000.00,Source Verified,A,19.31,MORTGAGE,2.00,10.00,33.30,45.20,0.00,0.00,10.00,,,debt_consolidation,15000.00,7.21,36 months,464.60,2669.06,Current,0.00
1,4798121,"Target Promotions and Marketing,Inc",10+ years,65000.00,Not Verified,D,25.40,RENT,1.00,15.00,85.70,86.20,0.00,0.00,,,,debt_consolidation,10000.00,17.77,36 months,360.38,6362.96,Charged Off,0.00
2,46641215,Banker,5 years,135000.00,Verified,A,14.68,RENT,0.00,19.00,0.00,16.30,0.00,0.00,,,,debt_consolidation,24000.00,6.39,36 months,734.38,24000.00,Fully Paid,0.00
3,87998444,executive director,9 years,188000.00,Source Verified,B,11.69,MORTGAGE,3.00,15.00,0.00,3.30,0.00,0.00,,,,credit_card,27000.00,8.99,60 months,560.35,12443.00,Current,0.00
4,132883631,Subsea Technician,7 years,125000.00,Source Verified,B,9.00,MORTGAGE,1.00,6.00,33.30,69.90,0.00,0.00,16.00,,,debt_consolidation,22000.00,10.90,36 months,719.22,22000.00,Fully Paid,0.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
199995,51876926,Office Manager,10+ years,42000.00,Not Verified,C,20.85,MORTGAGE,6.00,9.00,100.00,81.60,0.00,0.00,13.00,,,debt_consolidation,8000.00,12.29,36 months,266.83,8000.00,Fully Paid,0.00
199996,121031962,Owner & President,6 years,111697.00,Verified,B,16.63,MORTGAGE,2.00,10.00,50.00,26.30,0.00,1.00,6.00,,,other,10000.00,9.44,36 months,320.05,4388.51,Current,0.00
199997,135641397,Sr. Field Engineer,10+ years,285000.00,Source Verified,D,6.02,MORTGAGE,3.00,9.00,25.00,21.10,0.00,0.00,25.00,,,small_business,30000.00,17.47,36 months,1076.62,5387.53,Current,0.00
199998,53664762,Attorney,8 years,168000.00,Source Verified,E,4.69,RENT,0.00,8.00,0.00,52.40,0.00,2.00,,,,small_business,30050.00,18.25,60 months,767.17,2964.44,Charged Off,2750.88


In [5]:
# =============================================================
# üìä Verificar la dimensionalidad del dataset
# -------------------------------------------------------------
# ‚û§ Comprueba si el n√∫mero de registros es suficiente respecto a las variables.
# ‚û§ Una baja proporci√≥n puede indicar riesgo de sobreajuste.
# =============================================================
from utils import verificar_dimensionalidad

verificar_dimensionalidad(df)


üìä Verificaci√≥n de la dimensionalidad:
‚úÖ Adecuado: 200000 registros ‚â• 25 variables x 100
   No se detectan problemas de sobreajuste por alta dimensionalidad.
üìà Ratio registros/variable: 8000.00



In [6]:
# =============================================================
# üìã Resumen de estructura del DataFrame
# -------------------------------------------------------------
# ‚û§ Muestra informaci√≥n de tipos de datos y valores nulos.
# =============================================================

print("\nüìã Estructura del DataFrame:")
df.info()


üìã Estructura del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 25 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   id_cliente                   200000 non-null  int64  
 1   empleo                       185300 non-null  object 
 2   antig√ºedad_empleo            187112 non-null  object 
 3   ingresos                     200000 non-null  float64
 4   ingresos_verificados         200000 non-null  object 
 5   rating                       200000 non-null  object 
 6   dti                          199853 non-null  float64
 7   vivienda                     200000 non-null  object 
 8   num_hipotecas                195595 non-null  float64
 9   num_lineas_credito           199997 non-null  float64
 10  porc_tarjetas_75p            193368 non-null  float64
 11  porc_uso_revolving           199846 non-null  float64
 12  num_cancelaciones_12meses

---
## Entendiendo el Dataset
---

In [7]:
# Diccionario con descripciones manuales
descripciones = {
    "id_cliente": "Identificador √∫nico del cliente",
    "empleo": "Profesi√≥n del cliente",
    "antig√ºedad_empleo": "Tiempo en a√±os que el cliente ha estado en su empleo actual",
    "ingresos": "Ingresos anuales declarados por el cliente",
    "ingresos_verificados": "M√©todo de verificaci√≥n de ingresos",
    "rating": "Calificaci√≥n crediticia del cliente",
    "dti": "Relaci√≥n deuda-ingreso (Debt-To-Income)",
    "vivienda": "Tipo de vivienda del cliente",
    "num_hipotecas": "N√∫mero de hipotecas abiertas",
    "num_lineas_credito": "N√∫mero total de l√≠neas de cr√©dito abiertas",
    "porc_tarjetas_75p": "Porcentaje de uso de tarjetas respecto al percentil 75",
    "porc_uso_revolving": "Porcentaje de uso de cr√©dito revolvente",
    "num_cancelaciones_12meses": "N√∫mero de cancelaciones de cr√©dito en los √∫ltimos 12 meses",
    "num_derogatorios": "N√∫mero de registros derogatorios",
    "num_meses_desde_ult_retraso": "Meses desde el √∫ltimo pago atrasado",
    "id_prestamo": "Identificador √∫nico del pr√©stamo solicitado",
    "descripcion": "Descripci√≥n del pr√©stamo",
    "finalidad": "Finalidad o motivo del pr√©stamo",
    "principal": "Monto principal solicitado",
    "tipo_interes": "Tasa de inter√©s aplicada al pr√©stamo",
    "num_cuotas": "N√∫mero de cuotas o plazos del pr√©stamo",
    "imp_cuota": "Importe de la cuota mensual",
    "imp_amortizado": "Cantidad amortizada hasta el momento",
    "estado": "Estado actual del pr√©stamo",
    "imp_recuperado": "Importe recuperado tras impago (si aplica)"
}

# Construir el DataFrame resumen
resumen = pd.DataFrame({
    "Variable": df.columns,
    "Descripci√≥n": [descripciones.get(col, "Descripci√≥n no disponible") for col in df.columns],
    "N¬∫ Valores √önicos": [df[col].nunique(dropna=True) for col in df.columns]
})

resumen

Unnamed: 0,Variable,Descripci√≥n,N¬∫ Valores √önicos
0,id_cliente,Identificador √∫nico del cliente,200000
1,empleo,Profesi√≥n del cliente,73272
2,antig√ºedad_empleo,Tiempo en a√±os que el cliente ha estado en su empleo actual,11
3,ingresos,Ingresos anuales declarados por el cliente,15471
4,ingresos_verificados,M√©todo de verificaci√≥n de ingresos,3
5,rating,Calificaci√≥n crediticia del cliente,7
6,dti,Relaci√≥n deuda-ingreso (Debt-To-Income),5700
7,vivienda,Tipo de vivienda del cliente,6
8,num_hipotecas,N√∫mero de hipotecas abiertas,26
9,num_lineas_credito,N√∫mero total de l√≠neas de cr√©dito abiertas,65


---
## Guardar copia de DataFrame para trabajo
---

In [8]:
# =============================================================
# üíæ Guardado inicial de datos cargados
# -------------------------------------------------------------
# ‚û§ Se guarda el DataFrame original `df` en dos formatos:
#     - Formato binario (.pkl) en data/cache
#     - Formato texto (.csv) en data/processed
# ‚û§ Esto permite reutilizar los datos sin tener que recargarlos.
# =============================================================

from utils import guardar_multiples_archivos

# Guardar el archivo original
guardar_multiples_archivos({"trabajo_loading": df})

‚úÖ Archivo guardado en: data/cache/trabajo_loading.pkl
‚úÖ Archivo guardado en: data/processed/trabajo_loading.csv
