# Cargar Datos

**Proyecto:** Pipeline MLOps - Predicci√≥n de Pago a Tiempo de Cr√©ditos

**Autor:** Alexis Jacquet

**Fecha:** 5 de febrero de 2026

---

## Objetivo

Este notebook tiene como objetivo cargar los datos desde un archivo CSV y realizar una primera revisi√≥n de la estructura y calidad de los datos. En un entorno productivo, estos datos provendr√≠an de un Data Warehouse o Data Lake de la empresa.

## Dataset

El dataset contiene informaci√≥n sobre cr√©ditos financieros y caracter√≠sticas de los clientes, con el objetivo de predecir si el cliente pagar√° a tiempo (`Pago_atiempo`).

## 1. Importar Librer√≠as

In [None]:
# Librer√≠as para manipulaci√≥n de datos
import pandas as pd
import numpy as np

# Librer√≠as para visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
%matplotlib inline

# Para manejo de rutas
import os
from pathlib import Path

# Configuraci√≥n de pandas para mejor visualizaci√≥n
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.width', None)
pd.set_option('display.float_format', lambda x: '%.3f' % x)

# Semilla para reproducibilidad
np.random.seed(42)

print("‚úì Librer√≠as importadas exitosamente")

## 2. Definir Rutas de Archivos

In [None]:
# Obtener el directorio ra√≠z del proyecto
# Estamos en mlops_pipeline/src/, necesitamos subir 2 niveles
RUTA_RAIZ = Path.cwd().parent.parent
RUTA_DATOS = RUTA_RAIZ / 'Base_de_datos.csv'

print(f"Directorio ra√≠z del proyecto: {RUTA_RAIZ}")
print(f"Ruta del archivo de datos: {RUTA_DATOS}")
print(f"¬øEl archivo existe?: {RUTA_DATOS.exists()}")

## 3. Cargar el Dataset

In [None]:
# Cargar datos desde CSV
try:
    df = pd.read_csv(RUTA_DATOS)
    print("‚úì Datos cargados exitosamente")
    print(f"\nDimensiones del dataset: {df.shape[0]} filas x {df.shape[1]} columnas")
except FileNotFoundError:
    print(f"‚ùå Error: No se encontr√≥ el archivo {RUTA_DATOS}")
    print("Por favor, verifica que el archivo existe en la ra√≠z del proyecto.")
except Exception as e:
    print(f"‚ùå Error al cargar los datos: {str(e)}")

## 4. Exploraci√≥n Inicial de los Datos

Realizamos una primera inspecci√≥n visual de los datos para familiarizarnos con su estructura.

In [None]:
# Mostrar las primeras filas
print("="*80)
print("PRIMERAS 5 FILAS DEL DATASET")
print("="*80)
df.head()

In [None]:
# Informaci√≥n general del dataset
print("="*80)
print("INFORMACI√ìN GENERAL DEL DATASET")
print("="*80)
df.info()

In [None]:
# Nombres de las columnas
print("="*80)
print("COLUMNAS DEL DATASET")
print("="*80)
print(f"\nTotal de columnas: {len(df.columns)}\n")
for i, col in enumerate(df.columns, 1):
    print(f"{i:2d}. {col}")

In [None]:
# Tipos de datos por columna
print("="*80)
print("TIPOS DE DATOS POR COLUMNA")
print("="*80)
tipos_datos = df.dtypes.value_counts()
print(f"\nResumen:")
print(tipos_datos)
print(f"\nDetalle por columna:")
print(df.dtypes)

## 5. Valores Nulos

Identificamos la presencia de valores nulos en cada columna.

In [None]:
# An√°lisis de valores nulos
print("="*80)
print("AN√ÅLISIS DE VALORES NULOS")
print("="*80)

nulos = df.isnull().sum()
nulos_pct = (df.isnull().sum() / len(df)) * 100

resumen_nulos = pd.DataFrame({
    'Valores_Nulos': nulos,
    'Porcentaje': nulos_pct
}).sort_values(by='Valores_Nulos', ascending=False)

# Filtrar solo columnas con nulos
resumen_nulos_filtrado = resumen_nulos[resumen_nulos['Valores_Nulos'] > 0]

if len(resumen_nulos_filtrado) > 0:
    print(f"\nColumnas con valores nulos: {len(resumen_nulos_filtrado)}\n")
    print(resumen_nulos_filtrado)
else:
    print("\n‚úì No se encontraron valores nulos en ninguna columna")

print(f"\nTotal de valores nulos en todo el dataset: {df.isnull().sum().sum()}")

## 6. Estad√≠sticas Descriptivas B√°sicas

In [None]:
# Estad√≠sticas para variables num√©ricas
print("="*80)
print("ESTAD√çSTICAS DESCRIPTIVAS - VARIABLES NUM√âRICAS")
print("="*80)
df.describe()

In [None]:
# Estad√≠sticas para variables categ√≥ricas
print("="*80)
print("ESTAD√çSTICAS DESCRIPTIVAS - VARIABLES CATEG√ìRICAS")
print("="*80)
df.describe(include='object')

## 7. An√°lisis de la Variable Objetivo

La variable objetivo es `Pago_atiempo`, que indica si el cliente pag√≥ a tiempo (1) o no (0).

In [None]:
# Distribuci√≥n de la variable objetivo
print("="*80)
print("AN√ÅLISIS DE LA VARIABLE OBJETIVO: Pago_atiempo")
print("="*80)

distribucion_objetivo = df['Pago_atiempo'].value_counts().sort_index()
distribucion_pct = df['Pago_atiempo'].value_counts(normalize=True).sort_index() * 100

resumen_objetivo = pd.DataFrame({
    'Frecuencia': distribucion_objetivo,
    'Porcentaje': distribucion_pct
})

print("\nDistribuci√≥n:")
print(resumen_objetivo)

# Visualizaci√≥n
fig, ax = plt.subplots(1, 2, figsize=(12, 4))

# Gr√°fico de barras
ax[0].bar(['No pag√≥ a tiempo (0)', 'Pag√≥ a tiempo (1)'], distribucion_objetivo.values, 
          color=['#e74c3c', '#2ecc71'], alpha=0.7, edgecolor='black')
ax[0].set_title('Distribuci√≥n de Pago a Tiempo', fontsize=12, fontweight='bold')
ax[0].set_ylabel('Frecuencia')
ax[0].grid(axis='y', alpha=0.3)

# Gr√°fico de torta
ax[1].pie(distribucion_objetivo.values, labels=['No pag√≥ a tiempo', 'Pag√≥ a tiempo'],
          autopct='%1.1f%%', colors=['#e74c3c', '#2ecc71'], startangle=90)
ax[1].set_title('Proporci√≥n de Pago a Tiempo', fontsize=12, fontweight='bold')

plt.tight_layout()
plt.show()

# Verificar balance de clases
ratio = distribucion_objetivo.min() / distribucion_objetivo.max()
print(f"\nRatio de balance de clases: {ratio:.2f}")
if ratio < 0.5:
    print("‚ö†Ô∏è  Advertencia: El dataset presenta desbalance de clases significativo.")
    print("    Se recomienda aplicar t√©cnicas de balanceo durante el entrenamiento del modelo.")
else:
    print("‚úì Las clases est√°n razonablemente balanceadas.")

## 8. Resumen de la Carga de Datos

In [None]:
print("="*80)
print("RESUMEN DE LA CARGA DE DATOS")
print("="*80)
print(f"\n‚úì Dataset cargado exitosamente")
print(f"\nüìä Dimensiones: {df.shape[0]:,} filas x {df.shape[1]} columnas")
print(f"\nüìã Tipos de datos:")
for dtype, count in df.dtypes.value_counts().items():
    print(f"   - {dtype}: {count} columnas")
print(f"\n‚ùì Valores nulos: {df.isnull().sum().sum():,} ({(df.isnull().sum().sum() / df.size * 100):.2f}% del total)")
print(f"\nüéØ Variable objetivo: Pago_atiempo")
print(f"   - Clase 0 (No pag√≥ a tiempo): {distribucion_objetivo[0]:,} ({distribucion_pct[0]:.1f}%)")
print(f"   - Clase 1 (Pag√≥ a tiempo): {distribucion_objetivo[1]:,} ({distribucion_pct[1]:.1f}%)")
print(f"\n‚úì Datos listos para el an√°lisis exploratorio (EDA)")
print("\n" + "="*80)

## 9. Guardar Referencia al DataFrame

El DataFrame `df` est√° disponible para su uso en el siguiente notebook de an√°lisis exploratorio.

In [None]:
# Verificar que el DataFrame est√° cargado en memoria
print(f"DataFrame 'df' disponible en memoria con {df.shape[0]:,} registros")
print("\n‚úì Listo para proceder con comprension_eda.ipynb")