# Carga de dataset (CSV de ejemplo no productivo)


## Propósito de este Notebook

**Importante:** Este notebook es solo para **documentación y exploración inicial**. No se utiliza en el pipeline de producción.

El pipeline MLOps (`run_pipeline.py`) carga los datos automáticamente usando `ft_engineering.py`, que lee directamente `Base_de_datos.csv` y aplica preprocesamiento.

### Uso recomendado:

- **Validación inicial**: Verificar que el dataset tenga la estructura correcta
- **Exploración rápida**: Ver distribuciones, estadísticas básicas, valores nulos
- **Documentación**: Entender el formato y contenido de los datos antes de entrenar
- **Desarrollo local**: Probar transformaciones antes de integrarlas al pipeline

### En producción:

En un entorno real, los datos provendrían de:
- Data Warehouse (DWH)
- Data Lake
- Bases de datos relacionales (PostgreSQL, MySQL)
- APIs REST
- Sistemas de mensajería (Kafka, RabbitMQ)

Este CSV es solo un ejemplo para demostración.

In [None]:
import pandas as pd
import numpy as np
from pathlib import Path

# Ruta al dataset
data_path = Path('../../Base_de_datos.csv')

# Verificar que exista
if not data_path.exists():
    raise FileNotFoundError(f'Dataset no encontrado en {data_path.resolve()}')

# Cargar datos
df = pd.read_csv(data_path)

print(f"Datos cargados correctamente desde: {data_path.resolve()}")
print(f"Forma del dataset: {df.shape[0]} filas × {df.shape[1]} columnas")

In [None]:
# Mostrar primeras filas
print("Primeras 5 filas del dataset:\n")
display(df.head())

print("\nÚltimas 5 filas del dataset:\n")
display(df.tail())

In [None]:
# Información del dataset
print("ℹInformación general del dataset:\n")
print(df.info())

print("\nTipos de datos:\n")
display(df.dtypes)

print("\nDimensiones:")
print(f"  - Filas: {df.shape[0]}")
print(f"  - Columnas: {df.shape[1]}")
print(f"  - Total de celdas: {df.shape[0] * df.shape[1]}")

In [None]:
# Estadísticas descriptivas
print("Estadísticas descriptivas:\n")
display(df.describe())

print("\nDistribución de la variable objetivo 'quality':\n")
if 'quality' in df.columns:
    display(df['quality'].value_counts().sort_index())
    print(f"\nRango: {df['quality'].min()} - {df['quality'].max()}")
else:
    print("Advertencia: No se encontró la columna 'quality'")

In [None]:
# Verificar valores nulos
print("Verificación de valores nulos:\n")
null_counts = df.isnull().sum()
null_percentages = (df.isnull().sum() / len(df)) * 100

null_summary = pd.DataFrame({
    'Valores Nulos': null_counts,
    'Porcentaje (%)': null_percentages.round(2)
})

display(null_summary[null_summary['Valores Nulos'] > 0])

if null_summary['Valores Nulos'].sum() == 0:
    print("Excelente! No hay valores nulos en el dataset")
else:
    print(f"Se encontraron {null_summary['Valores Nulos'].sum()} valores nulos")

print("\n" + "="*60)
print("NOTA IMPORTANTE:")
print("="*60)
print("Este notebook es solo para exploración inicial.")
print("El pipeline de producción usa ft_engineering.py para:")
print("  - Cargar automáticamente Base_de_datos.csv")
print("  - Aplicar preprocesamiento (imputación, codificación, escalado)")
print("  - Generar preprocessor.joblib")
print("  - Entrenar modelos con validación cruzada")
print("\n¡No es necesario ejecutar este notebook para el pipeline!")