# Ejemplo básico de ETL con Pandas

En este notebook se muestra un flujo sencillo de extracción, transformación y carga (ETL) utilizando la biblioteca Pandas.

## 1. Extracción

Para este ejemplo crearemos un pequeño dataset sintético que represente ventas de productos. En un escenario real, esta fase implicaría leer datos de un archivo CSV, una base de datos o una API.

In [None]:
import pandas as pd

# Generar datos de ejemplo
data = {
    'producto': ['A', 'B', 'C', 'A', 'B', 'C', 'A'],
    'precio': [10.0, 15.5, 7.25, 10.0, 15.5, 7.25, 10.0],
    'unidades': [5, 3, 4, 2, 5, 3, 4],
    'fecha': pd.to_datetime(['2025-01-01','2025-01-02','2025-01-02','2025-01-03','2025-01-03','2025-01-04','2025-01-04'])
}

df = pd.DataFrame(data)

# Mostrar el dataset original
df

## 2. Transformación

En esta fase aplicamos reglas de negocio para limpiar y enriquecer los datos. Aquí:

- Calculamos el importe total (`total`) multiplicando precio por unidades.
- Eliminamos duplicados si los hubiera.
- Convertimos la columna `fecha` a índice para posibles análisis temporales.

In [None]:
# Calcular columna total
df['total'] = df['precio'] * df['unidades']

# Eliminar duplicados
df = df.drop_duplicates()

# Establecer la fecha como índice
df = df.set_index('fecha')

# Visualizar datos transformados
df

## 3. Carga

La última etapa consiste en guardar los datos transformados en un formato eficiente. Aquí los guardamos como archivo Parquet.

In [None]:
# Guardar como archivo Parquet
output_path = os.path.join('data', 'ventas.parquet')

df.to_parquet(output_path)

print(f'Datos guardados en: {output_path}')

In [None]:
# Comprobar el archivo Parquet guardado
import os
os.path.isfile(output_path), os.path.getsize(output_path)

## Conclusión

Hemos construido un sencillo flujo ETL que genera datos, aplica transformaciones básicas y los almacena en un archivo Parquet. Este flujo se puede adaptar para procesar datos reales procedentes de distintas fuentes y aplicar reglas más complejas según las necesidades de la empresa.