# 🧪 Notebook 1 – Introducción a ETL (Extract, Transform, Load)

## 📘 ¿Qué es ETL?
ETL significa:
- Extract: Extraer datos - Desde archivos, bases de datos, APIs u otros orígenes
- Transform: Transformar datos - Limpiar, filtrar, reestructurar o enriquecer la información
- Load: Cargar datos - Guardar en un destino final como una base de datos o archivo

## 🧠 Ejemplo conceptual (con listas de Python)

### Paso 1: Extracción de datos (simulado)

In [1]:
# Datos simulados como si vinieran de un archivo o API
raw_data = [
    {"nombre": "Ana", "ventas": "1200"},
    {"nombre": "Luis", "ventas": "950"},
    {"nombre": "Carla", "ventas": "1600"},
    {"nombre": "José", "ventas": None},  # dato faltante
    {"nombre": "María", "ventas": "error"}  # dato erróneo
]

print("🟡 Datos extraídos:")
for fila in raw_data:
    print(fila)


🟡 Datos extraídos:
{'nombre': 'Ana', 'ventas': '1200'}
{'nombre': 'Luis', 'ventas': '950'}
{'nombre': 'Carla', 'ventas': '1600'}
{'nombre': 'José', 'ventas': None}
{'nombre': 'María', 'ventas': 'error'}


### Paso 2: Transformación de datos

In [2]:
# Transformamos: convertir ventas a entero y limpiar errores
transformed_data = []

for fila in raw_data:
    try:
        ventas = int(fila["ventas"])
        transformed_data.append({"nombre": fila["nombre"], "ventas": ventas})
    except (TypeError, ValueError):
        print(f"❌ Dato inválido para {fila['nombre']}, se omite.")


❌ Dato inválido para José, se omite.
❌ Dato inválido para María, se omite.


### Paso 3: Carga de datos

In [3]:
# Cargar los datos procesados (simulado: impresión o guardado en lista final)
print("\n🟢 Datos listos para cargar:")
for fila in transformed_data:
    print(fila)



🟢 Datos listos para cargar:
{'nombre': 'Ana', 'ventas': 1200}
{'nombre': 'Luis', 'ventas': 950}
{'nombre': 'Carla', 'ventas': 1600}


## ✅ Resultado final
El flujo completo nos da una versión depurada de los datos lista para ser utilizada en análisis o almacenada en otro sistema.