# ETL – Día 1: Extracción de datos desde múltiples fuentes

## Curso de Análisis de Datos – Mes 3

En este notebook se realiza la fase **Extract (E)** del proceso ETL,
obteniendo datos desde:

- Archivos CSV
- APIs (simuladas)
- Bases de datos SQLite

El objetivo es practicar la extracción de datos desde diferentes fuentes
utilizando Python.

In [2]:
# Librerías estándar
import csv
import json
import sqlite3

In [7]:
def leer_csv(ruta_archivo):
    datos = []
    with open(ruta_archivo, 'r', encoding='utf-8-sig') as f:
        lector = csv.reader(f)
        encabezado = next(lector)[0].split(",")

        for fila in lector:
            valores = fila[0].split(",")
            registro = dict(zip(encabezado, valores))
            datos.append(registro)

    return datos

In [8]:
clientes = leer_csv('clientes.csv')
print(f"Leídos {len(clientes)} clientes")
clientes

Leídos 3 clientes


[{'id': '1', 'nombre': 'Ana', 'email': 'ana@email.com'},
 {'id': '2', 'nombre': 'Carlos', 'email': 'carlos@email.com'},
 {'id': '3', 'nombre': 'María', 'email': 'maria@email.com'}]

In [9]:
# Extracción simulada de API:
def extraer_api_simulada():
    # Simulación de respuesta de una API REST
    datos_api = {
        "productos": [
            {"id": 1, "nombre": "Producto A", "precio": 100},
            {"id": 2, "nombre": "Producto B", "precio": 200}
        ]
    }
    return datos_api["productos"]

In [10]:
productos = extraer_api_simulada()
print(f"Extraídos {len(productos)} productos")
productos

Extraídos 2 productos


[{'id': 1, 'nombre': 'Producto A', 'precio': 100},
 {'id': 2, 'nombre': 'Producto B', 'precio': 200}]

In [11]:
# Conectar a base de datos SQLite:
def conectar_base_datos():
    # Crear base de datos en memoria
    conn = sqlite3.connect(':memory:')
    cursor = conn.cursor()
    
    # Crear tabla
    cursor.execute('''
        CREATE TABLE ventas (
            id INTEGER PRIMARY KEY,
            producto TEXT,
            cantidad INTEGER
        )
    ''')
    
    # Insertar datos de ejemplo
    cursor.execute("INSERT INTO ventas VALUES (1, 'Producto A', 10)")
    cursor.execute("INSERT INTO ventas VALUES (2, 'Producto B', 5)")
    
    # Leer datos
    cursor.execute("SELECT * FROM ventas")
    resultados = cursor.fetchall()
    
    # Cerrar conexión
    conn.close()
    
    return resultados

In [12]:
ventas = conectar_base_datos()
print(f"Encontradas {len(ventas)} ventas")
ventas

Encontradas 2 ventas


[(1, 'Producto A', 10), (2, 'Producto B', 5)]

In [14]:
import pandas as pd

# =========================
# 1. Convertir datos a DataFrames
# =========================

df_clientes = pd.DataFrame(clientes)
df_productos = pd.DataFrame(productos)
df_ventas = pd.DataFrame(ventas, columns=["id", "producto", "cantidad"])

# =========================
# 2. Exportar a un solo archivo Excel
# =========================

ruta_salida = "evidencia_extraccion_dia1.xlsx"

with pd.ExcelWriter(ruta_salida) as writer:
    df_clientes.to_excel(writer, sheet_name="clientes_csv", index=False)
    df_productos.to_excel(writer, sheet_name="productos_api", index=False)
    df_ventas.to_excel(writer, sheet_name="ventas_sqlite", index=False)

print("Archivo de evidencia generado correctamente:", ruta_salida)

Archivo de evidencia generado correctamente: evidencia_extraccion_dia1.xlsx
