# Ejercicio: Extraer datos de múltiples fuentes

## Leer datos de un archivo CSV

In [1]:
import csv

# Crear CSV de ejemplo
with open('clientes.csv', 'w', newline='', encoding='utf-8') as f:
    writer = csv.DictWriter(
        f,
        fieldnames=['id', 'nombre', 'email']
    )
    writer.writeheader()
    writer.writerow({'id': 1, 'nombre': 'Juan', 'email': 'juan@email.com'})
    writer.writerow({'id': 2, 'nombre': 'María', 'email': 'maria@email.com'})

def leer_csv(ruta_archivo):
    datos = []
    with open(ruta_archivo, 'r', encoding='utf-8') as f:
        lector = csv.DictReader(f)
        for fila in lector:
            datos.append(fila)
    return datos

clientes = leer_csv('clientes.csv')
print(f"Leídos {len(clientes)} clientes")


Leídos 2 clientes


## Simular extracción de API

In [2]:
import json

def extraer_api_simulada():
    # Simular respuesta de API
    datos_api = {
        "productos": [
            {"id": 1, "nombre": "Producto A", "precio": 100},
            {"id": 2, "nombre": "Producto B", "precio": 200}
        ]
    }
    return datos_api["productos"]

productos = extraer_api_simulada()
print(f"Extraídos {len(productos)} productos")

Extraídos 2 productos


## Conectar a base de datos SQLite

In [3]:
import sqlite3

def conectar_base_datos():
    conn = sqlite3.connect(':memory:')  # Base temporal
    cursor = conn.cursor()
    
    # Crear tabla
    cursor.execute('''
        CREATE TABLE ventas (
            id INTEGER PRIMARY KEY,
            producto TEXT,
            cantidad INTEGER
        )
    ''')
    
    # Insertar datos de ejemplo
    cursor.execute("INSERT INTO ventas VALUES (1, 'Producto A', 10)")
    cursor.execute("INSERT INTO ventas VALUES (2, 'Producto B', 5)")
    
    # Leer datos
    cursor.execute("SELECT * FROM ventas")
    resultados = cursor.fetchall()
    
    conn.close()
    return resultados

ventas = conectar_base_datos()
print(f"Encontradas {len(ventas)} ventas")

Encontradas 2 ventas


## Integración del flujo completo (ETL – Extract)

In [4]:
datos_integrados = {
    "clientes": clientes,
    "productos": productos,
    "ventas": ventas
}

print("Fuentes integradas correctamente")


Fuentes integradas correctamente


## Conversión a pandas

In [5]:
import pandas as pd

df_clientes = pd.DataFrame(clientes)
df_productos = pd.DataFrame(productos)
df_ventas = pd.DataFrame(ventas, columns=['id', 'producto', 'cantidad'])

print(df_clientes)
print(df_productos)
print(df_ventas)


  id nombre            email
0  1   Juan   juan@email.com
1  2  María  maria@email.com
   id      nombre  precio
0   1  Producto A     100
1   2  Producto B     200
   id    producto  cantidad
0   1  Producto A        10
1   2  Producto B         5


## Verificación

¿Qué consideraciones de seguridad debes tener al conectar con bases de datos y APIs? 
- Es importante proteger credenciales y claves de acceso, evitando incluirlas directamente en el código y utilizando variables de entorno. Se debe aplicar el principio de mínimo privilegio y usar consultas parametrizadas para prevenir SQL Injection. En el caso de APIs, se deben resguardar los tokens y utilizar conexiones seguras mediante HTTPS.

¿Cómo manejarías errores de conexión o respuestas inválidas?
- Los errores deben manejarse con bloques try-except para evitar fallos inesperados del sistema. En APIs, es necesario validar los códigos de estado HTTP antes de procesar la respuesta. Para bases de datos, se deben controlar errores de conexión, ejecución de consultas y asegurar el cierre adecuado de recursos.