In [17]:
import pandas as pd
from datetime import datetime

users = pd.DataFrame([
    {"user_id": 1, "country": "ES", "signup_date": "2024-01-10"},
    {"user_id": 2, "country": "FR", "signup_date": "2024-03-05"},
    {"user_id": 3, "country": "ES", "signup_date": "2023-11-20"},
])

orders = pd.DataFrame([
    {"order_id": 101, "user_id": 1, "amount": 50.0, "order_date": "2024-05-01"},
    {"order_id": 102, "user_id": 1, "amount": 120.0, "order_date": "2024-06-15"},
    {"order_id": 103, "user_id": 2, "amount": 80.0, "order_date": "2024-06-20"},
    {"order_id": 104, "user_id": 2, "amount": 20.0, "order_date": "2024-06-25"},
    {"order_id": 105, "user_id": 2, "amount": 200.0, "order_date": "2024-07-01"},
])

events = pd.DataFrame([
    {"user_id": 1, "event_date": "2025-01-01", "event_type": "click"},
    {"user_id": 1, "event_date": "2025-01-01", "event_type": "click"},
    {"user_id": 1, "event_date": "2025-01-03", "event_type": "open"},
    {"user_id": 2, "event_date": None, "event_type": "view"},
    {"user_id": 3, "event_date": "2025-01-02", "event_type": "click"},
])

for df, col in [(users, 'signup_date'), (orders, 'order_date'), (events, 'event_date')]:
    df[col] = pd.to_datetime(df[col], errors='coerce')

users, orders, events

(   user_id country signup_date
 0        1      ES  2024-01-10
 1        2      FR  2024-03-05
 2        3      ES  2023-11-20,
    order_id  user_id  amount order_date
 0       101        1    50.0 2024-05-01
 1       102        1   120.0 2024-06-15
 2       103        2    80.0 2024-06-20
 3       104        2    20.0 2024-06-25
 4       105        2   200.0 2024-07-01,
    user_id event_date event_type
 0        1 2025-01-01      click
 1        1 2025-01-01      click
 2        1 2025-01-03       open
 3        2        NaT       view
 4        3 2025-01-02      click)

# 1. SQL
#### 1.1. Escribe una consulta SQL que devuelva, para cada usuario, el total gastado en todos sus pedidos y el pedido más caro.


In [None]:
import sqlite3

# Crear una conexión a una base de datos en memoria
conn = sqlite3.connect(':memory:')

# Guardar los DataFrames como tablas SQL temporales
users.to_sql('users', conn, index=False, if_exists='replace')
orders.to_sql('orders', conn, index=False, if_exists='replace')
events.to_sql('events', conn, index=False, if_exists='replace')


########################################################
# Escribe tu consulta SQL aquí                        ##
########################################################
query = """
SELECT 0
"""
########################################################
########################################################


# Ejecutar la consulta y obtener los resultados
resultado = pd.read_sql_query(query, conn)
print(resultado)

# Cerrar la conexión
conn.close()

   user_id  total_gastado  pedido_mas_caro
0        1          170.0            120.0
1        2          300.0            200.0
2        3            0.0              NaN


#### 1.2. ¿Y si ahora quiero saber la fecha del pedido más caro?

In [None]:
import sqlite3

# Crear una conexión a una base de datos en memoria
conn = sqlite3.connect(':memory:')

# Guardar los DataFrames como tablas SQL temporales
users.to_sql('users', conn, index=False, if_exists='replace')
orders.to_sql('orders', conn, index=False, if_exists='replace')
events.to_sql('events', conn, index=False, if_exists='replace')


########################################################
# Escribe tu consulta SQL aquí                        ##
########################################################
query = """
SELECT 0
"""
########################################################
########################################################

# Ejecutar la consulta y obtener los resultados
resultado = pd.read_sql_query(query, conn)
print(resultado)

# Cerrar la conexión
conn.close()

   order_id           order_date
0       105  2024-07-01 00:00:00


#### 1.3. Disponemos de una tabla llamada "events" que registra toda la actividad de nuestros usuarios.
- Objetivo: Escribe una consulta SQL que devuelva el evento más reciente para cada usuario. 
- La salida debe incluir:
    - El ID del usuario (user_id).
    - La fecha del evento (event_date).
    - El tipo de evento (event_type).
 

In [None]:
import sqlite3

# Crear una conexión a una base de datos en memoria
conn = sqlite3.connect(':memory:')

# Guardar los DataFrames como tablas SQL temporales
users.to_sql('users', conn, index=False, if_exists='replace')
orders.to_sql('orders', conn, index=False, if_exists='replace')
events.to_sql('events', conn, index=False, if_exists='replace')


########################################################
# Escribe tu consulta SQL aquí                        ##
########################################################
query = """
SELECT 0
"""
########################################################
########################################################

# Ejecutar la consulta y obtener los resultados
resultado = pd.read_sql_query(query, conn)
print(resultado)

# Cerrar la conexión
conn.close()

# 2. Python
#### 2.1. Limpia los datos del dataframe `events` y genera un resumen con el número de eventos por usuario y día.
- Elimina duplicados
- Maneja fechas nulas
- Agrupa por `user_id` y día

In [None]:
# Respuesta


Resumen de eventos por usuario y día:
   user_id   event_day  num_eventos
0        1  2025-01-01            1
1        1  2025-01-03            1
2        3  2025-01-02            1

Dataframe events después de la limpieza:
   user_id event_date event_type
0        1 2025-01-01      click
2        1 2025-01-03       open
4        3 2025-01-02      click


#### 2.2. Esto escala a 20GB diarios, ¿qué harías?

# 3. Arquitectura y Cloud

#### 3.1. Describe un pipeline batch desde una API externa hasta un sistema de reporting usando Azure o AWS.

¿Dónde guardas raw?

¿Dónde transformas?

¿Dónde consumes?

#### 3.2. ¿Cuándo usarías SQL Server y cuándo un Data Warehouse?

OLTP vs OLAP

Coste / escalabilidad