# Ejercicio 1: Importación, limpieza, transformación y exportación de datos (base Chinook)

## Importación

In [30]:
from sqlalchemy import create_engine, text
import pandas as pd

# Conexión a la base de datos Chinook
engine = create_engine("mysql+pymysql://root:1234@localhost:3307/chinook")

# Consultamos las tablas relevantes
df_customers = pd.read_sql("SELECT CustomerId, FirstName, LastName, Country FROM Customer", engine)
df_invoices = pd.read_sql("SELECT InvoiceId, CustomerId, Total, BillingCountry, InvoiceDate FROM Invoice", engine)
df_customers.head()

Unnamed: 0,CustomerId,FirstName,LastName,Country
0,1,Luís,Gonçalves,Brazil
1,2,Leonie,Köhler,Germany
2,3,François,Tremblay,Canada
3,4,Bjørn,Hansen,Norway
4,5,František,Wichterlová,Czech Republic


## Limpieza de datos

In [31]:
# Limpieza de datos
print("Duplicados (clientes):", df_customers.duplicated().sum())
print("Nulos (clientes):\n", df_customers.isnull().sum())
df_customers = df_customers.drop_duplicates()

print("Duplicados (facturas):", df_invoices.duplicated().sum())
print("Nulos (facturas):\n", df_invoices.isnull().sum())
df_invoices = df_invoices.drop_duplicates()

Duplicados (clientes): 0
Nulos (clientes):
 CustomerId    0
FirstName     0
LastName      0
Country       0
dtype: int64
Duplicados (facturas): 0
Nulos (facturas):
 InvoiceId         0
CustomerId        0
Total             0
BillingCountry    0
InvoiceDate       0
dtype: int64


## Transformación de datos

In [32]:
# Transformación de datos
df_country_sales = df_invoices.groupby("BillingCountry")["Total"].sum().reset_index()
df_country_sales.columns = ["País", "TotalFacturado"]
df_country_sales = df_country_sales.sort_values("TotalFacturado", ascending=False)
df_country_sales.head()

Unnamed: 0,País,TotalFacturado
22,USA,523.06
5,Canada,303.96
10,France,195.1
4,Brazil,190.1
11,Germany,156.48


## Exportación

In [33]:
# Exportación a tabla temporal
df_country_sales.to_sql("ventas_pais_temp", con=engine, if_exists="replace", index=False)
print("Exportación completada: 'ventas_pais_temp'")

Exportación completada: 'ventas_pais_temp'


# Ejercicio 2: Importación, limpieza, transformación y exportación desde API

## Importación

In [34]:
import requests

# API de Open-Meteo para Veracruz
lat, lon = 19.5, -96.9
url = f"https://api.open-meteo.com/v1/forecast?latitude={lat}&longitude={lon}&current_weather=true&hourly=temperature_2m"
resp = requests.get(url).json()

df_weather = pd.DataFrame({
    "time": resp["hourly"]["time"],
    "temp_C": resp["hourly"]["temperature_2m"]
})
df_weather.head()

Unnamed: 0,time,temp_C
0,2025-06-25T00:00,16.6
1,2025-06-25T01:00,15.4
2,2025-06-25T02:00,14.6
3,2025-06-25T03:00,14.2
4,2025-06-25T04:00,13.7


## Limpieza de datos

In [35]:
# Limpieza de datos
print("Duplicados (weather):", df_weather.duplicated().sum())
print("Nulos (weather):\n", df_weather.isnull().sum())
df_weather = df_weather.drop_duplicates().dropna()

Duplicados (weather): 0
Nulos (weather):
 time      0
temp_C    0
dtype: int64


## Transformación

In [36]:
# Transformación: clasificar clima
df_weather["time"] = pd.to_datetime(df_weather["time"])

def clasificar_temp(temp):
    if temp < 15:
        return "Frío"
    elif temp < 25:
        return "Templado"
    else:
        return "Caluroso"

df_weather["clima_categoria"] = df_weather["temp_C"].apply(clasificar_temp)
df_weather.head()

Unnamed: 0,time,temp_C,clima_categoria
0,2025-06-25 00:00:00,16.6,Templado
1,2025-06-25 01:00:00,15.4,Templado
2,2025-06-25 02:00:00,14.6,Frío
3,2025-06-25 03:00:00,14.2,Frío
4,2025-06-25 04:00:00,13.7,Frío


## Exportación

In [37]:
# Exportación a tabla temporal
df_weather.to_sql("weather_temp", engine, if_exists="replace", index=False)
print("Datos del clima exportados a 'weather_temp'.")

Datos del clima exportados a 'weather_temp'.
