# Laboratorio 7 DB 2
- Brandon Reyes Morales, 221164
- Carlos Valladares, 221164

# Ejercicio 1

### Paso 2.1 – Ingestar datos SQL

In [None]:
import pandas as pd
from sqlalchemy import create_engine

# Crear conexión a PostgreSQL
engine = create_engine('postgresql://postgres:1234@localhost:5432/demografia_mundial')

# Leer tabla desde SQL
df_poblacion = pd.read_sql('SELECT * FROM pais_poblacion', engine)
df_envejecimiento = pd.read_sql('SELECT * FROM pais_envejecimiento', engine)

print(df_poblacion.head())

         pais  anio  poblacion                       _id continente  \
0      Ruanda  None   12952218  67e2130bc29aa80afae47e7f     África   
1     Namibia  None    2540905  67e2130bc29aa80afae47e80     África   
2  Mozambique  None   31255435  67e2130bc29aa80afae47e7a     África   
3     Camerún  None   26545863  67e2130bc29aa80afae47e7b     África   
4      Angola  None   32866272  67e2130bc29aa80afae47e7c     África   

   costo_bajo_hospedaje  costo_promedio_comida  costo_bajo_transporte  \
0                     7                     17                     17   
1                     8                     25                     11   
2                     9                     41                      9   
3                     9                     18                     26   
4                     9                     30                     15   

   costo_promedio_entretenimiento  
0                              45  
1                              14  
2                         

### Paso 2.2 – Ingestar datos desde MongoDB (NoSQL)

In [6]:
from pymongo import MongoClient

# Conectar con MongoDB Atlas
cliente = MongoClient("mongodb+srv://221164:123456abc@cluster0.xkjndsz.mongodb.net/")
db = cliente["turismo_mundial"]
coleccion = db["costos_turisticos"]  # o "africa", "america", etc.

# Leer datos
datos_turisticos = list(coleccion.find())
df_turismo = pd.DataFrame(datos_turisticos)

print(df_turismo.head())


                        _id continente             región       país  \
0  67e7a3c6a1c5d2e7d3f3c30d     África     África Austral  Sudáfrica   
1  67e7a3c6a1c5d2e7d3f3c30e     África  África Occidental    Nigeria   
2  67e7a3c6a1c5d2e7d3f3c30f     África   África del Norte     Egipto   
3  67e7a3c6a1c5d2e7d3f3c310     África    África Oriental      Kenia   
4  67e7a3c6a1c5d2e7d3f3c311     África   África del Norte  Marruecos   

    capital    población                costos_diarios_estimados_en_dólares  \
0  Pretoria   59308690.0  {'hospedaje': {'precio_bajo_usd': 21, 'precio_...   
1     Abuja  206139589.0  {'hospedaje': {'precio_bajo_usd': 28, 'precio_...   
2  El Cairo  102334404.0  {'hospedaje': {'precio_bajo_usd': 26, 'precio_...   
3   Nairobi   53771296.0  {'hospedaje': {'precio_bajo_usd': 29, 'precio_...   
4     Rabat   36910560.0  {'hospedaje': {'precio_bajo_usd': 20, 'precio_...   

   precio_big_mac_usd  
0                 NaN  
1                 NaN  
2                 Na

### Paso 2.3 – Integrar ambas fuentes de datos (Transformación)

In [None]:
# Normalizar nombres de país
df_turismo['país'] = df_turismo['país'].str.lower().str.strip()
df_poblacion['pais'] = df_poblacion['pais'].str.lower().str.strip()

# Unir turismo + población
df_integrado = pd.merge(df_turismo, df_poblacion, left_on='país', right_on='pais', how='inner')

df_integrado = pd.merge(df_integrado, df_envejecimiento, on=['pais', 'anio'], how='left')

print(df_integrado.head())

                      _id_x continente_x             región       país  \
0  67e7a3c6a1c5d2e7d3f3c30d       África     África Austral  sudáfrica   
1  67e7a3c6a1c5d2e7d3f3c30e       África  África Occidental    nigeria   
2  67e7a3c6a1c5d2e7d3f3c30f       África   África del Norte     egipto   
3  67e7a3c6a1c5d2e7d3f3c310       África    África Oriental      kenia   
4  67e7a3c6a1c5d2e7d3f3c311       África   África del Norte  marruecos   

  capital_x    población                costos_diarios_estimados_en_dólares  \
0  Pretoria   59308690.0  {'hospedaje': {'precio_bajo_usd': 21, 'precio_...   
1     Abuja  206139589.0  {'hospedaje': {'precio_bajo_usd': 28, 'precio_...   
2  El Cairo  102334404.0  {'hospedaje': {'precio_bajo_usd': 26, 'precio_...   
3   Nairobi   53771296.0  {'hospedaje': {'precio_bajo_usd': 29, 'precio_...   
4     Rabat   36910560.0  {'hospedaje': {'precio_bajo_usd': 20, 'precio_...   

   precio_big_mac_usd       pais  anio  ...  costo_bajo_transporte  \
0         

### Paso 2.4 - Automatizar el ETL para que corra cada cierto tiempo

In [None]:
import pandas as pd
from pymongo import MongoClient
from bson import ObjectId
from sqlalchemy import create_engine

# 1. Conexiones
engine = create_engine('postgresql://postgres:1234@localhost:5432/demografia_mundial')
cliente = MongoClient("mongodb+srv://221164:123456abc@cluster0.xkjndsz.mongodb.net/")
db = cliente["turismo_mundial"]
coleccion = db["costos_turisticos"]

# 2. Leer datos
df_poblacion = pd.read_sql('SELECT * FROM pais_poblacion', engine)
df_envejecimiento = pd.read_sql('SELECT * FROM pais_envejecimiento', engine)
datos_turisticos = list(coleccion.find())
df_turismo = pd.DataFrame(datos_turisticos)

# 3. Normalizar nombres
df_turismo['país'] = df_turismo['país'].str.lower().str.strip()
df_poblacion['pais'] = df_poblacion['pais'].str.lower().str.strip()
df_envejecimiento['pais'] = df_envejecimiento['pais'].str.lower().str.strip()

# 4. Merge turismo + población + envejecimiento
df_integrado = pd.merge(df_turismo, df_poblacion, left_on='país', right_on='pais', how='inner')
df_integrado = pd.merge(df_integrado, df_envejecimiento, on=['pais', 'anio'], how='left')

# 5. Extraer datos anidados
def extraer_costo(x, categoria, tipo):
    try:
        return x[categoria][tipo]
    except:
        return None

df_integrado['costo_bajo_hospedaje'] = df_integrado['costos_diarios_estimados_en_dólares'].apply(
    lambda x: extraer_costo(x, 'hospedaje', 'precio_bajo_usd'))
df_integrado['costo_promedio_comida'] = df_integrado['costos_diarios_estimados_en_dólares'].apply(
    lambda x: extraer_costo(x, 'comida', 'precio_promedio_usd'))
df_integrado['costo_bajo_transporte'] = df_integrado['costos_diarios_estimados_en_dólares'].apply(
    lambda x: extraer_costo(x, 'transporte', 'precio_bajo_usd'))
df_integrado['costo_promedio_entretenimiento'] = df_integrado['costos_diarios_estimados_en_dólares'].apply(
    lambda x: extraer_costo(x, 'entretenimiento', 'precio_promedio_usd'))

# 6. Eliminar columnas molestas (💥 esta parte evita el error de ObjectId)
columnas_a_eliminar = [
    '_id', '_id_x', '_id_y',
    'costos_diarios_estimados_en_dólares'
]

for col in columnas_a_eliminar:
    if col in df_integrado.columns:
        df_integrado.drop(columns=col, inplace=True)

# 7. Convertir cualquier ObjectId que quede (por si acaso)
for col in df_integrado.columns:
    if df_integrado[col].apply(lambda x: isinstance(x, ObjectId)).any():
        df_integrado[col] = df_integrado[col].astype(str)

# 8. Cargar al Data Warehouse (PostgreSQL)
df_integrado.to_sql("datos_integrados", engine, if_exists='replace', index=False)

print("✔️ ETL ejecutado correctamente. Datos cargados en 'datos_integrados'")


ProgrammingError: (psycopg2.ProgrammingError) can't adapt type 'ObjectId'
[SQL: INSERT INTO datos_integrados (_id_x, continente_x, "región", "país", capital_x, "población", "costos_diarios_estimados_en_dólares", precio_big_mac_usd, pais, anio, poblacion_x, _id_y, continente_y, costo_bajo_hospedaje, costo_promedio_comida, costo_b ... 124516 characters truncated ... _211)s, %(continente__211)s, %(region__211)s, %(poblacion_y__211)s, %(tasa_de_envejecimiento__211)s)]
[parameters: {'continente__0': None, 'poblacion_x__0': 59308690, 'pais__0': 'sudáfrica', 'precio_big_mac_usd__0': None, 'continente_x__0': 'África', 'costos_diarios_estimados_en_dólares__0': {'hospedaje': {'precio_bajo_usd': 21, 'precio_promedio_usd': 30, 'precio_alto_usd': 39}, 'comida': {'precio_bajo_usd': 14, 'precio_promedio_usd': 20,  ... (56 characters truncated) ... : 25, 'precio_promedio_usd': 37, 'precio_alto_usd': 48}, 'entretenimiento': {'precio_bajo_usd': 30, 'precio_promedio_usd': 43, 'precio_alto_usd': 55}}, 'porcentaje_mayores_65__0': None, 'region__0': None, 'capital_x__0': 'Pretoria', 'id_pais__0': None, 'nombre_pais__0': None, 'población__0': 59308690.0, 'tasa_de_envejecimiento__0': None, 'país__0': 'sudáfrica', 'capital_y__0': None, 'poblacion_y__0': None, 'costo_bajo_hospedaje__0': 21, 'costo_promedio_entretenimiento__0': 43, 'costo_promedio_comida__0': 20, 'anio__0': None, '_id_y__0': '67e2130bc29aa80afae47e6d', 'región__0': 'África Austral', '_id_x__0': ObjectId('67e7a3c6a1c5d2e7d3f3c30d'), 'costo_bajo_transporte__0': 25, 'continente_y__0': 'África', 'continente__1': None, 'poblacion_x__1': 206139589, 'pais__1': 'nigeria', 'precio_big_mac_usd__1': None, 'continente_x__1': 'África', 'costos_diarios_estimados_en_dólares__1': {'hospedaje': {'precio_bajo_usd': 28, 'precio_promedio_usd': 41, 'precio_alto_usd': 53}, 'comida': {'precio_bajo_usd': 15, 'precio_promedio_usd': 22,  ... (56 characters truncated) ... : 15, 'precio_promedio_usd': 22, 'precio_alto_usd': 28}, 'entretenimiento': {'precio_bajo_usd': 19, 'precio_promedio_usd': 28, 'precio_alto_usd': 36}}, 'porcentaje_mayores_65__1': None, 'region__1': None, 'capital_x__1': 'Abuja', 'id_pais__1': None, 'nombre_pais__1': None, 'población__1': 206139589.0, 'tasa_de_envejecimiento__1': None, 'país__1': 'nigeria', 'capital_y__1': None, 'poblacion_y__1': None, 'costo_bajo_hospedaje__1': 28, 'costo_promedio_entretenimiento__1': 28, 'costo_promedio_comida__1': 22, 'anio__1': None, '_id_y__1': '67e2130bc29aa80afae47e6e', 'región__1': 'África Occidental', '_id_x__1': ObjectId('67e7a3c6a1c5d2e7d3f3c30e'), 'costo_bajo_transporte__1': 15, 'continente_y__1': 'África' ... 5200 parameters truncated ... 'continente__210': None, 'poblacion_x__210': 19116201, 'pais__210': 'chile', 'precio_big_mac_usd__210': 6.64, 'continente_x__210': 'América', 'costos_diarios_estimados_en_dólares__210': None, 'porcentaje_mayores_65__210': None, 'region__210': None, 'capital_x__210': None, 'id_pais__210': None, 'nombre_pais__210': None, 'población__210': None, 'tasa_de_envejecimiento__210': None, 'país__210': 'chile', 'capital_y__210': None, 'poblacion_y__210': None, 'costo_bajo_hospedaje__210': 39, 'costo_promedio_entretenimiento__210': 58, 'costo_promedio_comida__210': 47, 'anio__210': None, '_id_y__210': '67e21472c29aa80afae47ea9', 'región__210': None, '_id_x__210': ObjectId('67e7a417a1c5d2e7d3f3c3df'), 'costo_bajo_transporte__210': 51, 'continente_y__210': 'América', 'continente__211': None, 'poblacion_x__211': 212559417, 'pais__211': 'brasil', 'precio_big_mac_usd__211': 2.93, 'continente_x__211': 'América', 'costos_diarios_estimados_en_dólares__211': None, 'porcentaje_mayores_65__211': None, 'region__211': None, 'capital_x__211': None, 'id_pais__211': None, 'nombre_pais__211': None, 'población__211': None, 'tasa_de_envejecimiento__211': None, 'país__211': 'brasil', 'capital_y__211': None, 'poblacion_y__211': None, 'costo_bajo_hospedaje__211': 37, 'costo_promedio_entretenimiento__211': 48, 'costo_promedio_comida__211': 20, 'anio__211': None, '_id_y__211': '67e21472c29aa80afae47eaa', 'región__211': None, '_id_x__211': ObjectId('67e7a417a1c5d2e7d3f3c3e0'), 'costo_bajo_transporte__211': 23, 'continente_y__211': 'América'}]
(Background on this error at: https://sqlalche.me/e/20/f405)