<a href="https://colab.research.google.com/github/GermanStanzione/TT-2C2025-Data-Analitycs-Notebooks/blob/main/Clase_8/Mia/Clase_08_Cat_Merge_Join.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Veamos con un ejemplo el uso de concat - merge - join

Contamos con dos estaciones meteorológicas, cada una instalada en una ubicación geográfica diferente, que sensan datos de temperatura, presión y humedad cada una hora.
<BR>
Simulemos algunas mediciones y armemos dos dataframes, uno para cada estación y con datos de un mismo día

In [None]:
import pandas as pd
import numpy as np

# Creamos una serie tipo datetime con 24 valores, mismo día y 24 horas.
horas = pd.date_range("2025-10-11 00:00", periods=24, freq="H")
horas

In [None]:
# Simulamos el dataframe de la Estacion 1
estacion1 = pd.DataFrame({
    "hora": horas,
    "estacion": "E1",
    "temperatura": np.random.normal(20, 3, 24),  # genera 24 valores (dist normal) con media 20 y desviación 3
    "presion": np.random.normal(1013, 5, 24),  # genera 24 valores (dist normal) con media 1013 y desviación 5
    "humedad": np.random.uniform(40, 80, 24)  # genera 24 valores (dist uniform) con media 40 y desviación 8
})

In [None]:
estacion1.head(5)

In [None]:
import matplotlib.pyplot as plt
estacion1["temperatura"].hist(bins="auto")
plt.show()

In [None]:
# Graficamos las temperaturas de 1 día
estacion1.plot(x="hora", y="temperatura", kind="line")
plt.show()

In [None]:
# Simulamos el dataframe de la Estacion 1
estacion2 = pd.DataFrame({
    "hora": horas,
    "estacion": "E2",
    "temperatura": np.random.normal(18, 2, 24),
    "presion": np.random.normal(1010, 4, 24),
    "humedad": np.random.uniform(35, 75, 24)
})

In [None]:
estacion2.head()

## concat - Unificamos dos datasets usando concat

 La forma más natural de unificarlos en pandas es usando:
<BR>
`pd.concat()`
<BR>
Sirve para apilar DataFrames (uno debajo del otro o lado a lado).
Es ideal cuando los DataFrames tienen las mismas columnas (por ejemplo, mismo formato de mediciones de distintas estaciones).
<BR>
Por default, apila los datos verticalmente (uno debajo de otro), por lo que `axis = 0`
<BR>
Para ubicar los dataframes, uno seguido del otro, usamos el argumento `axis = 1`
<BR>
Cada dataframe tiene su index, por lo que es buena práctica al usar concat, regenerar el index en el dataframe resultante, para ello usamos `ignore_index=True`

In [None]:
# Unificamos los datos de ambas estaciones
est1_est2 = pd.concat([estacion2, estacion1], axis=0, ignore_index=True)
est1_est2.head(5)

## merge - une los dataframes por una columna en común
Lo usamos para comparar las mediciones de las estaciones


In [None]:
# Merge por la columna 'hora' (igual que un JOIN ON hora)
e1_e2_merge = pd.merge(
    estacion1,
    estacion2,
    on="hora",
    how="inner",
    suffixes=("_E1", "_E2")
)

In [None]:
e1_e2_merge.info()

In [None]:
e1_e2_merge.head()

## join - une los dataframes por el index


In [None]:
# Establecemos 'hora' como índice
estacion1 = estacion1.set_index("hora")
estacion2 = estacion2.set_index("hora")

In [None]:
# Unimos por índice (hora)
e1_e2_join = estacion1.join(estacion2, lsuffix="_E1", rsuffix="_E2")
e1_e2_join.head()

In [None]:
# Unimos solo la columna 'temperatura' de la segunda estación
e1_e2_join_cust = estacion1.join(estacion2["temperatura"], lsuffix="_E1", rsuffix="_E2")
e1_e2_join_cust.head()

In [None]:
# Unimos solo las columnas de temperatura de ambas estaciones
e1_e2_join_cust = estacion1[["temperatura"]].join(estacion2["temperatura"], lsuffix="_E1", rsuffix="_E2")
e1_e2_join_cust.head()

In [None]:
import matplotlib.pyplot as plt

# Set a style for the plot (you can change 'seaborn-v0_8-darkgrid' to another style)
plt.style.use('seaborn-v0_8-darkgrid')


# Graficamos barras comparativas
e1_e2_join_cust.plot(
    kind="bar",
    figsize=(8, 4),
    width=0.8
)

plt.title("Comparación de temperatura entre estaciones")
plt.xlabel("Hora")
plt.ylabel("Temperatura (°C)")
plt.xticks(rotation=45)
plt.legend(title="Estación")
plt.tight_layout()
plt.show()

In [None]:
# Vere un gráfico comparativo
import matplotlib.pyplot as plt

# Graficamos barras comparativas
e1_e2_join_cust.plot(
    kind="bar",
    figsize=(8, 4),
    width=0.8
)

plt.title("Comparación de temperatura entre estaciones")
plt.xlabel("Hora")
plt.ylabel("Temperatura (°C)")
plt.xticks(rotation=45)
plt.legend(title="Estación")
plt.tight_layout()
plt.show()


Si trabajás con datos horarios o diarios, join() es muy cómodo porque muchas veces ya tenés el tiempo como índice (DatetimeIndex). Te permite hacer operaciones de series temporales como:

# Importamos Dataset Booking - Hotels - Users
https://www.kaggle.com/code/sonawanelalitsunil/international-hotel-booking-analytics-ml-34-75/notebook

In [1]:
# Importar la librería Pandas
import pandas as pd

In [2]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
# Verificar que los archivos csv se encuentren en la carpeta datasets
import os
os.listdir("/content/drive/MyDrive/datasets")

['users.csv',
 'hotels.csv',
 'reviews.csv',
 'Kaggle_users.gsheet',
 'netflix_titles.csv',
 'youtube_shorts_tiktok_trends_2025.csv',
 'satis_clientes.csv',
 'booking_db_nulls.sqlite',
 'booking_db.sqlite',
 'InteractiveSheet_2025-09-22_12_53_41.gsheet',
 'train.csv']

In [4]:
# Cambiamos el directorio para importar con facilidad
os.chdir("/content/drive/MyDrive/datasets")
os.listdir(".")

['users.csv',
 'hotels.csv',
 'reviews.csv',
 'Kaggle_users.gsheet',
 'netflix_titles.csv',
 'youtube_shorts_tiktok_trends_2025.csv',
 'satis_clientes.csv',
 'booking_db_nulls.sqlite',
 'booking_db.sqlite',
 'InteractiveSheet_2025-09-22_12_53_41.gsheet',
 'train.csv']

In [13]:
# Importamos Reviews
reviews = pd.read_csv('reviews.csv')
reviews.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   review_id              50000 non-null  int64  
 1   user_id                50000 non-null  int64  
 2   hotel_id               50000 non-null  int64  
 3   review_date            50000 non-null  object 
 4   score_overall          50000 non-null  float64
 5   score_cleanliness      50000 non-null  float64
 6   score_comfort          50000 non-null  float64
 7   score_facilities       50000 non-null  float64
 8   score_location         50000 non-null  float64
 9   score_staff            50000 non-null  float64
 10  score_value_for_money  50000 non-null  float64
 11  review_text            50000 non-null  object 
dtypes: float64(7), int64(3), object(2)
memory usage: 4.6+ MB


In [12]:
# Importamos Hotels
hotels = pd.read_csv('hotels.csv')
hotels.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   hotel_id              25 non-null     int64  
 1   hotel_name            25 non-null     object 
 2   city                  25 non-null     object 
 3   country               25 non-null     object 
 4   star_rating           25 non-null     int64  
 5   lat                   25 non-null     float64
 6   lon                   25 non-null     float64
 7   cleanliness_base      25 non-null     float64
 8   comfort_base          25 non-null     float64
 9   facilities_base       25 non-null     float64
 10  location_base         25 non-null     float64
 11  staff_base            25 non-null     float64
 12  value_for_money_base  25 non-null     float64
dtypes: float64(8), int64(2), object(3)
memory usage: 2.7+ KB


In [14]:
# Importamos Users
users = pd.read_csv('users.csv')
users.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   user_id         2000 non-null   int64 
 1   user_gender     2000 non-null   object
 2   country         2000 non-null   object
 3   age_group       2000 non-null   object
 4   traveller_type  2000 non-null   object
 5   join_date       2000 non-null   object
dtypes: int64(1), object(5)
memory usage: 93.9+ KB


In [None]:
hotels.columns

In [9]:
reviews.columns

Index(['review_id', 'user_id', 'hotel_id', 'review_date', 'score_overall',
       'score_cleanliness', 'score_comfort', 'score_facilities',
       'score_location', 'score_staff', 'score_value_for_money',
       'review_text'],
      dtype='object')

## Actividad 1 (Dificultad *)
Reproducir la siguiente consulta SQL con Pandas


```
select h.hotel_name, h.country, r.score_overall
from  hotels h join reviews r
on h.hotel_id == r.hotel_id
```

In [None]:
# Merge (equivalente al SQL JOIN)
hotels_reviews = pd.merge(
    hotels,
    reviews,
    on="hotel_id",
    how="inner"
)
hotels_reviews.head()

In [11]:
# Seleccionamos solo las columnas que nos solicitan. Pero sii un hotel tiene 10
# reseñas, aparecerá en la lista 10 veces, cada una con una puntuación diferente.
hotels_reviews = hotels_reviews[["hotel_name", "country", "score_overall"]]
hotels_reviews.head()

Unnamed: 0,hotel_name,country,score_overall
0,The Azure Tower,United States,8.7
1,The Azure Tower,United States,8.7
2,The Azure Tower,United States,8.8
3,The Azure Tower,United States,8.8
4,The Azure Tower,United States,8.7


## Actividad 2 (Dificultad *)
Reproducir la siguiente consulta SQL con Pandas


```
select h.hotel_name, h.country, avg(r.score_overall) as avg_score
from  hotels h join reviews r
on h.hotel_id == r.hotel_id
GROUP by h.hotel_name, h.country
```

In [17]:
# Merge (equivalente al SQL JOIN)
hotels_reviews = hotels_reviews[["hotel_name", "country", "score_overall"]]

In [22]:
# Agrupación / Agregación
# Acá aparece cada hotel con una única puntuación promedio
result = hotels_reviews.groupby(["hotel_name", "country"]).agg(
    avg_score = ("score_overall", "mean")
)
result.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,avg_score
hotel_name,country,Unnamed: 2_level_1
The Kiwi Grand,New Zealand,9.016311
The Maple Grove,Canada,9.035692
The Orchid Palace,Thailand,9.006521
The Royal Compass,United Kingdom,8.88102
The Savannah House,Nigeria,8.694632


## Actividad 3 (Dificultad ***)
Reproducir la siguiente consulta SQL con Pandas


```
select h.hotel_name, h.country, avg(r.score_overall) as avg_score
from  hotels h join reviews r
on h.hotel_id == r.hotel_id
WHERE h.country like '%argentina%'
GROUP by h.hotel_name, h.country
```



In [None]:
df_final_pandas = (
    pd.merge(df_hotels, df_reviews, on='hotel_id', how='inner') # 1. JOIN
    .loc[lambda df: df['country'].str.contains('argentina', case=False, na=False)] # 2. WHERE
    .groupby(['hotel_name', 'country'])['score_overall'].mean() # 3. GROUP BY y AVG
    .reset_index(name='avg_score') # Convierte la Serie agrupada de vuelta a DataFrame
    .loc[lambda df: df['avg_score'] > 4.0] # 4. HAVING
)

print(df_final_pandas)

In [23]:
# Merge (equivalente al SQL JOIN)
hotels_reviews = hotels_reviews[["hotel_name", "country", "score_overall"]]

In [24]:
# Filtro (equivalente al WHERE con LIKE)
filtered=hotels_reviews[hotels_reviews["country"].str.contains("Argentina", case=False)]
filtered.head()


Unnamed: 0,hotel_name,country,score_overall
43935,Tango Boutique,Argentina,8.9
43936,Tango Boutique,Argentina,8.9
43937,Tango Boutique,Argentina,8.7
43938,Tango Boutique,Argentina,9.0
43939,Tango Boutique,Argentina,8.9


In [None]:
# Agrupación y promedio (equivalente al GROUP BY y AVG)
result=(
    filtered.groupby(["hotel_name", "country"])
    .agg(avg_score=("score_overall", "mean"))
)
result.head()


## Bonus Track
Usar OpenStreetMap para encontrar la dirección del Hotel

In [25]:
hotels[hotels["hotel_name"]=="Tango Boutique"]

Unnamed: 0,hotel_id,hotel_name,city,country,star_rating,lat,lon,cleanliness_base,comfort_base,facilities_base,location_base,staff_base,value_for_money_base
22,23,Tango Boutique,Buenos Aires,Argentina,5,-34.6037,-58.3816,8.9,8.8,8.7,9.0,8.8,8.7


In [None]:
# https://www.openstreetmap.org/search?lat=-34.6037&lon=-58.3816&zoom=10#map=12/-37.2888/-59.1229