# Módulo 3 - EDA

## Objetivos
* Hacer un breve análisis exploratorio para entender mejor cómo está compuesto el dataset y así poder guiar la futura implementación del sistema de recomendación.
* Verificar calidad y cantidad de los datos de cada dataset.
* Hacer un preprocesamiento a los datasets de tal forma que se pueda trabajar con uno solamente.

## Librerías

In [3]:
# Dataset loading
import kagglehub

# General data manipulation
import pandas as pd
import numpy as np

# Visualization
import matplotlib.pyplot as plt
import seaborn as sns

## Cargado de datos

In [4]:
# Download latest version
general_path = kagglehub.dataset_download("amanmehra23/travel-recommendation-dataset")

print("Path to dataset files:", general_path)

Path to dataset files: /home/druiz35/.cache/kagglehub/datasets/amanmehra23/travel-recommendation-dataset/versions/1


In [5]:
destinations_path = general_path + "/Expanded_Destinations.csv"
destinations_df = pd.read_csv(destinations_path)

reviews_path = general_path + "/Final_Updated_Expanded_Reviews.csv"
reviews_df = pd.read_csv(reviews_path)

userhistory_path = general_path + "/Final_Updated_Expanded_UserHistory.csv"
userhistory_df = pd.read_csv(userhistory_path)

users_path = general_path + "/Final_Updated_Expanded_Users.csv"
users_df = pd.read_csv(users_path)

dataframes = {
    "Destinations": destinations_df,
    "Reviews": reviews_df,
    "User History": userhistory_df,
    "Users":users_df
}

## Información general de cada dataset

In [6]:
# Iteramos sobre cada par (nombre, DataFrame) dentro del diccionario 'dataframes'
for key, df in dataframes.items():
    # Imprimimos el nombre del DataFrame actual
    print(f"DATAFRAME: {key}")
    
    # Imprimimos la cantidad de filas (tamaño) del DataFrame
    print(f"Tamaño: {len(df)}")
    
    # Imprimimos las dimensiones del DataFrame (filas, columnas)
    print(f"Dimensiones: {df.shape}")
    
    # Mostramos información general del DataFrame: tipos de datos, valores no nulos, etc.
    df.info()
    
    # Imprimimos estadísticas descriptivas básicas de las columnas numéricas
    print(df.describe())
    
    # Separador visual para distinguir entre la salida de diferentes DataFrames
    print("------------\n")


DATAFRAME: Destinations
Tamaño: 1000
Dimensiones: (1000, 6)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   DestinationID    1000 non-null   int64  
 1   Name             1000 non-null   object 
 2   State            1000 non-null   object 
 3   Type             1000 non-null   object 
 4   Popularity       1000 non-null   float64
 5   BestTimeToVisit  1000 non-null   object 
dtypes: float64(1), int64(1), object(4)
memory usage: 47.0+ KB
       DestinationID   Popularity
count    1000.000000  1000.000000
mean      500.500000     8.513927
std       288.819436     0.567083
min         1.000000     7.504500
25%       250.750000     8.034457
50%       500.500000     8.496527
75%       750.250000     9.020769
max      1000.000000     9.499811
------------

DATAFRAME: Reviews
Tamaño: 999
Dimensiones: (999, 5)
<class 'pandas.core.frame.DataF

## Head y Tail de cada dataset

In [7]:
# Iteramos sobre cada par (nombre, DataFrame) dentro del diccionario 'dataframes'
for key, df in dataframes.items():
    # Imprimimos el nombre del DataFrame actual
    print(f"DATAFRAME: {key}")
    
    # Mostramos las primeras 5 filas del DataFrame (útil para revisar la estructura general y tipos de datos)
    print(f"Head: ")
    print(df.head())
    
    # Mostramos las últimas 5 filas del DataFrame (útil para ver registros finales o posibles valores atípicos)
    print(f"Tail: ")
    print(df.tail())
    
    # Separador visual para diferenciar la salida entre DataFrames
    print("------------\n")


DATAFRAME: Destinations
Head: 
   DestinationID               Name              State        Type  \
0              1          Taj Mahal      Uttar Pradesh  Historical   
1              2        Goa Beaches                Goa       Beach   
2              3        Jaipur City          Rajasthan        City   
3              4  Kerala Backwaters             Kerala      Nature   
4              5         Leh Ladakh  Jammu and Kashmir   Adventure   

   Popularity BestTimeToVisit  
0    8.691906         Nov-Feb  
1    8.605032         Nov-Mar  
2    9.225372         Oct-Mar  
3    7.977386         Sep-Mar  
4    8.399822         Apr-Jun  
Tail: 
     DestinationID               Name              State        Type  \
995            996          Taj Mahal      Uttar Pradesh  Historical   
996            997        Goa Beaches                Goa       Beach   
997            998        Jaipur City          Rajasthan        City   
998            999  Kerala Backwaters             Kerala     

## Revisar valores únicos de DestinationID y UserID para ver si se puede hacer el merge

In [8]:
# Iteramos sobre cada par (nombre, DataFrame) en el diccionario 'dataframes'
for key, df in dataframes.items():
    print(f"DATAFRAME: {key}")
    
    try:
        # Intentamos mostrar la cantidad de ocurrencias únicas de cada valor en la columna 'DestinationID'
        print(df["DestinationID"].value_counts())
    except:
        # Si 'DestinationID' no existe en el DataFrame, informamos
        print("DestinationID NOT FOUND")
        try:
            # Como segunda opción, intentamos mostrar los valores únicos de 'UserID'
            print(df["UserID"].value_counts())
        except: 
            # Si tampoco existe 'UserID', lo informamos
            print("UserID NOT FOUND")
    finally: 
        # Independientemente de lo anterior, volvemos a intentar imprimir los valores de 'UserID'
        try:
            print(df["UserID"].value_counts())
        except: 
            print("UserID NOT FOUND")
    
    # Separador visual para distinguir entre DataFrames
    print("-----------------------------------------------------")


DATAFRAME: Destinations
DestinationID
1       1
672     1
659     1
660     1
661     1
       ..
339     1
340     1
341     1
342     1
1000    1
Name: count, Length: 1000, dtype: int64
UserID NOT FOUND
-----------------------------------------------------
DATAFRAME: Reviews
DestinationID
598     5
160     4
456     4
960     4
547     4
       ..
659     1
1000    1
171     1
20      1
705     1
Name: count, Length: 651, dtype: int64
UserID
20     5
454    5
494    5
579    5
165    5
      ..
73     1
496    1
310    1
673    1
253    1
Name: count, Length: 624, dtype: int64
-----------------------------------------------------
DATAFRAME: User History
DestinationID
872    6
389    5
7      5
805    5
676    5
      ..
997    1
469    1
614    1
754    1
30     1
Name: count, Length: 638, dtype: int64
UserID
234    6
878    5
868    4
343    4
328    4
      ..
682    1
584    1
864    1
415    1
959    1
Name: count, Length: 642, dtype: int64
---------------------------------------

## Merge de datasets

In [9]:
# Realizamos una unión (merge) entre los DataFrames 'reviews_df' y 'destinations_df'
# La unión se hace usando la columna 'DestinationID' como clave
# El tipo de unión es 'inner', lo que significa que solo se conservarán las filas que tengan
# coincidencias en ambos DataFrames en la columna 'DestinationID'
reviews_destinations = pd.merge(reviews_df, destinations_df, on='DestinationID', how='inner')

# Mostramos el DataFrame resultante de la unión
reviews_destinations


Unnamed: 0,ReviewID,DestinationID,UserID,Rating,ReviewText,Name,State,Type,Popularity,BestTimeToVisit
0,1,178,327,2,Incredible monument!,Jaipur City,Rajasthan,City,8.544352,Oct-Mar
1,2,411,783,1,Loved the beaches!,Taj Mahal,Uttar Pradesh,Historical,8.284127,Nov-Feb
2,3,927,12,2,A historical wonder,Goa Beaches,Goa,Beach,7.741214,Nov-Mar
3,4,358,959,3,Incredible monument!,Jaipur City,Rajasthan,City,7.738761,Oct-Mar
4,5,989,353,2,Loved the beaches!,Kerala Backwaters,Kerala,Nature,8.208088,Sep-Mar
...,...,...,...,...,...,...,...,...,...,...
994,995,231,346,5,Loved the beaches!,Taj Mahal,Uttar Pradesh,Historical,7.788256,Nov-Feb
995,996,140,140,3,A historical wonder,Leh Ladakh,Jammu and Kashmir,Adventure,8.907808,Apr-Jun
996,997,823,858,5,Incredible monument!,Jaipur City,Rajasthan,City,8.501225,Oct-Mar
997,998,279,839,2,Loved the beaches!,Kerala Backwaters,Kerala,Nature,7.841207,Sep-Mar


In [10]:
# Realizamos una unión (merge) entre el DataFrame combinado 'reviews_destinations' y 'userhistory_df'
# La clave de unión es 'UserID', lo que permite combinar información del usuario con sus reseñas y destinos
# Se utiliza una unión 'inner', por lo que solo se incluirán usuarios que existan en ambos DataFrames
reviews_destinations_userhistory = pd.merge(reviews_destinations, userhistory_df, on=["UserID"], how='inner')

# Mostramos el DataFrame resultante que contiene:
# - reseñas de destinos
# - detalles del destino
# - historial del usuario
reviews_destinations_userhistory


Unnamed: 0,ReviewID,DestinationID_x,UserID,Rating,ReviewText,Name,State,Type,Popularity,BestTimeToVisit,HistoryID,DestinationID_y,VisitDate,ExperienceRating
0,1,178,327,2,Incredible monument!,Jaipur City,Rajasthan,City,8.544352,Oct-Mar,79,175,2024-01-01,3
1,2,411,783,1,Loved the beaches!,Taj Mahal,Uttar Pradesh,Historical,8.284127,Nov-Feb,834,894,2024-03-20,2
2,4,358,959,3,Incredible monument!,Jaipur City,Rajasthan,City,7.738761,Oct-Mar,998,660,2024-02-15,4
3,5,989,353,2,Loved the beaches!,Kerala Backwaters,Kerala,Nature,8.208088,Sep-Mar,202,894,2024-01-01,5
4,6,473,408,4,A historical wonder,Jaipur City,Rajasthan,City,8.138558,Oct-Mar,331,403,2024-01-01,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
988,991,701,850,3,Incredible monument!,Taj Mahal,Uttar Pradesh,Historical,8.814029,Nov-Feb,138,131,2024-03-20,1
989,991,701,850,3,Incredible monument!,Taj Mahal,Uttar Pradesh,Historical,8.814029,Nov-Feb,643,761,2024-01-01,4
990,995,231,346,5,Loved the beaches!,Taj Mahal,Uttar Pradesh,Historical,7.788256,Nov-Feb,454,113,2024-01-01,2
991,995,231,346,5,Loved the beaches!,Taj Mahal,Uttar Pradesh,Historical,7.788256,Nov-Feb,556,128,2024-01-01,4


In [11]:
# Realizamos una unión (merge) entre el DataFrame 'reviews_destinations_userhistory' y 'users_df'
# La unión se realiza sobre la columna 'UserID', para incorporar información adicional del usuario
# Se utiliza una unión 'inner', por lo que solo se conservarán las filas donde 'UserID' exista en ambos DataFrames
df = pd.merge(reviews_destinations_userhistory, users_df, on='UserID', how='inner')

# Mostramos el DataFrame final, que contiene:
# - reseñas
# - detalles del destino
# - historial del usuario
# - información del usuario desde 'users_df'
df


Unnamed: 0,ReviewID,DestinationID_x,UserID,Rating,ReviewText,Name_x,State,Type,Popularity,BestTimeToVisit,HistoryID,DestinationID_y,VisitDate,ExperienceRating,Name_y,Email,Preferences,Gender,NumberOfAdults,NumberOfChildren
0,1,178,327,2,Incredible monument!,Jaipur City,Rajasthan,City,8.544352,Oct-Mar,79,175,2024-01-01,3,Pooja,pooja@example.com,"City, Historical",Female,1,1
1,2,411,783,1,Loved the beaches!,Taj Mahal,Uttar Pradesh,Historical,8.284127,Nov-Feb,834,894,2024-03-20,2,Karan,karan@example.com,"City, Historical",Male,1,1
2,4,358,959,3,Incredible monument!,Jaipur City,Rajasthan,City,7.738761,Oct-Mar,998,660,2024-02-15,4,Ritvik,ritvik@example.com,"Nature, Adventure",Male,1,1
3,5,989,353,2,Loved the beaches!,Kerala Backwaters,Kerala,Nature,8.208088,Sep-Mar,202,894,2024-01-01,5,Isha,isha@example.com,"Nature, Adventure",Female,2,0
4,6,473,408,4,A historical wonder,Jaipur City,Rajasthan,City,8.138558,Oct-Mar,331,403,2024-01-01,2,Ishaan,ishaan@example.com,"City, Historical",Male,2,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
988,991,701,850,3,Incredible monument!,Taj Mahal,Uttar Pradesh,Historical,8.814029,Nov-Feb,138,131,2024-03-20,1,Hitesh,hitesh@example.com,"Beaches, Historical",Male,2,0
989,991,701,850,3,Incredible monument!,Taj Mahal,Uttar Pradesh,Historical,8.814029,Nov-Feb,643,761,2024-01-01,4,Hitesh,hitesh@example.com,"Beaches, Historical",Male,2,0
990,995,231,346,5,Loved the beaches!,Taj Mahal,Uttar Pradesh,Historical,7.788256,Nov-Feb,454,113,2024-01-01,2,Hitesh,hitesh@example.com,"Beaches, Historical",Male,2,2
991,995,231,346,5,Loved the beaches!,Taj Mahal,Uttar Pradesh,Historical,7.788256,Nov-Feb,556,128,2024-01-01,4,Hitesh,hitesh@example.com,"Beaches, Historical",Male,2,2


## Guardado de dataset procesado

In [12]:
# Guardamos el DataFrame final 'df' en un archivo CSV llamado 'm3_merged_df.csv'
# Usamos la coma (",") como separador de columnas
df.to_csv("m3_merged_df.csv", sep=",")
