# PROYECTO
Procesar informacion de destinos turisticos europeos, esta comprendido por 209 filas que cubren mas de 20 paises de toda europa


## PASO 1:  Importar librerias

In [1]:
# Importacion de Librerias necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
print("Librerías importadas correctamente")

Librerías importadas correctamente


## Paso 2: Cargar datos de archivo .csv

In [2]:
# Cargar dataset de los destinos mas visitados en EUROPA
print("Cargando datos...")
destinos = pd.read_csv('src/dataset/destinations.csv', encoding='utf-8')
print("Datos cargados correctamente")

Cargando datos...
Datos cargados correctamente


## Paso 3: procemiento de los datos

### Transformacion de Datos

In [22]:
#Conversion de Datos
# 1. campo Approximate Annual Tourists convertir a tipo numérico

def convert_tourists(v):
    """
    Convierte valores tipo: '1.5 million', '2-3 million', '500000' a float representando el número de turistas anuales.
    """
    
    # si el valor es nulo o NaN, devolver None
    if pd.isna(v): 
        return None
    
    # Convertir a texto, poner en minusculas y eliminar paréntesis y su contenido
    v = re.sub(r"\(.*?\)", "", str(v).lower()).strip()

    # Si el valor ahora es solo numero, convertir a float
    if v.replace(".", "", 1).isdigit():
        return float(v)

    # Si el valor tiene un rango, tomar el valor máximo
    if "-" in v:
        return float(v.split("-")[1].split()[0]) * 1_000_000

    # si contiene la palabra 'million', elimina y multiplicar por 1,000,000
    if "million" in v:
        return float(v.replace("million", "").strip()) * 1_000_000

    return None

print("Convirtiendo datos...")  
destinos["Approximate Annual Tourists"] = destinos["Approximate Annual Tourists"].apply(convert_tourists)
print(destinos[['Destination', 'Approximate Annual Tourists']].head(10))

Convirtiendo datos...
    Destination  Approximate Annual Tourists
0          rome                   14000000.0
1      florence                   10000000.0
2        venice                   10000000.0
3         milan                    7000000.0
4        naples                    5000000.0
5  cinque terre                    3000000.0
6  amalfi coast                    2000000.0
7          pisa                    1500000.0
8     lake como                    1000000.0
9        verona                    1000000.0


In [23]:
#Normalizar Categorias y Paises
    # Convertir a minusculas, eliminar espacios extras, y reemplazar espacios múltiples por uno
def normalize_text(series):
    return (
        series.astype(str)
        .str.lower()
        .str.strip()
        .str.replace(r"\s+", " ", regex=True)   # reemplaza espacios múltiples por uno
    )
    
destinos["Category"] = normalize_text(destinos["Category"])
destinos["Country"] = normalize_text(destinos["Country"])
destinos["Region"] = normalize_text(destinos["Region"])
destinos["Destination"] = normalize_text(destinos["Destination"])

### Visualizacion de Datos

In [24]:
#Mostrar las primeras filas del dataset para revisar su contenido
print(destinos.head(3))

  Destination   Region Country Category   Latitude  Longitude  \
0        rome    lazio   italy     city  41.902782  12.496366   
1    florence  tuscany   italy     city  43.769581  11.255772   
2      venice   veneto   italy     city  45.435559  12.336196   

   Approximate Annual Tourists Currency Majority Religion  \
0                   14000000.0     Euro    Roman Catholic   
1                   10000000.0     Euro    Roman Catholic   
2                   10000000.0     Euro    Roman Catholic   

           Famous Foods Language                     Best Time to Visit  \
0  Pizza, Pasta, Gelato  Italian  Spring (April-May) or Fall (Sept-Oct)   
1  Pizza, Pasta, Gelato  Italian  Spring (April-May) or Fall (Sept-Oct)   
2  Pizza, Pasta, Gelato  Italian  Spring (April-May) or Fall (Sept-Oct)   

  Cost of Living                                         Safety  \
0    Medium-high  Generally safe, but watch out for pickpockets   
1    Medium-high  Generally safe, but watch out for pickpoc

In [25]:
# Mostrar los titulos de columnas y tipo de datos  
print("Realizando análisis exploratorio de datos...")
print(destinos.info())

Realizando análisis exploratorio de datos...
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 209 entries, 0 to 208
Data columns (total 16 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Destination                  209 non-null    object 
 1   Region                       209 non-null    object 
 2   Country                      209 non-null    object 
 3   Category                     209 non-null    object 
 4   Latitude                     209 non-null    float64
 5   Longitude                    209 non-null    float64
 6   Approximate Annual Tourists  125 non-null    float64
 7   Currency                     209 non-null    object 
 8   Majority Religion            209 non-null    object 
 9   Famous Foods                 209 non-null    object 
 10  Language                     209 non-null    object 
 11  Best Time to Visit           209 non-null    object 
 12  Cost of Living               209 

In [26]:
#Destinos Unicos
unique_destinations = destinos['Destination'].nunique()
print(f"Número de destinos únicos: {unique_destinations}")


Número de destinos únicos: 208


In [27]:
#destinos con mas turistas
top_destinos = destinos.sort_values(by='Approximate Annual Tourists', ascending=False).head(5)
print("Top 5 destinos con más turistas anuales:")
print(top_destinos[['Destination', 'Approximate Annual Tourists']])


Top 5 destinos con más turistas anuales:
    Destination  Approximate Annual Tourists
20        paris                   40000000.0
160      london                   25000000.0
140    istanbul                   15000000.0
0          rome                   14000000.0
60       berlin                   13500000.0


In [None]:
#Paises con mas visitantes
country_tourists = destinos.groupby('Country')['Approximate Annual Tourists'].sum().sort_values(ascending=False)
top_countries = country_tourists.head(5)
print("Top 5 países con más turistas anuales:")
print(top_countries)


Top 5 países con más turistas anuales:
Country
france     77500000.0
italy      54500000.0
germany    53000000.0
spain      52200000.0
turkey     47500000.0
Name: Approximate Annual Tourists, dtype: float64


In [29]:
#Tipo de ciudad o destino mas visitado
category_tourists = destinos.groupby('Category')['Approximate Annual Tourists'].sum().sort_values(ascending=False)
print("Número de turistas anuales por tipo de ciudad o destino:")
print(category_tourists.head(5))



Número de turistas anuales por tipo de ciudad o destino:
Category
city              360200000.0
island             35000000.0
region             33000000.0
mountain range     12000000.0
bazaar             10000000.0
Name: Approximate Annual Tourists, dtype: float64


## Paso 4: DESARROLLO RECOMENDADOR

### Recomendacion 1: de los lugares mas visitados

In [38]:
def recommend_most_visited(df, n=10):
    """
    Retorna los 'n' destinos más visitados según Approximate Annual Tourists.
    """
    top = (
        df.sort_values(by="Approximate Annual Tourists", ascending=False)
          .loc[:, ["Destination", "Country", "Category", "Approximate Annual Tourists"]]
          .head(n)
          .reset_index(drop=True)
    )
    top.rename(columns={"Approximate Annual Tourists": "Annual Tourists"}, inplace=True)
    return top

### Recomendacion 2: para usuario nuevo (Cold Start)

In [39]:
def recommend_for_new_user(df, preferred_country=None, preferred_category=None, n=10):
    """
    Recomendador para usuario nuevo (sin historial).
    - Si no se pasan preferencias -> destinos más visitados globalmente.
    - Si se pasa país/categoría -> filtra y luego ordena por número de turistas.
    """
    subset = df.copy()

    if preferred_country:
        subset = subset[subset["Country"].str.contains(preferred_country, case=False, na=False)]

    if preferred_category:
        subset = subset[subset["Category"].str.contains(preferred_category, case=False, na=False)]

    # Si el filtro dejó sin resultados, caemos al ranking global (popularidad)
    if subset.empty:
        subset = df

    return recommend_most_visited(subset, n=n)


### Pruebas para modelos de recomendacion 1 y 2:

In [None]:

print("\n=== TOP 5 DESTINOS MÁS VISITADOS (GLOBAL) ===")
print(recommend_most_visited(destinos, n=5))

print("\n=== RECOMENDACIÓN PARA USUARIO NUEVO (sin preferencias) ===")
print(recommend_for_new_user(destinos, n=5))

print("\n=== RECOMENDACIÓN PARA USUARIO NUEVO QUE QUIERE 'beach' ===")
print(recommend_for_new_user(destinos, preferred_category="beach", n=5))

print("\n=== RECOMENDACIÓN PARA USUARIO NUEVO QUE QUIERE 'Italy' ===")
print(recommend_for_new_user(destinos, preferred_country="Italy", n=5))


=== TOP 5 DESTINOS MÁS VISITADOS (GLOBAL) ===
  Destination         Country Category  Annual Tourists
0       Paris          France     City       40000000.0
1      London  United Kingdom     City       25000000.0
2    Istanbul          Turkey     City       15000000.0
3        Rome           Italy     City       14000000.0
4      Berlin         Germany     City       13500000.0

=== RECOMENDACIÓN PARA USUARIO NUEVO (sin preferencias) ===
  Destination         Country Category  Annual Tourists
0       Paris          France     City       40000000.0
1      London  United Kingdom     City       25000000.0
2    Istanbul          Turkey     City       15000000.0
3        Rome           Italy     City       14000000.0
4      Berlin         Germany     City       13500000.0

=== RECOMENDACIÓN PARA USUARIO NUEVO QUE QUIERE 'beach' ===
                    Destination  Country Category  Annual Tourists
0                   Blue Lagoon    Malta    Beach        1000000.0
1                Larvotto

### Recomendacion 3: Sistema basado en similitud de Destinos

In [33]:
# Importacion de Librerias necesarias para realizar el sistema de recomendacion basado en similitud de destinos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

print("Librerías importadas correctamente")

Librerías importadas correctamente


In [34]:
# Creamos una columna de texto combinado para el filtrado Colaboratibo basado en contenido

print("Creando texto combinado para cada destino...")

# Aseguramos que las columnas de texto importantes estén normalizadas
destinos["Category"] = normalize_text(destinos["Category"])
destinos["Famous Foods"] = normalize_text(destinos["Famous Foods"])
destinos["Cultural Significance"] = normalize_text(destinos["Cultural Significance"])
destinos["Description"] = normalize_text(destinos["Description"])

# Unimos varias columnas en una sola "bolsa de palabras"
destinos["text_features"] = (
    destinos["Category"].fillna("") + " " +
    destinos["Famous Foods"].fillna("") + " " +
    destinos["Cultural Significance"].fillna("") + " " +
    destinos["Description"].fillna("")
)

print(destinos[["Destination", "text_features"]].head(5))

Creando texto combinado para cada destino...
  Destination                                      text_features
0        rome  city pizza, pasta, gelato the capital city, kn...
1    florence  city pizza, pasta, gelato a renaissance city f...
2      venice  city pizza, pasta, gelato a unique city built ...
3       milan  city risotto, ossobuco, panettone a fashion ca...
4      naples  city pizza, pasta, cannoli a vibrant city know...


In [49]:
# Calcular la matriz TF-IDF y la matriz de similitud entre destinos

print("Calculando TF-IDF y similitudes entre destinos...")

#Toma el texto combinado de cada destino  y transforma el texto en vectores y como resultado se tiene la matriz tf-idf (sparse)
vectorizer = TfidfVectorizer(stop_words="english")
tfidf_matrix = vectorizer.fit_transform(destinos["text_features"])

# Matriz de similitud coseno (cada fila/col es un destino)
# Calcula la similitud coseno entre todos los vectores: 1 son identicos, 0 son totalmente diferentes
similarity_matrix = cosine_similarity(tfidf_matrix)

print("TF-IDF y matriz de similitud creadas correctamente.")
print("Dimensiones de similarity_matrix:", similarity_matrix.shape)
print("Ejemplo de similarity_matrix (primeras 5 filas y columnas): \n",similarity_matrix[:5, :5])

Calculando TF-IDF y similitudes entre destinos...
TF-IDF y matriz de similitud creadas correctamente.
Dimensiones de similarity_matrix: (209, 209)
Ejemplo de similarity_matrix (primeras 5 filas y columnas): 
 [[1.         0.27000464 0.254739   0.23914704 0.21567943]
 [0.27000464 1.         0.182745   0.07794855 0.22735129]
 [0.254739   0.182745   1.         0.07256327 0.17530441]
 [0.23914704 0.07794855 0.07256327 1.         0.06093773]
 [0.21567943 0.22735129 0.17530441 0.06093773 1.        ]]


In [52]:
def recommend_similar_destination(df, destination_name, n=5):
    """
    Recomienda destinos similares usando similitud de texto (content-based).
    Retorna:
    - DataFrame con los destinos similares, país, categoría y turistas anuales.
    """
    # Buscar índice del destino base (ignorando mayúsculas/minúsculas)
    mask = df["Destination"].str.lower() == destination_name.lower()
    if not mask.any():
        print(f"Destino '{destination_name}' no encontrado.")
        return pd.DataFrame()
    
    idx = df.index[mask][0]
    
    print("\n==============================================")
    print(f"DESTINO BASE ANALIZADO: {destination_name}")
    print("=== TEXTO UNIFICADO (text_features) ===")
    print(df.loc[idx, "text_features"])
    print("==============================================\n")
    
    # Obtener lista (índice, score) para ese destino
    scores = list(enumerate(similarity_matrix[idx]))
    top_scores = scores[1:n+1]
    
    # Ordenar por score de similitud (desc) y saltar el primero (es el mismo destino)
    scores = sorted(scores, key=lambda x: x[1], reverse=True)
    top_indices = [i for i, s in scores[1:n+1]]
    top_similarity_scores = [s for i, s in top_scores]
    
    # Construir DataFrame resultado
    cols = ["Destination", "Country", "Category", "Approximate Annual Tourists"]
    result = df.iloc[top_indices].loc[:, cols].reset_index(drop=True)
    
    result["Score"] = top_similarity_scores
    result = result.reset_index(drop=True)
    
    return result


### Pruebas del Modelo de Recomendacion 3:

In [40]:
print("\n=== TOP 5 DESTINOS MÁS VISITADOS (GLOBAL) ===")
print(recommend_most_visited(destinos, n=5))

print("\n=== RECOMENDACIÓN PARA USUARIO NUEVO (sin preferencias) ===")
print(recommend_for_new_user(destinos, n=5))



=== TOP 5 DESTINOS MÁS VISITADOS (GLOBAL) ===
  Destination         Country Category  Annual Tourists
0       paris          france     city       40000000.0
1      london  united kingdom     city       25000000.0
2    istanbul          turkey     city       15000000.0
3        rome           italy     city       14000000.0
4      berlin         germany     city       13500000.0

=== RECOMENDACIÓN PARA USUARIO NUEVO (sin preferencias) ===
  Destination         Country Category  Annual Tourists
0       paris          france     city       40000000.0
1      london  united kingdom     city       25000000.0
2    istanbul          turkey     city       15000000.0
3        rome           italy     city       14000000.0
4      berlin         germany     city       13500000.0


In [53]:
print("\n=== RECOMENDACIÓN POR SIMILITUD: destinos similares a 'Rome' ===")
print(recommend_similar_destination(destinos, "Rome", n=5))

print("\n=== RECOMENDACIÓN POR SIMILITUD: destinos similares a 'Paris' ===")
print(recommend_similar_destination(destinos, "Paris", n=5))



=== RECOMENDACIÓN POR SIMILITUD: destinos similares a 'Rome' ===

DESTINO BASE ANALIZADO: Rome
=== TEXTO UNIFICADO (text_features) ===
city pizza, pasta, gelato the capital city, known for its historical landmarks like the colosseum, vatican city, and pantheon. a hub of ancient history and modern culture, with rich traditions, art, and landmarks.

  Destination Country Category  Approximate Annual Tourists     Score
0    florence   italy     city                   10000000.0  0.270005
1       paris  france     city                   40000000.0  0.254739
2      venice   italy     city                   10000000.0  0.239147
3    belgrade  serbia     city                    1500000.0  0.215679
4       milan   italy     city                    7000000.0  0.004241

=== RECOMENDACIÓN POR SIMILITUD: destinos similares a 'Paris' ===

DESTINO BASE ANALIZADO: Paris
=== TEXTO UNIFICADO (text_features) ===
city croissants, baguettes, cheese home to iconic landmarks like the eiffel tower, louvre m