![Portada](../img/portada.jpg)

# Forecasting Económico del Sector Turístico Canario mediante Técnicas de Machine Learning

Para la realización de este proyecto se utilizará un dataset del Instituto Canario de Estadística que recoge la participación de turistas en diversas actividades según territorio, tipo de alojamiento y año, abarcando el periodo 2018–2024 cuantificado en unidades económicas. 

Con más de 2.400 observaciones, la información permite analizar el comportamiento turístico en las islas y sus municipios, estudiar la relación entre actividades, estancias y territorios, para evaluar la evolución temporal antes y después de la pandemia. 

A partir de esta base, se aplicarán técnicas de Machine Learning para predecir la demanda turística, identificar patrones y segmentar perfiles de actividad, generando insights útiles para la planificación de diversas actividades turísticas, la toma de decisiones estratégicas y la comprensión de tendencias en uno de los sectores clave de la economía canaria.

## Objetivos del proyecto 

### *Objetivo general*

Analizar el comportamiento turístico en Canarias mediante la aplicación de técnicas de Machine Learning para identificar patrones, predecir tendencias de participación en actividades turísticas y generar información útil para la planificación y toma de decisiones en el sector turístico.

### *Objetivos específicos*

#### 1. Explorar y comprender el dataset

- Analizar la distribución de turistas por territorio, actividad y tipo de      alojamiento.

- Identificar tendencias temporales entre 2018 y 2024.

- Detectar patrones, anomalías y variaciones relacionadas con eventos externos (p. ej., COVID-19 en 2020–2021).

#### 2. Preparar y transformar los datos para Machine Learning

- Limpiar, normalizar y codificar las variables categóricas.

- Gestionar posibles valores atípicos y realizar análisis exploratorio visual.

- Crear un conjunto de datos estructurado listo para ser usado en modelos predictivos.

#### 3. Desarrollar modelos de Machine Learning aplicables al comportamiento turístico

Dependiendo del enfoque final elegido, se podrá:

- Regresión:

Predecir el número de turistas que participarán en una actividad concreta en un año determinado.

- Clasificación:

Clasificar actividades o territorios según niveles de demanda turística.

- Clustering:

Identificar grupos de actividades, municipios o tipos de alojamiento con comportamientos similares.

#### 4. Evaluar y comparar el rendimiento de diferentes modelos

- Aplicar métricas adecuadas (MAE, RMSE, accuracy, silhouette score, según el modelo).

- Seleccionar el modelo más óptimo para el objetivo planteado.

#### 5. Generar conclusiones útiles y accionables

- Identificar actividades con mayor crecimiento o potencial.

- Detectar territorios o tipos de alojamiento con patrones diferenciados.

- Proponer recomendaciones basadas en datos que puedan apoyar la planificación turística, promoción o segmentación.


In [19]:
import pandas as pd

In [20]:
df = pd.read_excel(
    r"C:\Users\balle\Desktop\DataScience\apuntesPatricia\3-Machine_Learning\ML_project\data\Raw\20251203 dataset-ISTAC gasto turista ACT.xlsx"
)

df.head(20)

Unnamed: 0,Territorio,Actividad,Tipo_estancia,2024,2023,2022,2021,2020,2019,2018
0,Canarias,Playa,Total,10681338,9795033,9155025,4379540,2733844,8793265,9165372
1,Canarias,Playa,Hotel,5789638,5656776,5387792,2670430,1574293,4885284,5008356
2,Canarias,Playa,Apartamento o villa turística,1723791,1592104,1497187,679788,534694,1911195,2113674
3,Canarias,Playa,Vivienda privada propia o de terceros,2800847,1908752,1550201,744699,472909,1376825,1334190
4,Canarias,Playa,Otros,367061,637401,719845,284623,151949,619962,709151
5,Canarias,"Piscina, instalaciones del hotel",Total,9069752,8442944,7839321,3348584,2191279,7604809,7826782
6,Canarias,"Piscina, instalaciones del hotel",Hotel,5930820,5792228,5514819,2427767,1525196,4952349,4962409
7,Canarias,"Piscina, instalaciones del hotel",Apartamento o villa turística,1651390,1386910,1218213,481532,413215,1650028,1810826
8,Canarias,"Piscina, instalaciones del hotel",Vivienda privada propia o de terceros,1295323,769269,514458,231279,139410,501574,494456
9,Canarias,"Piscina, instalaciones del hotel",Otros,192218,494537,591831,208006,113458,500858,559091


In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2400 entries, 0 to 2399
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Territorio     2400 non-null   object
 1   Actividad      2400 non-null   object
 2   Tipo_estancia  2400 non-null   object
 3   2024           2400 non-null   int64 
 4   2023           2400 non-null   int64 
 5   2022           2400 non-null   int64 
 6   2021           2400 non-null   int64 
 7   2020           2400 non-null   int64 
 8   2019           2400 non-null   int64 
 9   2018           2400 non-null   int64 
dtypes: int64(7), object(3)
memory usage: 187.6+ KB


In [22]:
df[df.isna().any(axis=1)]

Unnamed: 0,Territorio,Actividad,Tipo_estancia,2024,2023,2022,2021,2020,2019,2018
