# Análisis del perfil turístico que visitó Gran Canaria 2022

![Portada](https://static.hosteltur.com/app/public/uploads/img/articles/2024/05/21/L_182819_3-nuevos-usos-de-ia-generativa-en-grupos-turisticos-el-caso-de-w2m.jpg)

***Introducción:***

El objetivo de este análisis es comprender las características demográficas, comportamientos, preferencias y patrones de los turistas en periodo de postpandemia, utilizando como base la encuesta de gasto turístico realizada por el Instituto Nacional de estadísticas (ISTAC)

Gran Canaria, como uno de los destinos turísticos más importantes de España, atrae a millones de turistas anualmente. Debido a la pandemia sufrida en 2020, el turismo se ha visto afectado considerablemente y con este análisis se busca identificar los cambios claves sufridos por dicho acontecimineto con la finalidad de plantearse estrategias de marketing y optimizar la experiencia del turismo ante posibles futuros factores adversos.

A lo largo del análisis se emplean técnicas de exploración de datos (EDA) y herramientas de visualización desarrolladas en Python.

# **1.Preparación de los datos**


**Imports**
Se importan las librerias, módulos y funciones que vamos a usar a lo largo del análisis.

In [1]:
#Librerias que vamos a usar a lo largo del EDA
import numpy as np
import datetime as dt
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from collections import Counter
from scipy.stats import chi2_contingency, pearsonr, ttest_ind, f_oneway
import sys
sys.path.insert(0,"../utils")

import utils as funciones
import variables as vari

# **Carga de la base de datos y visualización inicial**

In [2]:
#Situacion laboral
df_perfil_turistico["Situacion_laboral"] = df_perfil_turistico["Situacion_laboral"].replace({ 1:"Asalariado", 2:"Autonomo", 3:"Empresario_peque", 4:"Empresario_grande",
5:"Desempleado", 6:"Estudiante", 7:"Jubilado", 8:"Incapacitado", 9:"Militar", 10:"Dependients", 11:"Otros"})


NameError: name 'df_perfil_turistico' is not defined

In [9]:
#Ingresos
df_perfil_turistico["Ingresos"] = df_perfil_turistico["Ingresos"].replace({1:"Menos 25.000", 2:"25.000-49.999",3:"50.000-74.999", 4:"+75.000"})

In [10]:
#Tipo de alojamiento
df_perfil_turistico["Tipo_alojamiento"] = df_perfil_turistico["Tipo_alojamiento"].replace({1:"Hotel 1-2-3*", 2:"Hotel 4*",3:"Hotel 5*", 4:"Apartamento/Villa", 5:"Vivienda/airbnb", 6:"Alojamiento privado", 7:"Alojamiento rural"})

In [11]:
#Repetiría
df_perfil_turistico["Repetiria"] = df_perfil_turistico["Repetiria"].replace({1:"(1)", 2:"(2)",3:"(3)", 4:"(4)", 5:"(5)", 6:"(6)", 7:"(7)",8:"(8)",9:"(9)",10:"(10)"})

In [12]:
#Calificacion
df_perfil_turistico["Calificacion"] = df_perfil_turistico["Calificacion"].replace({1:"Mucho peor de lo esperado", 2:"Peor de lo esperado",3:"A la altura de las expectativas", 4:"Mejor de lo esperado", 5:"Mucho mejor de lo esperado"})

In [13]:
#Creamos una columna con el tipo de aconmpañante
columnas_tipo_acompañante = ["Viaja_solo", "Viaja_pareja", "Viaja_hijo", "Viaja_amigos", "Viaja_otros"]

# Crear la columna "Resultado" solo basándose en esas columnas
df_perfil_turistico["Modo_viaje"] = df_perfil_turistico.apply(lambda row: ', '.join(col for col in columnas_tipo_acompañante if row[col] == "Si"), axis=1)


In [14]:
#Eliminamos la columna Tipo de viaje
df_perfil_turistico = df_perfil_turistico.drop(columns=["Viaja_pareja","Viaja_hijo","Viaja_otros","Viaja_solo","Viaja_amigos"])

In [15]:
df_perfil_turistico.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12295 entries, 0 to 12294
Data columns (total 20 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Sexo                     12295 non-null  object 
 1   Edad                     12295 non-null  int64  
 2   Nacionalidad             12295 non-null  object 
 3   Noches                   12295 non-null  int64  
 4   Tipo_alojamiento         12295 non-null  object 
 5   Coste_vuelos             12295 non-null  float64
 6   Coste_alojamiento        12295 non-null  float64
 7   Gastos                   12295 non-null  float64
 8   Horas_fuera_alojamiento  12295 non-null  int64  
 9   Visitas_totales_Islas    12295 non-null  int64  
 10  Visitas_total_GC         12295 non-null  int64  
 11  Calificacion             12295 non-null  object 
 12  Repetiria                12295 non-null  object 
 13  Nivel_educativo          12295 non-null  object 
 14  Situacion_laboral     

In [16]:
# Convertir algunas columnas a float
df_perfil_turistico['Edad'] = df_perfil_turistico['Edad'].astype(float)
# Verificar el cambio
df_perfil_turistico.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12295 entries, 0 to 12294
Data columns (total 20 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Sexo                     12295 non-null  object 
 1   Edad                     12295 non-null  float64
 2   Nacionalidad             12295 non-null  object 
 3   Noches                   12295 non-null  int64  
 4   Tipo_alojamiento         12295 non-null  object 
 5   Coste_vuelos             12295 non-null  float64
 6   Coste_alojamiento        12295 non-null  float64
 7   Gastos                   12295 non-null  float64
 8   Horas_fuera_alojamiento  12295 non-null  int64  
 9   Visitas_totales_Islas    12295 non-null  int64  
 10  Visitas_total_GC         12295 non-null  int64  
 11  Calificacion             12295 non-null  object 
 12  Repetiria                12295 non-null  object 
 13  Nivel_educativo          12295 non-null  object 
 14  Situacion_laboral     

In [17]:
#¿Valores duplicados?
df_perfil_turistico.duplicated(keep=False)
len(df_perfil_turistico[df_perfil_turistico.duplicated(keep = False)]) # keep = "first", keep = False

0

In [18]:
#¿Valores nulos?
df_perfil_turistico.isnull()
df_perfil_turistico.isnull().sum()

Sexo                       0
Edad                       0
Nacionalidad               0
Noches                     0
Tipo_alojamiento           0
Coste_vuelos               0
Coste_alojamiento          0
Gastos                     0
Horas_fuera_alojamiento    0
Visitas_totales_Islas      0
Visitas_total_GC           0
Calificacion               0
Repetiria                  0
Nivel_educativo            0
Situacion_laboral          0
Ingresos                   0
Personas_hogar             0
Cuatrimestre               0
Año                        0
Modo_viaje                 0
dtype: int64

In [19]:
#¿Outliers?
variables_numericas=["Edad","Noches","Coste_vuelos","Coste_alojamiento","Gastos","Horas_fuera_alojamiento","Visitas_totales_Islas","Visitas_total_GC","Personas_hogar"]

In [20]:
# Calcular límites inferior y superior
outliers = {}
for var in variables_numericas:
    q1 = df_perfil_turistico[var].quantile(0.25)
    q3 = df_perfil_turistico[var].quantile(0.75)
    iqr = q3 - q1
    lower_bound = q1 - 1.5 * iqr
    upper_bound = q3 + 1.5 * iqr

    # Identificar outliers
    outliers[var] = df_perfil_turistico[(df_perfil_turistico[var] < lower_bound) | (df_perfil_turistico[var] > upper_bound)]

    print(f"Outliers en {var}:\n{outliers[var]}")

Outliers en Edad:
       Sexo  Edad Nacionalidad  Noches     Tipo_alojamiento  Coste_vuelos  \
445  Hombre  89.0      Noruega      14  Alojamiento privado         706.0   

     Coste_alojamiento  Gastos  Horas_fuera_alojamiento  \
445              1.335   200.0                        8   

     Visitas_totales_Islas  Visitas_total_GC                     Calificacion  \
445                     10                 0  A la altura de las expectativas   

    Repetiria      Nivel_educativo Situacion_laboral       Ingresos  \
445       (8)  Estudios superiores          Jubilado  50.000-74.999   

     Personas_hogar Cuatrimestre   Año    Modo_viaje  
445               2           Q1  2019  Viaja_pareja  
Outliers en Noches:
         Sexo  Edad Nacionalidad  Noches     Tipo_alojamiento  Coste_vuelos  \
8       Mujer  21.0       España       2    Apartamento/Villa       100.000   
13     Hombre  64.0     Alemania      28             Hotel 4*       560.000   
23     Hombre  53.0        Otros   

Reemplazar outliers con la mediana ya que mantiene la tendencia central del conjunto de datos si que los valores extremos sesgen los resultados


In [21]:
# Reemplazar valores fuera del rango por la mediana
for var in variables_numericas:
    q1 = df_perfil_turistico[var].quantile(0.25)
    q3 = df_perfil_turistico[var].quantile(0.75)
    iqr = q3 - q1
    lower_bound = q1 - 1.5 * iqr
    upper_bound = q3 + 1.5 * iqr

    median = df_perfil_turistico[var].median()
    df_perfil_turistico[var] = df_perfil_turistico[var].apply(lambda x: median if (x < lower_bound or x > upper_bound) else x)

In [22]:
#Vemos el total de columnas
df_perfil_turistico.columns

Index(['Sexo', 'Edad', 'Nacionalidad', 'Noches', 'Tipo_alojamiento',
       'Coste_vuelos', 'Coste_alojamiento', 'Gastos',
       'Horas_fuera_alojamiento', 'Visitas_totales_Islas', 'Visitas_total_GC',
       'Calificacion', 'Repetiria', 'Nivel_educativo', 'Situacion_laboral',
       'Ingresos', 'Personas_hogar', 'Cuatrimestre', 'Año', 'Modo_viaje'],
      dtype='object')

In [23]:
df_perfil_turistico.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12295 entries, 0 to 12294
Data columns (total 20 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Sexo                     12295 non-null  object 
 1   Edad                     12295 non-null  float64
 2   Nacionalidad             12295 non-null  object 
 3   Noches                   12295 non-null  float64
 4   Tipo_alojamiento         12295 non-null  object 
 5   Coste_vuelos             12295 non-null  float64
 6   Coste_alojamiento        12295 non-null  float64
 7   Gastos                   12295 non-null  float64
 8   Horas_fuera_alojamiento  12295 non-null  float64
 9   Visitas_totales_Islas    12295 non-null  float64
 10  Visitas_total_GC         12295 non-null  float64
 11  Calificacion             12295 non-null  object 
 12  Repetiria                12295 non-null  object 
 13  Nivel_educativo          12295 non-null  object 
 14  Situacion_laboral     

Ya tenemos los datos limpios y listos para porder empezar con su análisis.

Empecemos con la tipología de las variables definiendo su cardinalidad para su posterior clasificación.

In [24]:
# Calculemos ahora su cardinalidad
cardinalidad = round((df_perfil_turistico.nunique() /len (df_perfil_turistico))*100,2)
cardinalidad


Sexo                        0.02
Edad                        0.58
Nacionalidad                0.11
Noches                      0.10
Tipo_alojamiento            0.06
Coste_vuelos               18.29
Coste_alojamiento          24.15
Gastos                     16.03
Horas_fuera_alojamiento     0.16
Visitas_totales_Islas       0.14
Visitas_total_GC            0.10
Calificacion                0.04
Repetiria                   0.09
Nivel_educativo             0.03
Situacion_laboral           0.09
Ingresos                    0.03
Personas_hogar              0.03
Cuatrimestre                0.03
Año                         0.02
Modo_viaje                  0.04
dtype: float64

In [25]:
# Calculemos ahora su cardinalidad
def cardi(df_in,umbral_categoria, umbral_continua):
    df_cardi= df_cardi = pd.DataFrame({
    "Cardi": df_in.nunique(),
    "% Cardi": df_in.nunique() / len(df_in) * 100
})
    clasificacion= []
    for index, valor in df_cardi["Cardi"].items():
        if valor==2:
            clasificacion.append("Binaria")
        elif valor < umbral_categoria:
            clasificacion.append("Categorica")
        elif valor >= umbral_categoria:
            if df_cardi.loc[index, "% Cardi"] >= umbral_continua:
                clasificacion.append("Numerica Continua")
            else:
                clasificacion.append("Numerica Discreta")
    df_cardi["Clasificacion"]=clasificacion
    return df_cardi

In [26]:
cardi(df_perfil_turistico,15,65)

Unnamed: 0,Cardi,% Cardi,Clasificacion
Sexo,2,0.016267,Binaria
Edad,71,0.577471,Numerica Discreta
Nacionalidad,14,0.113867,Categorica
Noches,12,0.097601,Categorica
Tipo_alojamiento,7,0.056934,Categorica
Coste_vuelos,2249,18.291989,Numerica Discreta
Coste_alojamiento,2969,24.148028,Numerica Discreta
Gastos,1971,16.030907,Numerica Discreta
Horas_fuera_alojamiento,20,0.162668,Numerica Discreta
Visitas_totales_Islas,17,0.138268,Numerica Discreta
