# Análisis de Datos - Turismo Internacional en España 2019-2024

![](https://mediterrani.com/wp-content/webp-express/webp-images/uploads/2018/05/sector-turi%CC%81stico-en-espan%CC%83a.jpg.webp)

## Preparación y Carga de Datos

### Librerías

In [39]:
# Tratamiento de datos
import numpy as np
import pandas as pd

# Gráficos
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns

# Otros
import json

## Carga de Datos

In [40]:
data = pd.read_csv("turismo_receptor_provincia_pais.csv", sep=";", encoding='latin-1', decimal=",")

In [41]:
df=data.copy()
df

Unnamed: 0,AÑO,MES,PROVINCIA_DESTINO,CONTINENTE_ORIGEN,PAIS_ORIGEN,TURISTAS,PERNOCTACIONES,ESTANCIA_MEDIA
0,2019,7,A Coruña,América,Argentina,491,4075,8.3
1,2019,7,A Coruña,América,Brasil,717,3800,5.3
2,2019,7,A Coruña,América,Canadá,229,1511,6.6
3,2019,7,A Coruña,América,Chile,70,504,7.2
4,2019,7,A Coruña,América,Colombia,226,1740,7.7
...,...,...,...,...,...,...,...,...
190573,2024,10,Ávila,Europa,Suiza,164,1164,7.1
190574,2024,10,Ávila,Europa,Total Europa,8190,63138,7.7
190575,2024,10,Ávila,Total,Total,10138,76019,7.5
190576,2024,10,Ávila,África,Marruecos,257,3213,12.5


## Primera Exploración

In [42]:
df.head()

Unnamed: 0,AÑO,MES,PROVINCIA_DESTINO,CONTINENTE_ORIGEN,PAIS_ORIGEN,TURISTAS,PERNOCTACIONES,ESTANCIA_MEDIA
0,2019,7,A Coruña,América,Argentina,491,4075,8.3
1,2019,7,A Coruña,América,Brasil,717,3800,5.3
2,2019,7,A Coruña,América,Canadá,229,1511,6.6
3,2019,7,A Coruña,América,Chile,70,504,7.2
4,2019,7,A Coruña,América,Colombia,226,1740,7.7


In [43]:
df.tail()

Unnamed: 0,AÑO,MES,PROVINCIA_DESTINO,CONTINENTE_ORIGEN,PAIS_ORIGEN,TURISTAS,PERNOCTACIONES,ESTANCIA_MEDIA
190573,2024,10,Ávila,Europa,Suiza,164,1164,7.1
190574,2024,10,Ávila,Europa,Total Europa,8190,63138,7.7
190575,2024,10,Ávila,Total,Total,10138,76019,7.5
190576,2024,10,Ávila,África,Marruecos,257,3213,12.5
190577,2024,10,Ávila,África,Total África,330,3595,10.9


In [44]:
df.shape

(190578, 8)

In [45]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 190578 entries, 0 to 190577
Data columns (total 8 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   AÑO                190578 non-null  int64  
 1   MES                190578 non-null  int64  
 2   PROVINCIA_DESTINO  190578 non-null  object 
 3   CONTINENTE_ORIGEN  190578 non-null  object 
 4   PAIS_ORIGEN        190578 non-null  object 
 5   TURISTAS           190578 non-null  int64  
 6   PERNOCTACIONES     190578 non-null  int64  
 7   ESTANCIA_MEDIA     190493 non-null  float64
dtypes: float64(1), int64(4), object(3)
memory usage: 11.6+ MB


In [46]:
duplicados = df.duplicated().sum()
print("Número de filas duplicadas:", duplicados)

Número de filas duplicadas: 0


In [47]:
print(df.isnull())

          AÑO    MES  PROVINCIA_DESTINO  CONTINENTE_ORIGEN  PAIS_ORIGEN  \
0       False  False              False              False        False   
1       False  False              False              False        False   
2       False  False              False              False        False   
3       False  False              False              False        False   
4       False  False              False              False        False   
...       ...    ...                ...                ...          ...   
190573  False  False              False              False        False   
190574  False  False              False              False        False   
190575  False  False              False              False        False   
190576  False  False              False              False        False   
190577  False  False              False              False        False   

        TURISTAS  PERNOCTACIONES  ESTANCIA_MEDIA  
0          False           False           False

In [48]:
any_missing = df.isna().any()
print(any_missing)

AÑO                  False
MES                  False
PROVINCIA_DESTINO    False
CONTINENTE_ORIGEN    False
PAIS_ORIGEN          False
TURISTAS             False
PERNOCTACIONES       False
ESTANCIA_MEDIA        True
dtype: bool


In [49]:
df.isnull().sum()

AÑO                   0
MES                   0
PROVINCIA_DESTINO     0
CONTINENTE_ORIGEN     0
PAIS_ORIGEN           0
TURISTAS              0
PERNOCTACIONES        0
ESTANCIA_MEDIA       85
dtype: int64

In [50]:
percentage_missing=(df.isnull().sum() / len(df) * 100).round(2)
print(percentage_missing)

AÑO                  0.00
MES                  0.00
PROVINCIA_DESTINO    0.00
CONTINENTE_ORIGEN    0.00
PAIS_ORIGEN          0.00
TURISTAS             0.00
PERNOCTACIONES       0.00
ESTANCIA_MEDIA       0.04
dtype: float64


In [51]:
print(df['AÑO'].unique())
print(df['MES'].unique())
print(df['PROVINCIA_DESTINO'].unique())

print(df['CONTINENTE_ORIGEN'].unique())

print(df['PAIS_ORIGEN'].unique())

[2019 2020 2021 2022 2023 2024]
[ 7  8  9 10 11 12  1  2  3  4  5  6]
['A Coruña' 'Albacete' 'Alicante/Alacant' 'Almería' 'Álava/Araba'
 'Asturias' 'Badajoz' 'Barcelona' 'Bizkaia' 'Burgos' 'Cantabria'
 'Castellón/Castelló' 'Ceuta' 'Ciudad Real' 'Cuenca' 'Cáceres' 'Cádiz'
 'Córdoba' 'Guipúzcoa/Gipuzkoa' 'Gerona/Girona' 'Granada' 'Guadalajara'
 'Huelva' 'Huesca' 'Islas Baleares/Illes Balears' 'Jaén' 'La Rioja'
 'Las Palmas' 'León' 'Lleida' 'Lugo' 'Madrid' 'Melilla' 'Murcia' 'Málaga'
 'Navarra' 'Ourense' 'Palencia' 'Pontevedra' 'Salamanca'
 'Santa Cruz de Tenerife' 'Segovia' 'Sevilla' 'Soria' 'Tarragona' 'Teruel'
 'Toledo' 'Total Nacional' 'Valencia/València' 'Valladolid' 'Zamora'
 'Zaragoza' 'Ávila']
['América' 'Asia' 'Europa' 'Oceanía' 'Total' 'África']
['Argentina' 'Brasil' 'Canadá' 'Chile' 'Colombia'
 'Estados Unidos de América' 'México' 'Perú' 'Total América'
 'Total América del Norte' 'Total CentroAmérica y Caribe'
 'Total SudAmérica' 'Uruguay' 'Venezuela' 'China' 'Corea'
 'Emiratos

Estos conjuntos de datos consisten en fecha, lugar de origen y de destino, número de turistas, pernoctaciones y estancia media entre junio 2019 y octubre 2024.
Hay 190578 filas y 8 columnas de información que ocupan +11.6MB de memoria. No hay ninguna fila duplicada, sin embargo, se observa que 0.04% de datos faltantes en estancia media. Además, se observa que aunque hay datos sobre Álava y Guipúzcoa, no hay información sobre Vizcaya.

|**Nombre Variable**|**Tipo**|**Descripción**|**Missing**|
|:---|:---:|:---:|---:|
|año|int64|año del viaje|no|
|mes|int64|mes del viaje|no|
|provincia_destino|object|provincia al que acuden|no|
|continente_origen|object|continente de origen|no|
|pais_origen|object|país de origen|no|
|turistas|object|número de turistas|no|
|pernoctaciones|object|noches alojados|no|
|estancia_media|object|estancia media|sí|

## Limpieza y Preprocesado

### Eliminación de Nulls

In [52]:
df.isnull()

Unnamed: 0,AÑO,MES,PROVINCIA_DESTINO,CONTINENTE_ORIGEN,PAIS_ORIGEN,TURISTAS,PERNOCTACIONES,ESTANCIA_MEDIA
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...
190573,False,False,False,False,False,False,False,False
190574,False,False,False,False,False,False,False,False
190575,False,False,False,False,False,False,False,False
190576,False,False,False,False,False,False,False,False


In [53]:
subdf= df[df.isna().any(axis=1)]
print(subdf)

        AÑO  MES PROVINCIA_DESTINO CONTINENTE_ORIGEN      PAIS_ORIGEN  \
28141  2020    4           Almería              Asia        Filipinas   
28142  2020    4           Almería              Asia            India   
28143  2020    4           Almería              Asia        Indonesia   
28144  2020    4           Almería              Asia       Total Asia   
28171  2020    4           Almería            Europa          Turquía   
...     ...  ...               ...               ...              ...   
31882  2020    5             Soria            Europa          Polonia   
31885  2020    5             Soria            Europa  República Checa   
32259  2020    5          Zaragoza            Europa          Andorra   
32264  2020    5          Zaragoza            Europa        Eslovenia   
32268  2020    5          Zaragoza            Europa          Hungría   

       TURISTAS  PERNOCTACIONES  ESTANCIA_MEDIA  
28141       852               0             NaN  
28142       126        

In [54]:
df_filled=df.fillna(0)
print(df_filled)

         AÑO  MES PROVINCIA_DESTINO CONTINENTE_ORIGEN   PAIS_ORIGEN  TURISTAS  \
0       2019    7          A Coruña           América     Argentina       491   
1       2019    7          A Coruña           América        Brasil       717   
2       2019    7          A Coruña           América        Canadá       229   
3       2019    7          A Coruña           América         Chile        70   
4       2019    7          A Coruña           América      Colombia       226   
...      ...  ...               ...               ...           ...       ...   
190573  2024   10             Ávila            Europa         Suiza       164   
190574  2024   10             Ávila            Europa  Total Europa      8190   
190575  2024   10             Ávila             Total         Total     10138   
190576  2024   10             Ávila            África     Marruecos       257   
190577  2024   10             Ávila            África  Total África       330   

        PERNOCTACIONES  EST

In [55]:
df_filled.isnull().sum()

AÑO                  0
MES                  0
PROVINCIA_DESTINO    0
CONTINENTE_ORIGEN    0
PAIS_ORIGEN          0
TURISTAS             0
PERNOCTACIONES       0
ESTANCIA_MEDIA       0
dtype: int64

### Formato de Datos

In [56]:
df_filled['TURISTAS'] = df_filled['TURISTAS'].astype('int')
df_filled['PERNOCTACIONES'] = df_filled['PERNOCTACIONES'].astype('int')
df_filled

Unnamed: 0,AÑO,MES,PROVINCIA_DESTINO,CONTINENTE_ORIGEN,PAIS_ORIGEN,TURISTAS,PERNOCTACIONES,ESTANCIA_MEDIA
0,2019,7,A Coruña,América,Argentina,491,4075,8.3
1,2019,7,A Coruña,América,Brasil,717,3800,5.3
2,2019,7,A Coruña,América,Canadá,229,1511,6.6
3,2019,7,A Coruña,América,Chile,70,504,7.2
4,2019,7,A Coruña,América,Colombia,226,1740,7.7
...,...,...,...,...,...,...,...,...
190573,2024,10,Ávila,Europa,Suiza,164,1164,7.1
190574,2024,10,Ávila,Europa,Total Europa,8190,63138,7.7
190575,2024,10,Ávila,Total,Total,10138,76019,7.5
190576,2024,10,Ávila,África,Marruecos,257,3213,12.5


In [57]:
df_filled['MES'] = df_filled['MES'].astype(str).str.zfill(2)
print(df_filled)

         AÑO MES PROVINCIA_DESTINO CONTINENTE_ORIGEN   PAIS_ORIGEN  TURISTAS  \
0       2019  07          A Coruña           América     Argentina       491   
1       2019  07          A Coruña           América        Brasil       717   
2       2019  07          A Coruña           América        Canadá       229   
3       2019  07          A Coruña           América         Chile        70   
4       2019  07          A Coruña           América      Colombia       226   
...      ...  ..               ...               ...           ...       ...   
190573  2024  10             Ávila            Europa         Suiza       164   
190574  2024  10             Ávila            Europa  Total Europa      8190   
190575  2024  10             Ávila             Total         Total     10138   
190576  2024  10             Ávila            África     Marruecos       257   
190577  2024  10             Ávila            África  Total África       330   

        PERNOCTACIONES  ESTANCIA_MEDIA 

In [58]:
df_filled['AÑO'] = df_filled['AÑO'].astype(str)
print(df_filled)

         AÑO MES PROVINCIA_DESTINO CONTINENTE_ORIGEN   PAIS_ORIGEN  TURISTAS  \
0       2019  07          A Coruña           América     Argentina       491   
1       2019  07          A Coruña           América        Brasil       717   
2       2019  07          A Coruña           América        Canadá       229   
3       2019  07          A Coruña           América         Chile        70   
4       2019  07          A Coruña           América      Colombia       226   
...      ...  ..               ...               ...           ...       ...   
190573  2024  10             Ávila            Europa         Suiza       164   
190574  2024  10             Ávila            Europa  Total Europa      8190   
190575  2024  10             Ávila             Total         Total     10138   
190576  2024  10             Ávila            África     Marruecos       257   
190577  2024  10             Ávila            África  Total África       330   

        PERNOCTACIONES  ESTANCIA_MEDIA 

### Eliminación y Filtrado de Datos

A continuación se crearán dos dataframes: uno con valores totales de turistas y otro con los turistas agrupados de cada continente, a la vez que se seleccionan los datos deseados

In [59]:
valores_unicos=df_filled["PROVINCIA_DESTINO"].unique()
valores_unicos

array(['A Coruña', 'Albacete', 'Alicante/Alacant', 'Almería',
       'Álava/Araba', 'Asturias', 'Badajoz', 'Barcelona', 'Bizkaia',
       'Burgos', 'Cantabria', 'Castellón/Castelló', 'Ceuta',
       'Ciudad Real', 'Cuenca', 'Cáceres', 'Cádiz', 'Córdoba',
       'Guipúzcoa/Gipuzkoa', 'Gerona/Girona', 'Granada', 'Guadalajara',
       'Huelva', 'Huesca', 'Islas Baleares/Illes Balears', 'Jaén',
       'La Rioja', 'Las Palmas', 'León', 'Lleida', 'Lugo', 'Madrid',
       'Melilla', 'Murcia', 'Málaga', 'Navarra', 'Ourense', 'Palencia',
       'Pontevedra', 'Salamanca', 'Santa Cruz de Tenerife', 'Segovia',
       'Sevilla', 'Soria', 'Tarragona', 'Teruel', 'Toledo',
       'Total Nacional', 'Valencia/València', 'Valladolid', 'Zamora',
       'Zaragoza', 'Ávila'], dtype=object)

In [60]:
df_filtrado = df_filled[df_filled['PROVINCIA_DESTINO'] != "Total Nacional"]

In [61]:
Total_Continentes= ["Total América", "Total Asia", "Total Europa", "Total Oceanía", "Total África"]
df_continente_origen = df_filtrado[df_filtrado['PAIS_ORIGEN'].isin(Total_Continentes)]
df_continente_origen

Unnamed: 0,AÑO,MES,PROVINCIA_DESTINO,CONTINENTE_ORIGEN,PAIS_ORIGEN,TURISTAS,PERNOCTACIONES,ESTANCIA_MEDIA
8,2019,07,A Coruña,América,Total América,7226,54243,7.5
25,2019,07,A Coruña,Asia,Total Asia,2138,11026,5.2
55,2019,07,A Coruña,Europa,Total Europa,53048,376180,7.1
60,2019,07,A Coruña,Oceanía,Total Oceanía,308,2281,7.4
66,2019,07,A Coruña,África,Total África,345,2153,6.2
...,...,...,...,...,...,...,...,...
190538,2024,10,Zaragoza,África,Total África,2417,21367,8.8
190546,2024,10,Ávila,América,Total América,1220,6997,5.7
190554,2024,10,Ávila,Asia,Total Asia,383,2167,5.7
190574,2024,10,Ávila,Europa,Total Europa,8190,63138,7.7


In [62]:
df_continente_origen.to_csv('df_continente_origen.csv', index=False)

print("El dataframe ha sido guardado como 'df_continente_origen.csv'")

El dataframe ha sido guardado como 'df_continente_origen.csv'


In [63]:
df_continentes=df_continente_origen.copy()

In [64]:
df_año=df_continentes.groupby(["AÑO", "PROVINCIA_DESTINO"], as_index=False)[["TURISTAS", "PERNOCTACIONES"]].sum()
df_año

Unnamed: 0,AÑO,PROVINCIA_DESTINO,TURISTAS,PERNOCTACIONES
0,2019,A Coruña,352491,3205772
1,2019,Albacete,82265,875339
2,2019,Alicante/Alacant,3252836,28418651
3,2019,Almería,485709,4454473
4,2019,Asturias,244548,2414849
...,...,...,...,...
307,2024,Valladolid,298549,1873856
308,2024,Zamora,266419,1586649
309,2024,Zaragoza,584664,4196368
310,2024,Álava/Araba,410239,2660567


In [65]:
df_año['ESTANCIA_MEDIA'] = (df_año['PERNOCTACIONES'] / df_año['TURISTAS']).round()
df_año

Unnamed: 0,AÑO,PROVINCIA_DESTINO,TURISTAS,PERNOCTACIONES,ESTANCIA_MEDIA
0,2019,A Coruña,352491,3205772,9.0
1,2019,Albacete,82265,875339,11.0
2,2019,Alicante/Alacant,3252836,28418651,9.0
3,2019,Almería,485709,4454473,9.0
4,2019,Asturias,244548,2414849,10.0
...,...,...,...,...,...
307,2024,Valladolid,298549,1873856,6.0
308,2024,Zamora,266419,1586649,6.0
309,2024,Zaragoza,584664,4196368,7.0
310,2024,Álava/Araba,410239,2660567,6.0


In [66]:
df_año.to_csv('año.csv', index=False)

print("El dataframe ha sido guardado como 'año.csv'")

El dataframe ha sido guardado como 'año.csv'


In [67]:
df_continentes['FECHA'] = df_continentes['AÑO'].astype(str) + '/' + df_continentes['MES'].astype(str)
df_continentes

Unnamed: 0,AÑO,MES,PROVINCIA_DESTINO,CONTINENTE_ORIGEN,PAIS_ORIGEN,TURISTAS,PERNOCTACIONES,ESTANCIA_MEDIA,FECHA
8,2019,07,A Coruña,América,Total América,7226,54243,7.5,2019/07
25,2019,07,A Coruña,Asia,Total Asia,2138,11026,5.2,2019/07
55,2019,07,A Coruña,Europa,Total Europa,53048,376180,7.1,2019/07
60,2019,07,A Coruña,Oceanía,Total Oceanía,308,2281,7.4,2019/07
66,2019,07,A Coruña,África,Total África,345,2153,6.2,2019/07
...,...,...,...,...,...,...,...,...,...
190538,2024,10,Zaragoza,África,Total África,2417,21367,8.8,2024/10
190546,2024,10,Ávila,América,Total América,1220,6997,5.7,2024/10
190554,2024,10,Ávila,Asia,Total Asia,383,2167,5.7,2024/10
190574,2024,10,Ávila,Europa,Total Europa,8190,63138,7.7,2024/10


In [68]:
df_continentes = df_continentes[['FECHA', 'PROVINCIA_DESTINO', 'CONTINENTE_ORIGEN', 'PAIS_ORIGEN', 'TURISTAS', 'PERNOCTACIONES', 'ESTANCIA_MEDIA']]
df_continentes

Unnamed: 0,FECHA,PROVINCIA_DESTINO,CONTINENTE_ORIGEN,PAIS_ORIGEN,TURISTAS,PERNOCTACIONES,ESTANCIA_MEDIA
8,2019/07,A Coruña,América,Total América,7226,54243,7.5
25,2019/07,A Coruña,Asia,Total Asia,2138,11026,5.2
55,2019/07,A Coruña,Europa,Total Europa,53048,376180,7.1
60,2019/07,A Coruña,Oceanía,Total Oceanía,308,2281,7.4
66,2019/07,A Coruña,África,Total África,345,2153,6.2
...,...,...,...,...,...,...,...
190538,2024/10,Zaragoza,África,Total África,2417,21367,8.8
190546,2024/10,Ávila,América,Total América,1220,6997,5.7
190554,2024/10,Ávila,Asia,Total Asia,383,2167,5.7
190574,2024/10,Ávila,Europa,Total Europa,8190,63138,7.7


In [69]:
dftotal=df_continentes.groupby(["FECHA", "PROVINCIA_DESTINO"], as_index=False)[["TURISTAS", "PERNOCTACIONES"]].sum()
dftotal

Unnamed: 0,FECHA,PROVINCIA_DESTINO,TURISTAS,PERNOCTACIONES
0,2019/07,A Coruña,63065,445883
1,2019/07,Albacete,12588,84299
2,2019/07,Alicante/Alacant,700300,5347427
3,2019/07,Almería,99445,675579
4,2019/07,Asturias,45527,323008
...,...,...,...,...
3323,2024/10,Valladolid,30073,205313
3324,2024/10,Zamora,23451,158047
3325,2024/10,Zaragoza,69272,513323
3326,2024/10,Álava/Araba,38150,278040


In [70]:
dftotal['ESTANCIA_MEDIA'] = (dftotal['PERNOCTACIONES'] / dftotal['TURISTAS']).round()
dftotal

Unnamed: 0,FECHA,PROVINCIA_DESTINO,TURISTAS,PERNOCTACIONES,ESTANCIA_MEDIA
0,2019/07,A Coruña,63065,445883,7.0
1,2019/07,Albacete,12588,84299,7.0
2,2019/07,Alicante/Alacant,700300,5347427,8.0
3,2019/07,Almería,99445,675579,7.0
4,2019/07,Asturias,45527,323008,7.0
...,...,...,...,...,...
3323,2024/10,Valladolid,30073,205313,7.0
3324,2024/10,Zamora,23451,158047,7.0
3325,2024/10,Zaragoza,69272,513323,7.0
3326,2024/10,Álava/Araba,38150,278040,7.0


In [71]:
dftotal.to_csv('total.csv', index=False)

print("El dataframe ha sido guardado como 'total.csv'")

El dataframe ha sido guardado como 'total.csv'
