# MBP: Spain's turism industry dashboard

#### Data extraction from Instituto Nacional de Estadística (INE)

Libraries

In [1]:
from functions import get_data_and_create_excel_file
from functions import normalize_json
import pandas as pd
import datetime
import matplotlib.pyplot as plt
import seaborn as sns



## Turism expendinture in Spain

### Statistic: Gasto de los turistas internacionales según comunidad autónoma de destino principal y país de residencia

#### Unidades: €, Millones €, Días, %, Tasas

Fuente: https://www.ine.es/jaxiT3/Tabla.htm?t=24746&L=0

In [2]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/24746?nult=10'
file_name = 'turism_expenditure_by_ccaa_origin.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

turism_expenditure_by_ccaa_origin = get_data_and_create_excel_file(url, file_name, path)
turism_expenditure_by_ccaa_origin.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG4584737,Total. Turista. Gasto total. Total Nacional. D...,7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
1,FREG4584613,Total. Turista. Gasto total. Total Nacional. T...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
2,FREG4585410,Total. Turista. Gasto total. Andalucía. Dato b...,7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
3,FREG4586243,Total. Turista. Gasto total. Andalucía. Tasa d...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
4,FREG4585407,"Total. Turista. Gasto total. Balears, Illes. D...",7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."


In [3]:
turism_expenditure_by_ccaa_origin.Nombre.unique()

array(['Total. Turista. Gasto total. Total Nacional. Dato base. ',
       'Total. Turista. Gasto total. Total Nacional. Tasa de variación anual. ',
       'Total. Turista. Gasto total. Andalucía. Dato base. ',
       'Total. Turista. Gasto total. Andalucía. Tasa de variación anual. ',
       'Total. Turista. Gasto total. Balears, Illes. Dato base. ',
       'Total. Turista. Gasto total. Balears, Illes. Tasa de variación anual. ',
       'Total. Turista. Gasto total. Canarias. Dato base. ',
       'Total. Turista. Gasto total. Canarias. Tasa de variación anual. ',
       'Total. Turista. Gasto total. Cataluña. Dato base. ',
       'Total. Turista. Gasto total. Cataluña. Tasa de variación anual. ',
       'Total. Turista. Gasto total. Comunitat Valenciana. Dato base. ',
       'Total. Turista. Gasto total. Comunitat Valenciana. Tasa de variación anual. ',
       'Total. Turista. Gasto total. Madrid, Comunidad de. Dato base. ',
       'Total. Turista. Gasto total. Madrid, Comunidad de. Ta

In [4]:
turism_expenditure_by_ccaa_origin = turism_expenditure_by_ccaa_origin.loc[turism_expenditure_by_ccaa_origin['Nombre'].
                                                                          str.contains('Dato base')].reset_index(drop=True)
turism_expenditure_by_ccaa_origin.Nombre.unique()

array(['Total. Turista. Gasto total. Total Nacional. Dato base. ',
       'Total. Turista. Gasto total. Andalucía. Dato base. ',
       'Total. Turista. Gasto total. Balears, Illes. Dato base. ',
       'Total. Turista. Gasto total. Canarias. Dato base. ',
       'Total. Turista. Gasto total. Cataluña. Dato base. ',
       'Total. Turista. Gasto total. Comunitat Valenciana. Dato base. ',
       'Total. Turista. Gasto total. Madrid, Comunidad de. Dato base. ',
       'Total. Turista. Gasto total. Otras Comunidades Autónomas. Dato base. ',
       'Total. Turista. Gasto medio por persona. Total Nacional. Dato base. ',
       'Total. Turista. Gasto medio por persona. Andalucía. Dato base. ',
       'Total. Turista. Gasto medio por persona. Balears, Illes. Dato base. ',
       'Total. Turista. Gasto medio por persona. Canarias. Dato base. ',
       'Total. Turista. Gasto medio por persona. Cataluña. Dato base. ',
       'Total. Turista. Gasto medio por persona. Comunitat Valenciana. Dato ba

In [5]:
turism_expenditure_by_ccaa_origin_full = normalize_json(turism_expenditure_by_ccaa_origin)
turism_expenditure_by_ccaa_origin_full.head()

Unnamed: 0,info,Fecha,Valor
0,Total. Turista. Gasto total. Total Nacional. D...,2021-01-01,34903.37
1,Total. Turista. Gasto total. Total Nacional. D...,2020-01-01,19786.78
2,Total. Turista. Gasto total. Total Nacional. D...,2019-01-01,91911.97
3,Total. Turista. Gasto total. Total Nacional. D...,2018-01-01,89750.75
4,Total. Turista. Gasto total. Total Nacional. D...,2017-01-01,87003.93


In [6]:
turism_expenditure_by_ccaa_origin_full['info'].unique()
turism_expenditure_by_ccaa_origin_full['Destino'] = turism_expenditure_by_ccaa_origin_full['info'].apply(lambda
                                                                                                              x: x.split('.')[3])
turism_expenditure_by_ccaa_origin_full['Categoria'] = turism_expenditure_by_ccaa_origin_full['info'].apply(lambda
                                                                                                              x: x.split('.')[2])
turism_expenditure_by_ccaa_origin_full['Origen'] = turism_expenditure_by_ccaa_origin_full['info'].apply(lambda
                                                                                                              x: x.split('.')[0])

In [7]:
turism_expenditure_by_ccaa_origin_full.head()

Unnamed: 0,info,Fecha,Valor,Destino,Categoria,Origen
0,Total. Turista. Gasto total. Total Nacional. D...,2021-01-01,34903.37,Total Nacional,Gasto total,Total
1,Total. Turista. Gasto total. Total Nacional. D...,2020-01-01,19786.78,Total Nacional,Gasto total,Total
2,Total. Turista. Gasto total. Total Nacional. D...,2019-01-01,91911.97,Total Nacional,Gasto total,Total
3,Total. Turista. Gasto total. Total Nacional. D...,2018-01-01,89750.75,Total Nacional,Gasto total,Total
4,Total. Turista. Gasto total. Total Nacional. D...,2017-01-01,87003.93,Total Nacional,Gasto total,Total


In [8]:
turism_expenditure_by_ccaa_origin_full = turism_expenditure_by_ccaa_origin_full.drop('info', axis=1)
turism_expenditure_by_ccaa_origin_full = turism_expenditure_by_ccaa_origin_full.reindex(columns = 
                                                                                       ['Origen', 'Categoria','Destino', 'Valor','Fecha'])

In [9]:
turism_expenditure_by_ccaa_origin_full.isna().sum()

Origen       0
Categoria    0
Destino      0
Valor        0
Fecha        0
dtype: int64

In [10]:
file_name = 'turism_expenditure_by_ccaa_origin.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

turism_expenditure_by_ccaa_origin_full.to_excel(path+file_name)

## Statistic: Gasto de los turistas internacionales según partidas de gasto y comunidad autónoma de destino principal

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=24745

In [11]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/24745?nult=10'
file_name = 'turism_expenditure_by_ccaa_item.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

turism_exp_ccaa_item = get_data_and_create_excel_file(url, file_name, path)
turism_exp_ccaa_item.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG4583835,Total Nacional. Turista. Gasto total. Dato base.,7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
1,FREG4583907,Total Nacional. Turista. Gasto total. Tasa de ...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
2,FREG4583831,Andalucía. Turista. Gasto total. Dato base.,7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
3,FREG4583903,Andalucía. Turista. Gasto total. Tasa de varia...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
4,FREG4583819,"Balears, Illes. Turista. Gasto total. Dato base.",7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."


In [12]:
turism_exp_ccaa_item = turism_exp_ccaa_item.loc[turism_exp_ccaa_item.Nombre.str.contains('Dato base')]

In [13]:
turism_exp_ccaa_item_full = normalize_json(turism_exp_ccaa_item)
turism_exp_ccaa_item_full.head()

Unnamed: 0,info,Fecha,Valor
0,Total Nacional. Turista. Gasto total. Dato base.,2021-01-01,34903.37
1,Total Nacional. Turista. Gasto total. Dato base.,2020-01-01,19786.78
2,Total Nacional. Turista. Gasto total. Dato base.,2019-01-01,91911.97
3,Total Nacional. Turista. Gasto total. Dato base.,2018-01-01,89750.75
4,Total Nacional. Turista. Gasto total. Dato base.,2017-01-01,87003.93


In [14]:
turism_exp_ccaa_item_full['info'].unique()

array(['Total Nacional. Turista. Gasto total. Dato base. ',
       'Andalucía. Turista. Gasto total. Dato base. ',
       'Balears, Illes. Turista. Gasto total. Dato base. ',
       'Canarias. Turista. Gasto total. Dato base. ',
       'Cataluña. Turista. Gasto total. Dato base. ',
       'Comunitat Valenciana. Turista. Gasto total. Dato base. ',
       'Madrid, Comunidad de. Turista. Gasto total. Dato base. ',
       'Turista. Gasto total. Otras Comunidades Autónomas. Dato base. ',
       'Turista. Gasto en paquete turístico. Total Nacional. Dato base. ',
       'Turista. Gasto en paquete turístico. Andalucía. Dato base. ',
       'Turista. Gasto en paquete turístico. Balears, Illes. Dato base. ',
       'Turista. Gasto en paquete turístico. Canarias. Dato base. ',
       'Turista. Gasto en paquete turístico. Cataluña. Dato base. ',
       'Turista. Gasto en paquete turístico. Comunitat Valenciana. Dato base. ',
       'Turista. Gasto en paquete turístico. Madrid, Comunidad de. Dato b

In [15]:
total_expenditure = turism_exp_ccaa_item_full.loc[turism_exp_ccaa_item_full['info'].str.contains('Gasto total')]
turism_exp_ccaa_item_full = turism_exp_ccaa_item_full.drop(total_expenditure.index, axis=0)

In [16]:
total_expenditure['Gasto_item'] = total_expenditure['info'].apply(lambda x: x.split('.')[2])
total_expenditure['Destino'] = total_expenditure['info'].apply(lambda x: x.split('.')[0])

turism_exp_ccaa_item_full['Gasto_item'] = turism_exp_ccaa_item_full['info'].apply(lambda x: x.split('.')[1])
turism_exp_ccaa_item_full['Destino'] = turism_exp_ccaa_item_full['info'].apply(lambda x: x.split('.')[2])

turism_exp_ccaa_item_full = pd.concat([total_expenditure, turism_exp_ccaa_item_full], axis = 0)

In [17]:
turism_exp_ccaa_item_full = turism_exp_ccaa_item_full.drop('info', axis = 1)
turism_exp_ccaa_item_full = turism_exp_ccaa_item_full.reindex(columns = ['Gasto_item', 'Destino', 'Valor', 'Fecha'])
turism_exp_ccaa_item_full.head()

Unnamed: 0,Gasto_item,Destino,Valor,Fecha
0,Gasto total,Total Nacional,34903.37,2021-01-01
1,Gasto total,Total Nacional,19786.78,2020-01-01
2,Gasto total,Total Nacional,91911.97,2019-01-01
3,Gasto total,Total Nacional,89750.75,2018-01-01
4,Gasto total,Total Nacional,87003.93,2017-01-01


In [18]:
turism_exp_ccaa_item_full.isna().sum()

Gasto_item    0
Destino       0
Valor         0
Fecha         0
dtype: int64

In [19]:
file_name = 'turism_expenditure_by_ccaa_item.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

turism_exp_ccaa_item_full.to_excel(path+file_name)

## Statistic: Gasto de los turistas internacionales según tipo de alojamiento principal
Units: €, Millones €, Días, Tasas

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=10836

In [20]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/23993?date=20150101:20220601'
file_name = 'turism_expenditure_by_stay.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

turism_exp_stay = get_data_and_create_excel_file(url, file_name, path)
turism_exp_stay.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG4584489,Turista. Total. Gasto total. Total Nacional. D...,7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
1,FREG4584469,Turista. Total. Gasto total. Total Nacional. T...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
2,FREG4584484,Turista. Total. Gasto medio por persona. Total...,7,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
3,FREG4584468,Turista. Total. Gasto medio por persona. Total...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
4,FREG4584483,Turista. Total. Gasto medio diario por persona...,7,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."


In [21]:
turism_exp_stay.Nombre.unique()

array(['Turista. Total. Gasto total. Total Nacional. Dato base. ',
       'Turista. Total. Gasto total. Total Nacional. Tasa de variación anual. ',
       'Turista. Total. Gasto medio por persona. Total Nacional. Dato base. ',
       'Turista. Total. Gasto medio por persona. Total Nacional. Tasa de variación anual. ',
       'Turista. Total. Gasto medio diario por persona. Total Nacional. Dato base. ',
       'Turista. Total. Gasto medio diario por persona. Total Nacional. Tasa de variación anual. ',
       'Turista. Total. Duración media de los viajes. Total Nacional. Dato base. ',
       'Turista. Total. Duración media de los viajes. Total Nacional. Tasa de variación anual. ',
       'Turista. De mercado. Gasto total. Total Nacional. Dato base. ',
       'Turista. De mercado. Gasto total. Total Nacional. Tasa de variación anual. ',
       'Turista. De mercado. Gasto medio por persona. Total Nacional. Dato base. ',
       'Turista. De mercado. Gasto medio por persona. Total Nacional. 

In [22]:
turism_exp_stay = turism_exp_stay.loc[turism_exp_stay.Nombre.str.contains('Dato base')]
turism_exp_stay.Nombre.unique()

array(['Turista. Total. Gasto total. Total Nacional. Dato base. ',
       'Turista. Total. Gasto medio por persona. Total Nacional. Dato base. ',
       'Turista. Total. Gasto medio diario por persona. Total Nacional. Dato base. ',
       'Turista. Total. Duración media de los viajes. Total Nacional. Dato base. ',
       'Turista. De mercado. Gasto total. Total Nacional. Dato base. ',
       'Turista. De mercado. Gasto medio por persona. Total Nacional. Dato base. ',
       'Turista. De mercado. Gasto medio diario por persona. Total Nacional. Dato base. ',
       'Turista. De mercado. Duración media de los viajes. Total Nacional. Dato base. ',
       'Turista. Hoteles o apartahotel. Gasto total. Total Nacional. Dato base. ',
       'Turista. Hoteles o apartahotel. Gasto medio por persona. Total Nacional. Dato base. ',
       'Turista. Hoteles o apartahotel. Gasto medio diario por persona. Total Nacional. Dato base. ',
       'Turista. Hoteles o apartahotel. Duración media de los viajes

In [23]:
turism_exp_stay_full = normalize_json(turism_exp_stay)
turism_exp_stay_full.head()

Unnamed: 0,info,Fecha,Valor
0,Turista. Total. Gasto total. Total Nacional. D...,2021-01-01,34903.37
1,Turista. Total. Gasto total. Total Nacional. D...,2020-01-01,19786.78
2,Turista. Total. Gasto total. Total Nacional. D...,2019-01-01,91911.97
3,Turista. Total. Gasto total. Total Nacional. D...,2018-01-01,89750.75
4,Turista. Total. Gasto total. Total Nacional. D...,2017-01-01,87003.93


In [24]:
turism_exp_stay_full['Tipo_alojamiento'] = turism_exp_stay_full['info'].apply(lambda x: x.split('.')[1])
turism_exp_stay_full['Categoria_gasto'] = turism_exp_stay_full['info'].apply(lambda x: x.split('.')[2])

In [25]:
turism_exp_stay_full = turism_exp_stay_full.drop('info', axis = 1)
turism_exp_stay_full = turism_exp_stay_full.reindex(columns = ['Tipo_alojamiento', 'Categoria_gasto', 'Valor', 'Fecha'])
turism_exp_stay_full.head()

Unnamed: 0,Tipo_alojamiento,Categoria_gasto,Valor,Fecha
0,Total,Gasto total,34903.37,2021-01-01
1,Total,Gasto total,19786.78,2020-01-01
2,Total,Gasto total,91911.97,2019-01-01
3,Total,Gasto total,89750.75,2018-01-01
4,Total,Gasto total,87003.93,2017-01-01


In [26]:
turism_exp_stay_full.isna().sum()

Tipo_alojamiento    0
Categoria_gasto     0
Valor               0
Fecha               0
dtype: int64

In [27]:
file_name = 'turism_expenditure_by_stay.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

turism_exp_stay_full.to_excel(path+file_name)

## Statistic: Gasto de los turistas internacionales según sexo y edad
Units: €, Millones €, Días, Tasas

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=24744

In [28]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/24744?date=20150101:20220601'
file_name = 'turism_expenditure_by_sex_and_age.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

turism_exp_sex_gender = get_data_and_create_excel_file(url, file_name, path)
turism_exp_sex_gender.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG4586252,Turista. Gasto total. Total Nacional. Dato bas...,7,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
1,FREG4584969,Turista. Gasto total. Total Nacional. Dato bas...,7,13,[]
2,FREG4584968,Turista. Gasto total. Total Nacional. Dato bas...,7,13,[]
3,FREG4584967,Turista. Gasto total. Total Nacional. Dato bas...,7,13,[]
4,FREG4584966,Turista. Gasto total. Total Nacional. Dato bas...,7,13,[]


In [29]:
turism_exp_sex_gender = turism_exp_sex_gender.loc[turism_exp_sex_gender['Nombre'].str.contains('Dato base.')]
turism_exp_sex_gender.Nombre.unique()

array(['Turista. Gasto total. Total Nacional. Dato base. Total. Todas las edades. ',
       'Turista. Gasto total. Total Nacional. Dato base. Total. De 15 a 24 años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Total. De 25 a 44 años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Total. De 45 a 64 años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Total. 65 y más años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Hombres. Todas las edades. ',
       'Turista. Gasto total. Total Nacional. Dato base. Hombres. De 15 a 24 años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Hombres. De 25 a 44 años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Hombres. De 45 a 64 años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Hombres. 65 y más años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Mujeres. Todas las edades. ',
       'Turista. Gasto total. Total Nacional. Dato base. Mujeres.

In [30]:
turism_exp_sex_gender_full = normalize_json(turism_exp_sex_gender)

turism_exp_sex_gender_full['Sexo'] = turism_exp_sex_gender_full['info'].apply(lambda x: x.split(".")[4])
turism_exp_sex_gender_full['Rango_edad'] = turism_exp_sex_gender_full['info'].apply(lambda x: x.split(".")[5])
turism_exp_sex_gender_full['Categoria_gasto'] = turism_exp_sex_gender_full['info'].apply(lambda x: x.split(".")[1])
turism_exp_sex_gender_full['Destino'] = turism_exp_sex_gender_full['info'].apply(lambda x: x.split(".")[2])

turism_exp_sex_gender_full.head()

Unnamed: 0,info,Fecha,Valor,Sexo,Rango_edad,Categoria_gasto,Destino
0,Turista. Gasto total. Total Nacional. Dato bas...,2021-01-01,34903.37,Total,Todas las edades,Gasto total,Total Nacional
1,Turista. Gasto total. Total Nacional. Dato bas...,2020-01-01,19786.78,Total,Todas las edades,Gasto total,Total Nacional
2,Turista. Gasto total. Total Nacional. Dato bas...,2019-01-01,91911.97,Total,Todas las edades,Gasto total,Total Nacional
3,Turista. Gasto total. Total Nacional. Dato bas...,2018-01-01,89750.75,Total,Todas las edades,Gasto total,Total Nacional
4,Turista. Gasto total. Total Nacional. Dato bas...,2017-01-01,87003.93,Total,Todas las edades,Gasto total,Total Nacional


In [31]:
#turism_exp_sex_gender_full = turism_exp_sex_gender_full.drop('info', axis=1)
turism_exp_sex_gender_full = turism_exp_sex_gender_full.reindex(columns = ['Categoria_gasto',
                                                                          'Rango_edad', 'Sexo',
                                                                          'Valor', 'Fecha'])
turism_exp_sex_gender_full.tail()

Unnamed: 0,Categoria_gasto,Rango_edad,Sexo,Valor,Fecha
259,Duración media de los viajes,65 y más años,Mujeres,11.77,2020-01-01
260,Duración media de los viajes,65 y más años,Mujeres,10.94,2019-01-01
261,Duración media de los viajes,65 y más años,Mujeres,11.97,2018-01-01
262,Duración media de los viajes,65 y más años,Mujeres,12.19,2017-01-01
263,Duración media de los viajes,65 y más años,Mujeres,12.69,2016-01-01


In [32]:
turism_exp_sex_gender_full.isna().sum()

Categoria_gasto    0
Rango_edad         0
Sexo               0
Valor              0
Fecha              0
dtype: int64

In [33]:
file_name = 'turism_expenditure_by_sex_and_age.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

turism_exp_stay_full.to_excel(path+file_name)

### Statistic: Gasto de los turistas internacionales según motivo principal del viaje

Units: €, Millones €, Días, Tasas

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=10840

In [34]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/23995?nult=10'
file_name = 'turism_expenditure_by_trip_motive.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

turism_exp_motive = get_data_and_create_excel_file(url, file_name, path)
turism_exp_motive.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG4584865,Total. Gasto total. Turista. Total Nacional. D...,7,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
1,FREG4584801,Total. Gasto total. Turista. Total Nacional. T...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
2,FREG4584849,Total. Gasto medio por persona. Turista. Total...,7,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
3,FREG4584800,Total. Gasto medio por persona. Turista. Total...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
4,FREG4584848,Total. Gasto medio diario por persona. Turista...,7,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."


In [35]:
turism_exp_motive.Nombre.unique()

array(['Total. Gasto total. Turista. Total Nacional. Dato base. ',
       'Total. Gasto total. Turista. Total Nacional. Tasa de variación anual. ',
       'Total. Gasto medio por persona. Turista. Total Nacional. Dato base. ',
       'Total. Gasto medio por persona. Turista. Total Nacional. Tasa de variación anual. ',
       'Total. Gasto medio diario por persona. Turista. Total Nacional. Dato base. ',
       'Total. Gasto medio diario por persona. Turista. Total Nacional. Tasa de variación anual. ',
       'Total. Duración media de los viajes. Turista. Total Nacional. Dato base. ',
       'Total. Duración media de los viajes. Turista. Total Nacional. Tasa de variación anual. ',
       'Motivo profesional. Gasto total. Turista. Total Nacional. Dato base. ',
       'Motivo profesional. Gasto total. Turista. Total Nacional. Tasa de variación anual. ',
       'Motivo profesional. Gasto medio por persona. Turista. Total Nacional. Dato base. ',
       'Motivo profesional. Gasto medio por pe

In [36]:
turism_exp_motive = turism_exp_motive.loc[turism_exp_motive.Nombre.str.contains('Dato base')]
turism_exp_motive.Nombre.unique()

array(['Total. Gasto total. Turista. Total Nacional. Dato base. ',
       'Total. Gasto medio por persona. Turista. Total Nacional. Dato base. ',
       'Total. Gasto medio diario por persona. Turista. Total Nacional. Dato base. ',
       'Total. Duración media de los viajes. Turista. Total Nacional. Dato base. ',
       'Motivo profesional. Gasto total. Turista. Total Nacional. Dato base. ',
       'Motivo profesional. Gasto medio por persona. Turista. Total Nacional. Dato base. ',
       'Motivo profesional. Gasto medio diario por persona. Turista. Total Nacional. Dato base. ',
       'Motivo profesional. Duración media de los viajes. Turista. Total Nacional. Dato base. ',
       'Congresos, ferias y convenciones. Gasto total. Turista. Total Nacional. Dato base. ',
       'Congresos, ferias y convenciones. Gasto medio por persona. Turista. Total Nacional. Dato base. ',
       'Congresos, ferias y convenciones. Gasto medio diario por persona. Turista. Total Nacional. Dato base. ',
   

In [37]:
turism_exp_motive_full = normalize_json(turism_exp_motive)
turism_exp_motive_full.head()

Unnamed: 0,info,Fecha,Valor
0,Total. Gasto total. Turista. Total Nacional. D...,2021-01-01,34903.37
1,Total. Gasto total. Turista. Total Nacional. D...,2020-01-01,19786.78
2,Total. Gasto total. Turista. Total Nacional. D...,2019-01-01,91911.97
3,Total. Gasto total. Turista. Total Nacional. D...,2018-01-01,89750.75
4,Total. Gasto total. Turista. Total Nacional. D...,2017-01-01,87003.93


In [38]:
turism_exp_motive_full['Categoria_gasto'] = turism_exp_motive_full['info'].apply(lambda x: x.split('.')[1])
turism_exp_motive_full['Motivo'] = turism_exp_motive_full['info'].apply(lambda x: x.split('.')[0])

turism_exp_motive_full = turism_exp_motive_full.drop('info', axis=1)
turism_exp_motive_full.head()

Unnamed: 0,Fecha,Valor,Categoria_gasto,Motivo
0,2021-01-01,34903.37,Gasto total,Total
1,2020-01-01,19786.78,Gasto total,Total
2,2019-01-01,91911.97,Gasto total,Total
3,2018-01-01,89750.75,Gasto total,Total
4,2017-01-01,87003.93,Gasto total,Total


In [39]:
turism_exp_motive_full = turism_exp_motive_full.reindex(columns=['Categoria_gasto', 'Motivo',
                                                                'Valor', 'Fecha'])

turism_exp_motive_full.isna().sum()

Categoria_gasto     0
Motivo              0
Valor              24
Fecha               0
dtype: int64

In [40]:
missing_values = turism_exp_motive_full.loc[turism_exp_motive_full.Valor.isna()].index
turism_exp_motive_full = turism_exp_motive_full.drop(missing_values)
turism_exp_motive_full.isna().sum()

Categoria_gasto    0
Motivo             0
Valor              0
Fecha              0
dtype: int64

In [41]:
file_name = 'turism_expenditure_by_trip_motive.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

turism_exp_motive_full.to_excel(path+file_name)

## Turists' perfil 

### Statistic: Número de turistas según comunidad autónoma de destino principal

Fuente: https://www.ine.es/jaxiT3/Tabla.htm?t=10822

In [42]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/10823?date=20151001:20220601'
file_name = 'num_turists_by_ccaa.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

num_tur_ccaa = get_data_and_create_excel_file(url, file_name, path)
num_tur_ccaa.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG286,Turista. Total Nacional. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,FREG283,Turista. Total Nacional. Tasa de variación anu...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,FREG1125,Turista. Total Nacional. Acumulado en lo que v...,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,FREG1128,Turista. Total Nacional. Tasa de variación acu...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,FREG351,Andalucía. Turista. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [43]:
num_tur_ccaa = num_tur_ccaa.loc[num_tur_ccaa['Nombre'].str.contains('base')].reset_index(drop=True)
num_tur_ccaa.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG286,Turista. Total Nacional. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,FREG351,Andalucía. Turista. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,FREG350,"Balears, Illes. Turista. Dato base.",3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,FREG349,Canarias. Turista. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,FREG348,Cataluña. Turista. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [44]:
num_tur_ccaa_full = normalize_json(num_tur_ccaa)
num_tur_ccaa_full['info'].unique()

array(['Turista. Total Nacional. Dato base. ',
       'Andalucía. Turista. Dato base. ',
       'Balears, Illes. Turista. Dato base. ',
       'Canarias. Turista. Dato base. ', 'Cataluña. Turista. Dato base. ',
       'Comunitat Valenciana. Turista. Dato base. ',
       'Madrid, Comunidad de. Turista. Dato base. ',
       'Otras Comunidades Autónomas. Turista. Dato base. '], dtype=object)

In [45]:
num_tur_ccaa_full['Destino'] = num_tur_ccaa_full['info'].apply(lambda x: x.split('.')[0])
num_tur_ccaa_full['Destino'][0] = 'Total Nacional'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  num_tur_ccaa_full['Destino'][0] = 'Total Nacional'


In [46]:
num_tur_ccaa_full = num_tur_ccaa_full.drop('info', axis = 1)

In [47]:
num_tur_ccaa_full = num_tur_ccaa_full.reindex(columns=['Destino', 'Valor', 'Fecha'])

In [48]:
num_tur_ccaa_full.isna().sum()

Destino    0
Valor      0
Fecha      0
dtype: int64

In [49]:
file_name = 'num_turists_by_ccaa.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

num_tur_ccaa_full.to_excel(path+file_name)

### Statistic: Número de turistas según tipo de alojamiento principal

Fuente: https://www.ine.es/jaxiT3/Tabla.htm?t=10826

In [50]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/10826?date=20151001:20220601'
file_name = 'num_turists_by_stay.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

num_tur_stay = get_data_and_create_excel_file(url, file_name, path)
num_tur_stay.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG305,Turista. Total. Total Nacional. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,FREG301,Turista. Total. Total Nacional. Tasa de variac...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,FREG1148,Turista. Total. Total Nacional. Acumulado en l...,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,FREG1157,Turista. Total. Total Nacional. Tasa de variac...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,FREG593,Turista. De mercado. Total Nacional. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [51]:
num_tur_stay = num_tur_stay.loc[num_tur_stay['Nombre'].str.contains('base')].reset_index(drop=True)
num_tur_stay.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG305,Turista. Total. Total Nacional. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,FREG593,Turista. De mercado. Total Nacional. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,FREG304,Turista. Hoteles o apartahotel. Total Nacional...,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,FREG665,Turista. Vivienda en alquiler. Total Nacional....,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,FREG303,Turista. Resto de mercado. Total Nacional. Dat...,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [52]:
num_tur_stay_full = normalize_json(num_tur_stay)
num_tur_stay_full.head()

Unnamed: 0,info,Fecha,Valor
0,Turista. Total. Total Nacional. Dato base.,2022-06-01,7460277.0
1,Turista. Total. Total Nacional. Dato base.,2022-05-01,6966913.0
2,Turista. Total. Total Nacional. Dato base.,2022-04-01,6102142.0
3,Turista. Total. Total Nacional. Dato base.,2022-03-01,4032127.0
4,Turista. Total. Total Nacional. Dato base.,2022-02-01,3156809.0


In [53]:
num_tur_stay_full['Tipo_alojamiento'] = num_tur_stay_full['info'].apply(lambda x: x.split('.')[1])
num_tur_stay_full['Categoria_gasto'] = num_tur_stay_full['info'].apply(lambda x: x.split('.')[2])

In [54]:
num_tur_stay_full = num_tur_stay_full.drop('info', axis = 1)
num_tur_stay_full = num_tur_stay_full.reindex(columns = ['Tipo_alojamiento', 'Categoria_gasto', 'Valor', 'Fecha'])
num_tur_stay_full.head()

Unnamed: 0,Tipo_alojamiento,Categoria_gasto,Valor,Fecha
0,Total,Total Nacional,7460277.0,2022-06-01
1,Total,Total Nacional,6966913.0,2022-05-01
2,Total,Total Nacional,6102142.0,2022-04-01
3,Total,Total Nacional,4032127.0,2022-03-01
4,Total,Total Nacional,3156809.0,2022-02-01


In [55]:
num_tur_stay_full.isna().sum()

Tipo_alojamiento    0
Categoria_gasto     0
Valor               0
Fecha               0
dtype: int64

In [56]:
file_name = 'num_turists_by_stay.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

num_tur_stay_full.to_excel(path+file_name)

### Statistic: Número de turistas según motivo del viaje

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=13864

In [57]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/23985?nult=10'
file_name = 'num_turists_by_motive.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

num_tur_motive = get_data_and_create_excel_file(url, file_name, path)
num_tur_motive.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG4583707,Turista. Total. Total Nacional. Dato base.,3,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
1,FREG4583711,Turista. Total. Total Nacional. Tasa de variac...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
2,FREG4583706,"Turista. Ocio, recreo y vacaciones. Total Naci...",3,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
3,FREG4583710,"Turista. Ocio, recreo y vacaciones. Total Naci...",135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
4,FREG4583705,Turista. Motivo profesional. Total Nacional. D...,3,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."


In [58]:
num_tur_motive.Nombre.unique()

array(['Turista. Total. Total Nacional. Dato base. ',
       'Turista. Total. Total Nacional. Tasa de variación anual. ',
       'Turista. Ocio, recreo y vacaciones. Total Nacional. Dato base. ',
       'Turista. Ocio, recreo y vacaciones. Total Nacional. Tasa de variación anual. ',
       'Turista. Motivo profesional. Total Nacional. Dato base. ',
       'Turista. Motivo profesional. Total Nacional. Tasa de variación anual. ',
       'Turista. Otros. Total Nacional. Dato base. ',
       'Turista. Otros. Total Nacional. Tasa de variación anual. '],
      dtype=object)

In [59]:
num_tur_motive = num_tur_motive.loc[num_tur_motive['Nombre'].str.contains('Dato base')]
num_tur_motive['Nombre'].unique()

array(['Turista. Total. Total Nacional. Dato base. ',
       'Turista. Ocio, recreo y vacaciones. Total Nacional. Dato base. ',
       'Turista. Motivo profesional. Total Nacional. Dato base. ',
       'Turista. Otros. Total Nacional. Dato base. '], dtype=object)

In [60]:
num_tur_motive_full = normalize_json(num_tur_motive)
num_tur_motive_full['info'].unique()

array(['Turista. Total. Total Nacional. Dato base. ',
       'Turista. Ocio, recreo y vacaciones. Total Nacional. Dato base. ',
       'Turista. Motivo profesional. Total Nacional. Dato base. ',
       'Turista. Otros. Total Nacional. Dato base. '], dtype=object)

In [61]:
num_tur_motive_full['Motivo'] = num_tur_motive_full['info'].apply(lambda x: x.split('.')[2])
num_tur_motive_full = num_tur_motive_full.drop('info', axis=1)
num_tur_motive_full.head()

Unnamed: 0,Fecha,Valor,Motivo
0,2021-01-01,31180802.0,Total Nacional
1,2020-01-01,18933103.0,Total Nacional
2,2019-01-01,83509153.0,Total Nacional
3,2018-01-01,82808413.0,Total Nacional
4,2017-01-01,81868522.0,Total Nacional


In [62]:
num_tur_motive_full = num_tur_motive_full.reindex(columns = ['Motivo', 'Valor', 'Fecha'])
num_tur_motive_full.isna().sum()

Motivo    0
Valor     0
Fecha     0
dtype: int64

In [63]:
file_name = 'num_turists_by_motive.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

num_tur_motive_full.to_excel(path+file_name)

### Statistic: Número de turistas según país de residencia

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=10822

In [64]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/10822?date=20151001:20220601'
file_name = 'num_turists_by_origin.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

num_tur_origin = get_data_and_create_excel_file(url, file_name, path)
num_tur_origin.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG337,Total. Turista. Dato base. Total Nacional.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,FREG321,Total. Turista. Tasa de variación anual. Total...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,FREG1173,Total. Turista. Total Nacional. Acumulado en l...,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,FREG1189,Total. Turista. Total Nacional. Tasa de variac...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,FREG336,Alemania. Turista. Dato base. Total Nacional.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [65]:
num_tur_origin = num_tur_origin.loc[num_tur_origin['Nombre'].str.contains('Dato base')]
num_tur_origin_full = normalize_json(num_tur_origin)
num_tur_origin_full['info'].unique()

array(['Total. Turista. Dato base. Total Nacional. ',
       'Alemania. Turista. Dato base. Total Nacional. ',
       'Bélgica. Turista. Dato base. Total Nacional. ',
       'Francia. Turista. Dato base. Total Nacional. ',
       'Irlanda. Turista. Dato base. Total Nacional. ',
       'Italia. Turista. Dato base. Total Nacional. ',
       'Países Bajos. Turista. Dato base. Total Nacional. ',
       'Países Nórdicos. Turista. Dato base. Total Nacional. ',
       'Portugal. Turista. Dato base. Total Nacional. ',
       'Reino Unido. Turista. Dato base. Total Nacional. ',
       'Rusia. Turista. Dato base. Total Nacional. ',
       'Suiza. Turista. Dato base. Total Nacional. ',
       'Europa menos UE28. Turista. Dato base. Total Nacional. ',
       'Estados Unidos de América. Turista. Dato base. Total Nacional. ',
       'Resto América. Turista. Dato base. Total Nacional. ',
       'Resto del Mundo. Turista. Dato base. Total Nacional. '],
      dtype=object)

In [66]:
num_tur_origin_full['info'] = num_tur_origin_full['info'].apply(lambda x: x.split('.')[0])
num_tur_origin_full = num_tur_origin_full.rename(columns = {'info':'Origin'})
num_tur_origin_full.head()

Unnamed: 0,Origin,Fecha,Valor
0,Total,2022-06-01,7460277.0
1,Total,2022-05-01,6966913.0
2,Total,2022-04-01,6102142.0
3,Total,2022-03-01,4032127.0
4,Total,2022-02-01,3156809.0


In [67]:
num_tur_origin_full = num_tur_origin_full.reindex(columns = ['Origin', 'Valor', 'Fecha'])
num_tur_origin_full.isna().sum()

Origin     0
Valor     10
Fecha      0
dtype: int64

In [69]:
num_tur_origin_full = num_tur_origin_full.dropna(axis=0)
num_tur_origin_full.isna().sum()

Origin    0
Valor     0
Fecha     0
dtype: int64

In [70]:
file_name = 'num_turists_by_origin.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

num_tur_origin_full.to_excel(path+file_name)

 ### Combine
- num_turists_by_stay / turism_expenditure_by_stay
- num_turists_by_motive / turism_expenditure_by_trip_motive
- num_turists_by_origin / turism_expenditure_by_ccaa_origin

#### Zoom In: Zonas turisticas (hoteles)

Combinar:
- Viajeros y pernoctaciones por puntos turísticos
- Estancia media por puntos turísticos
- Establecimientos, plazas estimadas, grados de ocupación y personal empleado por puntos turísticas
- Tarifa media diaria (ADR) desglose por puntos turísticas
- Tarifa media diaria (ADR) desglose por puntos turísticas


Combinar:
- Índices de precios hoteleros, índices y tasas de variación interanual por comunidades autónomas
- Índices de ingresos hoteleros, índices y tasas de variación interanual por comunidades autónomas


#### Zoom In: Apartamentos turísticos
- Viajeros y pernoctaciones por puntos turísticos
- Plazas, apartamentos, grados de ocupación y personal empleado por puntos turísticos
- Número de alojamientos turísticos y noches ocupados por residencia del viajero. Puntos turísticos.
- Viviendas turísticas, plazas y plazas por vivienda turística. Total nacional, comunidades autónomas y provincias


- Índice de precios de apartamentos (IPAP): índice general nacional y desglose por modalidades
- Índice de precios de apartamentos (IPAP): índice general nacional y desglose por tarifas