# MBP: Spain's turism industry dashboard

#### Data extraction from Instituto Nacional de Estadística (INE)

Libraries

In [1]:
from functions import get_data_and_create_excel_file
from functions import normalize_json
from functions import extract_rows
import pandas as pd
import datetime
import matplotlib.pyplot as plt
import seaborn as sns



## Turism expendinture in Spain

### Statistic: Gasto de los turistas internacionales según comunidad autónoma de destino principal y país de residencia

#### Unidades: €, Millones €, Días, %, Tasas

Fuente: https://www.ine.es/jaxiT3/Tabla.htm?t=24746&L=0

In [2]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/24746?nult=10'
file_name = 'turism_expenditure_by_ccaa_origin.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

turism_expenditure_by_ccaa_origin = get_data_and_create_excel_file(url, file_name, path)
turism_expenditure_by_ccaa_origin.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG4584737,Total. Turista. Gasto total. Total Nacional. D...,7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
1,FREG4584613,Total. Turista. Gasto total. Total Nacional. T...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
2,FREG4585410,Total. Turista. Gasto total. Andalucía. Dato b...,7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
3,FREG4586243,Total. Turista. Gasto total. Andalucía. Tasa d...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
4,FREG4585407,"Total. Turista. Gasto total. Balears, Illes. D...",7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."


In [3]:
turism_expenditure_by_ccaa_origin.Nombre.unique()

array(['Total. Turista. Gasto total. Total Nacional. Dato base. ',
       'Total. Turista. Gasto total. Total Nacional. Tasa de variación anual. ',
       'Total. Turista. Gasto total. Andalucía. Dato base. ',
       'Total. Turista. Gasto total. Andalucía. Tasa de variación anual. ',
       'Total. Turista. Gasto total. Balears, Illes. Dato base. ',
       'Total. Turista. Gasto total. Balears, Illes. Tasa de variación anual. ',
       'Total. Turista. Gasto total. Canarias. Dato base. ',
       'Total. Turista. Gasto total. Canarias. Tasa de variación anual. ',
       'Total. Turista. Gasto total. Cataluña. Dato base. ',
       'Total. Turista. Gasto total. Cataluña. Tasa de variación anual. ',
       'Total. Turista. Gasto total. Comunitat Valenciana. Dato base. ',
       'Total. Turista. Gasto total. Comunitat Valenciana. Tasa de variación anual. ',
       'Total. Turista. Gasto total. Madrid, Comunidad de. Dato base. ',
       'Total. Turista. Gasto total. Madrid, Comunidad de. Ta

In [4]:
turism_expenditure_by_ccaa_origin = turism_expenditure_by_ccaa_origin.loc[turism_expenditure_by_ccaa_origin['Nombre'].
                                                                          str.contains('Dato base')].reset_index(drop=True)
turism_expenditure_by_ccaa_origin.Nombre.unique()

array(['Total. Turista. Gasto total. Total Nacional. Dato base. ',
       'Total. Turista. Gasto total. Andalucía. Dato base. ',
       'Total. Turista. Gasto total. Balears, Illes. Dato base. ',
       'Total. Turista. Gasto total. Canarias. Dato base. ',
       'Total. Turista. Gasto total. Cataluña. Dato base. ',
       'Total. Turista. Gasto total. Comunitat Valenciana. Dato base. ',
       'Total. Turista. Gasto total. Madrid, Comunidad de. Dato base. ',
       'Total. Turista. Gasto total. Otras Comunidades Autónomas. Dato base. ',
       'Total. Turista. Gasto medio por persona. Total Nacional. Dato base. ',
       'Total. Turista. Gasto medio por persona. Andalucía. Dato base. ',
       'Total. Turista. Gasto medio por persona. Balears, Illes. Dato base. ',
       'Total. Turista. Gasto medio por persona. Canarias. Dato base. ',
       'Total. Turista. Gasto medio por persona. Cataluña. Dato base. ',
       'Total. Turista. Gasto medio por persona. Comunitat Valenciana. Dato ba

In [5]:
turism_expenditure_by_ccaa_origin_full = normalize_json(turism_expenditure_by_ccaa_origin)
turism_expenditure_by_ccaa_origin_full.head()

Unnamed: 0,info,Fecha,Valor
0,Total. Turista. Gasto total. Total Nacional. D...,2021-01-01,34903.37
1,Total. Turista. Gasto total. Total Nacional. D...,2020-01-01,19786.78
2,Total. Turista. Gasto total. Total Nacional. D...,2019-01-01,91911.97
3,Total. Turista. Gasto total. Total Nacional. D...,2018-01-01,89750.75
4,Total. Turista. Gasto total. Total Nacional. D...,2017-01-01,87003.93


In [6]:
turism_expenditure_by_ccaa_origin_full['info'].unique()
turism_expenditure_by_ccaa_origin_full['Destino'] = turism_expenditure_by_ccaa_origin_full['info'].apply(lambda
                                                                                                              x: x.split('.')[3])
turism_expenditure_by_ccaa_origin_full['Categoria'] = turism_expenditure_by_ccaa_origin_full['info'].apply(lambda
                                                                                                              x: x.split('.')[2])
turism_expenditure_by_ccaa_origin_full['Origen'] = turism_expenditure_by_ccaa_origin_full['info'].apply(lambda
                                                                                                              x: x.split('.')[0])

In [7]:
turism_expenditure_by_ccaa_origin_full.head()

Unnamed: 0,info,Fecha,Valor,Destino,Categoria,Origen
0,Total. Turista. Gasto total. Total Nacional. D...,2021-01-01,34903.37,Total Nacional,Gasto total,Total
1,Total. Turista. Gasto total. Total Nacional. D...,2020-01-01,19786.78,Total Nacional,Gasto total,Total
2,Total. Turista. Gasto total. Total Nacional. D...,2019-01-01,91911.97,Total Nacional,Gasto total,Total
3,Total. Turista. Gasto total. Total Nacional. D...,2018-01-01,89750.75,Total Nacional,Gasto total,Total
4,Total. Turista. Gasto total. Total Nacional. D...,2017-01-01,87003.93,Total Nacional,Gasto total,Total


In [8]:
turism_expenditure_by_ccaa_origin_full = turism_expenditure_by_ccaa_origin_full.drop('info', axis=1)
turism_expenditure_by_ccaa_origin_full = turism_expenditure_by_ccaa_origin_full.reindex(columns = 
                                                                                       ['Origen', 'Categoria','Destino', 'Valor','Fecha'])

In [9]:
turism_expenditure_by_ccaa_origin_full.isna().sum()

Origen       0
Categoria    0
Destino      0
Valor        0
Fecha        0
dtype: int64

In [10]:
turism_expenditure_by_ccaa_origin_full = turism_expenditure_by_ccaa_origin_full.rename(columns = 
                                                                                       {'Origen':'origin',
                                                                                        'Categoria': 'category',
                                                                                        'Destino': 'destiny',
                                                                                        'Valor': 'value',
                                                                                        'Fecha':'date'})

In [11]:
file_name = 'turism_expenditure_by_ccaa_origin.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

turism_expenditure_by_ccaa_origin_full.to_excel(path+file_name)

## Statistic: Gasto de los turistas internacionales según partidas de gasto y comunidad autónoma de destino principal

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=24745

In [12]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/24745?nult=10'
file_name = 'turism_expenditure_by_ccaa_item.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

turism_exp_ccaa_item = get_data_and_create_excel_file(url, file_name, path)
turism_exp_ccaa_item.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG4583835,Total Nacional. Turista. Gasto total. Dato base.,7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
1,FREG4583907,Total Nacional. Turista. Gasto total. Tasa de ...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
2,FREG4583831,Andalucía. Turista. Gasto total. Dato base.,7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
3,FREG4583903,Andalucía. Turista. Gasto total. Tasa de varia...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
4,FREG4583819,"Balears, Illes. Turista. Gasto total. Dato base.",7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."


In [13]:
turism_exp_ccaa_item = turism_exp_ccaa_item.loc[turism_exp_ccaa_item.Nombre.str.contains('Dato base')]

In [14]:
turism_exp_ccaa_item_full = normalize_json(turism_exp_ccaa_item)
turism_exp_ccaa_item_full.head()

Unnamed: 0,info,Fecha,Valor
0,Total Nacional. Turista. Gasto total. Dato base.,2021-01-01,34903.37
1,Total Nacional. Turista. Gasto total. Dato base.,2020-01-01,19786.78
2,Total Nacional. Turista. Gasto total. Dato base.,2019-01-01,91911.97
3,Total Nacional. Turista. Gasto total. Dato base.,2018-01-01,89750.75
4,Total Nacional. Turista. Gasto total. Dato base.,2017-01-01,87003.93


In [15]:
turism_exp_ccaa_item_full['info'].unique()

array(['Total Nacional. Turista. Gasto total. Dato base. ',
       'Andalucía. Turista. Gasto total. Dato base. ',
       'Balears, Illes. Turista. Gasto total. Dato base. ',
       'Canarias. Turista. Gasto total. Dato base. ',
       'Cataluña. Turista. Gasto total. Dato base. ',
       'Comunitat Valenciana. Turista. Gasto total. Dato base. ',
       'Madrid, Comunidad de. Turista. Gasto total. Dato base. ',
       'Turista. Gasto total. Otras Comunidades Autónomas. Dato base. ',
       'Turista. Gasto en paquete turístico. Total Nacional. Dato base. ',
       'Turista. Gasto en paquete turístico. Andalucía. Dato base. ',
       'Turista. Gasto en paquete turístico. Balears, Illes. Dato base. ',
       'Turista. Gasto en paquete turístico. Canarias. Dato base. ',
       'Turista. Gasto en paquete turístico. Cataluña. Dato base. ',
       'Turista. Gasto en paquete turístico. Comunitat Valenciana. Dato base. ',
       'Turista. Gasto en paquete turístico. Madrid, Comunidad de. Dato b

In [16]:
total_expenditure = turism_exp_ccaa_item_full.loc[turism_exp_ccaa_item_full['info'].str.contains('Gasto total')]
turism_exp_ccaa_item_full = turism_exp_ccaa_item_full.drop(total_expenditure.index, axis=0)

In [17]:
total_expenditure['Gasto_item'] = total_expenditure['info'].apply(lambda x: x.split('.')[2])
total_expenditure['Destino'] = total_expenditure['info'].apply(lambda x: x.split('.')[0])

turism_exp_ccaa_item_full['Gasto_item'] = turism_exp_ccaa_item_full['info'].apply(lambda x: x.split('.')[1])
turism_exp_ccaa_item_full['Destino'] = turism_exp_ccaa_item_full['info'].apply(lambda x: x.split('.')[2])

turism_exp_ccaa_item_full = pd.concat([total_expenditure, turism_exp_ccaa_item_full], axis = 0)

In [18]:
turism_exp_ccaa_item_full = turism_exp_ccaa_item_full.drop('info', axis = 1)
turism_exp_ccaa_item_full = turism_exp_ccaa_item_full.reindex(columns = ['Gasto_item', 'Destino', 'Valor', 'Fecha'])
turism_exp_ccaa_item_full.head()

Unnamed: 0,Gasto_item,Destino,Valor,Fecha
0,Gasto total,Total Nacional,34903.37,2021-01-01
1,Gasto total,Total Nacional,19786.78,2020-01-01
2,Gasto total,Total Nacional,91911.97,2019-01-01
3,Gasto total,Total Nacional,89750.75,2018-01-01
4,Gasto total,Total Nacional,87003.93,2017-01-01


In [19]:
turism_exp_ccaa_item_full.isna().sum()

Gasto_item    0
Destino       0
Valor         0
Fecha         0
dtype: int64

In [20]:
turism_exp_ccaa_item_full = turism_exp_ccaa_item_full.rename(columns = 
                                                            {'Gasto_item': 'expense',
                                                            'Destino':'destiny',
                                                            'Valor': 'value',
                                                            'Fecha':'date'})

In [21]:
file_name = 'turism_expenditure_by_ccaa_item.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

turism_exp_ccaa_item_full.to_excel(path+file_name)

## Statistic: Gasto de los turistas internacionales según tipo de alojamiento principal
Units: €, Millones €, Días, Tasas

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=10836

In [22]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/23993?date=20150101:20220601'
file_name = 'turism_expenditure_by_stay.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

turism_exp_stay = get_data_and_create_excel_file(url, file_name, path)
turism_exp_stay.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG4584489,Turista. Total. Gasto total. Total Nacional. D...,7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
1,FREG4584469,Turista. Total. Gasto total. Total Nacional. T...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
2,FREG4584484,Turista. Total. Gasto medio por persona. Total...,7,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
3,FREG4584468,Turista. Total. Gasto medio por persona. Total...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
4,FREG4584483,Turista. Total. Gasto medio diario por persona...,7,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."


In [23]:
turism_exp_stay.Nombre.unique()

array(['Turista. Total. Gasto total. Total Nacional. Dato base. ',
       'Turista. Total. Gasto total. Total Nacional. Tasa de variación anual. ',
       'Turista. Total. Gasto medio por persona. Total Nacional. Dato base. ',
       'Turista. Total. Gasto medio por persona. Total Nacional. Tasa de variación anual. ',
       'Turista. Total. Gasto medio diario por persona. Total Nacional. Dato base. ',
       'Turista. Total. Gasto medio diario por persona. Total Nacional. Tasa de variación anual. ',
       'Turista. Total. Duración media de los viajes. Total Nacional. Dato base. ',
       'Turista. Total. Duración media de los viajes. Total Nacional. Tasa de variación anual. ',
       'Turista. De mercado. Gasto total. Total Nacional. Dato base. ',
       'Turista. De mercado. Gasto total. Total Nacional. Tasa de variación anual. ',
       'Turista. De mercado. Gasto medio por persona. Total Nacional. Dato base. ',
       'Turista. De mercado. Gasto medio por persona. Total Nacional. 

In [24]:
turism_exp_stay = turism_exp_stay.loc[turism_exp_stay.Nombre.str.contains('Dato base')]
turism_exp_stay.Nombre.unique()

array(['Turista. Total. Gasto total. Total Nacional. Dato base. ',
       'Turista. Total. Gasto medio por persona. Total Nacional. Dato base. ',
       'Turista. Total. Gasto medio diario por persona. Total Nacional. Dato base. ',
       'Turista. Total. Duración media de los viajes. Total Nacional. Dato base. ',
       'Turista. De mercado. Gasto total. Total Nacional. Dato base. ',
       'Turista. De mercado. Gasto medio por persona. Total Nacional. Dato base. ',
       'Turista. De mercado. Gasto medio diario por persona. Total Nacional. Dato base. ',
       'Turista. De mercado. Duración media de los viajes. Total Nacional. Dato base. ',
       'Turista. Hoteles o apartahotel. Gasto total. Total Nacional. Dato base. ',
       'Turista. Hoteles o apartahotel. Gasto medio por persona. Total Nacional. Dato base. ',
       'Turista. Hoteles o apartahotel. Gasto medio diario por persona. Total Nacional. Dato base. ',
       'Turista. Hoteles o apartahotel. Duración media de los viajes

In [25]:
turism_exp_stay_full = normalize_json(turism_exp_stay)
turism_exp_stay_full.head()

Unnamed: 0,info,Fecha,Valor
0,Turista. Total. Gasto total. Total Nacional. D...,2021-01-01,34903.37
1,Turista. Total. Gasto total. Total Nacional. D...,2020-01-01,19786.78
2,Turista. Total. Gasto total. Total Nacional. D...,2019-01-01,91911.97
3,Turista. Total. Gasto total. Total Nacional. D...,2018-01-01,89750.75
4,Turista. Total. Gasto total. Total Nacional. D...,2017-01-01,87003.93


In [26]:
turism_exp_stay_full['Tipo_alojamiento'] = turism_exp_stay_full['info'].apply(lambda x: x.split('.')[1])
turism_exp_stay_full['Categoria_gasto'] = turism_exp_stay_full['info'].apply(lambda x: x.split('.')[2])

In [27]:
turism_exp_stay_full = turism_exp_stay_full.drop('info', axis = 1)
turism_exp_stay_full = turism_exp_stay_full.reindex(columns = ['Tipo_alojamiento', 'Categoria_gasto', 'Valor', 'Fecha'])
turism_exp_stay_full.head()

Unnamed: 0,Tipo_alojamiento,Categoria_gasto,Valor,Fecha
0,Total,Gasto total,34903.37,2021-01-01
1,Total,Gasto total,19786.78,2020-01-01
2,Total,Gasto total,91911.97,2019-01-01
3,Total,Gasto total,89750.75,2018-01-01
4,Total,Gasto total,87003.93,2017-01-01


In [28]:
turism_exp_stay_full.isna().sum()

Tipo_alojamiento    0
Categoria_gasto     0
Valor               0
Fecha               0
dtype: int64

In [29]:
turism_exp_stay_full = turism_exp_stay_full.rename(columns = {'Tipo_alojamiento':'stay_type',
                                                              'Categoria_gasto': 'expense_type',
                                                              'Valor': 'value',
                                                              'Fecha':'date'})

In [30]:
file_name = 'turism_expenditure_by_stay.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

turism_exp_stay_full.to_excel(path+file_name)

## Statistic: Gasto de los turistas internacionales según sexo y edad
Units: €, Millones €, Días, Tasas

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=24744

In [31]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/24744?date=20150101:20220601'
file_name = 'turism_expenditure_by_sex_and_age.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

turism_exp_sex_gender = get_data_and_create_excel_file(url, file_name, path)
turism_exp_sex_gender.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG4586252,Turista. Gasto total. Total Nacional. Dato bas...,7,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
1,FREG4584969,Turista. Gasto total. Total Nacional. Dato bas...,7,13,[]
2,FREG4584968,Turista. Gasto total. Total Nacional. Dato bas...,7,13,[]
3,FREG4584967,Turista. Gasto total. Total Nacional. Dato bas...,7,13,[]
4,FREG4584966,Turista. Gasto total. Total Nacional. Dato bas...,7,13,[]


In [32]:
turism_exp_sex_gender = turism_exp_sex_gender.loc[turism_exp_sex_gender['Nombre'].str.contains('Dato base.')]
turism_exp_sex_gender.Nombre.unique()

array(['Turista. Gasto total. Total Nacional. Dato base. Total. Todas las edades. ',
       'Turista. Gasto total. Total Nacional. Dato base. Total. De 15 a 24 años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Total. De 25 a 44 años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Total. De 45 a 64 años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Total. 65 y más años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Hombres. Todas las edades. ',
       'Turista. Gasto total. Total Nacional. Dato base. Hombres. De 15 a 24 años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Hombres. De 25 a 44 años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Hombres. De 45 a 64 años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Hombres. 65 y más años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Mujeres. Todas las edades. ',
       'Turista. Gasto total. Total Nacional. Dato base. Mujeres.

In [33]:
turism_exp_sex_gender_full = normalize_json(turism_exp_sex_gender)

turism_exp_sex_gender_full['Sexo'] = turism_exp_sex_gender_full['info'].apply(lambda x: x.split(".")[4])
turism_exp_sex_gender_full['Rango_edad'] = turism_exp_sex_gender_full['info'].apply(lambda x: x.split(".")[5])
turism_exp_sex_gender_full['Categoria_gasto'] = turism_exp_sex_gender_full['info'].apply(lambda x: x.split(".")[1])
turism_exp_sex_gender_full['Destino'] = turism_exp_sex_gender_full['info'].apply(lambda x: x.split(".")[2])

turism_exp_sex_gender_full.head()

Unnamed: 0,info,Fecha,Valor,Sexo,Rango_edad,Categoria_gasto,Destino
0,Turista. Gasto total. Total Nacional. Dato bas...,2021-01-01,34903.37,Total,Todas las edades,Gasto total,Total Nacional
1,Turista. Gasto total. Total Nacional. Dato bas...,2020-01-01,19786.78,Total,Todas las edades,Gasto total,Total Nacional
2,Turista. Gasto total. Total Nacional. Dato bas...,2019-01-01,91911.97,Total,Todas las edades,Gasto total,Total Nacional
3,Turista. Gasto total. Total Nacional. Dato bas...,2018-01-01,89750.75,Total,Todas las edades,Gasto total,Total Nacional
4,Turista. Gasto total. Total Nacional. Dato bas...,2017-01-01,87003.93,Total,Todas las edades,Gasto total,Total Nacional


In [34]:
#turism_exp_sex_gender_full = turism_exp_sex_gender_full.drop('info', axis=1)
turism_exp_sex_gender_full = turism_exp_sex_gender_full.reindex(columns = ['Categoria_gasto',
                                                                          'Rango_edad', 'Sexo',
                                                                          'Valor', 'Fecha'])
turism_exp_sex_gender_full.tail()

Unnamed: 0,Categoria_gasto,Rango_edad,Sexo,Valor,Fecha
259,Duración media de los viajes,65 y más años,Mujeres,11.77,2020-01-01
260,Duración media de los viajes,65 y más años,Mujeres,10.94,2019-01-01
261,Duración media de los viajes,65 y más años,Mujeres,11.97,2018-01-01
262,Duración media de los viajes,65 y más años,Mujeres,12.19,2017-01-01
263,Duración media de los viajes,65 y más años,Mujeres,12.69,2016-01-01


In [35]:
turism_exp_sex_gender_full.isna().sum()

Categoria_gasto    0
Rango_edad         0
Sexo               0
Valor              0
Fecha              0
dtype: int64

In [36]:
turism_exp_sex_gender_full = turism_exp_sex_gender_full.rename(columns = 
                                                            {'Categoria_gasto': 'expense_type',
                                                            'Rango_edad':'age',
                                                            'Valor': 'value',
                                                            'Fecha':'date'})

In [37]:
file_name = 'turism_expenditure_by_sex_and_age.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

turism_exp_stay_full.to_excel(path+file_name)

### Statistic: Gasto de los turistas internacionales según motivo principal del viaje

Units: €, Millones €, Días, Tasas

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=10840

In [38]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/23995?nult=10'
file_name = 'turism_expenditure_by_trip_motive.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

turism_exp_motive = get_data_and_create_excel_file(url, file_name, path)
turism_exp_motive.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG4584865,Total. Gasto total. Turista. Total Nacional. D...,7,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
1,FREG4584801,Total. Gasto total. Turista. Total Nacional. T...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
2,FREG4584849,Total. Gasto medio por persona. Turista. Total...,7,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
3,FREG4584800,Total. Gasto medio por persona. Turista. Total...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
4,FREG4584848,Total. Gasto medio diario por persona. Turista...,7,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."


In [39]:
turism_exp_motive.Nombre.unique()

array(['Total. Gasto total. Turista. Total Nacional. Dato base. ',
       'Total. Gasto total. Turista. Total Nacional. Tasa de variación anual. ',
       'Total. Gasto medio por persona. Turista. Total Nacional. Dato base. ',
       'Total. Gasto medio por persona. Turista. Total Nacional. Tasa de variación anual. ',
       'Total. Gasto medio diario por persona. Turista. Total Nacional. Dato base. ',
       'Total. Gasto medio diario por persona. Turista. Total Nacional. Tasa de variación anual. ',
       'Total. Duración media de los viajes. Turista. Total Nacional. Dato base. ',
       'Total. Duración media de los viajes. Turista. Total Nacional. Tasa de variación anual. ',
       'Motivo profesional. Gasto total. Turista. Total Nacional. Dato base. ',
       'Motivo profesional. Gasto total. Turista. Total Nacional. Tasa de variación anual. ',
       'Motivo profesional. Gasto medio por persona. Turista. Total Nacional. Dato base. ',
       'Motivo profesional. Gasto medio por pe

In [40]:
turism_exp_motive = turism_exp_motive.loc[turism_exp_motive.Nombre.str.contains('Dato base')]
turism_exp_motive.Nombre.unique()

array(['Total. Gasto total. Turista. Total Nacional. Dato base. ',
       'Total. Gasto medio por persona. Turista. Total Nacional. Dato base. ',
       'Total. Gasto medio diario por persona. Turista. Total Nacional. Dato base. ',
       'Total. Duración media de los viajes. Turista. Total Nacional. Dato base. ',
       'Motivo profesional. Gasto total. Turista. Total Nacional. Dato base. ',
       'Motivo profesional. Gasto medio por persona. Turista. Total Nacional. Dato base. ',
       'Motivo profesional. Gasto medio diario por persona. Turista. Total Nacional. Dato base. ',
       'Motivo profesional. Duración media de los viajes. Turista. Total Nacional. Dato base. ',
       'Congresos, ferias y convenciones. Gasto total. Turista. Total Nacional. Dato base. ',
       'Congresos, ferias y convenciones. Gasto medio por persona. Turista. Total Nacional. Dato base. ',
       'Congresos, ferias y convenciones. Gasto medio diario por persona. Turista. Total Nacional. Dato base. ',
   

In [41]:
turism_exp_motive_full = normalize_json(turism_exp_motive)
turism_exp_motive_full.head()

Unnamed: 0,info,Fecha,Valor
0,Total. Gasto total. Turista. Total Nacional. D...,2021-01-01,34903.37
1,Total. Gasto total. Turista. Total Nacional. D...,2020-01-01,19786.78
2,Total. Gasto total. Turista. Total Nacional. D...,2019-01-01,91911.97
3,Total. Gasto total. Turista. Total Nacional. D...,2018-01-01,89750.75
4,Total. Gasto total. Turista. Total Nacional. D...,2017-01-01,87003.93


In [42]:
turism_exp_motive_full['Categoria_gasto'] = turism_exp_motive_full['info'].apply(lambda x: x.split('.')[1])
turism_exp_motive_full['Motivo'] = turism_exp_motive_full['info'].apply(lambda x: x.split('.')[0])

turism_exp_motive_full = turism_exp_motive_full.drop('info', axis=1)
turism_exp_motive_full.head()

Unnamed: 0,Fecha,Valor,Categoria_gasto,Motivo
0,2021-01-01,34903.37,Gasto total,Total
1,2020-01-01,19786.78,Gasto total,Total
2,2019-01-01,91911.97,Gasto total,Total
3,2018-01-01,89750.75,Gasto total,Total
4,2017-01-01,87003.93,Gasto total,Total


In [43]:
turism_exp_motive_full = turism_exp_motive_full.reindex(columns=['Categoria_gasto', 'Motivo',
                                                                'Valor', 'Fecha'])

turism_exp_motive_full.isna().sum()

Categoria_gasto     0
Motivo              0
Valor              24
Fecha               0
dtype: int64

In [44]:
missing_values = turism_exp_motive_full.loc[turism_exp_motive_full.Valor.isna()].index
turism_exp_motive_full = turism_exp_motive_full.drop(missing_values)
turism_exp_motive_full.isna().sum()

Categoria_gasto    0
Motivo             0
Valor              0
Fecha              0
dtype: int64

In [45]:
turism_exp_motive_full = turism_exp_motive_full.rename(columns = 
                                                            {'Categoria_gasto': 'expense_type',
                                                            'Motivo':'motive',
                                                            'Valor': 'value',
                                                            'Fecha':'date'})

In [46]:
file_name = 'turism_expenditure_by_trip_motive.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

turism_exp_motive_full.to_excel(path+file_name)

## Turists' perfil 

### Statistic: Número de turistas según comunidad autónoma de destino principal

Fuente: https://www.ine.es/jaxiT3/Tabla.htm?t=10822

In [47]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/10823?date=20151001:20220601'
file_name = 'num_turists_by_ccaa.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

num_tur_ccaa = get_data_and_create_excel_file(url, file_name, path)
num_tur_ccaa.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG286,Turista. Total Nacional. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,FREG283,Turista. Total Nacional. Tasa de variación anu...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,FREG1125,Turista. Total Nacional. Acumulado en lo que v...,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,FREG1128,Turista. Total Nacional. Tasa de variación acu...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,FREG351,Andalucía. Turista. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [48]:
num_tur_ccaa = num_tur_ccaa.loc[num_tur_ccaa['Nombre'].str.contains('base')].reset_index(drop=True)
num_tur_ccaa.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG286,Turista. Total Nacional. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,FREG351,Andalucía. Turista. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,FREG350,"Balears, Illes. Turista. Dato base.",3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,FREG349,Canarias. Turista. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,FREG348,Cataluña. Turista. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [49]:
num_tur_ccaa_full = normalize_json(num_tur_ccaa)
num_tur_ccaa_full['info'].unique()

array(['Turista. Total Nacional. Dato base. ',
       'Andalucía. Turista. Dato base. ',
       'Balears, Illes. Turista. Dato base. ',
       'Canarias. Turista. Dato base. ', 'Cataluña. Turista. Dato base. ',
       'Comunitat Valenciana. Turista. Dato base. ',
       'Madrid, Comunidad de. Turista. Dato base. ',
       'Otras Comunidades Autónomas. Turista. Dato base. '], dtype=object)

In [50]:
num_tur_ccaa_full['Destino'] = num_tur_ccaa_full['info'].apply(lambda x: x.split('.')[0])
num_tur_ccaa_full['Destino'][0] = 'Total Nacional'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  num_tur_ccaa_full['Destino'][0] = 'Total Nacional'


In [51]:
num_tur_ccaa_full = num_tur_ccaa_full.drop('info', axis = 1)

In [52]:
num_tur_ccaa_full = num_tur_ccaa_full.reindex(columns=['Destino', 'Valor', 'Fecha'])

In [53]:
num_tur_ccaa_full.isna().sum()

Destino    0
Valor      0
Fecha      0
dtype: int64

In [54]:
num_tur_ccaa_full = num_tur_ccaa_full.rename(columns = {'Destino': 'destiny',
                                                        'Valor': 'value',
                                                        'Fecha':'date'})

In [55]:
file_name = 'num_turists_by_ccaa.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

num_tur_ccaa_full.to_excel(path+file_name)

### Statistic: Número de turistas según tipo de alojamiento principal

Fuente: https://www.ine.es/jaxiT3/Tabla.htm?t=10826

In [56]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/10826?date=20151001:20220601'
file_name = 'num_turists_by_stay.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

num_tur_stay = get_data_and_create_excel_file(url, file_name, path)
num_tur_stay.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG305,Turista. Total. Total Nacional. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,FREG301,Turista. Total. Total Nacional. Tasa de variac...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,FREG1148,Turista. Total. Total Nacional. Acumulado en l...,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,FREG1157,Turista. Total. Total Nacional. Tasa de variac...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,FREG593,Turista. De mercado. Total Nacional. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [57]:
num_tur_stay = num_tur_stay.loc[num_tur_stay['Nombre'].str.contains('base')].reset_index(drop=True)
num_tur_stay.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG305,Turista. Total. Total Nacional. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,FREG593,Turista. De mercado. Total Nacional. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,FREG304,Turista. Hoteles o apartahotel. Total Nacional...,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,FREG665,Turista. Vivienda en alquiler. Total Nacional....,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,FREG303,Turista. Resto de mercado. Total Nacional. Dat...,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [58]:
num_tur_stay_full = normalize_json(num_tur_stay)
num_tur_stay_full.head()

Unnamed: 0,info,Fecha,Valor
0,Turista. Total. Total Nacional. Dato base.,2022-06-01,7460277.0
1,Turista. Total. Total Nacional. Dato base.,2022-05-01,6966913.0
2,Turista. Total. Total Nacional. Dato base.,2022-04-01,6102142.0
3,Turista. Total. Total Nacional. Dato base.,2022-03-01,4032127.0
4,Turista. Total. Total Nacional. Dato base.,2022-02-01,3156809.0


In [59]:
num_tur_stay_full['Tipo_alojamiento'] = num_tur_stay_full['info'].apply(lambda x: x.split('.')[1])
num_tur_stay_full['Categoria_gasto'] = num_tur_stay_full['info'].apply(lambda x: x.split('.')[2])

In [60]:
num_tur_stay_full = num_tur_stay_full.drop('info', axis = 1)
num_tur_stay_full = num_tur_stay_full.reindex(columns = ['Tipo_alojamiento', 'Categoria_gasto', 'Valor', 'Fecha'])
num_tur_stay_full.head()

Unnamed: 0,Tipo_alojamiento,Categoria_gasto,Valor,Fecha
0,Total,Total Nacional,7460277.0,2022-06-01
1,Total,Total Nacional,6966913.0,2022-05-01
2,Total,Total Nacional,6102142.0,2022-04-01
3,Total,Total Nacional,4032127.0,2022-03-01
4,Total,Total Nacional,3156809.0,2022-02-01


In [61]:
num_tur_stay_full.isna().sum()

Tipo_alojamiento    0
Categoria_gasto     0
Valor               0
Fecha               0
dtype: int64

In [62]:
num_tur_stay_full = num_tur_stay_full.rename(columns = {'Tipo_alojamiento': 'stay_tipe',
                                                        'Categoria_gasto': 'expense_type',
                                                        'Valor':'value',
                                                        'Fecha':'date'})

In [63]:
file_name = 'num_turists_by_stay.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

num_tur_stay_full.to_excel(path+file_name)

### Statistic: Número de turistas según motivo del viaje

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=13864

In [64]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/23985?nult=10'
file_name = 'num_turists_by_motive.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

num_tur_motive = get_data_and_create_excel_file(url, file_name, path)
num_tur_motive.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG4583707,Turista. Total. Total Nacional. Dato base.,3,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
1,FREG4583711,Turista. Total. Total Nacional. Tasa de variac...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
2,FREG4583706,"Turista. Ocio, recreo y vacaciones. Total Naci...",3,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
3,FREG4583710,"Turista. Ocio, recreo y vacaciones. Total Naci...",135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
4,FREG4583705,Turista. Motivo profesional. Total Nacional. D...,3,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."


In [65]:
num_tur_motive.Nombre.unique()

array(['Turista. Total. Total Nacional. Dato base. ',
       'Turista. Total. Total Nacional. Tasa de variación anual. ',
       'Turista. Ocio, recreo y vacaciones. Total Nacional. Dato base. ',
       'Turista. Ocio, recreo y vacaciones. Total Nacional. Tasa de variación anual. ',
       'Turista. Motivo profesional. Total Nacional. Dato base. ',
       'Turista. Motivo profesional. Total Nacional. Tasa de variación anual. ',
       'Turista. Otros. Total Nacional. Dato base. ',
       'Turista. Otros. Total Nacional. Tasa de variación anual. '],
      dtype=object)

In [66]:
num_tur_motive = num_tur_motive.loc[num_tur_motive['Nombre'].str.contains('Dato base')]
num_tur_motive['Nombre'].unique()

array(['Turista. Total. Total Nacional. Dato base. ',
       'Turista. Ocio, recreo y vacaciones. Total Nacional. Dato base. ',
       'Turista. Motivo profesional. Total Nacional. Dato base. ',
       'Turista. Otros. Total Nacional. Dato base. '], dtype=object)

In [67]:
num_tur_motive_full = normalize_json(num_tur_motive)
num_tur_motive_full['info'].unique()

array(['Turista. Total. Total Nacional. Dato base. ',
       'Turista. Ocio, recreo y vacaciones. Total Nacional. Dato base. ',
       'Turista. Motivo profesional. Total Nacional. Dato base. ',
       'Turista. Otros. Total Nacional. Dato base. '], dtype=object)

In [68]:
num_tur_motive_full['Motivo'] = num_tur_motive_full['info'].apply(lambda x: x.split('.')[2])
num_tur_motive_full = num_tur_motive_full.drop('info', axis=1)
num_tur_motive_full.head()

Unnamed: 0,Fecha,Valor,Motivo
0,2021-01-01,31180802.0,Total Nacional
1,2020-01-01,18933103.0,Total Nacional
2,2019-01-01,83509153.0,Total Nacional
3,2018-01-01,82808413.0,Total Nacional
4,2017-01-01,81868522.0,Total Nacional


In [69]:
num_tur_motive_full = num_tur_motive_full.reindex(columns = ['Motivo', 'Valor', 'Fecha'])
num_tur_motive_full.isna().sum()

Motivo    0
Valor     0
Fecha     0
dtype: int64

In [70]:
num_tur_motive_full = num_tur_motive_full.rename(columns = {'Motivo':'motive',
                                                           'Valor':'value',
                                                           'Fecha': 'date'})

In [71]:
file_name = 'num_turists_by_motive.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

num_tur_motive_full.to_excel(path+file_name)

### Statistic: Número de turistas según país de residencia

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=10822

In [72]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/10822?date=20151001:20220601'
file_name = 'num_turists_by_origin.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

num_tur_origin = get_data_and_create_excel_file(url, file_name, path)
num_tur_origin.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG337,Total. Turista. Dato base. Total Nacional.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,FREG321,Total. Turista. Tasa de variación anual. Total...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,FREG1173,Total. Turista. Total Nacional. Acumulado en l...,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,FREG1189,Total. Turista. Total Nacional. Tasa de variac...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,FREG336,Alemania. Turista. Dato base. Total Nacional.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [73]:
num_tur_origin = num_tur_origin.loc[num_tur_origin['Nombre'].str.contains('Dato base')]
num_tur_origin_full = normalize_json(num_tur_origin)
num_tur_origin_full['info'].unique()

array(['Total. Turista. Dato base. Total Nacional. ',
       'Alemania. Turista. Dato base. Total Nacional. ',
       'Bélgica. Turista. Dato base. Total Nacional. ',
       'Francia. Turista. Dato base. Total Nacional. ',
       'Irlanda. Turista. Dato base. Total Nacional. ',
       'Italia. Turista. Dato base. Total Nacional. ',
       'Países Bajos. Turista. Dato base. Total Nacional. ',
       'Países Nórdicos. Turista. Dato base. Total Nacional. ',
       'Portugal. Turista. Dato base. Total Nacional. ',
       'Reino Unido. Turista. Dato base. Total Nacional. ',
       'Rusia. Turista. Dato base. Total Nacional. ',
       'Suiza. Turista. Dato base. Total Nacional. ',
       'Europa menos UE28. Turista. Dato base. Total Nacional. ',
       'Estados Unidos de América. Turista. Dato base. Total Nacional. ',
       'Resto América. Turista. Dato base. Total Nacional. ',
       'Resto del Mundo. Turista. Dato base. Total Nacional. '],
      dtype=object)

In [74]:
num_tur_origin_full['info'] = num_tur_origin_full['info'].apply(lambda x: x.split('.')[0])
num_tur_origin_full = num_tur_origin_full.rename(columns = {'info':'Origin'})
num_tur_origin_full.head()

Unnamed: 0,Origin,Fecha,Valor
0,Total,2022-06-01,7460277.0
1,Total,2022-05-01,6966913.0
2,Total,2022-04-01,6102142.0
3,Total,2022-03-01,4032127.0
4,Total,2022-02-01,3156809.0


In [75]:
num_tur_origin_full = num_tur_origin_full.reindex(columns = ['Origin', 'Valor', 'Fecha'])
num_tur_origin_full.isna().sum()

Origin     0
Valor     10
Fecha      0
dtype: int64

In [76]:
num_tur_origin_full = num_tur_origin_full.dropna(axis=0)
num_tur_origin_full.isna().sum()

Origin    0
Valor     0
Fecha     0
dtype: int64

In [77]:
num_tur_origin_full = num_tur_origin_full.rename(columns = {'Origin':'origin',
                                                           'Valor':'value',
                                                           'Fecha': 'date'})

In [78]:
file_name = 'num_turists_by_origin.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

num_tur_origin_full.to_excel(path+file_name)

 ### Combine
- num_turists_by_stay / turism_expenditure_by_stay
- num_turists_by_motive / turism_expenditure_by_trip_motive
- num_turists_by_origin / turism_expenditure_by_ccaa_origin

## Zoom In: hotels & turistic apartments

### Statistics

Hotels:

- Viajes y pernoctaciones por puntos turísticos (https://www.ine.es/jaxiT3/Tabla.htm?t=2078)
- Establecimientos, plazas estimadas, grados de ocupación y personal empleado por puntos turísticos (https://www.ine.es/jaxiT3/Tabla.htm?t=2066)
- Tarifa media (ADR) por puntos turísticos (https://www.ine.es/jaxiT3/Tabla.htm?t=46298)
- Índice de ingresos hoteleros, índices y tasas de variación interanual (https://www.ine.es/jaxiT3/Tabla.htm?t=2054)

In [79]:
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

hotels_nights = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/49370?date=20050101:20220701',
                                               'hotels_nights.xlsx', path)

hotels_overview = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/49372?date=20050101:20220701',
                                                 'hotels_overview.xlsx', path)

hotels_adr = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/46298?date=20050101:20220701',
                                            'hotels_adr.xlsx', path)

hotels_revenue = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/2054?date=20050101:20220701',
                                               'hotels_revenue.xlsx', path)

##### Hotels_nights

In [80]:
hotels_nights.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,EOT2611,Nacional. Viajeros. Vitoria-Gastéiz. Residente...,213,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,EOT2612,Nacional. Viajeros. Vitoria-Gastéiz. Residente...,213,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,EOT2613,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,242,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,EOT2614,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,242,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,EOT2615,Nacional. Viajeros. Albacete. Residentes en Es...,213,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [81]:
hotels_nights.Nombre.unique()

array(['Nacional. Viajeros. Vitoria-Gastéiz. Residentes en España.',
       'Nacional. Viajeros. Vitoria-Gastéiz. Residentes en el extranjero.',
       'Nacional. Pernoctaciones. Vitoria-Gastéiz. Residentes en España.',
       'Nacional. Pernoctaciones. Vitoria-Gastéiz. Residentes en el extranjero.',
       'Nacional. Viajeros. Albacete. Residentes en España.',
       'Nacional. Viajeros. Albacete. Residentes en el extranjero.',
       'Nacional. Pernoctaciones. Albacete. Residentes en España.',
       'Nacional. Pernoctaciones. Albacete. Residentes en el extranjero.',
       'Nacional. Viajeros. Alicante. Residentes en España.',
       'Nacional. Viajeros. Alicante. Residentes en el extranjero.',
       'Nacional. Pernoctaciones. Alicante. Residentes en España.',
       'Nacional. Pernoctaciones. Alicante. Residentes en el extranjero.',
       'Nacional. Viajeros. Benidorm. Residentes en España.',
       'Nacional. Viajeros. Benidorm. Residentes en el extranjero.',
       'Nacional. P

In [82]:
hotels_nights = hotels_nights.loc[hotels_nights.Nombre.str.contains('Pernoctaciones', regex = True)]
hotels_nights.Nombre.unique()

array(['Nacional. Pernoctaciones. Vitoria-Gastéiz. Residentes en España.',
       'Nacional. Pernoctaciones. Vitoria-Gastéiz. Residentes en el extranjero.',
       'Nacional. Pernoctaciones. Albacete. Residentes en España.',
       'Nacional. Pernoctaciones. Albacete. Residentes en el extranjero.',
       'Nacional. Pernoctaciones. Alicante. Residentes en España.',
       'Nacional. Pernoctaciones. Alicante. Residentes en el extranjero.',
       'Nacional. Pernoctaciones. Benidorm. Residentes en España.',
       'Nacional. Pernoctaciones. Benidorm. Residentes en el extranjero.',
       'Nacional. Establecimientos hoteleros. Pernoctaciones. 03063-Denia. Residentes en España.',
       'Nacional. Establecimientos hoteleros. Pernoctaciones. 03063-Denia. Residentes en el extranjero.',
       'Pernoctaciones. Total categorías. Elche/Elx. Residentes en España. Dato base. ',
       'Pernoctaciones. Total categorías. Elche/Elx. Residentes en el Extranjero. Dato base. ',
       'Nacional. Pernoc

In [83]:
hotels_nights_full = normalize_json(hotels_nights)
hotels_nights_full.head()

Unnamed: 0,info,Fecha,Valor,Notas
0,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-06-01,38807.0,
1,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-05-01,39187.0,
2,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-04-01,39147.0,
3,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-03-01,36476.0,
4,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-02-01,30212.0,


In [84]:
hotels_nights_full['info'].unique()

array(['Nacional. Pernoctaciones. Vitoria-Gastéiz. Residentes en España.',
       'Nacional. Pernoctaciones. Vitoria-Gastéiz. Residentes en el extranjero.',
       'Nacional. Pernoctaciones. Albacete. Residentes en España.',
       'Nacional. Pernoctaciones. Albacete. Residentes en el extranjero.',
       'Nacional. Pernoctaciones. Alicante. Residentes en España.',
       'Nacional. Pernoctaciones. Alicante. Residentes en el extranjero.',
       'Nacional. Pernoctaciones. Benidorm. Residentes en España.',
       'Nacional. Pernoctaciones. Benidorm. Residentes en el extranjero.',
       'Nacional. Establecimientos hoteleros. Pernoctaciones. 03063-Denia. Residentes en España.',
       'Nacional. Establecimientos hoteleros. Pernoctaciones. 03063-Denia. Residentes en el extranjero.',
       'Pernoctaciones. Total categorías. Elche/Elx. Residentes en España. Dato base. ',
       'Pernoctaciones. Total categorías. Elche/Elx. Residentes en el Extranjero. Dato base. ',
       'Nacional. Pernoc

Handle separately:
- Tourist sites with numbers on it
- Rows with info reversed

In [85]:
# Compare index with full dataset

In [86]:
info_reversed = hotels_nights_full.loc[~hotels_nights_full['info'].str.contains('Nacional')]
info_reversed.head()

Unnamed: 0,info,Fecha,Valor,Notas
660,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-06-01,20316.0,
661,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-05-01,17332.0,
662,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-04-01,17366.0,
663,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-03-01,17031.0,
664,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-02-01,14582.0,


In [87]:
info_reversed['tourist_point'] = info_reversed['info'].apply(lambda x: x.split('.')[0])
info_reversed['origin'] = info_reversed['info'].apply(lambda x: x.split('.')[3])
info_reversed['stay_type'] = "Establecimiento hotelero"
info_reversed.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  info_reversed['tourist_point'] = info_reversed['info'].apply(lambda x: x.split('.')[0])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  info_reversed['origin'] = info_reversed['info'].apply(lambda x: x.split('.')[3])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  info_reversed['stay_type'] = "Establ

Unnamed: 0,info,Fecha,Valor,Notas,tourist_point,origin,stay_type
660,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-06-01,20316.0,,Pernoctaciones,Residentes en España,Establecimiento hotelero
661,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-05-01,17332.0,,Pernoctaciones,Residentes en España,Establecimiento hotelero
662,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-04-01,17366.0,,Pernoctaciones,Residentes en España,Establecimiento hotelero
663,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-03-01,17031.0,,Pernoctaciones,Residentes en España,Establecimiento hotelero
664,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-02-01,14582.0,,Pernoctaciones,Residentes en España,Establecimiento hotelero


In [88]:
info_reversed = info_reversed[info_reversed['tourist_point'] != 'Pernoctaciones']
info_reversed.head()

Unnamed: 0,info,Fecha,Valor,Notas,tourist_point,origin,stay_type
2503,Sitges. Pernoctaciones. Total categorías. Resi...,2022-06-01,19813.0,,Sitges,Residentes en España,Establecimiento hotelero
2504,Sitges. Pernoctaciones. Total categorías. Resi...,2022-05-01,19764.0,,Sitges,Residentes en España,Establecimiento hotelero
2505,Sitges. Pernoctaciones. Total categorías. Resi...,2022-04-01,20620.0,,Sitges,Residentes en España,Establecimiento hotelero
2506,Sitges. Pernoctaciones. Total categorías. Resi...,2022-03-01,13160.0,,Sitges,Residentes en España,Establecimiento hotelero
2507,Sitges. Pernoctaciones. Total categorías. Resi...,2022-02-01,9639.0,,Sitges,Residentes en España,Establecimiento hotelero


In [89]:
info_reversed_idx = info_reversed.index
info_reversed.head()

Unnamed: 0,info,Fecha,Valor,Notas,tourist_point,origin,stay_type
2503,Sitges. Pernoctaciones. Total categorías. Resi...,2022-06-01,19813.0,,Sitges,Residentes en España,Establecimiento hotelero
2504,Sitges. Pernoctaciones. Total categorías. Resi...,2022-05-01,19764.0,,Sitges,Residentes en España,Establecimiento hotelero
2505,Sitges. Pernoctaciones. Total categorías. Resi...,2022-04-01,20620.0,,Sitges,Residentes en España,Establecimiento hotelero
2506,Sitges. Pernoctaciones. Total categorías. Resi...,2022-03-01,13160.0,,Sitges,Residentes en España,Establecimiento hotelero
2507,Sitges. Pernoctaciones. Total categorías. Resi...,2022-02-01,9639.0,,Sitges,Residentes en España,Establecimiento hotelero


Hotels nights num

In [90]:
hotels_nights_num = hotels_nights_full.loc[hotels_nights_full['info'].str.contains('[0-9]')]
hotels_nights_num_idx = hotels_nights_num.index
hotels_nights_full = hotels_nights_full.drop(hotels_nights_num_idx)

In [91]:
hotels_nights_num['origin'] = hotels_nights_num['info'].apply(lambda x: x.split('.')[4])
hotels_nights_num['tourist_point'] = hotels_nights_num['info'].apply(lambda x: x.split('.')[3])
hotels_nights_num['stay_type'] = hotels_nights_num['info'].apply(lambda x: x.split('.')[1])

In [92]:
hotels_nights_num.head()

Unnamed: 0,info,Fecha,Valor,Notas,origin,tourist_point,stay_type
528,Nacional. Establecimientos hoteleros. Pernocta...,2022-06-01,34828.0,,Residentes en España,03063-Denia,Establecimientos hoteleros
529,Nacional. Establecimientos hoteleros. Pernocta...,2022-05-01,29564.0,,Residentes en España,03063-Denia,Establecimientos hoteleros
530,Nacional. Establecimientos hoteleros. Pernocta...,2022-04-01,25132.0,,Residentes en España,03063-Denia,Establecimientos hoteleros
531,Nacional. Establecimientos hoteleros. Pernocta...,2022-03-01,,,Residentes en España,03063-Denia,Establecimientos hoteleros
532,Nacional. Establecimientos hoteleros. Pernocta...,2022-02-01,,,Residentes en España,03063-Denia,Establecimientos hoteleros


In [93]:
hotels_nights_num.head()

Unnamed: 0,info,Fecha,Valor,Notas,origin,tourist_point,stay_type
528,Nacional. Establecimientos hoteleros. Pernocta...,2022-06-01,34828.0,,Residentes en España,03063-Denia,Establecimientos hoteleros
529,Nacional. Establecimientos hoteleros. Pernocta...,2022-05-01,29564.0,,Residentes en España,03063-Denia,Establecimientos hoteleros
530,Nacional. Establecimientos hoteleros. Pernocta...,2022-04-01,25132.0,,Residentes en España,03063-Denia,Establecimientos hoteleros
531,Nacional. Establecimientos hoteleros. Pernocta...,2022-03-01,,,Residentes en España,03063-Denia,Establecimientos hoteleros
532,Nacional. Establecimientos hoteleros. Pernocta...,2022-02-01,,,Residentes en España,03063-Denia,Establecimientos hoteleros


In [94]:
hotels_nights_num['tourist_point'] = hotels_nights_num['tourist_point'].apply(lambda x: x.split('-')[1])

In [95]:
hotels_nights_num.head()

Unnamed: 0,info,Fecha,Valor,Notas,origin,tourist_point,stay_type
528,Nacional. Establecimientos hoteleros. Pernocta...,2022-06-01,34828.0,,Residentes en España,Denia,Establecimientos hoteleros
529,Nacional. Establecimientos hoteleros. Pernocta...,2022-05-01,29564.0,,Residentes en España,Denia,Establecimientos hoteleros
530,Nacional. Establecimientos hoteleros. Pernocta...,2022-04-01,25132.0,,Residentes en España,Denia,Establecimientos hoteleros
531,Nacional. Establecimientos hoteleros. Pernocta...,2022-03-01,,,Residentes en España,Denia,Establecimientos hoteleros
532,Nacional. Establecimientos hoteleros. Pernocta...,2022-02-01,,,Residentes en España,Denia,Establecimientos hoteleros


Hotels night full

In [96]:
hotels_nights_full = hotels_nights_full.drop(info_reversed_idx)
hotels_nights_full['origin'] = hotels_nights_full['info'].apply(lambda x: x.split('.')[3])
hotels_nights_full['tourist_point'] = hotels_nights_full['info'].apply(lambda x: x.split('.')[2])
hotels_nights_full['stay_type'] = "Establecimientos hoteleros"

In [97]:
hotels_nights_full.head()

Unnamed: 0,info,Fecha,Valor,Notas,origin,tourist_point,stay_type
0,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-06-01,38807.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
1,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-05-01,39187.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
2,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-04-01,39147.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
3,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-03-01,36476.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
4,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-02-01,30212.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros


In [98]:
hotels_nights_combined = pd.concat([hotels_nights_full, hotels_nights_num, info_reversed]).reset_index(drop=True)
hotels_nights_combined

Unnamed: 0,info,Fecha,Valor,Notas,origin,tourist_point,stay_type
0,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-06-01,38807.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
1,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-05-01,39187.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
2,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-04-01,39147.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
3,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-03-01,36476.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
4,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-02-01,30212.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
...,...,...,...,...,...,...,...
13950,Yaiza. Pernoctaciones. Total categorías. Resid...,2017-05-01,372955.0,,Residentes en el Extranjero,Yaiza,Establecimiento hotelero
13951,Yaiza. Pernoctaciones. Total categorías. Resid...,2017-04-01,411665.0,,Residentes en el Extranjero,Yaiza,Establecimiento hotelero
13952,Yaiza. Pernoctaciones. Total categorías. Resid...,2017-03-01,386704.0,,Residentes en el Extranjero,Yaiza,Establecimiento hotelero
13953,Yaiza. Pernoctaciones. Total categorías. Resid...,2017-02-01,348037.0,,Residentes en el Extranjero,Yaiza,Establecimiento hotelero


In [99]:
hotels_nights_combined.shape

(13955, 7)

In [100]:
missing_values = hotels_nights_combined.loc[hotels_nights_combined['Valor'].isna()]
missing_values['tourist_point'].value_counts().sort_values(ascending = False).head(20)

 Torrevieja                   116
Villaviciosa                   89
Palencia                       70
Benavente                      68
Cambrils                       65
Salou                          62
Capdepera                      62
Sant Llorenç des Cardassar     60
Estepona                       56
 Gandía                        52
Grove (O)                      44
Antequera                      42
Denia                          42
 Mojácar                       41
Sallent de Gállego             40
Sanxenxo                       40
 Llanes                        39
Cangas de Onís                 37
Naut Arant                     36
Viveiro                        36
Name: tourist_point, dtype: int64

In [101]:
nan_df = pd.DataFrame()

nan_df['missing_values'] = missing_values['tourist_point'].value_counts()
nan_df['total_values'] = hotels_nights_combined.tourist_point.value_counts()
nan_df['percentage_nan'] = round((missing_values['tourist_point'].value_counts() / hotels_nights_combined.tourist_point.value_counts())*100, 2)

display(nan_df)

Unnamed: 0,missing_values,total_values,percentage_nan
Torrevieja,116,132,87.88
Villaviciosa,89,127,70.08
Palencia,70,132,53.03
Benavente,68,132,51.52
Cambrils,65,131,49.62
...,...,...,...
Pamplona,3,131,2.29
Ronda,3,131,2.29
Marbella,3,131,2.29
León,3,131,2.29


In [102]:
nan_filtered = nan_df[nan_df['percentage_nan'] > 10]
display(nan_filtered)

Unnamed: 0,missing_values,total_values,percentage_nan
Torrevieja,116,132,87.88
Villaviciosa,89,127,70.08
Palencia,70,132,53.03
Benavente,68,132,51.52
Cambrils,65,131,49.62
Salou,62,132,46.97
Capdepera,62,132,46.97
Sant Llorenç des Cardassar,60,128,46.88
Estepona,56,132,42.42
Gandía,52,132,39.39


In [103]:
nan_city_name = list(nan_filtered.index)
print(nan_city_name)

[' Torrevieja', 'Villaviciosa', 'Palencia', 'Benavente', 'Cambrils', 'Salou', 'Capdepera', 'Sant Llorenç des Cardassar', 'Estepona', ' Gandía', 'Grove (O)', 'Antequera', 'Denia', ' Mojácar', 'Sanxenxo', 'Sallent de Gállego', ' Llanes', 'Cangas de Onís', 'Naut Arant', 'Viveiro', ' Calviá', 'Cazorla', ' Ponferrada', ' Roquetas De Mar', ' Algeciras', ' Arcos De La Frontera', 'Lloret de Mar', 'Benasque', ' Benalmádena', 'Jaca', ' Nerja', 'Peñiscola', ' Ribadeo', ' Tias', 'Teguise', ' Tarragona', ' Tarifa', 'Sigüenza', ' Torremolinos', 'Plasencia', 'Níjar', 'Vielha e Mijaran', ' Fuengirola', ' Albarracín', 'Sitges', 'Yaiza', 'Trujillo', ' Elche/Elx', ' Santa Cruz De Tenerife', ' Lleida']


In [104]:
hotels_nights_combined = hotels_nights_combined[hotels_nights_combined.
                                                tourist_point.isin(nan_city_name) == False]

hotels_nights_combined = hotels_nights_combined.fillna(0)
hotels_nights_combined.isna().sum()

info             0
Fecha            0
Valor            0
Notas            0
origin           0
tourist_point    0
stay_type        0
dtype: int64

In [105]:
hotels_nights_combined.head()

Unnamed: 0,info,Fecha,Valor,Notas,origin,tourist_point,stay_type
0,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-06-01,38807.0,0,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
1,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-05-01,39187.0,0,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
2,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-04-01,39147.0,0,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
3,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-03-01,36476.0,0,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
4,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-02-01,30212.0,0,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros


In [106]:
hotels_nights_combined = hotels_nights_combined.drop(['info', 'Notas'], axis= 1)
hotels_nights_combined = hotels_nights_combined.reindex(columns = ['stay_type', 'tourist_point', 'Valor', 'origin', 'Fecha'])
hotels_nights_combined = hotels_nights_combined.rename(columns = {'Valor':'value', 'Fecha':'date'})
hotels_nights_combined.head()

Unnamed: 0,stay_type,tourist_point,value,origin,date
0,Establecimientos hoteleros,Vitoria-Gastéiz,38807.0,Residentes en España,2022-06-01
1,Establecimientos hoteleros,Vitoria-Gastéiz,39187.0,Residentes en España,2022-05-01
2,Establecimientos hoteleros,Vitoria-Gastéiz,39147.0,Residentes en España,2022-04-01
3,Establecimientos hoteleros,Vitoria-Gastéiz,36476.0,Residentes en España,2022-03-01
4,Establecimientos hoteleros,Vitoria-Gastéiz,30212.0,Residentes en España,2022-02-01


In [107]:
file_name = 'hotels_nights.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

num_tur_origin_full.to_excel(path+file_name)

##### Hotels overview

In [108]:
hotels_overview.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,EOT2971,Nacional. Número de establecimientos abiertos ...,244,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,EOT24665,Vitoria-Gasteiz. Número de habitaciones estima...,264,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,EOT3043,Nacional. Número de plazas estimadas. Vitoria-...,245,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,EOT3115,Nacional. Grado de ocupación por plazas. Vitor...,101,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,EOT11585,Nacional. Grado de ocupación por plazas en fin...,101,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [109]:
hotels_overview.Nombre.unique()

array(['Nacional. Número de establecimientos abiertos estimados. Vitoria-Gastéiz.',
       'Vitoria-Gasteiz. Número de habitaciones estimadas. Total categorías. Dato base. ',
       'Nacional. Número de plazas estimadas. Vitoria-Gastéiz.',
       'Nacional. Grado de ocupación por plazas. Vitoria-Gastéiz.',
       'Nacional. Grado de ocupación por plazas en fin de semana. 01059-Vitoria-Gastéiz.',
       'Nacional. Grado de ocupación por habitaciones. Vitoria-Gastéiz.',
       'Nacional. Personal empleado. Vitoria-Gastéiz.',
       'Nacional. Número de establecimientos abiertos estimados. Albacete.',
       'Albacete. Número de habitaciones estimadas. Total categorías. Dato base. ',
       'Nacional. Número de plazas estimadas. Albacete.',
       'Nacional. Grado de ocupación por plazas. Albacete.',
       'Nacional. Grado de ocupación por plazas en fin de semana. 02003-Albacete.',
       'Nacional. Grado de ocupación por habitaciones. Albacete.',
       'Nacional. Personal empleado. Alb

In [110]:
hotels_overview_full = normalize_json(hotels_overview)

In [111]:
hotels_overview_full = hotels_overview_full.drop('Notas', axis = 1)
hotels_overview_full.head()
hotels_overview_full.shape

(48972, 3)

##### Extracting rows that don't contain 'national' in the first position of info cell

In [112]:
rows_no_national_first = hotels_overview_full.loc[~hotels_overview_full['info'].str.contains('Nacional')]
rows_no_national_first['info'].unique()
rows_no_national_first.shape

(10560, 3)

##### Extracting rows that don't contain cities or national in the first position of info cell

In [130]:
# %%writefile -a functions.py

def extract_rows(df, col_name):
    index_lst = []
    for i,v in enumerate(df[col_name]):
        v_splited = v.split('.')
        if 'Personal' in v_splited[0]:
            index_lst.append(i)
        if 'Número de ' in v_splited[0]:
            index_lst.append(i)
        elif 'Grado' in v_splited[0]:
            index_lst.append(i)
    return index_lst

In [131]:
rows_no_nat_city_first = extract_rows(rows_no_national_first, 'info')
rows_no_nat_city_first = rows_no_national_first.iloc[rows_no_nat_city_first]
rows_no_nat_city_first.shape

(198, 3)

In [132]:
# Droping last subset from rows_no_national_first
print('Rows_no_national - Before droping rows:', rows_no_national_first.shape)
rows_no_national_first = rows_no_national_first.drop(rows_no_nat_city_first.index)
print('Rows without national and cities:', rows_no_nat_city_first.shape)
print('Rows_no_national - After droping rows:', rows_no_national_first.shape)

Rows_no_national - Before droping rows: (9570, 3)
Rows without national and cities: (198, 3)
Rows_no_national - After droping rows: (9372, 3)


##### Extracting rows that contain national in the first position of info cell but have an extra value.

In [133]:
rows_extra_value = hotels_overview_full[hotels_overview_full['info'].str.contains('hoteleros')]
print('Rows_extra_value shape:', rows_extra_value.shape)

KeyError: 'info'

##### Droping subsets from main dataframe

In [117]:
index_lst = list(rows_extra_value.index) + list(rows_no_nat_city_first.index) + list(rows_no_national_first.index)
hotels_overview_full = hotels_overview_full.drop(index_lst, axis = 0)
print(hotels_overview_full.shape)

(28512, 3)


##### Now we're going to create columns for each subset, but first we still need to clean some numbers on tourist_point column.

In [118]:
hotels_overview_full['info'].unique()

array(['Nacional. Número de establecimientos abiertos estimados. Vitoria-Gastéiz.',
       'Nacional. Número de plazas estimadas. Vitoria-Gastéiz.',
       'Nacional. Grado de ocupación por plazas. Vitoria-Gastéiz.',
       'Nacional. Grado de ocupación por plazas en fin de semana. 01059-Vitoria-Gastéiz.',
       'Nacional. Grado de ocupación por habitaciones. Vitoria-Gastéiz.',
       'Nacional. Personal empleado. Vitoria-Gastéiz.',
       'Nacional. Número de establecimientos abiertos estimados. Albacete.',
       'Nacional. Número de plazas estimadas. Albacete.',
       'Nacional. Grado de ocupación por plazas. Albacete.',
       'Nacional. Grado de ocupación por plazas en fin de semana. 02003-Albacete.',
       'Nacional. Grado de ocupación por habitaciones. Albacete.',
       'Nacional. Personal empleado. Albacete.',
       'Nacional. Número de establecimientos abiertos estimados. Alicante.',
       'Nacional. Número de plazas estimadas. Alicante.',
       'Nacional. Grado de ocup

In [128]:
hotels_overview_full['tourist_point'] = hotels_overview_full['info'].apply(lambda x: x.split('.')[2])
hotels_overview_full['category'] = hotels_overview_full['info'].apply(lambda x: x.split('.')[1])
hotels_overview_full = hotels_overview_full.drop('info', axis = 1)
hotels_overview_full.head()

KeyError: 'info'

In [150]:
num_cities = hotels_overview_full.loc[hotels_overview_full['tourist_point'].str.contains('[0-9]')]
num_cities['tourist_point'] = num_cities['tourist_point'].apply(lambda x: x.split('-', 1)[1])
hotels_overview_full['tourist_point'].loc[num_cities['tourist_point'].index] = num_cities['tourist_point']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  num_cities['tourist_point'] = num_cities['tourist_point'].apply(lambda x: x.split('-', 1)[1])
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  hotels_overview_full['tourist_point'].loc[num_cities['tourist_point'].index] = num_cities['tourist_point']


In [151]:
hotels_overview_full['tourist_point'].unique()

array([' Vitoria-Gastéiz', 'Vitoria-Gastéiz', ' Albacete', 'Albacete',
       ' Alicante', 'Alicante', ' Benidorm', 'Benidorm', ' Torrevieja',
       'Torrevieja', ' Almería', 'Almería', ' Mojácar', 'Mojácar',
       ' Roquetas De Mar', 'Roquetas De Mar', ' Ávila', 'Ávila',
       ' Mérida', 'Mérida', ' Calviá', 'Calviá', ' Palma De Mallorca',
       'Palma De Mallorca', ' Barcelona', 'Barcelona', ' Burgos',
       'Burgos', ' Cáceres', 'Cáceres', ' Algeciras', 'Algeciras',
       ' Arcos De La Frontera', 'Arcos De La Frontera', ' Cádiz', 'Cádiz',
       ' Jerez De La Frontera', 'Jerez De La Frontera',
       ' El Puerto De Santa María', 'El Puerto De Santa María', ' Tarifa',
       'Tarifa', ' Castellón De La Plana', 'Castellón De La Plana',
       ' Córdoba', 'Córdoba', ' Coruña', 'Coruña',
       ' Santiago De Compostela', 'Santiago De Compostela', ' Cuenca',
       'Cuenca', ' Granada', 'Granada', ' Donostia-San Sebastián',
       'Donostia-San Sebastián', ' León', 'León', ' Lleida

In [152]:
hotels_overview_full['tourist_point'] = hotels_overview_full['tourist_point'].apply(lambda x: x.lstrip())
hotels_overview_full['tourist_point'].unique()

array(['Vitoria-Gastéiz', 'Albacete', 'Alicante', 'Benidorm',
       'Torrevieja', 'Almería', 'Mojácar', 'Roquetas De Mar', 'Ávila',
       'Mérida', 'Calviá', 'Palma De Mallorca', 'Barcelona', 'Burgos',
       'Cáceres', 'Algeciras', 'Arcos De La Frontera', 'Cádiz',
       'Jerez De La Frontera', 'El Puerto De Santa María', 'Tarifa',
       'Castellón De La Plana', 'Córdoba', 'Coruña',
       'Santiago De Compostela', 'Cuenca', 'Granada',
       'Donostia-San Sebastián', 'León', 'Lleida', 'Logroño', 'Lugo',
       'Ribadeo', 'Madrid', 'Benalmádena', 'Fuengirola', 'Málaga',
       'Marbella', 'Nerja', 'Ronda', 'Torremolinos', 'Cartagena',
       'Murcia', 'Pamplona', 'Gijón', 'Llanes', 'Oviedo', 'Mogán',
       'Pajara', 'Las Palmas De Gran Canaria',
       'San Bartolomé De Tirajana', 'Tias', 'Vigo', 'Salamanca', 'Adeje',
       'Arona', 'Puerto De La Cruz', 'Santa Cruz De Tenerife',
       'Santander', 'Segovia', 'Sevilla', 'Soria', 'Tarragona',
       'Albarracín', 'Teruel', 'Toledo

##### Let's create adequate columns for each subset.

In [134]:
rows_no_national_first['info'].unique()

array(['Vitoria-Gasteiz. Número de habitaciones estimadas. Total categorías. Dato base. ',
       'Albacete. Número de habitaciones estimadas. Total categorías. Dato base. ',
       'Alicante/Alacant. Número de habitaciones estimadas. Total categorías. Dato base. ',
       'Benidorm. Número de habitaciones estimadas. Total categorías. Dato base. ',
       'Dénia. Número de habitaciones estimadas. Total categorías. Dato base. ',
       'Elche/Elx. Número de habitaciones estimadas. Total categorías. Dato base. ',
       'Torrevieja. Número de habitaciones estimadas. Total categorías. Dato base. ',
       'Almería. Número de habitaciones estimadas. Total categorías. Dato base. ',
       'Mojácar. Número de habitaciones estimadas. Total categorías. Dato base. ',
       'Níjar. Número de habitaciones estimadas. Total categorías. Dato base. ',
       'Roquetas de Mar. Número de habitaciones estimadas. Total categorías. Dato base. ',
       'Ávila. Número de habitaciones estimadas. Total cate

In [135]:
rows_no_national_first['tourist_point'] = rows_no_national_first['info'].apply(lambda x: x.split('.')[0])
rows_no_national_first['category'] = rows_no_national_first['info'].apply(lambda x: x.split('.')[1])
rows_no_national_first = rows_no_national_first.drop('info', axis = 1)
rows_no_national_first.head()

Unnamed: 0,Fecha,Valor,tourist_point,category
66,2022-06-01,1632.0,Vitoria-Gasteiz,Número de habitaciones estimadas
67,2022-05-01,1628.0,Vitoria-Gasteiz,Número de habitaciones estimadas
68,2022-04-01,1632.0,Vitoria-Gasteiz,Número de habitaciones estimadas
69,2022-03-01,1629.0,Vitoria-Gasteiz,Número de habitaciones estimadas
70,2022-02-01,1628.0,Vitoria-Gasteiz,Número de habitaciones estimadas


In [139]:
rows_no_nat_city_first['info'].unique()

array(['Número de establecimientos abiertos estimados. Total categorías. Elche/Elx. Dato base. ',
       'Número de establecimientos abiertos estimados. Total categorías. Badajoz. Dato base. ',
       'Número de establecimientos abiertos estimados. Total categorías. Ponferrada. Dato base. '],
      dtype=object)

In [142]:
rows_no_nat_city_first['tourist_point'] = rows_no_nat_city_first['info'].apply(lambda x: x.split('.')[2])
rows_no_nat_city_first['category'] = rows_no_nat_city_first['info'].apply(lambda x: x.split('.')[0])
rows_no_nat_city_first = rows_no_nat_city_first.drop('info', axis = 1)
rows_no_nat_city_first.head()

Unnamed: 0,Fecha,Valor,tourist_point,category
2310,2022-06-01,20.0,Elche/Elx,Número de establecimientos abiertos estimados
2311,2022-05-01,20.0,Elche/Elx,Número de establecimientos abiertos estimados
2312,2022-04-01,20.0,Elche/Elx,Número de establecimientos abiertos estimados
2313,2022-03-01,20.0,Elche/Elx,Número de establecimientos abiertos estimados
2314,2022-02-01,19.0,Elche/Elx,Número de establecimientos abiertos estimados


In [143]:
rows_extra_value['info'].unique()

array(['Nacional. Establecimientos hoteleros. Número de establecimientos abiertos estimados. 03063-Denia.',
       'Nacional. Establecimientos hoteleros. Número de plazas estimadas. 03063-Denia.',
       'Nacional. Establecimientos hoteleros. Grado de ocupación por plazas. 03063-Denia.',
       'Nacional. Establecimientos hoteleros. Grado de ocupación por plazas en fin de semana. 03063-Denia.',
       'Nacional. Establecimientos hoteleros. Grado de ocupación por habitaciones. 03063-Denia.',
       'Nacional. Establecimientos hoteleros. Personal empleado. 03063-Denia.',
       'Nacional. Establecimientos hoteleros. Número de establecimientos abiertos estimados. 04066-Níjar.',
       'Nacional. Establecimientos hoteleros. Número de plazas estimadas. 04066-Níjar.',
       'Nacional. Establecimientos hoteleros. Grado de ocupación por plazas. 04066-Níjar.',
       'Nacional. Establecimientos hoteleros. Grado de ocupación por plazas en fin de semana. 04066-Níjar.',
       'Nacional. Establec

In [154]:
rows_extra_value['tourist_point'] = rows_extra_value['info'].apply(lambda x: x.split('.')[3])
rows_extra_value['category'] = rows_extra_value['info'].apply(lambda x: x.split('.')[2])
rows_extra_value = rows_extra_value.drop('info', axis = 1)
rows_extra_value.head()

Unnamed: 0,Fecha,Valor,tourist_point,category
1848,2022-06-01,30.0,03063-Denia,Número de establecimientos abiertos estimados
1849,2022-05-01,28.0,03063-Denia,Número de establecimientos abiertos estimados
1850,2022-04-01,25.0,03063-Denia,Número de establecimientos abiertos estimados
1851,2022-03-01,,03063-Denia,Número de establecimientos abiertos estimados
1852,2022-02-01,,03063-Denia,Número de establecimientos abiertos estimados


##### Let's clean the numbers

In [155]:
num_rows_extra_value = rows_extra_value.loc[rows_extra_value['tourist_point'].str.contains('[0-9]')]
num_rows_extra_value['tourist_point'] = num_rows_extra_value['tourist_point'].apply(lambda x: x.split('-', 1)[1])
rows_extra_value['tourist_point'].loc[num_rows_extra_value['tourist_point'].index] = num_rows_extra_value['tourist_point']
rows_extra_value['tourist_point'] = rows_extra_value['tourist_point'].apply(lambda x: x.lstrip())
rows_extra_value['tourist_point'].unique()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rows_extra_value['tourist_point'].loc[num_rows_extra_value['tourist_point'].index] = num_rows_extra_value['tourist_point']


array(['Denia', 'Níjar', 'Capdepera', 'Sant Llorenç des Cardassar',
       'Plasencia', 'Trujillo', 'Peñiscola', 'Lloret de Mar', 'Benasque',
       'Jaca', 'Sallent de Gállego', 'Cazorla', 'Naut Arant',
       'Vielha e Mijaran', 'Viveiro', 'Estepona', 'Ourense',
       'Cangas de Onís', 'Villaviciosa', 'Palencia', 'Grove (O)',
       'Sanxenxo', 'Cambrils', 'Salou', 'Benavente'], dtype=object)

In [156]:
rows_extra_value.head()

Unnamed: 0,Fecha,Valor,tourist_point,category
1848,2022-06-01,30.0,Denia,Número de establecimientos abiertos estimados
1849,2022-05-01,28.0,Denia,Número de establecimientos abiertos estimados
1850,2022-04-01,25.0,Denia,Número de establecimientos abiertos estimados
1851,2022-03-01,,Denia,Número de establecimientos abiertos estimados
1852,2022-02-01,,Denia,Número de establecimientos abiertos estimados


In [157]:
hotels_overview_full = pd.concat([hotels_overview_full, rows_no_nat_city_first, rows_no_national_first, rows_extra_value])
hotels_overview_full.head()

Unnamed: 0,Fecha,Valor,tourist_point,category
0,2022-06-01,39.0,Vitoria-Gastéiz,Número de establecimientos abiertos estimados
1,2022-05-01,39.0,Vitoria-Gastéiz,Número de establecimientos abiertos estimados
2,2022-04-01,39.0,Vitoria-Gastéiz,Número de establecimientos abiertos estimados
3,2022-03-01,39.0,Vitoria-Gastéiz,Número de establecimientos abiertos estimados
4,2022-02-01,39.0,Vitoria-Gastéiz,Número de establecimientos abiertos estimados


In [159]:
hotels_overview_full.shape

(47982, 4)

In [169]:
hotels_overview_full.isna().sum()

Fecha               0
Valor            6503
tourist_point       0
category            0
dtype: int64

In [173]:
missing_values = hotels_overview_full[hotels_overview_full['Valor'].isna()]
missing_values['tourist_point'].value_counts()

Torrevieja                   406
Villaviciosa                 329
Palencia                     245
Benavente                    238
Cambrils                     231
                            ... 
Palma                          2
Jerez de la Frontera           2
Castelló de la Plana           2
Coruña, A                      2
San Bartolomé de Tirajana      2
Name: tourist_point, Length: 134, dtype: int64

In [176]:
nan_df = pd.DataFrame()

nan_df['missing_values'] = missing_values['tourist_point'].value_counts()
nan_df['total_values'] = hotels_overview_full.tourist_point.value_counts()
nan_df['percentage_nan'] = round((missing_values['tourist_point'].value_counts() / hotels_overview_full.tourist_point.value_counts())*100, 2)

display(nan_df)

Unnamed: 0,missing_values,total_values,percentage_nan
Torrevieja,406,462,87.88
Villaviciosa,329,462,71.21
Palencia,245,462,53.03
Benavente,238,462,51.52
Cambrils,231,462,50.00
...,...,...,...
Palma,2,66,3.03
Jerez de la Frontera,2,66,3.03
Castelló de la Plana,2,66,3.03
"Coruña, A",2,66,3.03


In [178]:
nan_filtered = nan_df[nan_df['percentage_nan'] > 10]
display(nan_filtered)

Unnamed: 0,missing_values,total_values,percentage_nan
Torrevieja,406,462,87.88
Villaviciosa,329,462,71.21
Palencia,245,462,53.03
Benavente,238,462,51.52
Cambrils,231,462,50.0
Sant Llorenç des Cardassar,224,462,48.48
Salou,217,462,46.97
Capdepera,217,462,46.97
Estepona,196,462,42.42
Gandía,156,396,39.39


In [179]:
nan_city_name = list(nan_filtered.index)
print(nan_city_name)

['Torrevieja', 'Villaviciosa', 'Palencia', 'Benavente', 'Cambrils', 'Sant Llorenç des Cardassar', 'Salou', 'Capdepera', 'Estepona', 'Gandía', 'Antequera', 'Sanxenxo', 'Mojácar', 'Llanes', 'Sallent de Gállego', 'Grove (O)', 'Cangas de Onís', 'Denia', 'Viveiro', 'Cazorla', 'Naut Arant', 'Calviá', 'Algeciras', 'Benasque', 'Roquetas De Mar', 'Lloret de Mar', 'Arcos De La Frontera', 'Jaca', 'Benalmádena', 'Nerja', 'Teguise', 'Ribadeo', 'Peñiscola', 'Tarragona', 'Torremolinos', 'Sigüenza', 'Tarifa', 'Tias', 'Plasencia', 'Gandia', 'Grove, O', 'Dénia', 'Naut Aran', 'Calvià', 'Ponferrada', ' Ponferrada', 'Roquetas de Mar', 'Arcos de la Frontera', 'Peníscola/Peñíscola', 'Tías']


In [180]:
hotels_overview_full = hotels_overview_full[hotels_overview_full.tourist_point.isin(nan_city_name) == False]

hotels_overview_full = hotels_overview_full.fillna(0)
hotels_overview_full.isna().sum()

Fecha            0
Valor            0
tourist_point    0
category         0
dtype: int64

In [181]:
hotels_overview_full = hotels_overview_full.reindex(columns = ['tourist_point', 'category', 'Valor', 'Fecha'])
hotels_overview_full = hotels_overview_full.rename(columns = {'Valor': 'value', 'Fecha':'date'})
hotels_overview_full.head()

Unnamed: 0,tourist_point,category,value,date
0,Vitoria-Gastéiz,Número de establecimientos abiertos estimados,39.0,2022-06-01
1,Vitoria-Gastéiz,Número de establecimientos abiertos estimados,39.0,2022-05-01
2,Vitoria-Gastéiz,Número de establecimientos abiertos estimados,39.0,2022-04-01
3,Vitoria-Gastéiz,Número de establecimientos abiertos estimados,39.0,2022-03-01
4,Vitoria-Gastéiz,Número de establecimientos abiertos estimados,39.0,2022-02-01


In [182]:
file_name = 'hotels_overview.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

hotels_overview_full.to_excel(path+file_name)

##### Tarifa media diaria (ADR)

In [183]:
hotels_adr_full = normalize_json(hotels_adr)
hotels_adr_full['info'].unique()

array(['Vitoria-Gasteiz. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Vitoria-Gasteiz. Tarifa media diaria (ADR). Total categorías. Tasa de variación interanual. ',
       'Albacete. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Albacete. Tarifa media diaria (ADR). Total categorías. Tasa de variación interanual. ',
       'Alicante/Alacant. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Alicante/Alacant. Tarifa media diaria (ADR). Total categorías. Tasa de variación interanual. ',
       'Benidorm. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Benidorm. Tarifa media diaria (ADR). Total categorías. Tasa de variación interanual. ',
       'Dénia. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Dénia. Tarifa media diaria (ADR). Total categorías. Tasa de variación interanual. ',
       'Elche/Elx. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Elche/Elx. Tarifa media d

In [186]:
hotels_adr_full = hotels_adr_full.loc[hotels_adr_full['info'].str.contains('Dato base.')]
hotels_adr_full['info'].unique()

array(['Vitoria-Gasteiz. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Albacete. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Alicante/Alacant. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Benidorm. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Dénia. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Elche/Elx. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Torrevieja. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Almería. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Mojácar. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Níjar. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Roquetas de Mar. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Ávila. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Badajoz. Tarifa media diaria (ADR). Total categorías. 

In [187]:
hotels_adr_full['tourist_point'] = hotels_adr_full['info'].apply(lambda x: x.split('.')[0])
hotels_adr_full = hotels_adr_full.drop('info', axis=1)
hotels_adr_full.head()

Unnamed: 0,Fecha,Valor,tourist_point
0,2022-06-01,70.88,Vitoria-Gasteiz
1,2022-05-01,63.04,Vitoria-Gasteiz
2,2022-04-01,64.57,Vitoria-Gasteiz
3,2022-03-01,57.89,Vitoria-Gasteiz
4,2022-02-01,52.5,Vitoria-Gasteiz


In [188]:
hotels_adr_full.isna().sum()

Fecha              0
Valor            149
tourist_point      0
dtype: int64

In [189]:
missing_values = hotels_adr_full[hotels_adr_full['Valor'].isna()]
missing_values['tourist_point'].unique()

array(['Dénia', 'Torrevieja', 'Mojácar', 'Roquetas de Mar', 'Calvià',
       'Capdepera', 'Sant Llorenç des Cardassar', 'Algeciras', 'Tarifa',
       'Peníscola/Peñíscola', 'Lloret de Mar', 'Benasque', 'Jaca',
       'Sallent de Gállego', 'Cazorla', 'Ponferrada', 'Naut Aran',
       'Viveiro', 'Benalmádena', 'Estepona', 'Nerja', 'Torremolinos',
       'Cangas de Onís', 'Llanes', 'Villaviciosa', 'Palencia', 'Teguise',
       'Tías', 'Grove, O', 'Sanxenxo', 'Arona', 'Cambrils', 'Salou',
       'Albarracín', 'Gandia'], dtype=object)

In [191]:
nan_df = pd.DataFrame()

nan_df['nan'] = missing_values['tourist_point'].value_counts()
nan_df['total_values'] = hotels_adr_full['tourist_point'].value_counts()
nan_df['percentage_nan'] = round((missing_values['tourist_point'].value_counts()/hotels_adr_full['tourist_point'].value_counts())*100,2)

display(nan_df)

Unnamed: 0,nan,total_values,percentage_nan
Salou,10,18,55.56
Sant Llorenç des Cardassar,9,18,50.0
Gandia,8,18,44.44
Capdepera,8,18,44.44
Cambrils,8,18,44.44
Torrevieja,8,18,44.44
Cangas de Onís,6,18,33.33
Calvià,6,18,33.33
Villaviciosa,6,18,33.33
Tías,5,18,27.78


In [193]:
nan_filtered = nan_df[nan_df['percentage_nan'] > 30]
display(nan_filtered)

Unnamed: 0,nan,total_values,percentage_nan
Salou,10,18,55.56
Sant Llorenç des Cardassar,9,18,50.0
Gandia,8,18,44.44
Capdepera,8,18,44.44
Cambrils,8,18,44.44
Torrevieja,8,18,44.44
Cangas de Onís,6,18,33.33
Calvià,6,18,33.33
Villaviciosa,6,18,33.33


In [194]:
hotels_adr_full = hotels_adr_full.fillna(0)
hotels_adr_full.isna().sum()

Fecha            0
Valor            0
tourist_point    0
dtype: int64

In [195]:
hotels_adr_full = hotels_adr_full.reindex(columns = ['tourist_point', 'Valor', 'Fecha'])
hotels_adr_full = hotels_adr_full.rename(columns = {'Valor': 'value', 'Fecha':'date'})
hotels_adr_full.head()

Unnamed: 0,tourist_point,value,date
0,Vitoria-Gasteiz,70.88,2022-06-01
1,Vitoria-Gasteiz,63.04,2022-05-01
2,Vitoria-Gasteiz,64.57,2022-04-01
3,Vitoria-Gasteiz,57.89,2022-03-01
4,Vitoria-Gasteiz,52.5,2022-02-01


In [196]:
file_name = 'hotels_adr.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

hotels_adr_full.to_excel(path+file_name)

##### Hotels Revenue

In [197]:
hotels_revenue = normalize_json(hotels_revenue)
hotels_revenue['info'].unique()

array(['Indice de ingresos hoteleros (Base 2008). Nacional. Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Nacional. Tasa de variación interanual.',
       'Indice de ingresos hoteleros (Base 2008). Andalucía. Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Andalucía. Tasa de variación interanual.',
       'Indice de ingresos hoteleros (Base 2008). Aragón. Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Aragón. Tasa de variación interanual.',
       'Indice de ingresos hoteleros (Base 2008). Asturias (Principado de). Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Asturias (Principado de). Tasa de variación interanual.',
       'Indice de ingresos hoteleros (Base 2008). Balears (Illes). Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Balears (Illes). Tasa de variación interanual.',
       'Indice de ingresos hoteleros (Base 2008). Canarias. Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Canarias

In [199]:
hotels_revenue = hotels_revenue.loc[hotels_revenue['info'].str.contains('Dato base')]
hotels_revenue['info'].unique()

array(['Indice de ingresos hoteleros (Base 2008). Nacional. Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Andalucía. Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Aragón. Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Asturias (Principado de). Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Balears (Illes). Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Canarias. Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Cantabria. Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Castilla y León. Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Castilla - La Mancha. Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Cataluña. Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Comunitat Valenciana. Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Extremadura. Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Galicia. Dato bas

In [200]:
hotels_revenue['tourist_point'] = hotels_revenue['info'].apply(lambda x: x.split('.')[1])
hotels_revenue = hotels_revenue.drop('info', axis=1)
hotels_revenue.head()

Unnamed: 0,Fecha,Valor,tourist_point
0,2009-12-01,95.09,Nacional
1,2009-11-01,94.23,Nacional
2,2009-10-01,94.03,Nacional
3,2009-09-01,94.14,Nacional
4,2009-08-01,95.55,Nacional


In [201]:
hotels_revenue.isna().sum()

Fecha            0
Valor            0
tourist_point    0
dtype: int64

In [202]:
hotels_revenue.reindex(columns = ['tourist_point', 'Valor', 'Fecha'])
hotels_revenue.rename(columns = {'Valor':'valor', 'Fecha':'date'})

Unnamed: 0,date,valor,tourist_point
0,2009-12-01,95.09,Nacional
1,2009-11-01,94.23,Nacional
2,2009-10-01,94.03,Nacional
3,2009-09-01,94.14,Nacional
4,2009-08-01,95.55,Nacional
...,...,...,...
2335,2005-05-01,90.31,Melilla
2336,2005-04-01,89.86,Melilla
2337,2005-03-01,89.58,Melilla
2338,2005-02-01,92.08,Melilla


In [204]:
file_name = 'hotels_revenue.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

hotels_revenue.to_excel(path+file_name)




#### Zoom In: Apartamentos turísticos
- Viajeros y pernoctaciones por puntos turísticos
- Plazas, apartamentos, grados de ocupación y personal empleado por puntos turísticos
- Número de alojamientos turísticos y noches ocupados por residencia del viajero. Puntos turísticos.
- Viviendas turísticas, plazas y plazas por vivienda turística. Total nacional, comunidades autónomas y provincias


- Índice de precios de apartamentos (IPAP): índice general nacional y desglose por modalidades
- Índice de precios de apartamentos (IPAP): índice general nacional y desglose por tarifas


Combinar:
- Viajeros y pernoctaciones por puntos turísticos
- Estancia media por puntos turísticos
- Establecimientos, plazas estimadas, grados de ocupación y personal empleado por puntos turísticas
- Tarifa media diaria (ADR) desglose por puntos turísticas


Combinar:
- Índices de precios hoteleros, índices y tasas de variación interanual por comunidades autónomas
