# MBP: Spain's turism industry dashboard

#### Data extraction from Instituto Nacional de Estadística (INE)

This notebook will guide you step by step through the extraction of XXX data frames. The process followed for every dataset is pretty similar:
    
- JSON request to INE website.
- Unnest JSON files and cast them to pandas dataframe
- Filter by information that contains 'Dato base'
- Extract categorical information from INFO cell and create the necessary columns
- Handle missing values: as we're not going to use our data to train models and bearing in mind that there are some periods with no data due to COVID situation, criteria for handling missing values will be the following: 
 - Rows with more than 50% missing values will be dropped.
 - Rows with less than 50% missing values will be filled with value 0.
- Store clean dataset in data/clean

###### Libraries

In [1]:
from functions import get_data_and_create_excel_file
from functions import normalize_json
from functions import extract_rows
import pandas as pd

# 1. Turism expendinture in Spain

#### Statistic: Gasto de los turistas internacionales según comunidad autónoma de destino principal y país de residencia

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=24746&L=0

In [2]:
url = 'https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/24746?nult=10'
file_name = 'turism_expenditure_by_ccaa_origin.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

tur_exp_by_ccaa_origin = get_data_and_create_excel_file(url, file_name, path)
tur_exp_by_ccaa_origin.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG4584737,Total. Turista. Gasto total. Total Nacional. D...,7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
1,FREG4584613,Total. Turista. Gasto total. Total Nacional. T...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
2,FREG4585410,Total. Turista. Gasto total. Andalucía. Dato b...,7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
3,FREG4586243,Total. Turista. Gasto total. Andalucía. Tasa d...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
4,FREG4585407,"Total. Turista. Gasto total. Balears, Illes. D...",7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."


In [3]:
tur_exp_by_ccaa_origin.Nombre.unique()

array(['Total. Turista. Gasto total. Total Nacional. Dato base. ',
       'Total. Turista. Gasto total. Total Nacional. Tasa de variación anual. ',
       'Total. Turista. Gasto total. Andalucía. Dato base. ',
       'Total. Turista. Gasto total. Andalucía. Tasa de variación anual. ',
       'Total. Turista. Gasto total. Balears, Illes. Dato base. ',
       'Total. Turista. Gasto total. Balears, Illes. Tasa de variación anual. ',
       'Total. Turista. Gasto total. Canarias. Dato base. ',
       'Total. Turista. Gasto total. Canarias. Tasa de variación anual. ',
       'Total. Turista. Gasto total. Cataluña. Dato base. ',
       'Total. Turista. Gasto total. Cataluña. Tasa de variación anual. ',
       'Total. Turista. Gasto total. Comunitat Valenciana. Dato base. ',
       'Total. Turista. Gasto total. Comunitat Valenciana. Tasa de variación anual. ',
       'Total. Turista. Gasto total. Madrid, Comunidad de. Dato base. ',
       'Total. Turista. Gasto total. Madrid, Comunidad de. Ta

In [4]:
tur_exp_by_ccaa_origin = tur_exp_by_ccaa_origin.loc[tur_exp_by_ccaa_origin['Nombre'].str.contains('Dato base')]
tur_exp_by_ccaa_origin.Nombre.unique()

array(['Total. Turista. Gasto total. Total Nacional. Dato base. ',
       'Total. Turista. Gasto total. Andalucía. Dato base. ',
       'Total. Turista. Gasto total. Balears, Illes. Dato base. ',
       'Total. Turista. Gasto total. Canarias. Dato base. ',
       'Total. Turista. Gasto total. Cataluña. Dato base. ',
       'Total. Turista. Gasto total. Comunitat Valenciana. Dato base. ',
       'Total. Turista. Gasto total. Madrid, Comunidad de. Dato base. ',
       'Total. Turista. Gasto total. Otras Comunidades Autónomas. Dato base. ',
       'Total. Turista. Gasto medio por persona. Total Nacional. Dato base. ',
       'Total. Turista. Gasto medio por persona. Andalucía. Dato base. ',
       'Total. Turista. Gasto medio por persona. Balears, Illes. Dato base. ',
       'Total. Turista. Gasto medio por persona. Canarias. Dato base. ',
       'Total. Turista. Gasto medio por persona. Cataluña. Dato base. ',
       'Total. Turista. Gasto medio por persona. Comunitat Valenciana. Dato ba

In [5]:
tur_exp_by_ccaa_origin_full = normalize_json(tur_exp_by_ccaa_origin)
tur_exp_by_ccaa_origin_full.head()

Unnamed: 0,info,Fecha,Valor
0,Total. Turista. Gasto total. Total Nacional. D...,2021-01-01,34903.37
1,Total. Turista. Gasto total. Total Nacional. D...,2020-01-01,19786.78
2,Total. Turista. Gasto total. Total Nacional. D...,2019-01-01,91911.97
3,Total. Turista. Gasto total. Total Nacional. D...,2018-01-01,89750.75
4,Total. Turista. Gasto total. Total Nacional. D...,2017-01-01,87003.93


In [6]:
tur_exp_by_ccaa_origin_full['destiny'] = tur_exp_by_ccaa_origin_full['info'].apply(lambda x: x.split('.')[3])
tur_exp_by_ccaa_origin_full['category'] = tur_exp_by_ccaa_origin_full['info'].apply(lambda x: x.split('.')[2])
tur_exp_by_ccaa_origin_full['origin'] = tur_exp_by_ccaa_origin_full['info'].apply(lambda x: x.split('.')[0])

In [7]:
tur_exp_by_ccaa_origin_full.head()

Unnamed: 0,info,Fecha,Valor,destiny,category,origin
0,Total. Turista. Gasto total. Total Nacional. D...,2021-01-01,34903.37,Total Nacional,Gasto total,Total
1,Total. Turista. Gasto total. Total Nacional. D...,2020-01-01,19786.78,Total Nacional,Gasto total,Total
2,Total. Turista. Gasto total. Total Nacional. D...,2019-01-01,91911.97,Total Nacional,Gasto total,Total
3,Total. Turista. Gasto total. Total Nacional. D...,2018-01-01,89750.75,Total Nacional,Gasto total,Total
4,Total. Turista. Gasto total. Total Nacional. D...,2017-01-01,87003.93,Total Nacional,Gasto total,Total


In [8]:
tur_exp_by_ccaa_origin_full = tur_exp_by_ccaa_origin_full.drop('info', axis=1)
tur_exp_by_ccaa_origin_full = tur_exp_by_ccaa_origin_full.reindex(columns = ['origin', 'category','destiny', 'Valor','Fecha'])

In [9]:
tur_exp_by_ccaa_origin_full.isna().sum()

origin      0
category    0
destiny     0
Valor       0
Fecha       0
dtype: int64

In [10]:
tur_exp_by_ccaa_origin_full = tur_exp_by_ccaa_origin_full.rename(columns = {'Valor': 'value',
                                                                            'Fecha':'date'})

In [11]:
file_name = 'turism_expenditure_by_ccaa_origin.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

tur_exp_by_ccaa_origin_full.to_excel(path+file_name)

## ....................................................................................................................................... ###

#### Statistic: Gasto de los turistas internacionales según partidas de gasto y comunidad autónoma de destino principal

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=24745

In [12]:
turism_exp_ccaa_item = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/24745?nult=10', 
                                                      'turism_expenditure_by_ccaa_item.xlsx', path)
turism_exp_ccaa_item.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG4583835,Total Nacional. Turista. Gasto total. Dato base.,7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
1,FREG4583907,Total Nacional. Turista. Gasto total. Tasa de ...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
2,FREG4583831,Andalucía. Turista. Gasto total. Dato base.,7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
3,FREG4583903,Andalucía. Turista. Gasto total. Tasa de varia...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
4,FREG4583819,"Balears, Illes. Turista. Gasto total. Dato base.",7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."


In [13]:
turism_exp_ccaa_item = turism_exp_ccaa_item.loc[turism_exp_ccaa_item.Nombre.str.contains('Dato base')]

In [14]:
turism_exp_ccaa_item_full = normalize_json(turism_exp_ccaa_item)
turism_exp_ccaa_item_full.head()

Unnamed: 0,info,Fecha,Valor
0,Total Nacional. Turista. Gasto total. Dato base.,2021-01-01,34903.37
1,Total Nacional. Turista. Gasto total. Dato base.,2020-01-01,19786.78
2,Total Nacional. Turista. Gasto total. Dato base.,2019-01-01,91911.97
3,Total Nacional. Turista. Gasto total. Dato base.,2018-01-01,89750.75
4,Total Nacional. Turista. Gasto total. Dato base.,2017-01-01,87003.93


In [15]:
turism_exp_ccaa_item_full['info'].unique()

array(['Total Nacional. Turista. Gasto total. Dato base. ',
       'Andalucía. Turista. Gasto total. Dato base. ',
       'Balears, Illes. Turista. Gasto total. Dato base. ',
       'Canarias. Turista. Gasto total. Dato base. ',
       'Cataluña. Turista. Gasto total. Dato base. ',
       'Comunitat Valenciana. Turista. Gasto total. Dato base. ',
       'Madrid, Comunidad de. Turista. Gasto total. Dato base. ',
       'Turista. Gasto total. Otras Comunidades Autónomas. Dato base. ',
       'Turista. Gasto en paquete turístico. Total Nacional. Dato base. ',
       'Turista. Gasto en paquete turístico. Andalucía. Dato base. ',
       'Turista. Gasto en paquete turístico. Balears, Illes. Dato base. ',
       'Turista. Gasto en paquete turístico. Canarias. Dato base. ',
       'Turista. Gasto en paquete turístico. Cataluña. Dato base. ',
       'Turista. Gasto en paquete turístico. Comunitat Valenciana. Dato base. ',
       'Turista. Gasto en paquete turístico. Madrid, Comunidad de. Dato b

As we have some rows in which information follows a different order than the others, we're going to divide the data into two subsets, create columns according to each subset's info distribution and then combine them. We're going to use this technique several times during the data extraction.

In [16]:
total_expenditure = turism_exp_ccaa_item_full.loc[turism_exp_ccaa_item_full['info'].str.contains('Dato base total')]
turism_exp_ccaa_item_full = turism_exp_ccaa_item_full.drop(total_expenditure.index, axis=0)

*Subset 1*

In [17]:
total_expenditure['expense_item'] = total_expenditure['info'].apply(lambda x: x.split('.')[2])
total_expenditure['destiny'] = total_expenditure['info'].apply(lambda x: x.split('.')[0])

*Subset 2*

In [18]:
turism_exp_ccaa_item_full['expense_item'] = turism_exp_ccaa_item_full['info'].apply(lambda x: x.split('.')[1])
turism_exp_ccaa_item_full['destiny'] = turism_exp_ccaa_item_full['info'].apply(lambda x: x.split('.')[2])

*Combine both df*

In [19]:
turism_exp_ccaa_item_full = pd.concat([total_expenditure, turism_exp_ccaa_item_full], axis = 0)

In [20]:
turism_exp_ccaa_item_full = turism_exp_ccaa_item_full.drop('info', axis = 1)
turism_exp_ccaa_item_full.head()

Unnamed: 0,Fecha,Valor,expense_item,destiny
0,2021-01-01,34903.37,Turista,Gasto total
1,2020-01-01,19786.78,Turista,Gasto total
2,2019-01-01,91911.97,Turista,Gasto total
3,2018-01-01,89750.75,Turista,Gasto total
4,2017-01-01,87003.93,Turista,Gasto total


In [21]:
turism_exp_ccaa_item_full.isna().sum()

Fecha           0
Valor           0
expense_item    0
destiny         0
dtype: int64

In [22]:
turism_exp_ccaa_item_full = turism_exp_ccaa_item_full.reindex(columns = ['expense_item', 'destiny', 'Valor', 'Fecha'])
turism_exp_ccaa_item_full = turism_exp_ccaa_item_full.rename(columns = {'Valor': 'value','Fecha':'date'}).reset_index(drop=True)
turism_exp_ccaa_item_full.head()

Unnamed: 0,expense_item,destiny,value,date
0,Turista,Gasto total,34903.37,2021-01-01
1,Turista,Gasto total,19786.78,2020-01-01
2,Turista,Gasto total,91911.97,2019-01-01
3,Turista,Gasto total,89750.75,2018-01-01
4,Turista,Gasto total,87003.93,2017-01-01


In [23]:
file_name = 'turism_expenditure_by_ccaa_item.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

turism_exp_ccaa_item_full.to_excel(path+file_name)

## ....................................................................................................................................... ###

#### Statistic: Gasto de los turistas internacionales según tipo de alojamiento principal

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=10836

In [24]:
turism_exp_stay = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/23993?date=20150101:20220601', 
                                                 'turism_expenditure_by_stay.xlsx', path)
turism_exp_stay.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG4584489,Turista. Total. Gasto total. Total Nacional. D...,7,13,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
1,FREG4584469,Turista. Total. Gasto total. Total Nacional. T...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
2,FREG4584484,Turista. Total. Gasto medio por persona. Total...,7,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
3,FREG4584468,Turista. Total. Gasto medio por persona. Total...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
4,FREG4584483,Turista. Total. Gasto medio diario por persona...,7,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."


In [25]:
turism_exp_stay.Nombre.unique()

array(['Turista. Total. Gasto total. Total Nacional. Dato base. ',
       'Turista. Total. Gasto total. Total Nacional. Tasa de variación anual. ',
       'Turista. Total. Gasto medio por persona. Total Nacional. Dato base. ',
       'Turista. Total. Gasto medio por persona. Total Nacional. Tasa de variación anual. ',
       'Turista. Total. Gasto medio diario por persona. Total Nacional. Dato base. ',
       'Turista. Total. Gasto medio diario por persona. Total Nacional. Tasa de variación anual. ',
       'Turista. Total. Duración media de los viajes. Total Nacional. Dato base. ',
       'Turista. Total. Duración media de los viajes. Total Nacional. Tasa de variación anual. ',
       'Turista. De mercado. Gasto total. Total Nacional. Dato base. ',
       'Turista. De mercado. Gasto total. Total Nacional. Tasa de variación anual. ',
       'Turista. De mercado. Gasto medio por persona. Total Nacional. Dato base. ',
       'Turista. De mercado. Gasto medio por persona. Total Nacional. 

In [26]:
turism_exp_stay = turism_exp_stay.loc[turism_exp_stay.Nombre.str.contains('Dato base')]
turism_exp_stay_full = normalize_json(turism_exp_stay)
turism_exp_stay_full.head()

Unnamed: 0,info,Fecha,Valor
0,Turista. Total. Gasto total. Total Nacional. D...,2021-01-01,34903.37
1,Turista. Total. Gasto total. Total Nacional. D...,2020-01-01,19786.78
2,Turista. Total. Gasto total. Total Nacional. D...,2019-01-01,91911.97
3,Turista. Total. Gasto total. Total Nacional. D...,2018-01-01,89750.75
4,Turista. Total. Gasto total. Total Nacional. D...,2017-01-01,87003.93


In [27]:
turism_exp_stay_full['stay_type'] = turism_exp_stay_full['info'].apply(lambda x: x.split('.')[1])
turism_exp_stay_full['expense_cat'] = turism_exp_stay_full['info'].apply(lambda x: x.split('.')[2])

In [28]:
turism_exp_stay_full = turism_exp_stay_full.drop('info', axis = 1)
turism_exp_stay_full.head()

Unnamed: 0,Fecha,Valor,stay_type,expense_cat
0,2021-01-01,34903.37,Total,Gasto total
1,2020-01-01,19786.78,Total,Gasto total
2,2019-01-01,91911.97,Total,Gasto total
3,2018-01-01,89750.75,Total,Gasto total
4,2017-01-01,87003.93,Total,Gasto total


In [29]:
turism_exp_stay_full.isna().sum()

Fecha          0
Valor          0
stay_type      0
expense_cat    0
dtype: int64

In [30]:
turism_exp_stay_full = turism_exp_stay_full.reindex(columns = ['stay_type', 'expense_cat', 'Valor', 'Fecha'])
turism_exp_stay_full = turism_exp_stay_full.rename(columns = {'Valor': 'value', 'Fecha':'date'})

In [31]:
file_name = 'turism_expenditure_by_stay.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

turism_exp_stay_full.to_excel(path+file_name)

## ....................................................................................................................................... ###

#### Statistic: Gasto de los turistas internacionales según sexo y edad

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=24744

In [32]:
turism_exp_sex_gender = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/24744?date=20150101:20220601', 
                                                       'turism_expenditure_by_sex_and_age.xlsx', path)
turism_exp_sex_gender.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG4586252,Turista. Gasto total. Total Nacional. Dato bas...,7,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
1,FREG4584969,Turista. Gasto total. Total Nacional. Dato bas...,7,13,[]
2,FREG4584968,Turista. Gasto total. Total Nacional. Dato bas...,7,13,[]
3,FREG4584967,Turista. Gasto total. Total Nacional. Dato bas...,7,13,[]
4,FREG4584966,Turista. Gasto total. Total Nacional. Dato bas...,7,13,[]


In [33]:
turism_exp_sex_gender = turism_exp_sex_gender.loc[turism_exp_sex_gender['Nombre'].str.contains('Dato base.')]
turism_exp_sex_gender.Nombre.unique()

array(['Turista. Gasto total. Total Nacional. Dato base. Total. Todas las edades. ',
       'Turista. Gasto total. Total Nacional. Dato base. Total. De 15 a 24 años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Total. De 25 a 44 años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Total. De 45 a 64 años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Total. 65 y más años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Hombres. Todas las edades. ',
       'Turista. Gasto total. Total Nacional. Dato base. Hombres. De 15 a 24 años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Hombres. De 25 a 44 años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Hombres. De 45 a 64 años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Hombres. 65 y más años. ',
       'Turista. Gasto total. Total Nacional. Dato base. Mujeres. Todas las edades. ',
       'Turista. Gasto total. Total Nacional. Dato base. Mujeres.

In [34]:
turism_exp_sex_gender_full = normalize_json(turism_exp_sex_gender)

turism_exp_sex_gender_full['sex'] = turism_exp_sex_gender_full['info'].apply(lambda x: x.split(".")[4])
turism_exp_sex_gender_full['age'] = turism_exp_sex_gender_full['info'].apply(lambda x: x.split(".")[5])
turism_exp_sex_gender_full['expense_cat'] = turism_exp_sex_gender_full['info'].apply(lambda x: x.split(".")[1])
turism_exp_sex_gender_full['destiny'] = turism_exp_sex_gender_full['info'].apply(lambda x: x.split(".")[2])

turism_exp_sex_gender_full.head()

Unnamed: 0,info,Fecha,Valor,sex,age,expense_cat,destiny
0,Turista. Gasto total. Total Nacional. Dato bas...,2021-01-01,34903.37,Total,Todas las edades,Gasto total,Total Nacional
1,Turista. Gasto total. Total Nacional. Dato bas...,2020-01-01,19786.78,Total,Todas las edades,Gasto total,Total Nacional
2,Turista. Gasto total. Total Nacional. Dato bas...,2019-01-01,91911.97,Total,Todas las edades,Gasto total,Total Nacional
3,Turista. Gasto total. Total Nacional. Dato bas...,2018-01-01,89750.75,Total,Todas las edades,Gasto total,Total Nacional
4,Turista. Gasto total. Total Nacional. Dato bas...,2017-01-01,87003.93,Total,Todas las edades,Gasto total,Total Nacional


In [35]:
turism_exp_sex_gender_full = turism_exp_sex_gender_full.drop('info', axis=1)
turism_exp_sex_gender_full.head()

Unnamed: 0,Fecha,Valor,sex,age,expense_cat,destiny
0,2021-01-01,34903.37,Total,Todas las edades,Gasto total,Total Nacional
1,2020-01-01,19786.78,Total,Todas las edades,Gasto total,Total Nacional
2,2019-01-01,91911.97,Total,Todas las edades,Gasto total,Total Nacional
3,2018-01-01,89750.75,Total,Todas las edades,Gasto total,Total Nacional
4,2017-01-01,87003.93,Total,Todas las edades,Gasto total,Total Nacional


In [36]:
turism_exp_sex_gender_full.isna().sum()

Fecha          0
Valor          0
sex            0
age            0
expense_cat    0
destiny        0
dtype: int64

In [37]:
turism_exp_sex_gender_full = turism_exp_sex_gender_full.reindex(columns = ['expense_cat','destiny','age', 
                                                                           'sex','Valor', 'Fecha'])
turism_exp_sex_gender_full = turism_exp_sex_gender_full.rename(columns = {'Valor': 'value',
                                                            'Fecha':'date'})
turism_exp_sex_gender_full.head()

Unnamed: 0,expense_cat,destiny,age,sex,value,date
0,Gasto total,Total Nacional,Todas las edades,Total,34903.37,2021-01-01
1,Gasto total,Total Nacional,Todas las edades,Total,19786.78,2020-01-01
2,Gasto total,Total Nacional,Todas las edades,Total,91911.97,2019-01-01
3,Gasto total,Total Nacional,Todas las edades,Total,89750.75,2018-01-01
4,Gasto total,Total Nacional,Todas las edades,Total,87003.93,2017-01-01


In [38]:
file_name = 'turism_expenditure_by_sex_and_age.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

turism_exp_stay_full.to_excel(path+file_name)

## ....................................................................................................................................... ###

#### Statistic: Gasto de los turistas internacionales según motivo principal del viaje

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=10840

In [39]:
turism_exp_motive = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/23995?nult=10', 
                                                   'turism_expenditure_by_trip_motive.xlsx', path)
turism_exp_motive.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG4584865,Total. Gasto total. Turista. Total Nacional. D...,7,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
1,FREG4584801,Total. Gasto total. Turista. Total Nacional. T...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
2,FREG4584849,Total. Gasto medio por persona. Turista. Total...,7,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
3,FREG4584800,Total. Gasto medio por persona. Turista. Total...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
4,FREG4584848,Total. Gasto medio diario por persona. Turista...,7,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."


In [40]:
turism_exp_motive.Nombre.unique()

array(['Total. Gasto total. Turista. Total Nacional. Dato base. ',
       'Total. Gasto total. Turista. Total Nacional. Tasa de variación anual. ',
       'Total. Gasto medio por persona. Turista. Total Nacional. Dato base. ',
       'Total. Gasto medio por persona. Turista. Total Nacional. Tasa de variación anual. ',
       'Total. Gasto medio diario por persona. Turista. Total Nacional. Dato base. ',
       'Total. Gasto medio diario por persona. Turista. Total Nacional. Tasa de variación anual. ',
       'Total. Duración media de los viajes. Turista. Total Nacional. Dato base. ',
       'Total. Duración media de los viajes. Turista. Total Nacional. Tasa de variación anual. ',
       'Motivo profesional. Gasto total. Turista. Total Nacional. Dato base. ',
       'Motivo profesional. Gasto total. Turista. Total Nacional. Tasa de variación anual. ',
       'Motivo profesional. Gasto medio por persona. Turista. Total Nacional. Dato base. ',
       'Motivo profesional. Gasto medio por pe

In [41]:
turism_exp_motive = turism_exp_motive.loc[turism_exp_motive.Nombre.str.contains('Dato base')]
turism_exp_motive.Nombre.unique()

array(['Total. Gasto total. Turista. Total Nacional. Dato base. ',
       'Total. Gasto medio por persona. Turista. Total Nacional. Dato base. ',
       'Total. Gasto medio diario por persona. Turista. Total Nacional. Dato base. ',
       'Total. Duración media de los viajes. Turista. Total Nacional. Dato base. ',
       'Motivo profesional. Gasto total. Turista. Total Nacional. Dato base. ',
       'Motivo profesional. Gasto medio por persona. Turista. Total Nacional. Dato base. ',
       'Motivo profesional. Gasto medio diario por persona. Turista. Total Nacional. Dato base. ',
       'Motivo profesional. Duración media de los viajes. Turista. Total Nacional. Dato base. ',
       'Congresos, ferias y convenciones. Gasto total. Turista. Total Nacional. Dato base. ',
       'Congresos, ferias y convenciones. Gasto medio por persona. Turista. Total Nacional. Dato base. ',
       'Congresos, ferias y convenciones. Gasto medio diario por persona. Turista. Total Nacional. Dato base. ',
   

In [42]:
turism_exp_motive_full = normalize_json(turism_exp_motive)
turism_exp_motive_full.head()

Unnamed: 0,info,Fecha,Valor
0,Total. Gasto total. Turista. Total Nacional. D...,2021-01-01,34903.37
1,Total. Gasto total. Turista. Total Nacional. D...,2020-01-01,19786.78
2,Total. Gasto total. Turista. Total Nacional. D...,2019-01-01,91911.97
3,Total. Gasto total. Turista. Total Nacional. D...,2018-01-01,89750.75
4,Total. Gasto total. Turista. Total Nacional. D...,2017-01-01,87003.93


In [43]:
turism_exp_motive_full['expense_cat'] = turism_exp_motive_full['info'].apply(lambda x: x.split('.')[1])
turism_exp_motive_full['motive'] = turism_exp_motive_full['info'].apply(lambda x: x.split('.')[0])
turism_exp_motive_full = turism_exp_motive_full.drop('info', axis=1)
turism_exp_motive_full.head()

Unnamed: 0,Fecha,Valor,expense_cat,motive
0,2021-01-01,34903.37,Gasto total,Total
1,2020-01-01,19786.78,Gasto total,Total
2,2019-01-01,91911.97,Gasto total,Total
3,2018-01-01,89750.75,Gasto total,Total
4,2017-01-01,87003.93,Gasto total,Total


In [44]:
turism_exp_motive_full.isna().sum()

Fecha           0
Valor          24
expense_cat     0
motive          0
dtype: int64

In [45]:
turism_exp_motive_full = turism_exp_motive_full.fillna(0)
turism_exp_motive_full.isna().sum()

Fecha          0
Valor          0
expense_cat    0
motive         0
dtype: int64

In [46]:
turism_exp_motive_full = turism_exp_motive_full.reindex(columns= ['expense_cat', 'motive','Valor', 'Fecha'])
turism_exp_motive_full = turism_exp_motive_full.rename(columns = {'Valor': 'value', 'Fecha':'date'}).reset_index(drop=True)
turism_exp_motive_full.head()

Unnamed: 0,expense_cat,motive,value,date
0,Gasto total,Total,34903.37,2021-01-01
1,Gasto total,Total,19786.78,2020-01-01
2,Gasto total,Total,91911.97,2019-01-01
3,Gasto total,Total,89750.75,2018-01-01
4,Gasto total,Total,87003.93,2017-01-01


In [47]:
file_name = 'turism_expenditure_by_trip_motive.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

turism_exp_motive_full.to_excel(path+file_name)

## ....................................................................................................................................... ###

# 2. Turists profile

#### Statistic: Número de turistas según comunidad autónoma de destino principal

Fuente: https://www.ine.es/jaxiT3/Tabla.htm?t=10822

In [48]:
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

num_tur_ccaa = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/10823?date=20151001:20220601', 
                                              'num_turists_by_ccaa.xlsx', path)
num_tur_ccaa.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG286,Turista. Total Nacional. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,FREG283,Turista. Total Nacional. Tasa de variación anu...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,FREG1125,Turista. Total Nacional. Acumulado en lo que v...,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,FREG1128,Turista. Total Nacional. Tasa de variación acu...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,FREG351,Andalucía. Turista. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [49]:
num_tur_ccaa = num_tur_ccaa.loc[num_tur_ccaa['Nombre'].str.contains('base')]

In [50]:
num_tur_ccaa_full = normalize_json(num_tur_ccaa)
num_tur_ccaa_full['info'].unique()

array(['Turista. Total Nacional. Dato base. ',
       'Andalucía. Turista. Dato base. ',
       'Balears, Illes. Turista. Dato base. ',
       'Canarias. Turista. Dato base. ', 'Cataluña. Turista. Dato base. ',
       'Comunitat Valenciana. Turista. Dato base. ',
       'Madrid, Comunidad de. Turista. Dato base. ',
       'Otras Comunidades Autónomas. Turista. Dato base. '], dtype=object)

In [51]:
num_tur_ccaa_full['destiny'] = num_tur_ccaa_full['info'].apply(lambda x: x.split('.')[0])
num_tur_ccaa_full['destiny'][0] = 'Total Nacional'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  num_tur_ccaa_full['destiny'][0] = 'Total Nacional'


In [52]:
num_tur_ccaa_full = num_tur_ccaa_full.drop('info', axis = 1)

In [53]:
num_tur_ccaa_full.isna().sum()

Fecha      0
Valor      0
destiny    0
dtype: int64

In [54]:
num_tur_ccaa_full = num_tur_ccaa_full.reindex(columns=['destiny', 'Valor', 'Fecha'])
num_tur_ccaa_full = num_tur_ccaa_full.rename(columns = {'Valor': 'value', 'Fecha':'date'})
num_tur_ccaa_full.head()

Unnamed: 0,destiny,value,date
0,Total Nacional,7460277.0,2022-06-01
1,Turista,6966913.0,2022-05-01
2,Turista,6102142.0,2022-04-01
3,Turista,4032127.0,2022-03-01
4,Turista,3156809.0,2022-02-01


In [55]:
file_name = 'num_turists_by_ccaa.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

num_tur_ccaa_full.to_excel(path+file_name)

## ....................................................................................................................................... ###

#### Statistic: Número de turistas según tipo de alojamiento principal

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=10826

In [56]:
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

num_tur_stay = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/10826?date=20151001:20220601', 
                                              'num_turists_by_stay.xlsx', path)
num_tur_stay.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG305,Turista. Total. Total Nacional. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,FREG301,Turista. Total. Total Nacional. Tasa de variac...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,FREG1148,Turista. Total. Total Nacional. Acumulado en l...,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,FREG1157,Turista. Total. Total Nacional. Tasa de variac...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,FREG593,Turista. De mercado. Total Nacional. Dato base.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [57]:
num_tur_stay = num_tur_stay.loc[num_tur_stay['Nombre'].str.contains('base')]

In [58]:
num_tur_stay_full = normalize_json(num_tur_stay)
num_tur_stay_full.head()

Unnamed: 0,info,Fecha,Valor
0,Turista. Total. Total Nacional. Dato base.,2022-06-01,7460277.0
1,Turista. Total. Total Nacional. Dato base.,2022-05-01,6966913.0
2,Turista. Total. Total Nacional. Dato base.,2022-04-01,6102142.0
3,Turista. Total. Total Nacional. Dato base.,2022-03-01,4032127.0
4,Turista. Total. Total Nacional. Dato base.,2022-02-01,3156809.0


In [59]:
num_tur_stay_full['stay_type'] = num_tur_stay_full['info'].apply(lambda x: x.split('.')[1])
num_tur_stay_full['expense_cat'] = num_tur_stay_full['info'].apply(lambda x: x.split('.')[2])

In [60]:
num_tur_stay_full = num_tur_stay_full.drop('info', axis = 1)
num_tur_stay_full.head()

Unnamed: 0,Fecha,Valor,stay_type,expense_cat
0,2022-06-01,7460277.0,Total,Total Nacional
1,2022-05-01,6966913.0,Total,Total Nacional
2,2022-04-01,6102142.0,Total,Total Nacional
3,2022-03-01,4032127.0,Total,Total Nacional
4,2022-02-01,3156809.0,Total,Total Nacional


In [61]:
num_tur_stay_full.isna().sum()

Fecha          0
Valor          0
stay_type      0
expense_cat    0
dtype: int64

In [62]:
num_tur_stay_full = num_tur_stay_full.reindex(columns = ['stay_type', 'expense_cat', 'Valor', 'Fecha'])

num_tur_stay_full = num_tur_stay_full.rename(columns = {'Valor':'value', 'Fecha':'date'})

In [63]:
file_name = 'num_turists_by_stay.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

num_tur_stay_full.to_excel(path+file_name)

## ....................................................................................................................................... ###

#### Statistic: Número de turistas según motivo del viaje

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=13864

In [64]:
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

num_tur_motive = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/23985?nult=10', 
                                                'num_turists_by_motive.xlsx', path)
num_tur_motive.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG4583707,Turista. Total. Total Nacional. Dato base.,3,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
1,FREG4583711,Turista. Total. Total Nacional. Tasa de variac...,135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
2,FREG4583706,"Turista. Ocio, recreo y vacaciones. Total Naci...",3,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
3,FREG4583710,"Turista. Ocio, recreo y vacaciones. Total Naci...",135,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."
4,FREG4583705,Turista. Motivo profesional. Total Nacional. D...,3,1,"[{'Fecha': 1609455600000, 'FK_TipoDato': 1, 'F..."


In [65]:
num_tur_motive = num_tur_motive.loc[num_tur_motive['Nombre'].str.contains('Dato base')]
num_tur_motive_full = normalize_json(num_tur_motive)
num_tur_motive_full.head()

Unnamed: 0,info,Fecha,Valor
0,Turista. Total. Total Nacional. Dato base.,2021-01-01,31180802.0
1,Turista. Total. Total Nacional. Dato base.,2020-01-01,18933103.0
2,Turista. Total. Total Nacional. Dato base.,2019-01-01,83509153.0
3,Turista. Total. Total Nacional. Dato base.,2018-01-01,82808413.0
4,Turista. Total. Total Nacional. Dato base.,2017-01-01,81868522.0


In [66]:
num_tur_motive_full['motive'] = num_tur_motive_full['info'].apply(lambda x: x.split('.')[2])
num_tur_motive_full = num_tur_motive_full.drop('info', axis=1)
num_tur_motive_full.head()

Unnamed: 0,Fecha,Valor,motive
0,2021-01-01,31180802.0,Total Nacional
1,2020-01-01,18933103.0,Total Nacional
2,2019-01-01,83509153.0,Total Nacional
3,2018-01-01,82808413.0,Total Nacional
4,2017-01-01,81868522.0,Total Nacional


In [67]:
num_tur_motive_full.isna().sum()

Fecha     0
Valor     0
motive    0
dtype: int64

In [68]:
num_tur_motive_full = num_tur_motive_full.reindex(columns = ['motive', 'Valor', 'Fecha'])
num_tur_motive_full = num_tur_motive_full.rename(columns = {'Valor':'value', 'Fecha': 'date'})

In [69]:
file_name = 'num_turists_by_motive.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

num_tur_motive_full.to_excel(path+file_name)

## ....................................................................................................................................... ###

#### Statistic: Número de turistas según país de residencia

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=10822

In [70]:
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

num_tur_origin = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/10822?date=20151001:20220601',
                                                'num_turists_by_origin.xlsx', path)
num_tur_origin.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,FREG337,Total. Turista. Dato base. Total Nacional.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,FREG321,Total. Turista. Tasa de variación anual. Total...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,FREG1173,Total. Turista. Total Nacional. Acumulado en l...,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,FREG1189,Total. Turista. Total Nacional. Tasa de variac...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,FREG336,Alemania. Turista. Dato base. Total Nacional.,3,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [71]:
num_tur_origin = num_tur_origin.loc[num_tur_origin['Nombre'].str.contains('Dato base')]
num_tur_origin_full = normalize_json(num_tur_origin)
num_tur_origin_full.head()

Unnamed: 0,info,Fecha,Valor
0,Total. Turista. Dato base. Total Nacional.,2022-06-01,7460277.0
1,Total. Turista. Dato base. Total Nacional.,2022-05-01,6966913.0
2,Total. Turista. Dato base. Total Nacional.,2022-04-01,6102142.0
3,Total. Turista. Dato base. Total Nacional.,2022-03-01,4032127.0
4,Total. Turista. Dato base. Total Nacional.,2022-02-01,3156809.0


In [72]:
num_tur_origin_full['origin'] = num_tur_origin_full['info'].apply(lambda x: x.split('.')[0])

In [73]:
num_tur_origin_full.isna().sum()

info       0
Fecha      0
Valor     10
origin     0
dtype: int64

In [74]:
num_tur_origin_full = num_tur_origin_full.fillna(0)
num_tur_origin_full.isna().sum()

info      0
Fecha     0
Valor     0
origin    0
dtype: int64

In [75]:
num_tur_origin_full = num_tur_origin_full.reindex(columns = ['origin', 'Valor', 'Fecha'])
num_tur_origin_full = num_tur_origin_full.rename(columns = {'Valor':'value', 'Fecha': 'date'}).reset_index(drop=True)

In [76]:
file_name = 'num_turists_by_origin.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

num_tur_origin_full.to_excel(path+file_name)

## ....................................................................................................................................... ###

 ### Combine
- num_turists_by_stay / turism_expenditure_by_stay
- num_turists_by_motive / turism_expenditure_by_trip_motive
- num_turists_by_origin / turism_expenditure_by_ccaa_origin

# 3. Zoom In: hotels offer

#### Statistic: Viajes y pernoctaciones por puntos turísticos

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=2078

In [77]:
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

hotels_nights = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/49370?date=20050101:20220701',
                                               'hotels_nights.xlsx', path)
hotels_nights.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,EOT2611,Nacional. Viajeros. Vitoria-Gastéiz. Residente...,213,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,EOT2612,Nacional. Viajeros. Vitoria-Gastéiz. Residente...,213,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,EOT2613,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,242,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,EOT2614,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,242,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,EOT2615,Nacional. Viajeros. Albacete. Residentes en Es...,213,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [78]:
hotels_nights.Nombre.unique()
hotels_nights = hotels_nights.loc[hotels_nights.Nombre.str.contains('Pernoctaciones')]
hotels_nights_full = normalize_json(hotels_nights)
hotels_nights_full.head()

Unnamed: 0,info,Fecha,Valor,Notas
0,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-06-01,38807.0,
1,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-05-01,39187.0,
2,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-04-01,39147.0,
3,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-03-01,36476.0,
4,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-02-01,30212.0,


If we take a look at the data stored in 'info', it is clear that the information is placed in a disorderly manner. In order to clean it, we are going to divide the data in three subsets and combine them later.

In [79]:
hotels_nights_full['info'].unique()

array(['Nacional. Pernoctaciones. Vitoria-Gastéiz. Residentes en España.',
       'Nacional. Pernoctaciones. Vitoria-Gastéiz. Residentes en el extranjero.',
       'Nacional. Pernoctaciones. Albacete. Residentes en España.',
       'Nacional. Pernoctaciones. Albacete. Residentes en el extranjero.',
       'Nacional. Pernoctaciones. Alicante. Residentes en España.',
       'Nacional. Pernoctaciones. Alicante. Residentes en el extranjero.',
       'Nacional. Pernoctaciones. Benidorm. Residentes en España.',
       'Nacional. Pernoctaciones. Benidorm. Residentes en el extranjero.',
       'Nacional. Establecimientos hoteleros. Pernoctaciones. 03063-Denia. Residentes en España.',
       'Nacional. Establecimientos hoteleros. Pernoctaciones. 03063-Denia. Residentes en el extranjero.',
       'Pernoctaciones. Total categorías. Elche/Elx. Residentes en España. Dato base. ',
       'Pernoctaciones. Total categorías. Elche/Elx. Residentes en el Extranjero. Dato base. ',
       'Nacional. Pernoc

In [80]:
print('Shape of dataframe before splits:', hotels_nights_full.shape)

Shape of dataframe before splits: (13955, 4)


*Subset 1*

In [81]:
city_first = hotels_nights_full.loc[~hotels_nights_full['info'].str.contains('Nacional')]
city_first.head()

Unnamed: 0,info,Fecha,Valor,Notas
660,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-06-01,20316.0,
661,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-05-01,17332.0,
662,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-04-01,17366.0,
663,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-03-01,17031.0,
664,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-02-01,14582.0,


In [82]:
city_first['tourist_point'] = city_first['info'].apply(lambda x: x.split('.')[0])
city_first['origin'] = city_first['info'].apply(lambda x: x.split('.')[3])
city_first['stay_type'] = "Establecimiento hotelero"
city_first.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  city_first['tourist_point'] = city_first['info'].apply(lambda x: x.split('.')[0])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  city_first['origin'] = city_first['info'].apply(lambda x: x.split('.')[3])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  city_first['stay_type'] = "Establecimiento hotel

Unnamed: 0,info,Fecha,Valor,Notas,tourist_point,origin,stay_type
660,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-06-01,20316.0,,Pernoctaciones,Residentes en España,Establecimiento hotelero
661,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-05-01,17332.0,,Pernoctaciones,Residentes en España,Establecimiento hotelero
662,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-04-01,17366.0,,Pernoctaciones,Residentes en España,Establecimiento hotelero
663,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-03-01,17031.0,,Pernoctaciones,Residentes en España,Establecimiento hotelero
664,Pernoctaciones. Total categorías. Elche/Elx. R...,2022-02-01,14582.0,,Pernoctaciones,Residentes en España,Establecimiento hotelero


In [83]:
city_first = city_first[city_first['tourist_point'] != 'Pernoctaciones']
city_first_idx = city_first.index
city_first.head()

Unnamed: 0,info,Fecha,Valor,Notas,tourist_point,origin,stay_type
2503,Sitges. Pernoctaciones. Total categorías. Resi...,2022-06-01,19813.0,,Sitges,Residentes en España,Establecimiento hotelero
2504,Sitges. Pernoctaciones. Total categorías. Resi...,2022-05-01,19764.0,,Sitges,Residentes en España,Establecimiento hotelero
2505,Sitges. Pernoctaciones. Total categorías. Resi...,2022-04-01,20620.0,,Sitges,Residentes en España,Establecimiento hotelero
2506,Sitges. Pernoctaciones. Total categorías. Resi...,2022-03-01,13160.0,,Sitges,Residentes en España,Establecimiento hotelero
2507,Sitges. Pernoctaciones. Total categorías. Resi...,2022-02-01,9639.0,,Sitges,Residentes en España,Establecimiento hotelero


In [84]:
print('Shape of dataframe city_first_data:', city_first.shape)

Shape of dataframe city_first_data: (790, 7)


*Subset 2*

In [85]:
city_w_num = hotels_nights_full.loc[hotels_nights_full['info'].str.contains('[0-9]')]
city_w_num_idx = city_w_num.index
hotels_nights_full = hotels_nights_full.drop(city_w_num_idx)

In [86]:
city_w_num['origin'] = city_w_num['info'].apply(lambda x: x.split('.')[4])
city_w_num['tourist_point'] = city_w_num['info'].apply(lambda x: x.split('.')[3])
city_w_num['stay_type'] = city_w_num['info'].apply(lambda x: x.split('.')[1])

In [87]:
city_w_num['tourist_point'] = city_w_num['tourist_point'].apply(lambda x: x.split('-')[1])
city_w_num.head()

Unnamed: 0,info,Fecha,Valor,Notas,origin,tourist_point,stay_type
528,Nacional. Establecimientos hoteleros. Pernocta...,2022-06-01,34828.0,,Residentes en España,Denia,Establecimientos hoteleros
529,Nacional. Establecimientos hoteleros. Pernocta...,2022-05-01,29564.0,,Residentes en España,Denia,Establecimientos hoteleros
530,Nacional. Establecimientos hoteleros. Pernocta...,2022-04-01,25132.0,,Residentes en España,Denia,Establecimientos hoteleros
531,Nacional. Establecimientos hoteleros. Pernocta...,2022-03-01,,,Residentes en España,Denia,Establecimientos hoteleros
532,Nacional. Establecimientos hoteleros. Pernocta...,2022-02-01,,,Residentes en España,Denia,Establecimientos hoteleros


In [88]:
print('Shape of dataframe city_w_num:', city_w_num.shape)

Shape of dataframe city_w_num: (3277, 7)


*Subset 3*

In [89]:
hotels_nights_full = hotels_nights_full.drop(city_first_idx)
hotels_nights_full['origin'] = hotels_nights_full['info'].apply(lambda x: x.split('.')[3])
hotels_nights_full['tourist_point'] = hotels_nights_full['info'].apply(lambda x: x.split('.')[2])
hotels_nights_full['stay_type'] = "Establecimientos hoteleros"
hotels_nights_full.head()

Unnamed: 0,info,Fecha,Valor,Notas,origin,tourist_point,stay_type
0,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-06-01,38807.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
1,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-05-01,39187.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
2,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-04-01,39147.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
3,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-03-01,36476.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
4,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-02-01,30212.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros


In [90]:
print('Shape of dataframe hotels_nights_full:', hotels_nights_full.shape)

Shape of dataframe hotels_nights_full: (9888, 7)


Let's combine all subsets.

In [91]:
hotels_nights_combined = pd.concat([hotels_nights_full, city_w_num, city_first]).reset_index(drop=True)
print('Shape of dataframe after splits:', hotels_nights_combined.shape)
hotels_nights_combined.head()

Shape of dataframe after splits: (13955, 7)


Unnamed: 0,info,Fecha,Valor,Notas,origin,tourist_point,stay_type
0,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-06-01,38807.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
1,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-05-01,39187.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
2,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-04-01,39147.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
3,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-03-01,36476.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
4,Nacional. Pernoctaciones. Vitoria-Gastéiz. Res...,2022-02-01,30212.0,,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros


In [92]:
hotels_nights_combined = hotels_nights_combined.drop(['info', 'Notas'], axis= 1)
hotels_nights_combined.head()

Unnamed: 0,Fecha,Valor,origin,tourist_point,stay_type
0,2022-06-01,38807.0,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
1,2022-05-01,39187.0,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
2,2022-04-01,39147.0,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
3,2022-03-01,36476.0,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros
4,2022-02-01,30212.0,Residentes en España,Vitoria-Gastéiz,Establecimientos hoteleros


In [93]:
hotels_nights_combined.isna().sum()

Fecha               0
Valor            1865
origin              0
tourist_point       0
stay_type           0
dtype: int64

In [94]:
missing_values = hotels_nights_combined.loc[hotels_nights_combined['Valor'].isna()]
nan_df = pd.DataFrame()

nan_df['missing_values'] = missing_values['tourist_point'].value_counts()
nan_df['total_values'] = hotels_nights_combined.tourist_point.value_counts()
nan_df['percentage_nan'] = round((missing_values['tourist_point'].value_counts() / hotels_nights_combined.tourist_point.value_counts())*100, 2)

display(nan_df)

Unnamed: 0,missing_values,total_values,percentage_nan
Torrevieja,116,132,87.88
Villaviciosa,89,127,70.08
Palencia,70,132,53.03
Benavente,68,132,51.52
Cambrils,65,131,49.62
...,...,...,...
Pamplona,3,131,2.29
Ronda,3,131,2.29
Marbella,3,131,2.29
León,3,131,2.29


In [95]:
nan_filtered = nan_df[nan_df['percentage_nan'] > 50]
display(nan_filtered)

Unnamed: 0,missing_values,total_values,percentage_nan
Torrevieja,116,132,87.88
Villaviciosa,89,127,70.08
Palencia,70,132,53.03
Benavente,68,132,51.52


In [96]:
nan_city_name = list(nan_filtered.index)
hotels_nights_combined = hotels_nights_combined[hotels_nights_combined.tourist_point.isin(nan_city_name) == False]

hotels_nights_combined = hotels_nights_combined.fillna(0)

hotels_nights_combined.isna().sum()

Fecha            0
Valor            0
origin           0
tourist_point    0
stay_type        0
dtype: int64

In [97]:
hotels_nights_combined = hotels_nights_combined.reindex(columns = ['stay_type', 'tourist_point', 'Valor', 'origin', 'Fecha'])
hotels_nights_combined = hotels_nights_combined.rename(columns = {'Valor':'value', 'Fecha':'date'})
hotels_nights_combined.reset_index(drop=True).head()

Unnamed: 0,stay_type,tourist_point,value,origin,date
0,Establecimientos hoteleros,Vitoria-Gastéiz,38807.0,Residentes en España,2022-06-01
1,Establecimientos hoteleros,Vitoria-Gastéiz,39187.0,Residentes en España,2022-05-01
2,Establecimientos hoteleros,Vitoria-Gastéiz,39147.0,Residentes en España,2022-04-01
3,Establecimientos hoteleros,Vitoria-Gastéiz,36476.0,Residentes en España,2022-03-01
4,Establecimientos hoteleros,Vitoria-Gastéiz,30212.0,Residentes en España,2022-02-01


In [98]:
file_name = 'hotels_nights.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

num_tur_origin_full.to_excel(path+file_name)

## ....................................................................................................................................... ###

#### Statistic: Establecimientos, plazas estimadas, grados de ocupación y personal empleado por puntos turísticos 

Source: https://www.ine.es/jaxiT3/Tabla.htm?t=2066

In [99]:
hotels_overview = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/49372?date=20050101:20220701',
                                                 'hotels_overview.xlsx', path)
hotels_overview.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,EOT2971,Nacional. Número de establecimientos abiertos ...,244,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,EOT24665,Vitoria-Gasteiz. Número de habitaciones estima...,264,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,EOT3043,Nacional. Número de plazas estimadas. Vitoria-...,245,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,EOT3115,Nacional. Grado de ocupación por plazas. Vitor...,101,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,EOT11585,Nacional. Grado de ocupación por plazas en fin...,101,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [100]:
hotels_overview.Nombre.unique()

array(['Nacional. Número de establecimientos abiertos estimados. Vitoria-Gastéiz.',
       'Vitoria-Gasteiz. Número de habitaciones estimadas. Total categorías. Dato base. ',
       'Nacional. Número de plazas estimadas. Vitoria-Gastéiz.',
       'Nacional. Grado de ocupación por plazas. Vitoria-Gastéiz.',
       'Nacional. Grado de ocupación por plazas en fin de semana. 01059-Vitoria-Gastéiz.',
       'Nacional. Grado de ocupación por habitaciones. Vitoria-Gastéiz.',
       'Nacional. Personal empleado. Vitoria-Gastéiz.',
       'Nacional. Número de establecimientos abiertos estimados. Albacete.',
       'Albacete. Número de habitaciones estimadas. Total categorías. Dato base. ',
       'Nacional. Número de plazas estimadas. Albacete.',
       'Nacional. Grado de ocupación por plazas. Albacete.',
       'Nacional. Grado de ocupación por plazas en fin de semana. 02003-Albacete.',
       'Nacional. Grado de ocupación por habitaciones. Albacete.',
       'Nacional. Personal empleado. Alb

In [101]:
hotels_overview_full = normalize_json(hotels_overview)
hotels_overview_full = hotels_overview_full.drop('Notas', axis = 1)
hotels_overview_full.head()

Unnamed: 0,info,Fecha,Valor
0,Nacional. Número de establecimientos abiertos ...,2022-06-01,39.0
1,Nacional. Número de establecimientos abiertos ...,2022-05-01,39.0
2,Nacional. Número de establecimientos abiertos ...,2022-04-01,39.0
3,Nacional. Número de establecimientos abiertos ...,2022-03-01,39.0
4,Nacional. Número de establecimientos abiertos ...,2022-02-01,39.0


We'll have to split the data into different subsets to distribute correctly the information.

In [102]:
print('Shape of dataframe before splits:', hotels_overview_full.shape)

Shape of dataframe before splits: (48972, 3)


*Subset 1: rows that don't contain 'national' in the first position of info cell*

In [103]:
rows_no_national_first = hotels_overview_full.loc[~hotels_overview_full['info'].str.contains('Nacional')]
print('Shape:', rows_no_national_first.shape)

Shape: (10560, 3)


*Subset 2: rows that don't contain cities or national in the first position of info cell*

In [104]:
rows_no_nat_city_first = extract_rows(rows_no_national_first, 'info')
rows_no_nat_city_first = rows_no_national_first.iloc[rows_no_nat_city_first]
print('Shape:', rows_no_nat_city_first.shape)

Shape: (990, 3)


In [105]:
# Droping last subset from rows_no_national_first
print('Rows_no_national - Before droping rows:', rows_no_national_first.shape)
rows_no_national_first = rows_no_national_first.drop(rows_no_nat_city_first.index)
print('Rows without national and cities:', rows_no_nat_city_first.shape)
print('Rows_no_national - After droping rows:', rows_no_national_first.shape)

Rows_no_national - Before droping rows: (10560, 3)
Rows without national and cities: (990, 3)
Rows_no_national - After droping rows: (9570, 3)


*Subset 3: rows that contain national in the first position of info cell but have an extra value.*

In [106]:
rows_extra_value = hotels_overview_full[hotels_overview_full['info'].str.contains('hoteleros')]
print('Shape:', rows_extra_value.shape)

Shape: (9900, 3)


##### Droping subsets from main dataframe

In [107]:
index_lst = list(rows_extra_value.index) + list(rows_no_nat_city_first.index) + list(rows_no_national_first.index)
hotels_overview_full = hotels_overview_full.drop(index_lst, axis = 0)
print('Shape main df without subsets:', hotels_overview_full.shape)

Shape main df without subsets: (28512, 3)


##### Now we're going to create columns for each subset, but first we still need to clean some numbers on tourist_point column.

In [108]:
hotels_overview_full['tourist_point'] = hotels_overview_full['info'].apply(lambda x: x.split('.')[2])
hotels_overview_full['category'] = hotels_overview_full['info'].apply(lambda x: x.split('.')[1])
hotels_overview_full = hotels_overview_full.drop('info', axis = 1)
hotels_overview_full.head()

Unnamed: 0,Fecha,Valor,tourist_point,category
0,2022-06-01,39.0,Vitoria-Gastéiz,Número de establecimientos abiertos estimados
1,2022-05-01,39.0,Vitoria-Gastéiz,Número de establecimientos abiertos estimados
2,2022-04-01,39.0,Vitoria-Gastéiz,Número de establecimientos abiertos estimados
3,2022-03-01,39.0,Vitoria-Gastéiz,Número de establecimientos abiertos estimados
4,2022-02-01,39.0,Vitoria-Gastéiz,Número de establecimientos abiertos estimados


In [109]:
#Identifying cells with numbers
num_cities = hotels_overview_full.loc[hotels_overview_full['tourist_point'].str.contains('[0-9]')]

#Spliting cells values and storing the name part
num_cities['tourist_point'] = num_cities['tourist_point'].apply(lambda x: x.split('-', 1)[1])
hotels_overview_full['tourist_point'].loc[num_cities['tourist_point'].index] = num_cities['tourist_point']

# Deleting blank spaces
hotels_overview_full['tourist_point'] = hotels_overview_full['tourist_point'].apply(lambda x: x.lstrip())
hotels_overview_full['tourist_point'].unique()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  num_cities['tourist_point'] = num_cities['tourist_point'].apply(lambda x: x.split('-', 1)[1])
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  hotels_overview_full['tourist_point'].loc[num_cities['tourist_point'].index] = num_cities['tourist_point']


array(['Vitoria-Gastéiz', 'Albacete', 'Alicante', 'Benidorm',
       'Torrevieja', 'Almería', 'Mojácar', 'Roquetas De Mar', 'Ávila',
       'Mérida', 'Calviá', 'Palma De Mallorca', 'Barcelona', 'Burgos',
       'Cáceres', 'Algeciras', 'Arcos De La Frontera', 'Cádiz',
       'Jerez De La Frontera', 'El Puerto De Santa María', 'Tarifa',
       'Castellón De La Plana', 'Córdoba', 'Coruña',
       'Santiago De Compostela', 'Cuenca', 'Granada',
       'Donostia-San Sebastián', 'León', 'Lleida', 'Logroño', 'Lugo',
       'Ribadeo', 'Madrid', 'Benalmádena', 'Fuengirola', 'Málaga',
       'Marbella', 'Nerja', 'Ronda', 'Torremolinos', 'Cartagena',
       'Murcia', 'Pamplona', 'Gijón', 'Llanes', 'Oviedo', 'Mogán',
       'Pajara', 'Las Palmas De Gran Canaria',
       'San Bartolomé De Tirajana', 'Tias', 'Vigo', 'Salamanca', 'Adeje',
       'Arona', 'Puerto De La Cruz', 'Santa Cruz De Tenerife',
       'Santander', 'Segovia', 'Sevilla', 'Soria', 'Tarragona',
       'Albarracín', 'Teruel', 'Toledo

##### Let's create adequate columns for each subset.

*Subset 1*

In [110]:
rows_no_national_first['tourist_point'] = rows_no_national_first['info'].apply(lambda x: x.split('.')[0])
rows_no_national_first['category'] = rows_no_national_first['info'].apply(lambda x: x.split('.')[1])
rows_no_national_first = rows_no_national_first.drop('info', axis = 1)
rows_no_national_first.head()

Unnamed: 0,Fecha,Valor,tourist_point,category
66,2022-06-01,1632.0,Vitoria-Gasteiz,Número de habitaciones estimadas
67,2022-05-01,1628.0,Vitoria-Gasteiz,Número de habitaciones estimadas
68,2022-04-01,1632.0,Vitoria-Gasteiz,Número de habitaciones estimadas
69,2022-03-01,1629.0,Vitoria-Gasteiz,Número de habitaciones estimadas
70,2022-02-01,1628.0,Vitoria-Gasteiz,Número de habitaciones estimadas


*Subset 2*

In [111]:
rows_no_nat_city_first['tourist_point'] = rows_no_nat_city_first['info'].apply(lambda x: x.split('.')[2])
rows_no_nat_city_first['category'] = rows_no_nat_city_first['info'].apply(lambda x: x.split('.')[0])
rows_no_nat_city_first = rows_no_nat_city_first.drop('info', axis = 1)
rows_no_nat_city_first.head()

Unnamed: 0,Fecha,Valor,tourist_point,category
2442,2022-06-01,1743.0,Elche/Elx,Número de plazas estimadas
2443,2022-05-01,1743.0,Elche/Elx,Número de plazas estimadas
2444,2022-04-01,1743.0,Elche/Elx,Número de plazas estimadas
2445,2022-03-01,1737.0,Elche/Elx,Número de plazas estimadas
2446,2022-02-01,1701.0,Elche/Elx,Número de plazas estimadas


*Subset 3*

In [112]:
rows_extra_value['tourist_point'] = rows_extra_value['info'].apply(lambda x: x.split('.')[3])
rows_extra_value['category'] = rows_extra_value['info'].apply(lambda x: x.split('.')[2])
rows_extra_value = rows_extra_value.drop('info', axis = 1)
rows_extra_value.head()

Unnamed: 0,Fecha,Valor,tourist_point,category
1848,2022-06-01,30.0,03063-Denia,Número de establecimientos abiertos estimados
1849,2022-05-01,28.0,03063-Denia,Número de establecimientos abiertos estimados
1850,2022-04-01,25.0,03063-Denia,Número de establecimientos abiertos estimados
1851,2022-03-01,,03063-Denia,Número de establecimientos abiertos estimados
1852,2022-02-01,,03063-Denia,Número de establecimientos abiertos estimados


##### Ops! Numbers again. Let's clean them

In [113]:
num_rows_extra_value = rows_extra_value.loc[rows_extra_value['tourist_point'].str.contains('[0-9]')]
num_rows_extra_value['tourist_point'] = num_rows_extra_value['tourist_point'].apply(lambda x: x.split('-', 1)[1])
rows_extra_value['tourist_point'].loc[num_rows_extra_value['tourist_point'].index] = num_rows_extra_value['tourist_point']
rows_extra_value['tourist_point'] = rows_extra_value['tourist_point'].apply(lambda x: x.lstrip())
rows_extra_value['tourist_point'].unique()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rows_extra_value['tourist_point'].loc[num_rows_extra_value['tourist_point'].index] = num_rows_extra_value['tourist_point']


array(['Denia', 'Níjar', 'Capdepera', 'Sant Llorenç des Cardassar',
       'Plasencia', 'Trujillo', 'Peñiscola', 'Lloret de Mar', 'Benasque',
       'Jaca', 'Sallent de Gállego', 'Cazorla', 'Naut Arant',
       'Vielha e Mijaran', 'Viveiro', 'Estepona', 'Ourense',
       'Cangas de Onís', 'Villaviciosa', 'Palencia', 'Grove (O)',
       'Sanxenxo', 'Cambrils', 'Salou', 'Benavente'], dtype=object)

##### Combine subsets

In [114]:
hotels_overview_full = pd.concat([hotels_overview_full, 
                                  rows_no_nat_city_first, 
                                  rows_no_national_first, 
                                  rows_extra_value])
print('Shape of df after splits:', hotels_overview_full.shape)
hotels_overview_full.head()

Shape of df after splits: (48972, 4)


Unnamed: 0,Fecha,Valor,tourist_point,category
0,2022-06-01,39.0,Vitoria-Gastéiz,Número de establecimientos abiertos estimados
1,2022-05-01,39.0,Vitoria-Gastéiz,Número de establecimientos abiertos estimados
2,2022-04-01,39.0,Vitoria-Gastéiz,Número de establecimientos abiertos estimados
3,2022-03-01,39.0,Vitoria-Gastéiz,Número de establecimientos abiertos estimados
4,2022-02-01,39.0,Vitoria-Gastéiz,Número de establecimientos abiertos estimados


In [115]:
hotels_overview_full.isna().sum()

Fecha               0
Valor            6608
tourist_point       0
category            0
dtype: int64

In [116]:
missing_values = hotels_overview_full[hotels_overview_full['Valor'].isna()]
missing_values['tourist_point'].value_counts()

Torrevieja                     406
Villaviciosa                   329
Palencia                       245
Benavente                      238
Cambrils                       231
                              ... 
Alicante/Alacant                 2
Santiago de Compostela           2
San Bartolomé de Tirajana        2
Palmas de Gran Canaria, Las      2
Donostia/San Sebastián           2
Name: tourist_point, Length: 135, dtype: int64

In [117]:
nan_df = pd.DataFrame()

nan_df['missing_values'] = missing_values['tourist_point'].value_counts()
nan_df['total_values'] = hotels_overview_full.tourist_point.value_counts()
nan_df['percentage_nan'] = round((missing_values['tourist_point'].value_counts() / hotels_overview_full.tourist_point.value_counts())*100, 2)

display(nan_df)

Unnamed: 0,missing_values,total_values,percentage_nan
Torrevieja,406,462,87.88
Villaviciosa,329,462,71.21
Palencia,245,462,53.03
Benavente,238,462,51.52
Cambrils,231,462,50.00
...,...,...,...
Alicante/Alacant,2,66,3.03
Santiago de Compostela,2,66,3.03
San Bartolomé de Tirajana,2,66,3.03
"Palmas de Gran Canaria, Las",2,66,3.03


In [118]:
nan_filtered = nan_df[nan_df['percentage_nan'] > 50]
display(nan_filtered)

Unnamed: 0,missing_values,total_values,percentage_nan
Torrevieja,406,462,87.88
Villaviciosa,329,462,71.21
Palencia,245,462,53.03
Benavente,238,462,51.52


In [119]:
nan_city_name = list(nan_filtered.index)
print(nan_city_name)

['Torrevieja', 'Villaviciosa', 'Palencia', 'Benavente']


In [120]:
hotels_overview_full = hotels_overview_full[hotels_overview_full.tourist_point.isin(nan_city_name) == False]

hotels_overview_full = hotels_overview_full.fillna(0)
hotels_overview_full.isna().sum()

Fecha            0
Valor            0
tourist_point    0
category         0
dtype: int64

In [121]:
hotels_overview_full = hotels_overview_full.reindex(columns = ['tourist_point', 'category', 'Valor', 'Fecha'])
hotels_overview_full = hotels_overview_full.rename(columns = {'Valor': 'value', 'Fecha':'date'})
hotels_overview_full.reset_index(drop=True).head()

Unnamed: 0,tourist_point,category,value,date
0,Vitoria-Gastéiz,Número de establecimientos abiertos estimados,39.0,2022-06-01
1,Vitoria-Gastéiz,Número de establecimientos abiertos estimados,39.0,2022-05-01
2,Vitoria-Gastéiz,Número de establecimientos abiertos estimados,39.0,2022-04-01
3,Vitoria-Gastéiz,Número de establecimientos abiertos estimados,39.0,2022-03-01
4,Vitoria-Gastéiz,Número de establecimientos abiertos estimados,39.0,2022-02-01


In [122]:
file_name = 'hotels_overview.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

hotels_overview_full.to_excel(path+file_name)

## ....................................................................................................................................... ###

#### Statistic: Tarifa media (ADR) por puntos turísticos
Source: https://www.ine.es/jaxiT3/Tabla.htm?t=46298

In [181]:
hotels_adr = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/46298?date=20050101:20220701',
                                            'hotels_adr.xlsx', path)
hotels_adr.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,EOT43602,Vitoria-Gasteiz. Tarifa media diaria (ADR). To...,7,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,EOT43496,Vitoria-Gasteiz. Tarifa media diaria (ADR). To...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,EOT43601,Albacete. Tarifa media diaria (ADR). Total cat...,7,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,EOT43495,Albacete. Tarifa media diaria (ADR). Total cat...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,EOT43600,Alicante/Alacant. Tarifa media diaria (ADR). T...,7,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [182]:
hotels_adr_full = normalize_json(hotels_adr)
hotels_adr_full['info'].unique()

array(['Vitoria-Gasteiz. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Vitoria-Gasteiz. Tarifa media diaria (ADR). Total categorías. Tasa de variación interanual. ',
       'Albacete. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Albacete. Tarifa media diaria (ADR). Total categorías. Tasa de variación interanual. ',
       'Alicante/Alacant. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Alicante/Alacant. Tarifa media diaria (ADR). Total categorías. Tasa de variación interanual. ',
       'Benidorm. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Benidorm. Tarifa media diaria (ADR). Total categorías. Tasa de variación interanual. ',
       'Dénia. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Dénia. Tarifa media diaria (ADR). Total categorías. Tasa de variación interanual. ',
       'Elche/Elx. Tarifa media diaria (ADR). Total categorías. Dato base. ',
       'Elche/Elx. Tarifa media d

In [183]:
hotels_adr_full = hotels_adr_full.loc[hotels_adr_full['info'].str.contains('Dato base.')]
hotels_adr_full['tourist_point'] = hotels_adr_full['info'].apply(lambda x: x.split('.')[0])
hotels_adr_full = hotels_adr_full.drop('info', axis=1)
hotels_adr_full.head()

Unnamed: 0,Fecha,Valor,tourist_point
0,2022-06-01,70.88,Vitoria-Gasteiz
1,2022-05-01,63.04,Vitoria-Gasteiz
2,2022-04-01,64.57,Vitoria-Gasteiz
3,2022-03-01,57.89,Vitoria-Gasteiz
4,2022-02-01,52.5,Vitoria-Gasteiz


In [184]:
hotels_adr_full.isna().sum()

Fecha              0
Valor            149
tourist_point      0
dtype: int64

In [185]:
missing_values = hotels_adr_full[hotels_adr_full['Valor'].isna()]
missing_values['tourist_point'].unique()

array(['Dénia', 'Torrevieja', 'Mojácar', 'Roquetas de Mar', 'Calvià',
       'Capdepera', 'Sant Llorenç des Cardassar', 'Algeciras', 'Tarifa',
       'Peníscola/Peñíscola', 'Lloret de Mar', 'Benasque', 'Jaca',
       'Sallent de Gállego', 'Cazorla', 'Ponferrada', 'Naut Aran',
       'Viveiro', 'Benalmádena', 'Estepona', 'Nerja', 'Torremolinos',
       'Cangas de Onís', 'Llanes', 'Villaviciosa', 'Palencia', 'Teguise',
       'Tías', 'Grove, O', 'Sanxenxo', 'Arona', 'Cambrils', 'Salou',
       'Albarracín', 'Gandia'], dtype=object)

In [186]:
nan_df = pd.DataFrame()

nan_df['nan'] = missing_values['tourist_point'].value_counts()
nan_df['total_values'] = hotels_adr_full['tourist_point'].value_counts()
nan_df['percentage_nan'] = round((missing_values['tourist_point'].value_counts()/hotels_adr_full['tourist_point'].value_counts())*100,2)

display(nan_df)

Unnamed: 0,nan,total_values,percentage_nan
Salou,10,18,55.56
Sant Llorenç des Cardassar,9,18,50.0
Gandia,8,18,44.44
Capdepera,8,18,44.44
Cambrils,8,18,44.44
Torrevieja,8,18,44.44
Cangas de Onís,6,18,33.33
Calvià,6,18,33.33
Villaviciosa,6,18,33.33
Tías,5,18,27.78


In [188]:
nan_filtered = nan_df[nan_df['percentage_nan'] >= 50]
display(nan_filtered)

Unnamed: 0,nan,total_values,percentage_nan
Salou,10,18,55.56
Sant Llorenç des Cardassar,9,18,50.0


In [189]:
nan_index = list(nan_filtered.index)
hotels_adr_full = hotels_adr_full[hotels_adr_full.tourist_point.isin(nan_filtered.index) == False]
hotels_adr_full = hotels_adr_full.fillna(0)
hotels_adr_full.isna().sum()

Fecha            0
Valor            0
tourist_point    0
dtype: int64

In [190]:
hotels_adr_full = hotels_adr_full.reindex(columns = ['tourist_point', 'Valor', 'Fecha'])
hotels_adr_full = hotels_adr_full.rename(columns = {'Valor': 'value', 'Fecha':'date'})
hotels_adr_full.reset_index(drop=True).head()

Unnamed: 0,tourist_point,value,date
0,Vitoria-Gasteiz,70.88,2022-06-01
1,Vitoria-Gasteiz,63.04,2022-05-01
2,Vitoria-Gasteiz,64.57,2022-04-01
3,Vitoria-Gasteiz,57.89,2022-03-01
4,Vitoria-Gasteiz,52.5,2022-02-01


In [191]:
file_name = 'hotels_adr.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

hotels_adr_full.to_excel(path+file_name)

## ....................................................................................................................................... ###

#### Statistic: Índice de ingresos hoteleros, índices y tasas de variación interanual
Source: https://www.ine.es/jaxiT3/Tabla.htm?t=2054

In [192]:
hotels_revenue = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/2054?date=20050101:20220701',
                                               'hotels_revenue.xlsx', path)
hotels_revenue.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,EOT14680,Indice de ingresos hoteleros (Base 2008). Naci...,133,1,"[{'Fecha': 1259622000000, 'FK_TipoDato': 1, 'F..."
1,EOT14681,Indice de ingresos hoteleros (Base 2008). Naci...,135,1,"[{'Fecha': 1259622000000, 'FK_TipoDato': 1, 'F..."
2,EOT14682,Indice de ingresos hoteleros (Base 2008). Anda...,133,1,"[{'Fecha': 1259622000000, 'FK_TipoDato': 1, 'F..."
3,EOT14683,Indice de ingresos hoteleros (Base 2008). Anda...,135,1,"[{'Fecha': 1259622000000, 'FK_TipoDato': 1, 'F..."
4,EOT14684,Indice de ingresos hoteleros (Base 2008). Arag...,133,1,"[{'Fecha': 1259622000000, 'FK_TipoDato': 1, 'F..."


In [193]:
hotels_revenue = normalize_json(hotels_revenue)
hotels_revenue['info'].unique()

array(['Indice de ingresos hoteleros (Base 2008). Nacional. Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Nacional. Tasa de variación interanual.',
       'Indice de ingresos hoteleros (Base 2008). Andalucía. Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Andalucía. Tasa de variación interanual.',
       'Indice de ingresos hoteleros (Base 2008). Aragón. Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Aragón. Tasa de variación interanual.',
       'Indice de ingresos hoteleros (Base 2008). Asturias (Principado de). Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Asturias (Principado de). Tasa de variación interanual.',
       'Indice de ingresos hoteleros (Base 2008). Balears (Illes). Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Balears (Illes). Tasa de variación interanual.',
       'Indice de ingresos hoteleros (Base 2008). Canarias. Dato base.',
       'Indice de ingresos hoteleros (Base 2008). Canarias

In [194]:
hotels_revenue = hotels_revenue.loc[hotels_revenue['info'].str.contains('Dato base')]
hotels_revenue['tourist_point'] = hotels_revenue['info'].apply(lambda x: x.split('.')[1])
hotels_revenue = hotels_revenue.drop('info', axis=1)
hotels_revenue.head()

Unnamed: 0,Fecha,Valor,tourist_point
0,2009-12-01,95.09,Nacional
1,2009-11-01,94.23,Nacional
2,2009-10-01,94.03,Nacional
3,2009-09-01,94.14,Nacional
4,2009-08-01,95.55,Nacional


In [195]:
hotels_revenue.isna().sum()

Fecha            0
Valor            0
tourist_point    0
dtype: int64

In [196]:
hotels_revenue.reindex(columns = ['tourist_point', 'Valor', 'Fecha'])
hotels_revenue.rename(columns = {'Valor':'valor', 'Fecha':'date'})

Unnamed: 0,date,valor,tourist_point
0,2009-12-01,95.09,Nacional
1,2009-11-01,94.23,Nacional
2,2009-10-01,94.03,Nacional
3,2009-09-01,94.14,Nacional
4,2009-08-01,95.55,Nacional
...,...,...,...
2335,2005-05-01,90.31,Melilla
2336,2005-04-01,89.86,Melilla
2337,2005-03-01,89.58,Melilla
2338,2005-02-01,92.08,Melilla


In [197]:
file_name = 'hotels_revenue.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

hotels_revenue.to_excel(path+file_name)

## ....................................................................................................................................... ###

# 3. Zoom In: Apartamentos turísticos


#### Statistic: Viajeros y pernoctaciones por puntos turísticos
Source: https://www.ine.es/jaxiT3/Tabla.htm?t=2082&L=0

In [198]:
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/raw/'

apart_nights = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/49376?date=20050101:20220816',
                                              'apart_nights.xlsx', path)
apart_nights.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,EOT22379,Vitoria-Gasteiz. Total categorías. Viajero. Re...,213,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,EOT22378,Vitoria-Gasteiz. Total categorías. Viajero. Re...,213,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,EOT22377,Vitoria-Gasteiz. Total categorías. Pernoctacio...,242,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,EOT22376,Vitoria-Gasteiz. Total categorías. Pernoctacio...,242,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,EOT9335,Nacional. Viajeros. Alfas Del Pi (L ). Residen...,213,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [199]:
apart_nights_full = normalize_json(apart_nights)
apart_nights_full['info'].unique()

array(['Vitoria-Gasteiz. Total categorías. Viajero. Residentes en España. Dato base. ',
       'Vitoria-Gasteiz. Total categorías. Viajero. Residentes en el Extranjero. Dato base. ',
       'Vitoria-Gasteiz. Total categorías. Pernoctaciones. Residentes en España. Dato base. ',
       'Vitoria-Gasteiz. Total categorías. Pernoctaciones. Residentes en el Extranjero. Dato base. ',
       'Nacional. Viajeros. Alfas Del Pi (L ). Residentes en España.',
       'Nacional. Viajeros. Alfas Del Pi (L ). Residentes en el extranjero.',
       'Nacional. Pernoctaciones. Alfas Del Pi (L ). Residentes en España.',
       'Nacional. Pernoctaciones. Alfas Del Pi (L ). Residentes en el extranjero.',
       'Alicante/Alacant. Total categorías. Viajero. Residentes en España. Dato base. ',
       'Alicante/Alacant. Total categorías. Viajero. Residentes en el Extranjero. Dato base. ',
       'Alicante/Alacant. Total categorías. Pernoctaciones. Residentes en España. Dato base. ',
       'Alicante/Alacant. Tot

*Subset 1*

In [202]:
apart_nights_full = apart_nights_full.loc[apart_nights_full['info'].str.contains('Pernoctaciones')]
apart_nights_full['info'].unique()

array(['Vitoria-Gasteiz. Total categorías. Pernoctaciones. Residentes en España. Dato base. ',
       'Vitoria-Gasteiz. Total categorías. Pernoctaciones. Residentes en el Extranjero. Dato base. ',
       'Nacional. Pernoctaciones. Alfas Del Pi (L ). Residentes en España.',
       'Nacional. Pernoctaciones. Alfas Del Pi (L ). Residentes en el extranjero.',
       'Alicante/Alacant. Total categorías. Pernoctaciones. Residentes en España. Dato base. ',
       'Alicante/Alacant. Total categorías. Pernoctaciones. Residentes en el Extranjero. Dato base. ',
       'Nacional. Pernoctaciones. Benidorm. Residentes en España.',
       'Nacional. Pernoctaciones. Benidorm. Residentes en el extranjero.',
       'Nacional. Pernoctaciones. Calpe/Calp. Residentes en España.',
       'Nacional. Pernoctaciones. Calpe/Calp. Residentes en el extranjero.',
       'Nacional. Pernoctaciones. Denia. Residentes en España.',
       'Nacional. Pernoctaciones. Denia. Residentes en el extranjero.',
       'Nacional

*Subset 2*

In [203]:
rows_no_national_first = apart_nights_full.loc[~apart_nights_full['info'].str.contains('Nacional')]
rows_no_national_first['info'].unique()

array(['Vitoria-Gasteiz. Total categorías. Pernoctaciones. Residentes en España. Dato base. ',
       'Vitoria-Gasteiz. Total categorías. Pernoctaciones. Residentes en el Extranjero. Dato base. ',
       'Alicante/Alacant. Total categorías. Pernoctaciones. Residentes en España. Dato base. ',
       'Alicante/Alacant. Total categorías. Pernoctaciones. Residentes en el Extranjero. Dato base. ',
       'Cáceres. Total categorías. Pernoctaciones. Residentes en España. Dato base. ',
       'Cáceres. Total categorías. Pernoctaciones. Residentes en el Extranjero. Dato base. ',
       'Córdoba. Total categorías. Pernoctaciones. Residentes en España. Dato base. ',
       'Córdoba. Total categorías. Pernoctaciones. Residentes en el Extranjero. Dato base. ',
       'Cuenca. Total categorías. Pernoctaciones. Residentes en España. Dato base. ',
       'Cuenca. Total categorías. Pernoctaciones. Residentes en el Extranjero. Dato base. ',
       'Ezcaray. Total categorías. Pernoctaciones. Residentes e

In [204]:
rows_no_national_first['tourist_point'] = rows_no_national_first['info'].apply(lambda x:x.split('.')[0])
rows_no_national_first['origin'] = rows_no_national_first['info'].apply(lambda x:x.split('.')[3])
rows_no_national_first = rows_no_national_first.drop(['info', 'Notas'], axis=1)
rows_no_national_first.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rows_no_national_first['tourist_point'] = rows_no_national_first['info'].apply(lambda x:x.split('.')[0])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rows_no_national_first['origin'] = rows_no_national_first['info'].apply(lambda x:x.split('.')[3])


Unnamed: 0,Fecha,Valor,tourist_point,origin
132,2022-06-01,4198.0,Vitoria-Gasteiz,Residentes en España
133,2022-05-01,4286.0,Vitoria-Gasteiz,Residentes en España
134,2022-04-01,3733.0,Vitoria-Gasteiz,Residentes en España
135,2022-03-01,3762.0,Vitoria-Gasteiz,Residentes en España
136,2022-02-01,3512.0,Vitoria-Gasteiz,Residentes en España


In [205]:
apart_nights_full = apart_nights_full.drop(rows_no_national_first.index)

apart_nights_full['tourist_point'] = apart_nights_full['info'].apply(lambda x:x.split('.')[2])
apart_nights_full['origin'] = apart_nights_full['info'].apply(lambda x:x.split('.')[3])
apart_nights_full = apart_nights_full.drop(['info', 'Notas'], axis = 1).reset_index(drop=True)
apart_nights_full.head()

Unnamed: 0,Fecha,Valor,tourist_point,origin
0,2022-06-01,,Alfas Del Pi (L ),Residentes en España
1,2022-05-01,,Alfas Del Pi (L ),Residentes en España
2,2022-04-01,,Alfas Del Pi (L ),Residentes en España
3,2022-03-01,3362.0,Alfas Del Pi (L ),Residentes en España
4,2022-02-01,2910.0,Alfas Del Pi (L ),Residentes en España


In [206]:
apart_nights_full = pd.concat([apart_nights_full, rows_no_national_first]).reset_index(drop=True)
apart_nights_full.head()

Unnamed: 0,Fecha,Valor,tourist_point,origin
0,2022-06-01,,Alfas Del Pi (L ),Residentes en España
1,2022-05-01,,Alfas Del Pi (L ),Residentes en España
2,2022-04-01,,Alfas Del Pi (L ),Residentes en España
3,2022-03-01,3362.0,Alfas Del Pi (L ),Residentes en España
4,2022-02-01,2910.0,Alfas Del Pi (L ),Residentes en España


In [207]:
missing_values = apart_nights_full.loc[apart_nights_full['Valor'].isna()]
nan_df = pd.DataFrame()

nan_df['missing_values'] = missing_values['tourist_point'].value_counts()
nan_df['total_values'] = apart_nights_full.tourist_point.value_counts()
nan_df['percentage_nan'] = round((missing_values['tourist_point'].value_counts() / apart_nights_full.tourist_point.value_counts())*100, 2)

display(nan_df)

Unnamed: 0,missing_values,total_values,percentage_nan
Granadilla De Abona,130,132,98.48
Capileira,130,132,98.48
Teulada,126,132,95.45
Cudillero,120,132,90.91
Santa Cruz De La Palma,112,132,84.85
...,...,...,...
Tias,4,132,3.03
Yaiza,4,132,3.03
Adeje,4,132,3.03
Arona,4,132,3.03


In [208]:
nan_filtered = nan_df[nan_df['percentage_nan'] > 50]
nan_city_names= list(nan_filtered.index)
apart_nights_full = apart_nights_full[apart_nights_full.tourist_point.isin(nan_city_names) == False]

In [209]:
apart_nights_full = apart_nights_full.fillna(0)
apart_nights_full.isna().sum()

Fecha            0
Valor            0
tourist_point    0
origin           0
dtype: int64

In [210]:
apart_nights_full = apart_nights_full.reindex(columns = ['tourist_point', 'origin', 'Valor', 'Fecha'])
apart_nights_full = apart_nights_full.rename(columns = {'Valor': 'value', 'Fecha':'date'})
apart_nights_full.reset_index(drop=True).head()

Unnamed: 0,tourist_point,origin,value,date
0,Benidorm,Residentes en España,49332.0,2022-06-01
1,Benidorm,Residentes en España,27034.0,2022-05-01
2,Benidorm,Residentes en España,39400.0,2022-04-01
3,Benidorm,Residentes en España,17385.0,2022-03-01
4,Benidorm,Residentes en España,23908.0,2022-02-01


In [211]:
file_name = 'apart_nights.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

apart_nights_full.to_excel(path+file_name)

## ....................................................................................................................................... ###


#### Statistic: Plazas, apartamentos, grados de ocupación y personal empleado por puntos turísticos
Source: https://www.ine.es/jaxiT3/Tabla.htm?t=2022

In [212]:
apart_overview = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/49378?date=20050101:20220816',
                                                'apart_overview.xlsx', path)
apart_overview.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,EOT22610,Número de plazas estimadas. Total categorías. ...,245,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,EOT22603,Número de apartamentos estimados. Total catego...,243,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,EOT22596,Grado de ocupación por plazas. Total categoría...,101,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,EOT22589,Grado de ocupación por apartamentos. Total cat...,101,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,EOT22582,Grado de ocupación por apartamentos en fin de ...,101,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [219]:
apart_overview_full = normalize_json(apart_overview)
print('Shape of df before splits:', apart_overview_full.shape)
apart_overview_full['info'].unique()

Shape of df before splits: (25740, 4)


array(['Número de plazas estimadas. Total categorías. Vitoria-Gasteiz. Dato base. ',
       'Número de apartamentos estimados. Total categorías. Vitoria-Gasteiz. Dato base. ',
       'Grado de ocupación por plazas. Total categorías. Vitoria-Gasteiz. Dato base. ',
       'Grado de ocupación por apartamentos. Total categorías. Vitoria-Gasteiz. Dato base. ',
       'Grado de ocupación por apartamentos en fin de semana. Total categorías. Vitoria-Gasteiz. Dato base. ',
       'Personal empleado. Total categorías. Vitoria-Gasteiz. Dato base. ',
       'Nacional. Número de plazas estimadas. Alfas Del Pi (L ).',
       'Nacional. Número de apartamentos estimados. Alfas Del Pi (L ).',
       'Nacional. Grado de ocupación por plazas. Alfas Del Pi (L ).',
       'Nacional. Grado de ocupación por apartamentos. Alfas Del Pi (L ).',
       'Nacional. Apartamentos turísticos. Grado de ocupación por apartamentos en fin de semana. 03011-Alfas Del Pi (L ).',
       'Nacional. Personal empleado. Alfas De

*Subset 1*

In [220]:
rows_w_num = apart_overview_full.loc[apart_overview_full['info'].str.contains('[0-9]')]
print('Shape subset 1', rows_w_num.shape)
rows_w_num['info'].unique()

Shape subset 1 (3630, 4)


array(['Nacional. Apartamentos turísticos. Grado de ocupación por apartamentos en fin de semana. 03011-Alfas Del Pi (L ).',
       'Nacional. Apartamentos turísticos. Grado de ocupación por apartamentos en fin de semana. 03031-Benidorm.',
       'Nacional. Apartamentos turísticos. Grado de ocupación por apartamentos en fin de semana. 03047-Calpe/Calp.',
       'Nacional. Apartamentos turísticos. Grado de ocupación por apartamentos en fin de semana. 03063-Denia.',
       'Nacional. Apartamentos turísticos. Grado de ocupación por apartamentos en fin de semana. 03082-Javea/Xabia.',
       'Nacional. Apartamentos turísticos. Grado de ocupación por apartamentos en fin de semana. 03128-Teulada.',
       'Nacional. Apartamentos turísticos. Grado de ocupación por apartamentos en fin de semana. 03133-Torrevieja.',
       'Nacional. Apartamentos turísticos. Grado de ocupación por apartamentos en fin de semana. 04079-Roquetas De Mar.',
       'Nacional. Apartamentos turísticos. Grado de ocupación

In [215]:
rows_w_num['tourist_point'] = rows_w_num['info'].apply(lambda x: x.split('.')[3])
rows_w_num['tourist_point'] = rows_w_num['tourist_point'].apply(lambda x: x.split('-', 1)[1])

rows_w_num['category'] = rows_w_num['info'].apply(lambda x: x.split('.')[2])
rows_w_num = rows_w_num.drop(['info', 'Notas'], axis=1)
rows_w_num.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rows_w_num['tourist_point'] = rows_w_num['info'].apply(lambda x: x.split('.')[3])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rows_w_num['tourist_point'] = rows_w_num['tourist_point'].apply(lambda x: x.split('-', 1)[1])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rows_w_num['category'] = rows

Unnamed: 0,Fecha,Valor,tourist_point,category
660,2022-06-01,,Alfas Del Pi (L ),Grado de ocupación por apartamentos en fin de...
661,2022-05-01,,Alfas Del Pi (L ),Grado de ocupación por apartamentos en fin de...
662,2022-04-01,,Alfas Del Pi (L ),Grado de ocupación por apartamentos en fin de...
663,2022-03-01,52.08,Alfas Del Pi (L ),Grado de ocupación por apartamentos en fin de...
664,2022-02-01,36.03,Alfas Del Pi (L ),Grado de ocupación por apartamentos en fin de...


*Subset 2*

In [222]:
apart_overview_full = apart_overview_full.drop(rows_w_num.index)
print('Shape subset 2', apart_overview_full.shape)

Shape subset 2 (22110, 4)


In [223]:
apart_overview_full['tourist_point'] = apart_overview_full['info'].apply(lambda x: x.split('.')[2])
apart_overview_full['category'] = apart_overview_full['info'].apply(lambda x: x.split('.')[1])
apart_overview_full = apart_overview_full.drop(['info', 'Notas'], axis=1)
apart_overview_full.head()

Unnamed: 0,Fecha,Valor,tourist_point,category
0,2022-06-01,623.0,Vitoria-Gasteiz,Total categorías
1,2022-05-01,623.0,Vitoria-Gasteiz,Total categorías
2,2022-04-01,584.0,Vitoria-Gasteiz,Total categorías
3,2022-03-01,584.0,Vitoria-Gasteiz,Total categorías
4,2022-02-01,555.0,Vitoria-Gasteiz,Total categorías


Let's combine them.

In [226]:
apart_overview_full = pd.concat([apart_overview_full, rows_w_num]).reset_index(drop=True)
apart_overview_full = apart_overview_full.drop(['info', 'Notas'], axis=1)
print('Shape of df after splits:', apart_overview_full.shape)
apart_overview_full.head()

Shape of df after splits: (29370, 4)


Unnamed: 0,Fecha,Valor,tourist_point,category
0,2022-06-01,623.0,Vitoria-Gasteiz,Total categorías
1,2022-05-01,623.0,Vitoria-Gasteiz,Total categorías
2,2022-04-01,584.0,Vitoria-Gasteiz,Total categorías
3,2022-03-01,584.0,Vitoria-Gasteiz,Total categorías
4,2022-02-01,555.0,Vitoria-Gasteiz,Total categorías


In [227]:
apart_overview_full.isna().sum()

Fecha               0
Valor            5632
tourist_point    7260
category         7260
dtype: int64

In [228]:
missing_values = apart_overview_full[apart_overview_full['Valor'].isna()]

nan_df = pd.DataFrame()

nan_df['nan_values'] = missing_values['tourist_point'].value_counts()
nan_df['total_values'] = apart_overview_full['tourist_point'].value_counts()
nan_df['percentage_nan'] = round((missing_values['tourist_point'].value_counts()/apart_overview_full['tourist_point'].value_counts())*100,2)

display(nan_df)

Unnamed: 0,nan_values,total_values,percentage_nan
Capileira,326,330,98.79
Granadilla De Abona,326,330,98.79
Teulada,316,330,95.76
Cudillero,301,330,91.21
Ezcaray,295,396,74.49
...,...,...,...
Mogán,11,330,3.33
Madrid,11,330,3.33
Benalmádena,11,330,3.33
Marbella,11,330,3.33


In [229]:
nan_filtered = nan_df[nan_df['percentage_nan'] > 50]
nan_city_names= list(nan_filtered.index)

apart_overview_full = apart_overview_full[apart_overview_full.tourist_point.isin(nan_city_names) == False]

apart_overview_full = apart_overview_full.fillna(0)
apart_overview_full.isna().sum()

Fecha            0
Valor            0
tourist_point    0
category         0
dtype: int64

In [230]:
apart_overview_full = apart_overview_full.reindex(columns = ['tourist_point', 'category', 'Valor', 'Fecha'])
apart_overview_full = apart_overview_full.rename(columns = {'Valor': 'value', 'Fecha':'date'})
apart_overview_full = apart_overview_full.reset_index(drop=True).head()

In [231]:
file_name = 'apart_overview.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

apart_overview_full.to_excel(path+file_name)

## ....................................................................................................................................... ###


#### Statistic: Índice de precios de apartamentos (IPAP): índice general nacional y desglose por modalidades 
Source: https://www.ine.es/jaxiT3/Datos.htm?t=2050

In [232]:
ipap_mod = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/1989?date=20050101:20220816',
                                          'ipap_mod.xlsx', path)
ipap_mod.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,EOT8076,Nacional. Total modalidades. Dato base.,133,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,EOT8077,Nacional. Total modalidades. Tasa de variación...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,EOT8094,Nacional. Estudio. Dato base.,133,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,EOT8095,Nacional. Estudio. Tasa de variación interanual.,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,EOT8096,Nacional. Apartamentos de 2/4 plazas. Dato base.,133,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [233]:
ipap_mod_full = normalize_json(ipap_mod)
ipap_mod_full['info'].unique()

array(['Nacional. Total modalidades. Dato base.',
       'Nacional. Total modalidades. Tasa de variación interanual.',
       'Nacional. Estudio. Dato base.',
       'Nacional. Estudio. Tasa de variación interanual.',
       'Nacional. Apartamentos de 2/4 plazas. Dato base.',
       'Nacional. Apartamentos de 2/4 plazas. Tasa de variación interanual.',
       'Nacional. Apartamentos de 4/6 plazas. Dato base.',
       'Nacional. Apartamentos de 4/6 plazas. Tasa de variación interanual.'],
      dtype=object)

In [234]:
ipap_mod_full = ipap_mod_full.loc[ipap_mod_full['info'].str.contains('Dato base')]
ipap_mod_full['category'] = ipap_mod_full['info'].apply(lambda x: x.split('.')[1])
ipap_mod_full = ipap_mod_full.drop(['info', 'Notas'], axis= 1)
ipap_mod_full.head()

Unnamed: 0,Fecha,Valor,category
0,2022-06-01,159.83,Total modalidades
1,2022-05-01,188.44,Total modalidades
2,2022-04-01,157.63,Total modalidades
3,2022-03-01,132.17,Total modalidades
4,2022-02-01,133.25,Total modalidades


In [235]:
ipap_mod_full.isna().sum()

Fecha       0
Valor       4
category    0
dtype: int64

In [236]:
ipap_mod_full = ipap_mod_full.fillna(0)
ipap_mod_full.isna().sum()

Fecha       0
Valor       0
category    0
dtype: int64

In [237]:
ipap_mod_full = ipap_mod_full.reindex(columns = ['category', 'Valor', 'Fecha'])
ipap_mod_full = ipap_mod_full.rename(columns = {'Valor': 'value', 'Fecha':'date'})
ipap_mod_full = ipap_mod_full.reset_index(drop=True).head()

In [238]:
file_name = 'ipap_mod.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

ipap_mod_full.to_excel(path+file_name)

## ....................................................................................................................................... ###


#### Statistic: Índice de precios de apartamentos (IPAP): índice general nacional y desglose por tarifas
Source: https://www.ine.es/jaxiT3/Tabla.htm?t=2050&L=0

In [239]:
ipap_rate = get_data_and_create_excel_file('https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/2050?date=20050101:20220816',
                                           'ipap_rate.xlsx', path)
ipap_rate.head()

Unnamed: 0,COD,Nombre,FK_Unidad,FK_Escala,Data
0,EOT16057,Nacional. Total tarifa. Dato base.,133,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
1,EOT16058,Nacional. Total tarifa. Tasa de variación inte...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
2,EOT8078,Nacional. Tarifa normal. Dato base.,133,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
3,EOT8079,Nacional. Tarifa normal. Tasa de variación int...,135,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."
4,EOT8080,Nacional. Tarifa fin de semana. Dato base.,133,1,"[{'Fecha': 1654034400000, 'FK_TipoDato': 2, 'F..."


In [240]:
ipap_rate_full = normalize_json(ipap_rate)
ipap_rate_full['info'].unique()

array(['Nacional. Total tarifa. Dato base.',
       'Nacional. Total tarifa. Tasa de variación interanual.',
       'Nacional. Tarifa normal. Dato base.',
       'Nacional. Tarifa normal. Tasa de variación interanual.',
       'Nacional. Tarifa fin de semana. Dato base.',
       'Nacional. Tarifa fin de semana. Tasa de variación interanual.',
       'Nacional. Tarifa touroperador. Dato base.',
       'Nacional. Tarifa touroperador. Tasa de variación interanual.'],
      dtype=object)

In [241]:
ipap_rate_full = ipap_rate_full.loc[ipap_rate_full['info'].str.contains('Dato base')]
ipap_rate_full['category'] = ipap_rate_full['info'].apply(lambda x: x.split('.')[1])
ipap_rate_full = ipap_rate_full.drop(['info', 'Notas'], axis= 1)
ipap_rate_full.head()

Unnamed: 0,Fecha,Valor,category
0,2022-06-01,159.83,Total tarifa
1,2022-05-01,188.44,Total tarifa
2,2022-04-01,157.63,Total tarifa
3,2022-03-01,132.17,Total tarifa
4,2022-02-01,133.25,Total tarifa


In [242]:
ipap_rate_full.isna().sum()

Fecha       0
Valor       4
category    0
dtype: int64

In [243]:
ipap_rate_full = ipap_rate_full.fillna(0)
ipap_rate_full.isna().sum()

Fecha       0
Valor       0
category    0
dtype: int64

In [244]:
ipap_rate_full = ipap_rate_full.reindex(columns = ['category', 'Valor', 'Fecha'])
ipap_rate_full = ipap_rate_full.rename(columns = {'Valor': 'value', 'Fecha':'date'})
ipap_rate_full = ipap_rate_full.reset_index(drop=True).head()

In [245]:
file_name = 'ipap_rate.xlsx'
path = 'C:/Users/ameli/IRONHACK/WEEK_5/MBP/data/clean/'

ipap_rate_full.to_excel(path+file_name)