## Data viajeros: archivo .csv

Como segunda fuente he decididio escoger la web del 'INE', de la que me he descargado un archivo .csv sobre la ocupación hotelera, en establecimientos hoteleros en la Comunidad de Madrid. 

He decidido acotar mis datos a los últimos tres años. A pesar de que el primero de ellos puede no resultar demasiado representativo, ya que coinciden varias épocas clave con nuevas olas de contagios de COVID-19.


En cuanto al proceso de limpieza que se lleva a cabo, decido dividir la tabla inicial en dos tablas diferentes, mostrando en una los 'Residentes' en España y en la otra los 'No Residentes'.

Mis tablas finales constarán de las siguientes columnas: 
Comunidad Autónoma	Residencia	Viajeros	Pernoctaciones	año	mes	Total 
- Comunidad Autónoma
- Residencia
- Viajeros
- Pernoctaciones
- Año
- Mes
- Total: cuenta el total de personas que en ese mes están en un hotel

url utilizada: https://www.ine.es/jaxiT3/Datos.htm?t=2074

Para comenzar con la limpieza, importo las librerías que necesito, y aquellas funciones que pueden ser útiles en mi búsqueda. 

In [1]:
import pandas as pd
import numpy as np
import statistics as stats

import warnings
warnings.filterwarnings('ignore')

import pylab as plt
import seaborn as sns

In [2]:
data = pd.read_csv('../Data/CollectedOnline/Viajeros.csv', sep=';')
data

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Viajeros
Totales Territoriales,Comunidad Autónoma,Viajeros o pernoctaciones,Residencia,Periodo,Total
Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M09,564.048
Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M08,467.045
Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M07,563.343
Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M06,615.313
Total Nacional,"13 Madrid, Comunidad de",...,...,...,...
Total Nacional,"13 Madrid, Comunidad de",Pernoctaciones,Residentes en el Extranjero,2021M01,109.984
Total Nacional,"13 Madrid, Comunidad de",Pernoctaciones,Residentes en el Extranjero,2020M12,113.179
Total Nacional,"13 Madrid, Comunidad de",Pernoctaciones,Residentes en el Extranjero,2020M11,102.407
Total Nacional,"13 Madrid, Comunidad de",Pernoctaciones,Residentes en el Extranjero,2020M10,110.247


**1. PRIMER PASO:**
- Cambio el nombre de las columnas, en este caso serán los datos de la fila con index=2.
- Se eliminan las filas que no son útiles.
- Reseteo el index (y elimino la columna que se ha creado cuando reseteo el index).

In [3]:
data.reset_index(inplace=True)

In [4]:
nombres_viejos = data.columns
nombres_viejos

Index(['level_0', 'level_1', 'level_2', 'level_3', 'level_4', 'Viajeros'], dtype='object')

In [5]:
nombres_nuevos = list(data.iloc[0,:])
nombres_nuevos

['Totales Territoriales',
 'Comunidad Autónoma',
 'Viajeros o pernoctaciones',
 'Residencia',
 'Periodo',
 'Total']

In [6]:
rename_dict = dict(zip(nombres_viejos,nombres_nuevos))
rename_dict

{'level_0': 'Totales Territoriales',
 'level_1': 'Comunidad Autónoma',
 'level_2': 'Viajeros o pernoctaciones',
 'level_3': 'Residencia',
 'level_4': 'Periodo',
 'Viajeros': 'Total'}

In [7]:
data.rename(columns=rename_dict,inplace=True)


In [8]:
data.iloc[1:,:]

Unnamed: 0,Totales Territoriales,Comunidad Autónoma,Viajeros o pernoctaciones,Residencia,Periodo,Total
1,Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M09,564.048
2,Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M08,467.045
3,Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M07,563.343
4,Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M06,615.313
5,Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M05,567.870
...,...,...,...,...,...,...
144,Total Nacional,"13 Madrid, Comunidad de",Pernoctaciones,Residentes en el Extranjero,2021M01,109.984
145,Total Nacional,"13 Madrid, Comunidad de",Pernoctaciones,Residentes en el Extranjero,2020M12,113.179
146,Total Nacional,"13 Madrid, Comunidad de",Pernoctaciones,Residentes en el Extranjero,2020M11,102.407
147,Total Nacional,"13 Madrid, Comunidad de",Pernoctaciones,Residentes en el Extranjero,2020M10,110.247


In [9]:
data = data.iloc[1:,:]

In [10]:
data.head()

Unnamed: 0,Totales Territoriales,Comunidad Autónoma,Viajeros o pernoctaciones,Residencia,Periodo,Total
1,Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M09,564.048
2,Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M08,467.045
3,Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M07,563.343
4,Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M06,615.313
5,Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M05,567.87


In [11]:
data.reset_index(inplace=True)

In [12]:
data.head()

Unnamed: 0,index,Totales Territoriales,Comunidad Autónoma,Viajeros o pernoctaciones,Residencia,Periodo,Total
0,1,Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M09,564.048
1,2,Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M08,467.045
2,3,Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M07,563.343
3,4,Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M06,615.313
4,5,Total Nacional,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M05,567.87


In [13]:
data.drop(columns="index",inplace=True)

**2. SEGUNDO PASO:**
 - Como veo que la columna "Totales Territoriales" no me va a ser útil, y se repite constantemente lo mismo, la elimino. 
 - Cambio los datos de la columna 'Comunidad Autónoma', para que en todas las filas ponga lo mismo: 'Madrid'

In [14]:
data.drop(columns="Totales Territoriales", inplace=True)

In [15]:
data.head()

Unnamed: 0,Comunidad Autónoma,Viajeros o pernoctaciones,Residencia,Periodo,Total
0,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M09,564.048
1,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M08,467.045
2,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M07,563.343
3,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M06,615.313
4,"13 Madrid, Comunidad de",Viajero,Residentes en España,2023M05,567.87


In [16]:
data['Comunidad Autónoma'] = 'Madrid'

In [17]:
data.head()

Unnamed: 0,Comunidad Autónoma,Viajeros o pernoctaciones,Residencia,Periodo,Total
0,Madrid,Viajero,Residentes en España,2023M09,564.048
1,Madrid,Viajero,Residentes en España,2023M08,467.045
2,Madrid,Viajero,Residentes en España,2023M07,563.343
3,Madrid,Viajero,Residentes en España,2023M06,615.313
4,Madrid,Viajero,Residentes en España,2023M05,567.87


**3. TERCER PASO:**
- Voy a separar la columna 'Viajeros o pernoctaciones' a dos columnas diferentes.
- en el caso de poner 'viajero' parece que nunca existe 'pernoctaciones'. Por ello, decido que ponga Si o '', en el caso de que sea una u otra en su respectiva columna. 

In [18]:
data['Viajeros'] = data['Viajeros o pernoctaciones'].apply(lambda x: 'Si' if 'Viajero' in x else '')
data['Pernoctaciones'] = data['Viajeros o pernoctaciones'].apply(lambda x: 'Si' if 'Pernoctaciones' in x else '')

In [19]:
data.drop(columns="Viajeros o pernoctaciones",inplace=True)

In [20]:
nuevo_orden = ['Comunidad Autónoma', 'Residencia', 'Viajeros', 'Pernoctaciones','Periodo', 'Total']

data = data[nuevo_orden]

In [21]:
data.head()

Unnamed: 0,Comunidad Autónoma,Residencia,Viajeros,Pernoctaciones,Periodo,Total
0,Madrid,Residentes en España,Si,,2023M09,564.048
1,Madrid,Residentes en España,Si,,2023M08,467.045
2,Madrid,Residentes en España,Si,,2023M07,563.343
3,Madrid,Residentes en España,Si,,2023M06,615.313
4,Madrid,Residentes en España,Si,,2023M05,567.87


**4. CUARTO PASO:**
- La columna periodo contiene el 'mes' y el 'año'.
- Genero dos nuevas columnas: 'mes' y 'año' en las que aparece el dato oportuno. 
- Elimino la columna 'periodo'.
- Reordeno las columnas. 

In [22]:
data['año'] = data['Periodo'].str[:4]
data['mes'] = data['Periodo'].str[5:]

In [23]:
data.drop(columns="Periodo",inplace=True)

In [24]:
nuevo_orden = ['Comunidad Autónoma', 'Residencia', 'Viajeros', 'Pernoctaciones','año', 'mes', 'Total']

data = data[nuevo_orden]

In [25]:
data.head()

Unnamed: 0,Comunidad Autónoma,Residencia,Viajeros,Pernoctaciones,año,mes,Total
0,Madrid,Residentes en España,Si,,2023,9,564.048
1,Madrid,Residentes en España,Si,,2023,8,467.045
2,Madrid,Residentes en España,Si,,2023,7,563.343
3,Madrid,Residentes en España,Si,,2023,6,615.313
4,Madrid,Residentes en España,Si,,2023,5,567.87


In [26]:
nombres_nuevos = ['comunidad', 'residencia', 'viajeros', 'pernoctaciones', 'año', 'mes', 'total']

data.columns = nombres_nuevos

In [27]:
len(data)

148

In [28]:
data.head()

Unnamed: 0,comunidad,residencia,viajeros,pernoctaciones,año,mes,total
0,Madrid,Residentes en España,Si,,2023,9,564.048
1,Madrid,Residentes en España,Si,,2023,8,467.045
2,Madrid,Residentes en España,Si,,2023,7,563.343
3,Madrid,Residentes en España,Si,,2023,6,615.313
4,Madrid,Residentes en España,Si,,2023,5,567.87


**5. QUINTO PASO:**

Voy a crear dos tablas diferentes: 
- 'residentes', compuesta por los 'Residentes en España'.
- 'no_residentes', compuesta por aquellos 'Residentes en el Extranjero'.
- Reseteo el index de las tablas y elimino la columna de 'index' que se genera. 

In [32]:
# Hago un nuevo dataframe en el que filtro unicamente por aquellas personas que residen en España

residentes = data[data['residencia'] == 'Residentes en España']

In [33]:
residentes.head()

Unnamed: 0,comunidad,residencia,viajeros,pernoctaciones,año,mes,total
0,Madrid,Residentes en España,Si,,2023,9,564.048
1,Madrid,Residentes en España,Si,,2023,8,467.045
2,Madrid,Residentes en España,Si,,2023,7,563.343
3,Madrid,Residentes en España,Si,,2023,6,615.313
4,Madrid,Residentes en España,Si,,2023,5,567.87


In [34]:
len(residentes)

74

In [43]:
if 'mes' in residentes:
    residentes['mes'] = residentes['mes'].str.lstrip('0')

In [44]:
residentes.tail()

Unnamed: 0,comunidad,residencia,viajeros,pernoctaciones,año,mes,total
106,Madrid,Residentes en España,,Si,2021,1,318.876
107,Madrid,Residentes en España,,Si,2020,12,358.265
108,Madrid,Residentes en España,,Si,2020,11,304.09
109,Madrid,Residentes en España,,Si,2020,10,273.851
110,Madrid,Residentes en España,,Si,2020,9,333.69


In [35]:
# Hago un nuevo dataframe en el que filtro unicamente por aquellas personas que no residen habitualmente en España

no_residentes = data[data['residencia'] == 'Residentes en el Extranjero']
no_residentes.head()


Unnamed: 0,comunidad,residencia,viajeros,pernoctaciones,año,mes,total
37,Madrid,Residentes en el Extranjero,Si,,2023,9,583.605
38,Madrid,Residentes en el Extranjero,Si,,2023,8,539.019
39,Madrid,Residentes en el Extranjero,Si,,2023,7,571.252
40,Madrid,Residentes en el Extranjero,Si,,2023,6,546.259
41,Madrid,Residentes en el Extranjero,Si,,2023,5,553.96


In [36]:
no_residentes.reset_index(inplace=True)

In [37]:
no_residentes.drop(columns="index",inplace=True)

In [41]:
if 'mes' in no_residentes:
    no_residentes['mes'] = no_residentes['mes'].str.lstrip('0')

In [42]:
no_residentes.head()

Unnamed: 0,comunidad,residencia,viajeros,pernoctaciones,año,mes,total
0,Madrid,Residentes en el Extranjero,Si,,2023,9,583.605
1,Madrid,Residentes en el Extranjero,Si,,2023,8,539.019
2,Madrid,Residentes en el Extranjero,Si,,2023,7,571.252
3,Madrid,Residentes en el Extranjero,Si,,2023,6,546.259
4,Madrid,Residentes en el Extranjero,Si,,2023,5,553.96


**6. SEXTO PASO:**
- Importo mis tablas a .csv

Una vez he importado los dataframe como .csv los marco para que no se me vuelva a convertir.

In [45]:
#residentes.to_csv('residentes.csv', index=False)
#no_residentes.to_csv('no_residentes.csv', index=False)