# CARACTERÍSTICAS DE SOPORTE MINIMAS - TRATAMIENTO

# Proposito:

En este notebook nos dedicaremos al tratamiento de los diferentes archivos que nos aportan informacion sobre las **características de soporte MINIMAS** con el objetivo de establecer un estándar y limpiar los datos para quedarnos con lo que realmente nos interesa. 

# Contexto:

### Las características de soporte incluyen:

**1.    El ADR RevPar Ingresos, que es:**

    •	RevPAR es la abreviatura de ingresos por habitación disponible y es una de las métricas más comunes e importantes para tu hotel.Es una manera fácil de visualizar los ingresos que se generan por segmentos específicos del mercado en tu destino.
    
    •	ADR (average daily rate) es la abreviatura de tarifa media diaria y simplemente se refiere al precio de tus habitaciones con todo tu inventario vendido. Concretamente, se calcula mediante la cantidad de ingresos obtenidos y la cantidad de habitaciones alquiladas para darte una tarifa media.
    
    •	Como se indicó anteriormente, la ADR es muy diferente a la RevPAR, ya que la ADR simplemente indica el precio de tus habitaciones, mientras que la RevPAR te dirá cuánto dinero obtienes de cada habitación, ya sea que se alquile o no.

**2.	Plazas de los diferentes establecimientos**

**3.	Estancia media**

**4.	Tasa de ocupación**


In [1]:
%load_ext watermark
%watermark

Last updated: 2023-02-10T12:18:21.631304+00:00

Python implementation: CPython
Python version       : 3.8.5
IPython version      : 7.19.0

Compiler    : MSC v.1916 64 bit (AMD64)
OS          : Windows
Release     : 10
Machine     : AMD64
Processor   : Intel64 Family 6 Model 126 Stepping 5, GenuineIntel
CPU cores   : 8
Architecture: 64bit



In [2]:
import pandas as pd
import numpy as np
import os
import re

# PREPARACION PREVIA

Primero necesitamos copiar todos nuestros archivos en una carpeta donde podramos manipularlos para así conservar los archivos originales

In [3]:
from distutils.dir_util import copy_tree

# Método que limpia la carpeta de datos volatiles ya que es 
# una carpeta activa en todos los programas que hemos generado.
def limpiaCarpetaVolatil(rutaCopia):
    print("Limpiando Carpeta Volatil...")
    for f in os.listdir(rutaCopia):
        os.remove(os.path.join(rutaCopia, f))
        
#Metodo que copia recursivamente
def copia(dir_origen,dir_destino):
    print("Copiando...")
    copy_tree(dir_origen, dir_destino)
    print("Copiado")
    print(os.listdir(dir_destino))
  


In [4]:
rutaBase= "../PredictorGastoTuristico/DatosVirgenes/ISTAC/CaracteristicasSoporteMinimas/"
rutaCopia= "../PredictorGastoTuristico/borrar/"

limpiaCarpetaVolatil(rutaCopia)
copia(rutaBase,rutaCopia)

Limpiando Carpeta Volatil...
Copiando...
Copiado
['ADR_RevPAR_ingresos.csv', 'establecimientos_plazas.csv', 'estancia_media.csv', 'tasa_ocupacion.csv']


## Primero cargamos los archivos para tratarlos y finalmente unirlos:

In [5]:
ruta = rutaCopia
list_csv_names = os.listdir(ruta)
index = 0
for archivo in list_csv_names:
    print(str(index) + " " + archivo)
    index = index + 1

0 ADR_RevPAR_ingresos.csv
1 establecimientos_plazas.csv
2 estancia_media.csv
3 tasa_ocupacion.csv


In [6]:
ADR_RevPAR_ingresos = pd.read_csv(ruta+list_csv_names[0],keep_default_na=False, na_values=[""])
establecimientos_plazas = pd.read_csv(ruta+list_csv_names[1],keep_default_na=False, na_values=[""])
estancia_media = pd.read_csv(ruta+list_csv_names[2],keep_default_na=False, na_values=[""])
tasa_ocupacion = pd.read_csv(ruta+list_csv_names[3],keep_default_na=False, na_values=[""])

In [7]:
list_all_csv = [ADR_RevPAR_ingresos,
                establecimientos_plazas,
                estancia_media,
                tasa_ocupacion]

## Visualizamos el conjunto de todos los csv

Vemos como existen columnas semejantes pero, la fecha por ejemplo no es homogenea

In [8]:
i = 0
for archivo in list_all_csv:
    print("------------------" + list_csv_names[i] +"------------------")
    print(archivo.head(1))
    print("\n")
    i = i +1

------------------ADR_RevPAR_ingresos.csv------------------
                                     indicador municipio periodo  valor
0  Ingresos por habitación disponible (RevPAR)  CANARIAS    2021  51.41


------------------establecimientos_plazas.csv------------------
                   indicador municipio periodo valor
0  Establecimientos abiertos  CANARIAS    2021   785


------------------estancia_media.csv------------------
    pais municipio periodo valor
0  TOTAL  CANARIAS    2021  6.31


------------------tasa_ocupacion.csv------------------
                                         indicador municipio periodo  valor
0  Tasa de ocupación por habitaciones-apartamentos  CANARIAS    2021  53.11




In [9]:
i = 0
for archivo in list_all_csv:
    print("------------------" + list_csv_names[i] +"------------------")
    for columna in archivo:
        print(columna)
        print(archivo[columna].unique())
        print("\n")
    print("\n")
    i = i +1

------------------ADR_RevPAR_ingresos.csv------------------
indicador
['Ingresos por habitación disponible (RevPAR)' 'Ingresos totales'
 'Tarifa media por habitación mensual (ADR)']


municipio
['CANARIAS' 'LANZAROTE' 'Arrecife' 'Teguise' 'Tías' 'Yaiza'
 'FUERTEVENTURA' 'Antigua' 'La Oliva' 'Pájara' 'Puerto del Rosario'
 'GRAN CANARIA' 'Mogán' 'Las Palmas de Gran Canaria'
 'San Bartolomé de Tirajana' 'Resto de municipios de Gran Canaria'
 'TENERIFE' 'Adeje' 'Arona' 'Granadilla de Abona' 'Puerto de la Cruz'
 'Santa Cruz de Tenerife' 'Santiago del Teide'
 'Resto de municipios de Tenerife' 'LA GOMERA'
 'San Sebastián de La Gomera' 'Valle Gran Rey'
 'Resto de municipios de La Gomera' 'LA PALMA' 'Breña Baja'
 'Fuencaliente de La Palma' 'Los Llanos de Aridane' 'El Paso'
 'Santa Cruz de La Palma' 'Resto de municipios de La Palma' 'EL HIERRO'
 'Frontera' 'Valverde' 'El Pinar de El Hierro']


periodo
['2021' '2021M12' '2021M11' '2021M10' '2021M09' '2021M08' '2021M07'
 '2021M06' '2021M05' '2021M

## Renombramos columnas para estandarizar

In [10]:
for archivo in list_all_csv:
    archivo.rename(columns={'periodo':'fecha'}, inplace=True)
    archivo.rename(columns={'municipio':'isla'}, inplace=True)

## 1. FECHA

Vamos a estandarizar la fecha usando los valores trimestrales, pero en el formato estándar de cuartiles. Ya que vemos que tiene el formato "2020 Primer Trimestre"

### 1.1 Transformamos la fecha a un formato usable Year-month

Vimos como nuestros archivos tienen un formato de fecha de añoMmes, esto el metodo to_datetime de pandas no lo entiende asiqeu debemos cambiarlo por algo que si entienda.

### Aqui qutamos las "M"

Al siguiente metodo se la pasa un dataframe, la columna y el patron que queremos encontrar y remplazar en toda la columna.

In [11]:
# A esta funcion se la pasa un dataframe, la columna y el elemento que queremos encontrar y remplazar en toda la columna
def replace_value(df, df_column_name, patron_to_find, patron_to_replace):
    try:
        my_list = []
        for item in df[df_column_name]: 
            #my_list.append(re.sub(r'(\d+)M(\d+)',r'\1-\2',item))
            my_list.append(re.sub(patron_to_find, patron_to_replace,item))
            
        print("Se ha cambiado el patron ({}) por el patron ({}) en la columna {}".format(
                patron_to_find, patron_to_replace, str(df[df_column_name].name)
            ))
        df[df_column_name] = pd.DataFrame(my_list)
        #print(df.head(5))
    except:
        print("No se ha encontrado el patron")  

Para ello primero cambiamos a tipo string la columna, y tratamos la fecha de todos los archivos

In [12]:
for archivo in list_all_csv:
    archivo.rename(columns={'periodo':'fecha'}, inplace=True)   #Renombramos las columnas
    archivo['fecha'] = archivo['fecha'].astype("string")        #Transformamos la columana a tipo String
    # llamamos a la funcion que reemplaza nuestro patron
    replace_value(archivo, "fecha", r'(\d+)M(\d+)', r'\1-\2')   # reemplaza añoMmes por año-mes

Se ha cambiado el patron ((\d+)M(\d+)) por el patron (\1-\2) en la columna fecha
Se ha cambiado el patron ((\d+)M(\d+)) por el patron (\1-\2) en la columna fecha
Se ha cambiado el patron ((\d+)M(\d+)) por el patron (\1-\2) en la columna fecha
Se ha cambiado el patron ((\d+)M(\d+)) por el patron (\1-\2) en la columna fecha


Veamos un ejemplo:

In [13]:
list_all_csv[0].head(2)

Unnamed: 0,indicador,isla,fecha,valor
0,Ingresos por habitación disponible (RevPAR),CANARIAS,2021,51.41
1,Ingresos por habitación disponible (RevPAR),CANARIAS,2021-12,71.85


### 1.2 Eliminamos fechas anuales

Eliminamos las fechas anuales ya que nos vamos a centrar en las fechas por trimestres. Para ello, primero convertimos la columna fecha de object a string.

In [14]:
list_all_csv[0].fecha.astype("string")

0           2021
1        2021-12
2        2021-11
3        2021-10
4        2021-09
          ...   
19768    2009-05
19769    2009-04
19770    2009-03
19771    2009-02
19772    2009-01
Name: fecha, Length: 19773, dtype: string

Ahora buscamos las fechas anuales y las eliminamos:

In [15]:
#CODIGO INEFICIENTE QUE USAMOS EN OTRO JUPYTER NOTEBOOK PERO CON MUCHOS DATOS TARDA LA VIDA
# Y CLARO ME DI CUENTA QUE HACER ESTE CODIGO ES LO MISMO QUE USAR EL ISIN DE PYTHON... :)

##dates=["2010","2011","2012","2013","2014","2015","2016","2017","2018","2019","2020","2021","2022"]
##for archivo in list_all_csv:
##    count = 0
##    for row in archivo.fecha:
##        for year in dates:
##            if row == year:
##                archivo.drop(archivo[archivo['fecha'] == year].index,  axis=0, inplace=True)
##                count = count + 1
##                break
##    print("Se han eliminado {} filas que contenian datos anuales".format(count))

#### SOLUCION A LO ANTERIOR...
#### ¿COMO?
**Filtrando con ~isin** que elimina filas que estan en la lista

In [16]:
dates=["2010","2011","2012","2013","2014","2015","2016","2017","2018","2019","2020","2021","2022"]
i = 0
for archivo in list_all_csv:
    last_shape = archivo.shape
    archivo = archivo[~archivo.fecha.isin(dates)] 
    archivo.reset_index(drop=True, inplace=True)
    actual_shape = archivo.shape
    
    #Actualizamos la lista:
    list_all_csv[i] = archivo
    i = i + 1
    print("El archivo tenia: {} y ahora tiene {}".format(last_shape,actual_shape))

El archivo tenia: (19773, 4) y ahora tiene (18369, 4)
El archivo tenia: (20787, 4) y ahora tiene (19311, 4)
El archivo tenia: (79092, 4) y ahora tiene (73476, 4)
El archivo tenia: (13182, 4) y ahora tiene (12246, 4)


In [17]:
list_all_csv[0].head(2)

Unnamed: 0,indicador,isla,fecha,valor
0,Ingresos por habitación disponible (RevPAR),CANARIAS,2021-12,71.85
1,Ingresos por habitación disponible (RevPAR),CANARIAS,2021-11,82.09


### 1.3 Transformamos a cuartiles

Convertimos de datatime a a quarter

In [18]:
for archivo in list_all_csv:
    archivo.fecha.astype("string")
    archivo['fecha'] = pd.PeriodIndex(archivo.fecha, freq="Q")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  archivo['fecha'] = pd.PeriodIndex(archivo.fecha, freq="Q")


Veamos un ejemplo:

In [19]:
list_all_csv[0].head(10)

Unnamed: 0,indicador,isla,fecha,valor
0,Ingresos por habitación disponible (RevPAR),CANARIAS,2021Q4,71.85
1,Ingresos por habitación disponible (RevPAR),CANARIAS,2021Q4,82.09
2,Ingresos por habitación disponible (RevPAR),CANARIAS,2021Q4,73.84
3,Ingresos por habitación disponible (RevPAR),CANARIAS,2021Q3,58.4
4,Ingresos por habitación disponible (RevPAR),CANARIAS,2021Q3,62.73
5,Ingresos por habitación disponible (RevPAR),CANARIAS,2021Q3,42.48
6,Ingresos por habitación disponible (RevPAR),CANARIAS,2021Q2,29.24
7,Ingresos por habitación disponible (RevPAR),CANARIAS,2021Q2,25.02
8,Ingresos por habitación disponible (RevPAR),CANARIAS,2021Q2,24.96
9,Ingresos por habitación disponible (RevPAR),CANARIAS,2021Q1,23.26


### 1.4 Eliminamos cuartiles de 2020 y 2021 al ser anomalos por el covi-19

Vemos el rango que usaremos como filtro

In [20]:
pd.period_range(start=pd.Period('2010Q1', freq='Q'),end=pd.Period('2019Q4', freq='Q'))

PeriodIndex(['2010Q1', '2010Q2', '2010Q3', '2010Q4', '2011Q1', '2011Q2',
             '2011Q3', '2011Q4', '2012Q1', '2012Q2', '2012Q3', '2012Q4',
             '2013Q1', '2013Q2', '2013Q3', '2013Q4', '2014Q1', '2014Q2',
             '2014Q3', '2014Q4', '2015Q1', '2015Q2', '2015Q3', '2015Q4',
             '2016Q1', '2016Q2', '2016Q3', '2016Q4', '2017Q1', '2017Q2',
             '2017Q3', '2017Q4', '2018Q1', '2018Q2', '2018Q3', '2018Q4',
             '2019Q1', '2019Q2', '2019Q3', '2019Q4'],
            dtype='period[Q-DEC]', freq='Q-DEC')

In [21]:
i = 0
for archivo in list_all_csv:
    
    previousShape = archivo.shape
    #Aqui cojo el año y filtro eliminadno 2020 y 2021
    archivo = archivo[archivo.fecha.isin(pd.period_range(start = pd.Period('2010Q1', freq='Q'), 
                                                            end = pd.Period('2019Q4', freq='Q')))]
    archivo.reset_index(drop=True, inplace=True)   #podemos resetear el index del DataFrame
    actualShape = archivo.shape
    print("El archivo tenia (filas,columnas)= {} y ahora tiene (filas,columnas)= {} despues del filtrado".format(
            previousShape,actualShape))
    #Por alguna razon debemos guardar cambios porque de no hacerlo por alguna manera que
    # desconozco no se machaca la informacion existente y no se actualiza el dataframe...
    list_all_csv[i] = archivo
    i = i + 1


El archivo tenia (filas,columnas)= (18369, 4) y ahora tiene (filas,columnas)= (14040, 4) despues del filtrado
El archivo tenia (filas,columnas)= (19311, 4) y ahora tiene (filas,columnas)= (14760, 4) despues del filtrado
El archivo tenia (filas,columnas)= (73476, 4) y ahora tiene (filas,columnas)= (56160, 4) despues del filtrado
El archivo tenia (filas,columnas)= (12246, 4) y ahora tiene (filas,columnas)= (9360, 4) despues del filtrado


In [22]:
## codigo similar pero menos optimo
## i = 0
## for archivo in list_all_csv:
## 
##     #Aqui cojo el año y filtro eliminadno 2020 y 2021
## 
##     archivo["year"] = pd.PeriodIndex(archivo['fecha'], freq="Q").qyear    #cogemos el año y creamos una nueva fila por la que filtrar
##     
##     archivo = archivo[~archivo.year.isin(["2020","2021"])]                #filtramos por fechas que no(~ es la negacion) son 2020 y 2021 
##     
##     archivo.drop('year', axis=1, inplace=True)     #eliminamos la fila year
##     archivo.reset_index(drop=True, inplace=True)   #podemos resetear el index del DataFrame
##     
##     #Por alguna razon debemos guardar cambios porque de no hacerlo por alguna manera que
##     # desconozco no se machaca la informacion existente y no se actualiza el dataframe...
##     list_all_csv[i] = archivo
##     i = i + 1



In [23]:
list_all_csv[0].head()

Unnamed: 0,indicador,isla,fecha,valor
0,Ingresos por habitación disponible (RevPAR),CANARIAS,2019Q4,71.34
1,Ingresos por habitación disponible (RevPAR),CANARIAS,2019Q4,70.95
2,Ingresos por habitación disponible (RevPAR),CANARIAS,2019Q4,64.21
3,Ingresos por habitación disponible (RevPAR),CANARIAS,2019Q3,62.43
4,Ingresos por habitación disponible (RevPAR),CANARIAS,2019Q3,69.69


In [24]:
list_all_csv[1].head()

Unnamed: 0,indicador,isla,fecha,valor
0,Establecimientos abiertos,CANARIAS,2019Q4,1798
1,Establecimientos abiertos,CANARIAS,2019Q4,1790
2,Establecimientos abiertos,CANARIAS,2019Q4,1781
3,Establecimientos abiertos,CANARIAS,2019Q3,1766
4,Establecimientos abiertos,CANARIAS,2019Q3,1758


# 2. Estandarización de Islas y Paises 

El estandar establecido es el que esta en el archivo principar que es el gasto_medio_islas.

Este tiene la siguiente notación en las columnas:

Isla:
    
    array(['Fuerteventura', 'Gran Canaria', 'La Palma', 'Lanzarote', 'Tenerife', 'CANARIAS'], dtype=object)
       
Pais:

    array(['Alemania', 'España', 'Holanda', 'Otros países', 'Países Nórdicos', 'Reino Unido', 'TOTAL'], dtype=object)

### ESTANDARIZACION PAISES
**Solo estancia_media tiene la columna pais**

vamos a transformar `dinamarca` y `suecia` en `Paises Nordicos` ya que es de donde unico podemos anillarlo con los paises disponibles en el gasto medio

Y `Belgica` lo añadiremos a `otros paises`

In [25]:
estancia_media.pais.unique()

array(['TOTAL', 'RESIDENTES EN EL EXTRANJERO', 'Alemania', 'Bélgica',
       'Dinamarca', 'Reino Unido', 'Holanda', 'Suecia', 'Otros países',
       'España', 'Canarias', 'Residentes en España excepto Canarias'],
      dtype=object)

In [26]:
#Primero hay que pasar a str
estancia_media = list_all_csv[2] # esto tengo qeu hacerlo porqeu si no el tratamiento de fecha aterior no lo tiene encuenta
estancia_media.pais.astype(str)                       
  
#reemplazamos Dinamarca y Suecia por Países Nórdicos
replace_value(estancia_media, "pais", r'Dinamarca', r'Países Nórdicos') 
replace_value(estancia_media, "pais", r'Suecia', r'Países Nórdicos')
  
#reemplazamos Bélgica por Otros países
replace_value(estancia_media, "pais", r'Bélgica', r'Otros países') 

#cOMPROBAMOS LOS CAMBIOS
estancia_media.pais.unique()



Se ha cambiado el patron (Dinamarca) por el patron (Países Nórdicos) en la columna pais
Se ha cambiado el patron (Suecia) por el patron (Países Nórdicos) en la columna pais
Se ha cambiado el patron (Bélgica) por el patron (Otros países) en la columna pais


array(['TOTAL', 'RESIDENTES EN EL EXTRANJERO', 'Alemania', 'Otros países',
       'Países Nórdicos', 'Reino Unido', 'Holanda', 'España', 'Canarias',
       'Residentes en España excepto Canarias'], dtype=object)

## IMPORTANTE: HAY QUE ACTUALIZAR EL ARCHIVO DE LA LISTA PORQUE SI NO ESTE CAMBIO NO SE LLEVA ACABO, COSA QUE ME DI CUENTA EN LA UNION POSTERIOR, DONDE VEIA QUE LOS DATOS NO ESTABAN COMO REALMENTE YO QUERÍA

esto realmente es un error de mala programación que tengo que tener en cuenta


In [27]:
print(list_csv_names)

['ADR_RevPAR_ingresos.csv', 'establecimientos_plazas.csv', 'estancia_media.csv', 'tasa_ocupacion.csv']


In [28]:
list_all_csv[2] = estancia_media

### ESTANDARIZACION ISLAS
**Todos los archivos tienen la columna isla**

vamos a transformar el nombre de las islas que estan en mayusculas al formato de gasto medio islas:

array(['Fuerteventura', 'Gran Canaria', 'La Palma', 'Lanzarote', 'Tenerife', 'CANARIAS'], dtype=object)


In [29]:
for archivo in list_all_csv:
    print(archivo.isla.unique())

['CANARIAS' 'LANZAROTE' 'Arrecife' 'Teguise' 'Tías' 'Yaiza'
 'FUERTEVENTURA' 'Antigua' 'La Oliva' 'Pájara' 'Puerto del Rosario'
 'GRAN CANARIA' 'Mogán' 'Las Palmas de Gran Canaria'
 'San Bartolomé de Tirajana' 'Resto de municipios de Gran Canaria'
 'TENERIFE' 'Adeje' 'Arona' 'Granadilla de Abona' 'Puerto de la Cruz'
 'Santa Cruz de Tenerife' 'Santiago del Teide'
 'Resto de municipios de Tenerife' 'LA GOMERA'
 'San Sebastián de La Gomera' 'Valle Gran Rey'
 'Resto de municipios de La Gomera' 'LA PALMA' 'Breña Baja'
 'Fuencaliente de La Palma' 'Los Llanos de Aridane' 'El Paso'
 'Santa Cruz de La Palma' 'Resto de municipios de La Palma' 'EL HIERRO'
 'Frontera' 'Valverde' 'El Pinar de El Hierro']
['CANARIAS' 'LANZAROTE' 'Arrecife' 'Teguise' 'Tías' 'Yaiza'
 'Resto de municipios de Lanzarote' 'FUERTEVENTURA' 'Antigua' 'La Oliva'
 'Pájara' 'Puerto del Rosario' 'Resto de municipios de Fuerteventura'
 'GRAN CANARIA' 'Mogán' 'Las Palmas de Gran Canaria'
 'San Bartolomé de Tirajana' 'Resto de muni

In [30]:
i = 0
for archivo in list_all_csv:
    
    #Primero hay que pasar a str
    archivo.isla.astype(str)                       

    #reemplazamos 
    replace_value(archivo, "isla", r'LANZAROTE', r'Lanzarote')
    replace_value(archivo, "isla", r'GRAN CANARIA', r'Gran Canaria') 
    replace_value(archivo, "isla", r'TENERIFE', r'Tenerife')
    replace_value(archivo, "isla", r'LA PALMA', r'La Palma') 
    replace_value(archivo, "isla", r'FUERTEVENTURA', r'Fuerteventura')
    
#COMPROBAMOS LOS CAMBIOS
for archivo in list_all_csv:
    print(archivo.isla.unique())


Se ha cambiado el patron (LANZAROTE) por el patron (Lanzarote) en la columna isla
Se ha cambiado el patron (GRAN CANARIA) por el patron (Gran Canaria) en la columna isla
Se ha cambiado el patron (TENERIFE) por el patron (Tenerife) en la columna isla
Se ha cambiado el patron (LA PALMA) por el patron (La Palma) en la columna isla
Se ha cambiado el patron (FUERTEVENTURA) por el patron (Fuerteventura) en la columna isla
Se ha cambiado el patron (LANZAROTE) por el patron (Lanzarote) en la columna isla
Se ha cambiado el patron (GRAN CANARIA) por el patron (Gran Canaria) en la columna isla
Se ha cambiado el patron (TENERIFE) por el patron (Tenerife) en la columna isla
Se ha cambiado el patron (LA PALMA) por el patron (La Palma) en la columna isla
Se ha cambiado el patron (FUERTEVENTURA) por el patron (Fuerteventura) en la columna isla
Se ha cambiado el patron (LANZAROTE) por el patron (Lanzarote) en la columna isla
Se ha cambiado el patron (GRAN CANARIA) por el patron (Gran Canaria) en la col

# 3. Astype 

### Columna `valor` tipo int o float segun el caso

In [31]:
list_all_csv[0]['valor'] = pd.to_numeric(list_all_csv[0].valor.astype(str))

In [32]:
list_all_csv[1]['valor'] = pd.to_numeric(list_all_csv[1].valor.astype(str))

In [33]:
list_all_csv[3]['valor'] = pd.to_numeric(list_all_csv[3].valor.astype(str))

Solo el sigueinte da problemas asique: -> **Lo resolvemos en el paso 2**

In [34]:
#No funciona por que: ValueError: Unable to parse string "." at position 10674

#list_all_csv[2]['valor'] = pd.to_numeric(list_all_csv[2].valor.astype(str))

    - hemos detectado que en la columna valor hay elementos que no son numeros, y son ".", ".." o "...", vamos a sustituir esto por "0"

    - PARA EVITAR COLISIONES EN EL REMPLAZO DE . A 0 PRIMERO HAY QUE REMPLAZAR LOS VALORES CON . A , 
    - EJEMPLO: 79.77 ->79,99

In [35]:
archivo = list_all_csv[2]
replace_value(archivo, "valor", r'(\d+).(\d+)', r'\1,\2')   #reemplazamos los . por , #EJEMPLO: 79.77 ->79,99
    
    
archivo.valor.astype(str)                       #Primero hay que pasar a str ya que hay valores como ".", ".." etc
replace_value(archivo, "valor", r'\.+', r'0')   #reemplazamos los puntos por 0 porque si no el metodo to_numeric da error
    
#volvemos a pasar las , a . porque si no da error -> ValueError: Unable to parse string "71,34" at position 0
replace_value(archivo, "valor", r'(\d+),(\d+)', r'\1.\2')   
    
#finalmeente pasamos a int
#archivo = archivo.astype({"valor":'float'}) 
archivo['valor'] = pd.to_numeric(archivo.valor.astype(str))  #pasamos la columna a numeros

list_all_csv[2] = archivo

Se ha cambiado el patron ((\d+).(\d+)) por el patron (\1,\2) en la columna valor
Se ha cambiado el patron (\.+) por el patron (0) en la columna valor
Se ha cambiado el patron ((\d+),(\d+)) por el patron (\1.\2) en la columna valor


In [36]:
list_all_csv[1].head()

Unnamed: 0,indicador,isla,fecha,valor
0,Establecimientos abiertos,CANARIAS,2019Q4,1798
1,Establecimientos abiertos,CANARIAS,2019Q4,1790
2,Establecimientos abiertos,CANARIAS,2019Q4,1781
3,Establecimientos abiertos,CANARIAS,2019Q3,1766
4,Establecimientos abiertos,CANARIAS,2019Q3,1758


In [37]:
i = 0
for archivo in list_all_csv:
    print(archivo.dtypes)

indicador           object
isla                object
fecha        period[Q-DEC]
valor              float64
dtype: object
indicador           object
isla                object
fecha        period[Q-DEC]
valor                int64
dtype: object
pais            object
isla            object
fecha    period[Q-DEC]
valor          float64
dtype: object
indicador           object
isla                object
fecha        period[Q-DEC]
valor              float64
dtype: object


In [38]:
list_all_csv[0].head()

Unnamed: 0,indicador,isla,fecha,valor
0,Ingresos por habitación disponible (RevPAR),CANARIAS,2019Q4,71.34
1,Ingresos por habitación disponible (RevPAR),CANARIAS,2019Q4,70.95
2,Ingresos por habitación disponible (RevPAR),CANARIAS,2019Q4,64.21
3,Ingresos por habitación disponible (RevPAR),CANARIAS,2019Q3,62.43
4,Ingresos por habitación disponible (RevPAR),CANARIAS,2019Q3,69.69


# 4. Unión de cuartiles

### Importante:
Como el valor depende del indicador, debemos entender los tipos de indicadores que hay. 

**Leer:**
Porque si el indicador hace referencia a los ingresos por habitación disponible entonces al unir los cuartiles tenemos que hacer una suma en cambio si hace referencia a una media de tarifa tendríamos que hacer la media de los valores

Tenemos 4 grupos por lo que los trataremos por grupos:

**1.    El ADR RevPar Ingresos** -> TIENE QUE HACERSE LA MEDIA Y LA SUMA LA COLUMNA INGRESOS TOTALES

    ------------------ADR_RevPAR_ingresos.csv------------------
    indicador
    ['Ingresos por habitación disponible (RevPAR)' 'Ingresos totales' 'Tarifa media por habitación mensual (ADR)']


**2.	Plazas de los diferentes establecimientos** -> TIENE QUE HACERSE LA SUMA

    ------------------establecimientos_plazas.csv------------------
    indicador
    ['Establecimientos abiertos' 'Plazas ofertadas' 'Habitaciones-apartamentos disponibles']


**3.	Estancia media** -> TIENE QUE HACERSE LA MEDIA de valor ya que no tienen indicador

**4.	Tasa de ocupación** -> TIENE QUE HACERSE LA MEDIA

    ------------------tasa_ocupacion.csv------------------
    indicador
    ['Tasa de ocupación por habitaciones-apartamentos' 'Tasa de ocupación por plazas']


### LA SUMA SE HACE SOLO DE ALGUNAS COLUMNAS DE:
    
**1.    El ADR RevPar Ingresos** 

    ------------------ADR_RevPAR_ingresos.csv------------------
    indicador    ['Ingresos totales']

**2.	Plazas de los diferentes establecimientos** -> TIENE QUE HACERSE LA SUMA

    ------------------establecimientos_plazas.csv------------------
    indicador
    ['Establecimientos abiertos' 'Plazas ofertadas' 'Habitaciones-apartamentos disponibles']
    

Vamos a dividir el conjunto de ADR_RevPar_ingresos en dos archivos, uno con los datos donde haremos media y otro con los datos donde hacemos la suma.


**Este archivo solo contiene los datos de Ingresos totales:**

In [39]:
ADR_RevPAR_ingresos_div1 = list_all_csv[0][list_all_csv[0].indicador.isin(['Ingresos totales'])] 
ADR_RevPAR_ingresos_div1.head()

Unnamed: 0,indicador,isla,fecha,valor
4680,Ingresos totales,CANARIAS,2019Q4,380341700.0
4681,Ingresos totales,CANARIAS,2019Q4,365004900.0
4682,Ingresos totales,CANARIAS,2019Q4,340557700.0
4683,Ingresos totales,CANARIAS,2019Q3,318342600.0
4684,Ingresos totales,CANARIAS,2019Q3,366710200.0


**Este archivo solo contiene los datos de lo que NO es Ingresos totales:**

In [40]:
ADR_RevPAR_ingresos_div2 = list_all_csv[0][~list_all_csv[0].indicador.isin(['Ingresos totales'])] 
ADR_RevPAR_ingresos_div2.head()

Unnamed: 0,indicador,isla,fecha,valor
0,Ingresos por habitación disponible (RevPAR),CANARIAS,2019Q4,71.34
1,Ingresos por habitación disponible (RevPAR),CANARIAS,2019Q4,70.95
2,Ingresos por habitación disponible (RevPAR),CANARIAS,2019Q4,64.21
3,Ingresos por habitación disponible (RevPAR),CANARIAS,2019Q3,62.43
4,Ingresos por habitación disponible (RevPAR),CANARIAS,2019Q3,69.69


## 4.1 PRUEBAS DEL FUNCIONAMIENTO DE LO QUE VAMOS HACER
### 4.1.1 Prueba Suma

Haremos una prueba con lo que queremos unir para ello cogeremos el primer archivo y miraremos los datos que queremos unir como ejemplo usaremos Alemania en 2019 el total de turistas por Gran Canaria

In [41]:
df = ADR_RevPAR_ingresos_div1
print(df.head(10))
print(df.shape)
print(df.dtypes)

             indicador      isla   fecha         valor
4680  Ingresos totales  CANARIAS  2019Q4  3.803417e+08
4681  Ingresos totales  CANARIAS  2019Q4  3.650049e+08
4682  Ingresos totales  CANARIAS  2019Q4  3.405577e+08
4683  Ingresos totales  CANARIAS  2019Q3  3.183426e+08
4684  Ingresos totales  CANARIAS  2019Q3  3.667102e+08
4685  Ingresos totales  CANARIAS  2019Q3  3.223139e+08
4686  Ingresos totales  CANARIAS  2019Q2  2.623013e+08
4687  Ingresos totales  CANARIAS  2019Q2  2.501854e+08
4688  Ingresos totales  CANARIAS  2019Q2  3.027226e+08
4689  Ingresos totales  CANARIAS  2019Q1  3.792254e+08
(4680, 4)
indicador           object
isla                object
fecha        period[Q-DEC]
valor              float64
dtype: object


Filtramos:

In [42]:
#df.loc[df['Grade'].isin(['A', 'B']),['Name','TotalMarks', 'Grade'] ]
x = df[df.fecha.isin(pd.period_range('2019Q4', periods=1, freq='Q')) 
           & df.isla.isin(["Gran Canaria"])
           ]
#x = df[df.fecha.isin(pd.period_range('2019Q4', periods=1, freq='Q'))]
#x = df[df.pais.isin(["Alemania"])]
#x = df[df.isla.isin(["Gran Canaria"])]
#pd.PeriodIndex("2019Q4", freq="Q")
x.head(10)

Unnamed: 0,indicador,isla,fecha,valor
6000,Ingresos totales,Gran Canaria,2019Q4,125224600.0
6001,Ingresos totales,Gran Canaria,2019Q4,120457800.0
6002,Ingresos totales,Gran Canaria,2019Q4,101962800.0


Aquí vemos los valores que si lo sumamos tenemos **3.476452e+08** y veremos mas adelante como este numeor coincide, por lo que la union se hace correctamente

Para unirlo haremos un groupby() por los nombres de todas las columnas que queremos considerar a la hora de ver dos filas como iguales. Las consideraremos todas, excepto valor. Una vez agrupadas, te quedas con la columna valor para aplicar sobre ella la función sum.

El resultado sería una serie con las sumas de "valor", pero indexado jerárquicamente (multi-index) según los grupos formados. Hacemos un .reset_index() para "deshacer" el índice jerárquico, convirtiéndolo de nuevo en columnas como el que tenía el dataframe original.

In [43]:
res = df.groupby(["indicador","fecha","isla"]).valor.apply(sum).reset_index()

In [44]:
print(res.head(10))
print(res.shape)

          indicador   fecha                   isla         valor
0  Ingresos totales  2010Q1                  Adeje  9.468070e+07
1  Ingresos totales  2010Q1                Antigua  1.247322e+07
2  Ingresos totales  2010Q1                  Arona  6.628020e+07
3  Ingresos totales  2010Q1               Arrecife  8.044662e+05
4  Ingresos totales  2010Q1             Breña Baja  2.670446e+06
5  Ingresos totales  2010Q1               CANARIAS  6.471403e+08
6  Ingresos totales  2010Q1              EL HIERRO  3.820270e+05
7  Ingresos totales  2010Q1                El Paso  2.935991e+05
8  Ingresos totales  2010Q1  El Pinar de El Hierro  2.586161e+04
9  Ingresos totales  2010Q1               Frontera  1.190497e+05
(1560, 4)


In [45]:
res.dtypes

indicador           object
fecha        period[Q-DEC]
isla                object
valor              float64
dtype: object

In [46]:
x = res[res.fecha.isin(pd.period_range('2019Q4', periods=1, freq='Q')) 
           & res.isla.isin(["Gran Canaria"])
           ]
x.head()

Unnamed: 0,indicador,fecha,isla,valor
1533,Ingresos totales,2019Q4,Gran Canaria,347645200.0


### 4.1.2 Prueba Media

Haremos una prueba con lo que queremos unir para ello cogeremos el primer archivo y miraremos los datos que queremos unir como ejemplo usaremos Alemania en 2019 el total de turistas por Gran Canaria

In [47]:
df = ADR_RevPAR_ingresos_div2
print(df.head(10))
print(df.shape)
print(df.dtypes)

                                     indicador      isla   fecha  valor
0  Ingresos por habitación disponible (RevPAR)  CANARIAS  2019Q4  71.34
1  Ingresos por habitación disponible (RevPAR)  CANARIAS  2019Q4  70.95
2  Ingresos por habitación disponible (RevPAR)  CANARIAS  2019Q4  64.21
3  Ingresos por habitación disponible (RevPAR)  CANARIAS  2019Q3  62.43
4  Ingresos por habitación disponible (RevPAR)  CANARIAS  2019Q3  69.69
5  Ingresos por habitación disponible (RevPAR)  CANARIAS  2019Q3  61.74
6  Ingresos por habitación disponible (RevPAR)  CANARIAS  2019Q2  52.17
7  Ingresos por habitación disponible (RevPAR)  CANARIAS  2019Q2  48.44
8  Ingresos por habitación disponible (RevPAR)  CANARIAS  2019Q2  58.74
9  Ingresos por habitación disponible (RevPAR)  CANARIAS  2019Q1  70.78
(9360, 4)
indicador           object
isla                object
fecha        period[Q-DEC]
valor              float64
dtype: object


Filtramos:

In [48]:
#df.loc[df['Grade'].isin(['A', 'B']),['Name','TotalMarks', 'Grade'] ]
x = df[df.fecha.isin(pd.period_range('2019Q4', periods=1, freq='Q')) 
           & df.isla.isin(["Gran Canaria"])
           ]
#x = df[df.fecha.isin(pd.period_range('2019Q4', periods=1, freq='Q'))]
#x = df[df.pais.isin(["Alemania"])]
#x = df[df.isla.isin(["Gran Canaria"])]
#pd.PeriodIndex("2019Q4", freq="Q")
x.head(10)

Unnamed: 0,indicador,isla,fecha,valor
1320,Ingresos por habitación disponible (RevPAR),Gran Canaria,2019Q4,75.92
1321,Ingresos por habitación disponible (RevPAR),Gran Canaria,2019Q4,76.73
1322,Ingresos por habitación disponible (RevPAR),Gran Canaria,2019Q4,63.47
10680,Tarifa media por habitación mensual (ADR),Gran Canaria,2019Q4,96.96
10681,Tarifa media por habitación mensual (ADR),Gran Canaria,2019Q4,93.12
10682,Tarifa media por habitación mensual (ADR),Gran Canaria,2019Q4,87.7


Aquí vemos los valores que si hacemos la media tenemos:

    **Ingresos por habitación disponible 	72.04**
    **3093	Tarifa media por habitación mensual (ADR) 92.59**

Veremos mas adelante como este numeor coincide, por lo que la union se hace correctamente

Para unirlo haremos un groupby() por los nombres de todas las columnas que queremos considerar a la hora de ver dos filas como iguales. Las consideraremos todas, excepto valor. Una vez agrupadas, te quedas con la columna valor para aplicar sobre ella la función sum.

El resultado sería una serie con las sumas de "valor", pero indexado jerárquicamente (multi-index) según los grupos formados. Hacemos un .reset_index() para "deshacer" el índice jerárquico, convirtiéndolo de nuevo en columnas como el que tenía el dataframe original.

In [49]:
res = df.groupby(["indicador","fecha","isla"]).valor.mean().reset_index()

In [50]:
print(res.head(10))
print(res.shape)

                                     indicador   fecha                   isla  \
0  Ingresos por habitación disponible (RevPAR)  2010Q1                  Adeje   
1  Ingresos por habitación disponible (RevPAR)  2010Q1                Antigua   
2  Ingresos por habitación disponible (RevPAR)  2010Q1                  Arona   
3  Ingresos por habitación disponible (RevPAR)  2010Q1               Arrecife   
4  Ingresos por habitación disponible (RevPAR)  2010Q1             Breña Baja   
5  Ingresos por habitación disponible (RevPAR)  2010Q1               CANARIAS   
6  Ingresos por habitación disponible (RevPAR)  2010Q1              EL HIERRO   
7  Ingresos por habitación disponible (RevPAR)  2010Q1                El Paso   
8  Ingresos por habitación disponible (RevPAR)  2010Q1  El Pinar de El Hierro   
9  Ingresos por habitación disponible (RevPAR)  2010Q1               Frontera   

       valor  
0  50.136667  
1  29.920000  
2  45.950000  
3  17.120000  
4  20.843333  
5  40.720000  
6  

In [51]:
x = res[res.fecha.isin(pd.period_range('2019Q4', periods=1, freq='Q')) 
           & res.isla.isin(["Gran Canaria"])
           ]
x.head()

Unnamed: 0,indicador,fecha,isla,valor
1533,Ingresos por habitación disponible (RevPAR),2019Q4,Gran Canaria,72.04
3093,Tarifa media por habitación mensual (ADR),2019Q4,Gran Canaria,92.593333


## 4.2 Aquí creamos el metodo para unir los datos por quartiles en todos los ficheros

tipo_union puedo tomar dos valores:

    0 indica que es una unión de suma de valores
    1 indica que es una unión de media de valores

In [52]:
# A este método se le pasa como parámetro un dataframe y agrupa las filas cuyos valores por columnas 
# son iguales menos la columna "valor" para el que se sumaran los valores o se hace la media en función del tipo de union

#tipo_union puedo tomar dos valores:
# 0 indica que es una unión de suma de valores
# 1 indica que es una unión de media de valores

def juntar(df,tipo_union):
    #Creamos un array con todas las columnas menos valor que es comun a todas y es por donde uniremos
    lastshape = df.shape
    arr =[]
    for colum in df:
        if colum != "valor": 
            arr.append(colum)
    
    if tipo_union == 0:
        df = df.groupby(arr).valor.apply(sum).reset_index()
    elif tipo_union == 1:
        df = df.groupby(arr).valor.mean().reset_index()
    else:
        print("tipo de union solo toma el valor de 0 para sumar, o 1 para la media")
        
    newshape = df.shape
    
    print("El archivo antes tenia las filas y columnas {} ahora depues de unir por los cuartiles tiene {}".format(
            lastshape, newshape
    ))
    print(df.head(2))
    return df

# EJECUTAMOS LA FUNCIÓN JUNTAR() Y GUARDAMOS LOS CAMBIOS

In [53]:
# ARCHIVOS PARA HACER LA MEDIA:
aux1 = [ADR_RevPAR_ingresos_div2,list_all_csv[2],list_all_csv[3]]
auxnames1 = ['ADR_RevPAR_ingresos_div2.csv', 'estancia_media.csv', 'tasa_ocupacion.csv']
i=0
for archivo in aux1:
    archivo = juntar(archivo,1)
    #Guardamos
    rutaDatosTratados = "../PredictorGastoTuristico/DatosGuardados/"
    archivo.to_csv(rutaDatosTratados + auxnames1[i] + ".csv", index = False, encoding='utf-8')
    i = i + 1

#ARCHIVOS PARA HACER LA SUMA:
aux2 = [ADR_RevPAR_ingresos_div1,list_all_csv[1]]
auxnames2 = ['ADR_RevPAR_ingresos_div1.csv', 'establecimientos_plazas.csv']

i=0
for archivo in aux2:
    archivo = juntar(archivo,0)
    #Guardamos
    rutaDatosTratados = "../PredictorGastoTuristico/DatosGuardados/"
    archivo.to_csv(rutaDatosTratados + auxnames2[i] + ".csv", index = False, encoding='utf-8')
    i = i + 1

El archivo antes tenia las filas y columnas (9360, 4) ahora depues de unir por los cuartiles tiene (3120, 4)
                                     indicador   isla   fecha      valor
0  Ingresos por habitación disponible (RevPAR)  Adeje  2010Q1  50.136667
1  Ingresos por habitación disponible (RevPAR)  Adeje  2010Q2  36.790000
El archivo antes tenia las filas y columnas (56160, 4) ahora depues de unir por los cuartiles tiene (15600, 4)
       pais   isla   fecha     valor
0  Alemania  Adeje  2010Q1  9.970000
1  Alemania  Adeje  2010Q2  9.296667
El archivo antes tenia las filas y columnas (9360, 4) ahora depues de unir por los cuartiles tiene (3120, 4)
                                         indicador   isla   fecha      valor
0  Tasa de ocupación por habitaciones-apartamentos  Adeje  2010Q1  74.816667
1  Tasa de ocupación por habitaciones-apartamentos  Adeje  2010Q2  62.096667
El archivo antes tenia las filas y columnas (4680, 4) ahora depues de unir por los cuartiles tiene (1560, 4)
 