In [2]:
import numpy as np
import pandas as pd 
import os
import warnings

warnings.filterwarnings('ignore')
warnings.simplefilter('ignore')

basedir = '.'

Se define una funcion que obtiene una hoja especifica de todos los anuarios 2013-2020 y se almacenan en una lista

In [3]:

def get_sets_from_xlsx(file_dir,sheet_num, years=np.arange(2013,2021) ) -> list:
    ''' Esta funcion  devuelve una lista de DataFrames de la misma hija de excel de cada anuario 
    filedir: directorio de los anuarios
    sheet_num: numero de la hoja que se desea extraer
    years: años que se desean analizar, el default es todos'''

    sets_list = []

    for year in years:
        
        filepath = file_dir + f'\data_{year}.xlsx'
        file = pd.ExcelFile(filepath)
        
        sheet_name = file.sheet_names[sheet_num]
        
        df = pd.read_excel(filepath,sheet_name=sheet_name,header=None,dtype=str)

        df['Año'] = year

        sets_list.append(df)
    
    return sets_list




In [4]:

raw_data_dir = os.path.join(basedir,'raw_data')

# extraer info de la hoja numero 2 '1.1.1 Establecimientos de hospedaje'

data_sets = get_sets_from_xlsx(raw_data_dir,2)

# Sobrescribir el anuario 2013 en la hoja correcta, porque tiene una que recorre todas las hojas portada y no se puede modificar 

data_sets[0] = get_sets_from_xlsx(raw_data_dir,3)[0]


In [5]:
data_sets[3].head(60)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,Año
0,,,,,,,,,,,,,2016
1,,,,,,,,,,,,,2016
2,,1.1.2 Cuartos y unidades de hospedaje registra...,,,,,,,,,,,2016
3,,según categoría turística del establecimiento,,,,,,,,,,,2016
4,,,,,,,,,,,,,2016
5,,,,,,Total,Cinco\nestrellas*,Cuatro\nestrellas,Tres \nestrellas,Dos\nestrellas,Una\nestrella,Sin \ncategoría**,2016
6,,,,,,,,,,,,,2016
7,,Estado,,,,71002,13649,17513,11137,6199,3688,18816,2016
8,,I Norte,,,,549,0,72,123,189,113,52,2016
9,_,,Bolaños,,,43,0,0,25,10,8,0,2016


Veamos como vienen los datos

In [6]:
df1 = data_sets[3]
df1

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,Año
0,,,,,,,,,,,,,2016
1,,,,,,,,,,,,,2016
2,,1.1.2 Cuartos y unidades de hospedaje registra...,,,,,,,,,,,2016
3,,según categoría turística del establecimiento,,,,,,,,,,,2016
4,,,,,,,,,,,,,2016
...,...,...,...,...,...,...,...,...,...,...,...,...,...
138,,,,,,,,,,,,,2016
139,,*,Incluye establecimientos de categoría especial...,,,,,,,,,,2016
140,,**,"Comprende: hoteles, moteles, casas de huéspede...",,,,,,,,,,2016
141,,,,,,,,,,,,,2016


In [8]:
def filter_dataframe(df,columns):
    """
     Filter and clean DataFrame based on hardcoded criteria.
    Args:
        df: pandas DataFrame to process
        columns: list of column names to assign
    """


    # Obtener el indice de la fila apartir de la de cual  empezara el DataFrame
    # Suele ser aquella que contiene municipio o Estado  
    first_row_idx = np.where((df == 'Estado') | (df == 'Municipio').any(axis=1))[0][0]
    
    # Obtener la columna apartir de la cual empezara el DataFrame, la que contiene los nombres de municipios
    # En este caso se escoge para pattern aquella columna que contenga a Guadalajara

    _,col_idx = ((df == 'Guadalajara') | (df == 'GUADALAJARA')).values.nonzero()
    col_idx = col_idx[0]


    # Obtener la columna en la que termina el DataFrame, la que es igual a Zapotlanejo
    last_row_idx,_ = ((df == 'Zapotlanejo') | (df == 'ZAPOTLANEJO')).values.nonzero() 
    last_row_idx = last_row_idx[0]

    # Redefinir el df en el rango deseado
    df = df.iloc[first_row_idx:last_row_idx + 1,col_idx:]

    # Dropear filas que quedan con nulos
    df = df.dropna(axis='columns',how='all')
    df = df.dropna(axis='rows',how='any')
     
     # redifinir las columnas
    df.columns = columns     


    return df
     

In [9]:
# Test de la funcion

columns = ['municipio','total','5 estrellas','4 estrellas','3 estrellas','2 estrellas','1 estrellas','sin categoria','año']
df2 = filter_dataframe(data_sets[1],columns)
df2

Unnamed: 0,municipio,total,5 estrellas,4 estrellas,3 estrellas,2 estrellas,1 estrellas,sin categoria,año
10,Bolaños,28,0,0,0,0,8,20,2014
11,Chimaltitán,8,0,0,0,0,0,8,2014
12,Colotlán,138,0,62,0,0,76,0,2014
13,Huejúcar,41,0,0,0,0,41,0,2014
14,Huejuquilla el Alto,77,0,0,60,0,0,17,2014
...,...,...,...,...,...,...,...,...,...
130,Tlajomulco de Zúñiga,423,6,135,10,0,0,272,2014
131,Tonalá,361,0,0,230,0,53,78,2014
132,Villa Corona,182,0,0,0,0,20,162,2014
133,Zapopan,4470,1067,1950,494,47,12,900,2014


In [10]:
# Aplicarla a cada data set
cleaned_sets = []
columns = ['municipio','total','5 estrellas','4 estrellas','3 estrellas','2 estrellas','1 estrellas','sin categoria','año']


for df in data_sets:
    clean_df = filter_dataframe(df,columns)
    cleaned_sets.append(clean_df)


In [11]:
cleaned_sets

[                municipio  total 5 estrellas 4 estrellas 3 estrellas  \
 11                 Estado  65677       11769       13227        9866   
 12                I Norte    503           0          83          60   
 13                Bolaños     28           0           0           0   
 14            Chimaltitán      8           0           0           0   
 15               Colotlán    138           0          62           0   
 ..                    ...    ...         ...         ...         ...   
 133  Tlajomulco de Zúñiga    423           6         135          10   
 134                Tonalá    361           0           0         230   
 135          Villa Corona    182           0           0           0   
 136               Zapopan   4470        1067        1950         494   
 137           Zapotlanejo    177           0          36           5   
 
     2 estrellas 1 estrellas sin categoria   año  
 11         3771        5987         21057  2013  
 12            9    

In [None]:
# guardar todos los sets en su direccion correspondiente, en la carpeta de informacion limpia

final_dir = os.path.join(basedir,r'data\Cuartos_Hoteles')
final_dir
for i,df in enumerate(cleaned_sets):
    df.to_csv(f'{final_dir}_{2013+i}.csv')


La limpieza hecha con las anteriores funciones no es al 100% homogenea, pero si conserva toda la informacion relevante y facilita por mucho elproceso, en efecto lo unico que falta por hacer despues de este proceso es  concatenar los dataframes y quitar las filas que contienen los totales.