## Libraries

In [32]:
import pandas as pd
import glob
import os

## Data cleaning class

In [33]:
class clean_data:
    
    column_names_first_page = {'Unnamed: 1': 'Sector industrial',
                               'Unnamed: 2': 'Población ocupada por sexo: Hombre',
                               'Unnamed: 3': 'Población ocupada por sexo: Mujer',
                               'Unnamed: 4': 'Ingreso bruto medio en el empleo principal por sexo: Hombre',
                               'Unnamed: 5': 'Ingreso bruto medio en el empleo principal por sexo: Mujer',
                               'Unnamed: 6': 'brecha del ingreso'}
    
    column_names_second_page = {'Unnamed: 1': 'Sector industrial',
                                'Unnamed: 2': 'Población ocupada tiempo parcial por sexo: Hombre',
                                'Unnamed: 3': 'Población ocupada tiempo parcial por sexo: Mujer',
                                'Unnamed: 4': 'Ingreso bruto medio tiempo parcial en el empleo principal por sexo: Hombre',
                                'Unnamed: 5': 'Ingreso bruto medio tiempo parcial en el empleo principal por sexo: Mujer',
                                'Unnamed: 6': 'Diferencial del ingreso tiempo parcial',
                                'Unnamed: 7': 'Población ocupada tiempo completo por sexo: Hombre',
                                'Unnamed: 8': 'Población ocupada tiempo completo por sexo: Mujer',
                                'Unnamed: 9': 'Ingreso bruto medio tiempo completo en el empleo principal por sexo: Hombre',
                                'Unnamed: 10': 'Ingreso bruto medio tiempo completo en el empleo principal por sexo: Mujer',
                                'Unnamed: 11': 'Diferencial del ingreso tiempo completo'}
    
    def clean_first_page(self, df):
        
        df.drop(df.columns[0], axis=1, inplace=True)
        df.dropna(how='all', inplace=True)

        self.data_period = df['Unnamed: 2'][4].split(' ')

        df.drop([0,2,4], axis=0, inplace=True)
        df.rename(columns=self.column_names_first_page, inplace=True)

        if self.data_period[0] == 'I':
            df['Data Period quarterly'] = 1
            df['Data Period year'] = self.data_period[2]

        elif self.data_period[0] == 'II':
            df['Data Period quarterly'] = 2
            df['Data Period year'] = self.data_period[2]

        elif self.data_period[0] == 'III':
            df['Data Period quarterly'] = 3
            df['Data Period year'] = self.data_period[2]

        elif self.data_period[0] == 'IV':
            df['Data Period quarterly'] = 4
            df['Data Period year'] = self.data_period[2]

        self.total_trabajadores = df.loc[8:8].reset_index(drop=True)

        df.drop([5,6,8], axis=0, inplace=True)
        df.reset_index(drop=True, inplace=True)

        self.total_sector = df[df['Sector industrial'].str.contains('Sector|1.4 No especificado', na=False)].reset_index(drop=True)
        self.sector_publico_privado = df[df['Sector industrial'].str.contains('Público|Privado', na=False)].reset_index(drop=True)
        self.posicion_empleo = df[df['Sector industrial'].str.contains('Asalariada|Cuenta propia|Empleadora|Auxiliar no remunerado', na=False)].reset_index(drop=True)

        df.drop(df[df['Sector industrial'].str.contains('Sector', na=False)].index, inplace=True)
        df = df.drop(df.loc[16:39].index).reset_index(drop=True)
        
        return [df, self.total_trabajadores, self.total_sector, self.sector_publico_privado, self.posicion_empleo]
    
    def clean_second_page(self, df):
        
        df.drop(df.columns[0], axis=1, inplace=True)
        df.dropna(how='all', inplace=True)

        self.data_period = df['Unnamed: 2'][4].split(' ')

        df.drop([0,2,4], axis=0, inplace=True)
        df.rename(columns=self.column_names_second_page, inplace=True)

        if self.data_period[0] == 'I':
            df['Data Period quarterly'] = 1
            df['Data Period year'] = self.data_period[2]

        elif self.data_period[0] == 'II':
            df['Data Period quarterly'] = 2
            df['Data Period year'] = self.data_period[2]

        elif self.data_period[0] == 'III':
            df['Data Period quarterly'] = 3
            df['Data Period year'] = self.data_period[2]

        elif self.data_period[0] == 'IV':
            df['Data Period quarterly'] = 4
            df['Data Period year'] = self.data_period[2]

        self.total_trabajadores = df.loc[8:8].reset_index(drop=True)

        df.drop([5,6,8], axis=0, inplace=True)
        df.reset_index(drop=True, inplace=True)

        self.total_sector = df[df['Sector industrial'].str.contains('Sector|1.4 No especificado', na=False)].reset_index(drop=True)
        self.sector_publico_privado = df[df['Sector industrial'].str.contains('Público|Privado', na=False)].reset_index(drop=True)
        self.posicion_empleo = df[df['Sector industrial'].str.contains('Asalariada|Cuenta propia|Empleadora|Auxiliar no remunerado', na=False)].reset_index(drop=True)

        df.drop(df[df['Sector industrial'].str.contains('Sector', na=False)].index, inplace=True)
        df = df.drop(df.loc[16:39].index).reset_index(drop=True)
        
        
        return [df, self.total_trabajadores, self.total_sector, self.sector_publico_privado, self.posicion_empleo]

## Importing and cleaning data

In [34]:
clean = clean_data()

csvdirs = './Data/input'
years = os.listdir(csvdirs)

dataframes_first_page = []
dataframes_second_page = []

total_trabajadores_first_page = []
total_trabajadores_second_page = []

total_sector_first_page = []
total_sector_second_page = []

sector_publico_privado_first_page = []
sector_publico_privado_second_page = []

posicion_empleo_first_page = []
posicion_empleo_second_page = []


for year in years:
        csvfiles = glob.glob(os.path.join(csvdirs, year, '*.xlsx'))
        
        for csvfile in csvfiles:
                df = pd.read_excel(csvfile, sheet_name=1)
                
                result_first_page = clean.clean_first_page(df)
                dataframes_first_page.append(result_first_page[0])
                total_trabajadores_first_page.append(result_first_page[1])
                total_sector_first_page.append(result_first_page[2])
                sector_publico_privado_first_page.append(result_first_page[3])
                posicion_empleo_first_page.append(result_first_page[4])
                
                df = pd.read_excel(csvfile, sheet_name=2)
                
                result_second_page = clean.clean_second_page(df)
                dataframes_second_page.append(result_second_page[0])
                total_trabajadores_second_page.append(result_second_page[1])
                total_sector_second_page.append(result_second_page[2])
                sector_publico_privado_second_page.append(result_second_page[3])
                posicion_empleo_second_page.append(result_second_page[4])

In [35]:
result_first_page = pd.concat(dataframes_first_page, ignore_index=True)
result_total_trabajadores_first_page = pd.concat(total_trabajadores_first_page, ignore_index=True)
result_total_sector_first_page = pd.concat(total_sector_first_page, ignore_index=True)
result_sector_publico_privado_first_page = pd.concat(sector_publico_privado_first_page, ignore_index=True)
result_posicion_empleo_first_page = pd.concat(posicion_empleo_first_page, ignore_index=True)

result_second_page = pd.concat(dataframes_second_page, ignore_index=True)
result_total_trabajadores_second_page = pd.concat(total_trabajadores_second_page, ignore_index=True)
result_total_sector_second_page = pd.concat(total_sector_second_page, ignore_index=True)
result_sector_publico_privado_second_page = pd.concat(sector_publico_privado_second_page, ignore_index=True)
result_posicion_empleo_second_page = pd.concat(posicion_empleo_second_page, ignore_index=True)

## Exporting data cleaned

In [40]:
result_first_page.to_csv('Data/output/result_first_page.csv')
result_total_trabajadores_first_page.to_csv('Data/output/result_total_trabajadores_first_page.csv')
result_total_sector_first_page.to_csv('Data/output/result_total_sector_first_page.csv')
result_sector_publico_privado_first_page.to_csv('Data/output/result_sector_publico_privado_first_page.csv')
result_posicion_empleo_first_page.to_csv('Data/output/result_posicion_empleo_first_page.csv')

result_second_page.to_csv('Data/output/result_second_page.csv')
result_total_trabajadores_second_page.to_csv('Data/output/result_total_trabajadores_second_page.csv')
result_total_sector_second_page.to_csv('Data/output/result_total_sector_second_page.csv')
result_sector_publico_privado_second_page.to_csv('Data/output/result_sector_publico_privado_second_page.csv')
result_posicion_empleo_second_page.to_csv('Data/output/result_posicion_empleo_second_page.csv')