In [1]:
from pyspark.sql import SparkSession
from pyspark.sql.types import *
from pyspark.sql.functions import * 
import os
import glob
import pandas as pd

spark = SparkSession.builder.appName("spark-ingestion-orbital").config("spark.sql.broadcastTimeout", "100000").config('spark.sql.autoBroadcastJoinThreshold', '-1').config("spark.executor.memory", "80g").config("spark.executor.cores", "2").enableHiveSupport().getOrCreate()
# validate
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

## <i>Tables PIB/Municipos<i>

In [2]:
# pib address
pib_files = glob.glob('./files/pib/*.xlsx')

In [3]:
# Posição ocupada pelos 100 maiores municípios, em relação ao Produto Interno Bruto a preços correntes e participações percentual e acumulada, segundo os municípios e as respectivas Unidades da Federação - 2019
top_100_pib = pd.concat((pd.read_excel(f,header=4,names=['municipios_uf', 'posicao_municipio', 'pib', 'partipacao_percentual', 'percentual_acumulado'], sheet_name=0) for f in pib_files))
top_100_pib = top_100_pib.dropna()
top_100_pib = top_100_pib[top_100_pib["municipios_uf"].str.contains('\n') == False]
top_100_pib.to_csv(f"./landing_zone/pib/top_100_pib.csv",index=False)

In [4]:
# Posição ocupada pelos 30 maiores municípios, em relação ao Produto Interno Bruto a preços correntes e participações percentual e acumulada dos municípios nas Grandes Regiões, segundo os municípios e as respectivas Unidades da Federação - 2019
top_30_region = pd.concat((pd.read_excel(f,header=1,names=['municipios_uf', 'posicao_municipio', 'pib', 'partipacao_percentual', 'percentual_acumulado'], sheet_name=1) for f in pib_files))
top_30_region = top_30_region.dropna()
top_30_region = top_30_region[top_30_region["municipios_uf"].str.contains('\n') == False]
top_30_region = top_30_region[top_30_region["posicao_municipio"].str.contains('º') == True]
top_30_region.to_csv(f"./landing_zone/pib/top_30_region_pib.csv",index=False)

In [5]:
# Posição ocupada pelos 30 menores municípios, em relação ao Produto Interno Bruto a preços correntes e participações percentual e acumulada dos municípios nas Grandes Regiões, segundo os municípios e as respectivas Unidades da Federação - 2019
bottom_30_region = pd.concat((pd.read_excel(f,header=1,names=['municipios_uf', 'posicao_municipio', 'pib', 'partipacao_percentual', 'percentual_acumulado'], sheet_name=2) for f in pib_files))
bottom_30_region = bottom_30_region.dropna()
bottom_30_region = bottom_30_region[bottom_30_region["municipios_uf"].str.contains('\n') == False]
bottom_30_region = bottom_30_region[bottom_30_region["posicao_municipio"].str.contains('º') == True]
bottom_30_region.to_csv(f"./landing_zone/pib/bottom_30_region_pib.csv",index=False)

In [6]:
# Posição ocupada pelos 100 maiores municípios, em relação ao Produto Interno Bruto per capita e população, segundo os municípios e as respectivas Unidades da Federação - 2019
top_100_pibpercap = pd.concat((pd.read_excel(f,header=1,names=['municipios_uf', 'posicao_municipio', 'pib_percapita', 'populacao'], sheet_name=3) for f in pib_files))
top_100_pibpercap = top_100_pibpercap.dropna()
top_100_pibpercap = top_100_pibpercap[top_100_pibpercap["municipios_uf"].str.contains('\n') == False]
top_100_pibpercap = top_100_pibpercap[top_100_pibpercap["posicao_municipio"].str.contains('º') == True]
top_100_pibpercap.to_csv(f"./landing_zone/pib/top_100_pibpercap.csv",index=False)


In [7]:
# Posição ocupada pelos 100 maiores municípios, em relação ao valor adicionado bruto da Agropecuária e participações percentual e acumulada, segundo os municípios e as respectivas Unidades da Federação - 2019
top_100_agro = pd.concat((pd.read_excel(f,header=1,names=['municipios_uf', 'posicao_municipio', 'val_add_agropecuaria', 'partipacao_percentual', 'percentual_acumulado'], sheet_name=4) for f in pib_files))
top_100_agro = top_100_agro.dropna()
top_100_agro = top_100_agro[top_100_agro["municipios_uf"].str.contains('\n') == False]
top_100_agro = top_100_agro[top_100_agro["posicao_municipio"].str.contains('º') == True]
top_100_agro.to_csv(f"./landing_zone/pib/top_100_agro.csv",index=False)


In [8]:
# Posição ocupada pelos 100 maiores municípios, em relação ao valor adicionado bruto da Industria e participações percentual e acumulada, segundo os municípios e as respectivas Unidades da Federação - 2019
top_100_indust = pd.concat((pd.read_excel(f,header=1,names=['municipios_uf', 'posicao_municipio', 'val_add_industria', 'partipacao_percentual', 'percentual_acumulado'], sheet_name=5) for f in pib_files))
top_100_indust = top_100_indust.dropna()
top_100_indust = top_100_indust[top_100_indust["municipios_uf"].str.contains('\n') == False]
top_100_indust = top_100_indust[top_100_indust["posicao_municipio"].str.contains('º') == True]
top_100_indust.to_csv(f"./landing_zone/pib/top_100_indust.csv",index=False)

In [9]:
# Posição ocupada pelos 100 maiores municípios, em relação ao valor adicionado bruto dos Serviços e participações percentual e acumulada, segundo os municípios e as respectivas Unidades da Federação - 2019
top_100_serv = pd.concat((pd.read_excel(f,header=1,names=['municipios_uf', 'posicao_municipio', 'val_add_servicos', 'partipacao_percentual', 'percentual_acumulado'], sheet_name=6) for f in pib_files))
top_100_serv = top_100_serv.dropna()
top_100_serv = top_100_serv[top_100_serv["municipios_uf"].str.contains('\n') == False]
top_100_serv = top_100_serv[top_100_serv["posicao_municipio"].str.contains('º') == True]
top_100_serv.to_csv(f"./landing_zone/pib/top_100_serv.csv",index=False)

In [10]:
# Posição ocupada pelos 100 maiores municípios, em relação ao valor adicionado bruto da Administração, defesa, educação e saúde públicas e seguridade social e participações percentual e acumulada, segundo os municípios e as respectivas Unidades da Federação - 2019
top_100_admpublica = pd.concat((pd.read_excel(f,header=1,names=['municipios_uf', 'posicao_municipio', 'val_add_adm_publica', 'partipacao_percentual', 'percentual_acumulado'], sheet_name=7) for f in pib_files))
top_100_admpublica = top_100_admpublica.dropna()
top_100_admpublica = top_100_admpublica[top_100_admpublica["municipios_uf"].str.contains('\n') == False]
top_100_admpublica = top_100_admpublica[top_100_admpublica["posicao_municipio"].str.contains('º') == True]
top_100_admpublica.to_csv(f"./landing_zone/pib/top_100_admpublica.csv",index=False)

In [11]:
# Participação percentual do PIB, número de municípios e população dos cinco municípios com maiores PIBs em relação à Unidade da Federação, segundo as Unidades da Federação - 2002-2019
overview_pib_historico = pd.concat((pd.read_excel(f,header=5, sheet_name=8) for f in pib_files))
overview_pib_historico = overview_pib_historico.rename({'Unnamed: 0':'unidade_federativa', '2019\n(2)':'2019', 'Unnamed: 19': 'participacao_num_mun_uf', 'Unnamed: 20': 'partipacao_total_pop_uf' }, axis=1)
overview_pib_historico = overview_pib_historico.dropna()
overview_pib_historico = pd.melt(overview_pib_historico, id_vars=['unidade_federativa', 'participacao_num_mun_uf', 'partipacao_total_pop_uf'],var_name='year',value_name='participacao_percentual_pib_uf')
overview_pib_historico.to_csv(f"./landing_zone/pib/overview_pib_historico.csv",index=False)

## <i>Companhias<i>

In [12]:
# pib address
companies_files = glob.glob('./files/companies_register/companies/*.xlsx')
first_sequence = companies_files[:6]

In [13]:

# tabelas com informação de salário médio por gênero, classificação por população e atividade (numero 1 e subdivisões)
table_names = ['N_2018_sm_cla','N_2018_sm_atv','N_2019_sm_cla','N_2019_sm_atv','NE_2018_sm_cla','NE_2018_sm_atv','NE_2019_sm_cla','NE_2019_sm_atv','SE_2018_sm_cla','SE_2018_sm_atv','SE_2019_sm_cla','SE_2019_sm_atv','S_2018_sm_cla','S_2018_sm_atv','S_2019_sm_cla','S_2019_sm_atv','CO_2018_sm_cla','CO_2018_sm_atv','CO_2019_sm_cla','CO_2019_sm_atv','BR_2018_sm_cla','BR_2018_sm_atv','BR_2019_sm_cla','BR_2019_sm_atv']
c = 0
t = 0
for i in first_sequence:
    for i in range(0,2):
        # primeira tabela
        table = pd.read_excel(first_sequence[t],header=6,sheet_name=i,names=['faixa_pessoal_ocupada', 'numero_empresas_organizacoes', 'pessoal_ocupado_total','total_assalariado', 'total_assalariado_masc', 'total_assalariado_fem'\
            ,'total_assalariado_superior','total_assalariado_nao_superior','pessoal_assalariado_medio_total', 'pessoal_assalariado_medio_masc', 'pessoal_assalariado_medio_fem'\
            ,'pessoal_assalariado_medio_nivel_sup','pessoal_assalariado_medio_sem_nivel_sup', '1000_salario_e_remun_total', '1000_salario_e_remun_total_masc', '1000_salario_e_remun_total_fem', '1000_salario_e_remun_total_superior', '1000_salario_e_remun_total_nao_superior'\
            ,'salario_medio_mensal_123_total', 'salario_medio_mensal_123_total_masc', 'salario_medio_mensal_123_total_fem', 'salario_medio_mensal_123_superior','salario_medio_mensal_123_total_nao_superior'\
            ,'salario_mensal_total_3', 'salario_mensal_total_3_masc', 'salario_mensal_total_3_fem', 'salario_mensal_total_3_superior', 'salario_mensal_total_3_nao_superior'])
        table = table.head(9)
        table = table.replace('X','')
        table = table.replace('"','')
        table = table.dropna()
        table.to_csv(f"./landing_zone/cadastro_empresas/{table_names[c]}.csv",index=False,encoding='UTF-8')
        c = c + 1
        # segunda tabela
        table = pd.read_excel(first_sequence[t],header=6,sheet_name=i,names=['faixa_pessoal_ocupada', 'numero_empresas_organizacoes', 'pessoal_ocupado_total','total_assalariado', 'total_assalariado_masc', 'total_assalariado_fem'\
            ,'total_assalariado_superior','total_assalariado_nao_superior','pessoal_assalariado_medio_total', 'pessoal_assalariado_medio_masc', 'pessoal_assalariado_medio_fem'\
            ,'pessoal_assalariado_medio_nivel_sup','pessoal_assalariado_medio_sem_nivel_sup', '1000_salario_e_remun_total', '1000_salario_e_remun_total_masc', '1000_salario_e_remun_total_fem', '1000_salario_e_remun_total_superior', '1000_salario_e_remun_total_nao_superior'\
            ,'salario_medio_mensal_123_total', 'salario_medio_mensal_123_total_masc', 'salario_medio_mensal_123_total_fem', 'salario_medio_mensal_123_superior','salario_medio_mensal_123_total_nao_superior'\
            ,'salario_mensal_total_3', 'salario_mensal_total_3_masc', 'salario_mensal_total_3_fem', 'salario_mensal_total_3_superior', 'salario_mensal_total_3_nao_superior'])
        table = table.drop(axis=0, index=[0,1,2,3,4,5,6,7,8,9])
        table = table.replace('X','')
        table = table.dropna()
        table.to_csv(f"./landing_zone/cadastro_empresas/{table_names[c]}.csv",index=False,encoding='UTF-8')
        c = c + 1
    t = t + 1

In [14]:
second_files = companies_files[6:][:6]

In [15]:
# tabelas número 2 e subdivisões
table_names = ['N_2019_cnae_total','NE_2019_cnae_total','SE_2019_cnae_total','S_2019_cnae_total','CO_2019_cnae_total','BR_2019_cnae_total']
c = 0
for i in second_files:
    table = pd.read_excel(second_files[c],header=4,sheet_name=0,names=['codigo_cnae','atividade','numero_empresas','pessoal_ocup_total','pessoal_ocup_assal_total','pessoal_ocup_assal_masc','pessoal_ocup_assal_fem','pessoal_ocup_assal_sup','pessoal_ocup_assal_non_sup'\
        ,'pessoal_assalariado_medio_total','pessoal_assalariado_medio_masc','pessoal_assalariado_medio_fem','pessoal_assalariado_medio_sup','pessoal_assalariado_non_sup'\
        ,'salario_outras_rem_total','salario_outras_rem_masc','salario_outras_rem_fem','salario_outras_rem_sup','salario_outras_rem_non_sup','salario_min_mensal_total','salario_min_mensal_masc','salario_min_mensal_fem','salario_min_mensal_sup','salario_min_mensal_non_sup'\
            ,'salario_medio_mensal_total','salario_medio_mensal_masc','salario_medio_mensal_fem','salario_medio_mensal_sup','salario_medio_mensal_non_sup'])
    table = table.replace('X','')
    table = table.replace('-','')
    table = table.dropna()
    table.to_csv(f"./landing_zone/cadastro_empresas/{table_names[c]}.csv",index=False,encoding='UTF-8')
    c += 1

In [16]:
third_files = companies_files[12:][:5]

In [17]:
# tabela 3

table_names = ['BR_2019_cnae_faixas','BR_2019_anual_faixas','BR_2019_anual_atividades','BR_2019_cnae_empresas_pessoal','BR_2019_conc_ec_ics','BR_2019_cnae_ics']

table = pd.read_excel(third_files[0],header=13,sheet_name=0,names=['codigo_cnae','atividade','numero_empresas','pessoal_ocup_total','pessoal_ocup_assal_total','pessoal_ocup_assal_masc','pessoal_ocup_assal_fem','pessoal_ocup_assal_sup','pessoal_ocup_assal_non_sup'\
    ,'pessoal_assalariado_medio_total','pessoal_assalariado_medio_masc','pessoal_assalariado_medio_fem','pessoal_assalariado_medio_sup','pessoal_assalariado_non_sup'\
    ,'salario_outras_rem_total','salario_outras_rem_masc','salario_outras_rem_fem','salario_outras_rem_sup','salario_outras_rem_non_sup','salario_min_mensal_total','salario_min_mensal_masc','salario_min_mensal_fem','salario_min_mensal_sup','salario_min_mensal_non_sup'\
        ,'salario_medio_mensal_total','salario_medio_mensal_masc','salario_medio_mensal_fem','salario_medio_mensal_sup','salario_medio_mensal_non_sup'])
table = table.replace('X','')
table = table.replace('-','')
table = table.dropna()
table = table[table["atividade"].str.contains('Total') == False]
table.to_csv(f"./landing_zone/cadastro_empresas/{table_names[0]}.csv",index=False,encoding='UTF-8')

In [18]:
# tabela 4 - parte 1
table = pd.read_excel(third_files[1],header=8,sheet_name=0,names=['faixas','total_empresas','total_empresas_ate_1966','total_empresas_ate_1970','total_empresas_ate_1980','total_empresas_ate_1990','total_empresas_ate_1995','total_empresas_ate_2000'\
    ,'total_empresas_ate_2005','total_empresas_ate_2010','total_empresas_2011','total_empresas_2012','total_empresas_2013'\
    ,'total_empresas_2014','total_empresas_2015','total_empresas_2016','total_empresas_2017','total_empresas_2018','total_empresas_2019'])
table = table.head(8)
table.to_csv(f"./landing_zone/cadastro_empresas/{table_names[1]}.csv",index=False,encoding='UTF-8')

# tabela 4 - parte 2
table = pd.read_excel(third_files[1],header=8,sheet_name=0,names=['faixas','total_empresas','total_empresas_ate_1966','total_empresas_ate_1970','total_empresas_ate_1980','total_empresas_ate_1990','total_empresas_ate_1995','total_empresas_ate_2000'\
    ,'total_empresas_ate_2005','total_empresas_ate_2010','total_empresas_2011','total_empresas_2012','total_empresas_2013'\
    ,'total_empresas_2014','total_empresas_2015','total_empresas_2016','total_empresas_2017','total_empresas_2018','total_empresas_2019'])
table = table.drop(axis=0,index=[0,1,2,3,4,5,6,7,8,9])
table = table.dropna()
table.to_csv(f"./landing_zone/cadastro_empresas/{table_names[2]}.csv",index=False,encoding='UTF-8')

In [19]:
# tabela 5
table = pd.read_excel(third_files[2],header=5,sheet_name=0,names=['codigo_cnae','atividade','numero_empresas','pessoal_ocup_total','pessoal_ocup_part_rel','pessoal_ocup_part_acc','pessoal_ocup_assalariado','salario_medio_mensal_sal_min'])
table = table.replace('X','')
table = table.replace('-','')
table = table.dropna()
table.to_csv(f"./landing_zone/cadastro_empresas/{table_names[3]}.csv",index=False,encoding='UTF-8')

In [20]:
# tabela 6
table = pd.read_excel(third_files[3],header=5,sheet_name=0,names=['codigo_cnae','atividade','numero_empresas','pessoal_ocup_total','quatro_maiores_empresas_percent','oito_maiores_empresas_percent','doze_maiores_empresas_percent'])
table = table.replace('X','')
table = table.replace('-','')
table = table.dropna()
table
table.to_csv(f"./landing_zone/cadastro_empresas/{table_names[4]}.csv",index=False,encoding='UTF-8')


In [21]:
# tabela 7
table = pd.read_excel(third_files[4],header=5,sheet_name=0,names=['codigo_cnae','atividade','tipo_empresa','total_empresas','pessoal_ocupado_total','numero_empresas_percent_total','pessoal_ocupado_percent_total','numero_empresas_mais_de_um_local_pct','pessoal_ocupado_mais_de_um_local_pct'])
table = table.replace('X','')
table = table.replace('-','')
table = table.dropna()
table = table[table["tipo_empresa"].str.contains('Total') == False]
table.to_csv(f"./landing_zone/cadastro_empresas/{table_names[5]}.csv",index=False,encoding='UTF-8')


In [22]:
# tabelas 8
fourthy_files = companies_files[17:][:6]

In [23]:
# tabelas 8
table_names = ['N_2019_juri_total','NE_2019_juri_total','SE_2019_juri_total','S_2019_juri_total','CO_2019_juri_total','BR_2019_juri_total']
c = 0
for i in fourthy_files:
    table = pd.read_excel(fourthy_files[c],header=5,sheet_name=0,names=['codigo_cnae','atividade','natureza_juridica','total_empresas','pessoal_ocupado_total','pessoal_ocupado_assalariado','salario_outras_rem'])
    table = table.replace('X','')
    table = table.replace('-','')
    table = table.dropna()
    table.to_csv(f"./landing_zone/cadastro_empresas/{table_names[c]}.csv",index=False,encoding='UTF-8')
    c = c + 1


In [24]:
companies_files = glob.glob('./files/companies_register/local_unities/*.xlsx')

tabelas_nove = companies_files[9:]
tabelas_nove

['./files/companies_register/local_unities\\Tabela 9.1.xlsx',
 './files/companies_register/local_unities\\Tabela 9.2.xlsx',
 './files/companies_register/local_unities\\Tabela 9.3.xlsx',
 './files/companies_register/local_unities\\Tabela 9.4.xlsx',
 './files/companies_register/local_unities\\Tabela 9.5.xlsx',
 './files/companies_register/local_unities\\Tabela 9.6.xlsx',
 './files/companies_register/local_unities\\Tabela 9.xlsx']

In [25]:
# tabelas 9
companies_files = glob.glob('./files/companies_register/local_unities/*.xlsx')

tabelas_nove = companies_files[9:]

table_names = ['N_unid_local_2018_cla','N_unid_local_2018_atv','N_unid_local_2019_cla','N_unid_local_2019_atv','NE_unid_local_2018_cla','NE_unid_local_2018_atv','NE_unid_locl_2019_cla','NE_unid_local_2019_atv','SE_unid_local_2018_cla','SE_unid_local_2019_atv','SE_unid_local_2019_cla'\
,'SE_unid_local_2018_atv','S_unid_local_2018_cla','S_unid_local_2018_atv','S_unid_local_2019_cla','S_unid_local_2019_atv','CO_unid_local_2018_cla','CO_unid_local_2018_atv','CO_unid_local_2019_cla','CO_unid_local_2019_atv','BR_cnae_total_2018_cla','BR_cnae_total_2018_atv','BR_cnae_total_2019_cla','BR_cnae_total_2019_atv','BR_unid_local_2018_cla','BR_unid_local_2018_atv','BR_unid_local_2019_cla','BR_unid_local_2019_atv']

c = 0
t = 0

for i in tabelas_nove:
    for i in range(0,2):
        #print(i)
        print(t)
        table = pd.read_excel(tabelas_nove[t],header=5,sheet_name=i,names=['faixas','unidades_locais','pessoal_ocup_total','pessoal_ocup_assal','pessoal_assalariado_medio','salario_outras_rem','salario_medio_mensal_min','salario_medio_mensal'])
        table = table.replace('X','')
        table = table.replace('-','')
        table = table.head(12)
        table = table.dropna()
        table.to_csv(f"./landing_zone/unidades_locais/{table_names[c]}.csv",index=False,encoding='UTF-8')
        c = c + 1
        # segunda parte
        table = pd.read_excel(tabelas_nove[t],header=18,sheet_name=0,names=['faixas','unidades_locais','pessoal_ocup_total','pessoal_ocup_assal','pessoal_assalariado_medio','salario_outras_rem','salario_medio_mensal_min','salario_medio_mensal'])
        table = table.replace('X','')
        table = table.replace('-','')
        table = table.dropna()
        table.to_csv(f"./landing_zone/unidades_locais/{table_names[c]}.csv",index=False,encoding='UTF-8')
        c = c + 1
    t = t + 1


0
0
1
1
2
2
3
3
4
4
5
5
6
6


In [26]:
tabelas_dez = companies_files[0:2]
tabelas_dez

# tabela 10.1
table = pd.read_excel(tabelas_dez[0],header=6,sheet_name=0,names=['uf','cnae','atividades','unidades','pessoal_ocp_total','pessoal_ocp_assal','pessoal_assal_medio','salarios_outras_rem','salario_medio_mensal_min','salario_medio_mensal'])
table = table.replace('X','')
table = table.dropna()
table.to_csv(f"./landing_zone/unidades_locais/UF_GR_cnae_total_2019.csv",index=False,encoding='UTF-8')

# tabela 10
table = pd.read_excel(tabelas_dez[1],header=6,sheet_name=0,names=['uf','atividades','unidades','pessoal_ocp_total','pessoal_ocp_assal','pessoal_assal_medio','salarios_outras_rem','salario_medio_mensal_min','salario_medio_mensal'])
table = table.replace('X','')
table = table.dropna()
table.to_csv(f"./landing_zone/unidades_locais/UF_GR_total_2019.csv",index=False,encoding='UTF-8')

In [27]:
tabelas_onze = companies_files[2:5]

In [28]:
# tabela 11
table = pd.read_excel(tabelas_onze[0],header=4,sheet_name=0,names=['uf','atividades','faixa','unidades_locais','pessoal_ocp_total','pessoal_ocp_assal','pessoal_assal_medio','salarios_outras_rem','salario_medio_mensal_min','salario_medio_mensal'])
table = table.replace('X','')
table = table.dropna()
table = table[table["atividades"].str.contains('Total') == False]
table.to_csv(f"./landing_zone/unidades_locais/BR_UF_unid_local_faixas_2019.csv",index=False,encoding='UTF-8')

In [29]:
table = pd.read_excel(tabelas_onze[1],header=4,sheet_name=0,names=['cnae','atividades','faixa','unidades_locais','pessoal_ocp_total','pessoal_ocp_assal','pessoal_assal_medio','salarios_outras_rem','salario_medio_mensal_min','salario_medio_mensal'])
table = table.replace('X','')
table = table.dropna()
table = table[table["atividades"].str.contains('Total') == False]
table = table[table["faixa"].str.contains('Total') == False]
table.to_csv(f"./landing_zone/unidades_locais/BR_cnae_faixas_2019.csv",index=False,encoding='UTF-8')

In [30]:
table = pd.read_excel(tabelas_onze[2],header=4,sheet_name=0,names=['atividades','faixa','unidades_locais','pessoal_ocp_total','pessoal_ocp_assal','pessoal_assal_medio','salarios_outras_rem','salario_medio_mensal_min','salario_medio_mensal'])
table = table.replace('X','')
table = table.dropna()
table = table[table["atividades"].str.contains('Total') == False]
table = table[table["faixa"].str.contains('Total') == False]
table.to_csv(f"./landing_zone/unidades_locais/BR_unid_local_faixas_2019.csv",index=False,encoding='UTF-8')

In [31]:
tabelas_doze = companies_files[5:7]
tabelas_doze

['./files/companies_register/local_unities\\Tabela 12.1.xlsx',
 './files/companies_register/local_unities\\Tabela 12.xlsx']

In [32]:
# tabela 12.1
table = pd.read_excel(tabelas_doze[0],header=5,sheet_name=0,names=['mun_capital','cnae','atividades','unidades_locais','pessoal_ocp_total','pessoal_ocp_assal','pessoal_assal_medio','salarios_outras_rem','salario_medio_mensal_min','salario_medio_mensal'])
table = table.replace('X','')
table = table.replace('-','')
table = table[table["atividades"].str.contains('Total') == False]
table = table.dropna()
table.to_csv(f"./landing_zone/unidades_locais/BR_capitais_cnae_total_2019.csv",index=False,encoding='UTF-8')

# tabela 12
table = pd.read_excel(tabelas_doze[1],header=5,sheet_name=0,names=['mun_capital','atividades','unidades_locais','pessoal_ocp_total','pessoal_ocp_assal','pessoal_assal_medio','salarios_outras_rem','salario_medio_mensal_min','salario_medio_mensal'])
table = table.replace('X','')
table = table.replace('-','')
table = table.dropna()
table = table[table["atividades"].str.contains('Total') == False]
table.to_csv(f"./landing_zone/unidades_locais/BR_capitais_total_2019.csv",index=False,encoding='UTF-8')

In [33]:
# tabelas 13 e 14
last_tables = companies_files[7:9]

table = pd.read_excel(last_tables[0],header=5,sheet_name=0,names=['ufs','cidades','unidades_locais','pessoal_ocp_total','pessoal_ocp_assal','pessoal_assal_medio','salarios_outras_rem','salario_medio_mensal_min','salario_medio_mensal','numero_empresas'])
table = table.replace('X','')
table = table.replace('-','')
table = table.dropna()
table = table[table["cidades"].str.contains('Total') == False]
table.to_csv(f"./landing_zone/unidades_locais/BR_unid_local_uf_2019.csv",index=False,encoding='UTF-8')

In [37]:
table = pd.read_excel(last_tables[1],header=4,sheet_name=0,names=['ufs','cidades_mais_cinquenta_mil','atividades','unidades_locais','pessoal_ocp_total','pessoal_ocp_assal','pessoal_assal_medio','salarios_outras_rem','salario_medio_mensal_min','salario_medio_mensal'])
table = table.replace('X','')
table = table.replace('-','')
table = table.dropna()
table = table[table["atividades"].str.contains('Total') == False]
table = table.replace(',','')
table = table.replace('...','')
table = table.fillna(0)
table.to_csv(f"./landing_zone/unidades_locais/BR_unid_local_uf_mun_grandes_2019.csv",index=False,encoding='UTF-8')