In [1]:
import sqlalchemy as sql

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
conn_empresas = sql.create_engine('postgresql://postgres:%24h%5B6%3B%3AsqyA4%25f6nL%5Bg@postgres.driva.io:5433/postgres')

In [3]:
df_empresas = pd.concat([df for df in pd.read_sql(
    sql.text(f'''
        SELECT
            cnpj,
            cnae_principal_grupo,
            cnae_principal_subclasse,
            uf,
            municipio,
            endereco,
            qtde_funcionarios,
            historico_funcionarios
        FROM clientes.verdera_empresas
    '''),
    chunksize=1e4,
    con=conn_empresas.connect()
)])

In [4]:
df_empresas.head()

Unnamed: 0,cnpj,cnae_principal_grupo,cnae_principal_subclasse,uf,municipio,endereco,qtde_funcionarios,historico_funcionarios
0,63254718000124,161,1610203,BAHIA,TEOLANDIA,"RODOVIA BR 101 SITIO MANGUEIRA, 14 - ZONA BURI...",,
1,13346268000121,310,3101200,SANTA CATARINA,VIDAL RAMOS,ESTRADA GERAL - ANTAS GORDAS - 88443000,,"[{'ano': 2015, 'qtde_funcionarios': 6}, {'ano'..."
2,35100882000141,161,1610203,MARANHAO,SAO BENTO,"RUA FELIPE CANDURU, 1173 - SAO CRISTOVAO - 652...",,
3,33131519000168,452,4520006,BAHIA,SANTO ANTONIO DE JESUS,"RODOVIA BA 028, 19 - BAIRRO SAO PAULO - 44571970",1.0,
4,17684533000132,682,6822600,RIO DE JANEIRO,RIO DE JANEIRO,"PRACA MAHATMA GANDHI, 14 - CENTRO - ANDAR 10, ...",,


In [5]:
df_categorias = pd.read_csv('../../data/categorias.csv')
df_categorias.head()

Unnamed: 0,CNAE 5º Nível,Categoria
0,210108,Carvão
1,220902,Carvão
2,500301,Carvão
3,500302,Carvão
4,2790201,Carvão


In [7]:
df_empresas = pd.merge(df_empresas, df_categorias, left_on='cnae_principal_subclasse', right_on='CNAE 5º Nível')
df_empresas.head()

Unnamed: 0,cnpj,cnae_principal_grupo,cnae_principal_subclasse,uf,municipio,endereco,qtde_funcionarios,historico_funcionarios,CNAE 5º Nível,Categoria
0,63254718000124,161,1610203,BAHIA,TEOLANDIA,"RODOVIA BR 101 SITIO MANGUEIRA, 14 - ZONA BURI...",,,1610203,Madeira
1,35100882000141,161,1610203,MARANHAO,SAO BENTO,"RUA FELIPE CANDURU, 1173 - SAO CRISTOVAO - 652...",,,1610203,Madeira
2,63257273000136,161,1610203,BAHIA,CATURAMA,"RUA DA CLINICA, 02 - CENTRO - 46575000",,,1610203,Madeira
3,33131711000154,161,1610203,PARANA,RIO BRANCO DO IVAI,RUA RIO SAO FRANCISCO - PARQUE INDUSTRIAL - 86...,,,1610203,Madeira
4,48721732000105,161,1610203,SAO PAULO,ITATIBA,BA TAPERA GRANDE - TAPERA GRANDE - 13257721,,,1610203,Madeira


In [8]:
df_empresas[~df_empresas['historico_funcionarios'].isna()]

Unnamed: 0,cnpj,cnae_principal_grupo,cnae_principal_subclasse,uf,municipio,endereco,qtde_funcionarios,historico_funcionarios,CNAE 5º Nível,Categoria
8,33133406000100,161,1610203,MATO GROSSO DO SUL,CAARAPO,RUA DR COUTINHO - CENTRO - 79940000,4.0,"[{'ano': 2015, 'qtde_funcionarios': 2}, {'ano'...",1610203,Madeira
14,78609930000800,161,1610203,SANTA CATARINA,VARGEM BONITA,PINHAL GRANDE - INTERIOR - 89675000,20.0,"[{'ano': 2016, 'qtde_funcionarios': 14}, {'ano...",1610203,Madeira
20,78606563000115,161,1610203,SANTA CATARINA,GUARAMIRIM,"RUA PAULO BENTO DE AZEVEDO, 247 - ZONA RURAL -...",11.0,"[{'ano': 2016, 'qtde_funcionarios': 8}, {'ano'...",1610203,Madeira
21,78609930000134,161,1610203,SANTA CATARINA,JOACABA,"RUA FRANCISCO LINDNER, 290 - CENTRO - 89600000",19.0,"[{'ano': 2016, 'qtde_funcionarios': 12}, {'ano...",1610203,Madeira
32,78578812000378,161,1610203,MATO GROSSO,COLNIZA,ESTRADA DO OLEO KM2 - PROJETO DE ASSENTAMENTO ...,9.0,"[{'ano': 2017, 'qtde_funcionarios': 8}, {'ano'...",1610203,Madeira
...,...,...,...,...,...,...,...,...,...,...
801633,83754986000201,209,2092403,SANTA CATARINA,SAO CRISTOVAO DO SUL,"RUA LOURENCO FRANCA PEREIRA, 500 - CENTRO - 89...",80.0,"[{'ano': 2015, 'qtde_funcionarios': 51}, {'ano...",2092403,Material inflamável
801635,83754986000112,209,2092403,SANTA CATARINA,SAO CRISTOVAO DO SUL,RODOVIA BR 116 - MEU POSTINHO - KM 179 - 89533000,559.0,"[{'ano': 2015, 'qtde_funcionarios': 281}, {'an...",2092403,Material inflamável
801636,83754986000546,209,2092403,PARANA,GUARAPUAVA,"RODOVIA BR 277 KM 342,5 - CDI - 85100970",152.0,"[{'ano': 2015, 'qtde_funcionarios': 53}, {'ano...",2092403,Material inflamável
801637,83757054000123,209,2092403,SANTA CATARINA,CURITIBANOS,"RUA CEL VIDAL RAMOS, 1876 - CENTRO - 89520000",116.0,"[{'ano': 2015, 'qtde_funcionarios': 72}, {'ano...",2092403,Material inflamável


In [9]:
def padronizar_historico_funcionarios(linha):
    if isinstance(linha['historico_funcionarios'], list):
        if isinstance(linha['qtde_funcionarios'], float) and not np.isnan(linha['qtde_funcionarios']):
            hist = linha['historico_funcionarios'].copy()
            hist.append({
                'ano': 2023,
                'qtde_funcionarios': linha['qtde_funcionarios']
            })
            return hist
        
        return linha['historico_funcionarios']

    else:
        if isinstance(linha['qtde_funcionarios'], float):
            return [{
                'ano': 2023,
                'qtde_funcionarios': linha['qtde_funcionarios']
            }]

        return None

In [10]:
df_empresas['historico_funcionarios_padronizado'] = df_empresas.apply(padronizar_historico_funcionarios, axis=1)

In [11]:
df_empresas[~df_empresas['historico_funcionarios'].isna()][['historico_funcionarios', 'historico_funcionarios_padronizado']].head()

Unnamed: 0,historico_funcionarios,historico_funcionarios_padronizado
8,"[{'ano': 2015, 'qtde_funcionarios': 2}, {'ano'...","[{'ano': 2015, 'qtde_funcionarios': 2}, {'ano'..."
14,"[{'ano': 2016, 'qtde_funcionarios': 14}, {'ano...","[{'ano': 2016, 'qtde_funcionarios': 14}, {'ano..."
20,"[{'ano': 2016, 'qtde_funcionarios': 8}, {'ano'...","[{'ano': 2016, 'qtde_funcionarios': 8}, {'ano'..."
21,"[{'ano': 2016, 'qtde_funcionarios': 12}, {'ano...","[{'ano': 2016, 'qtde_funcionarios': 12}, {'ano..."
32,"[{'ano': 2017, 'qtde_funcionarios': 8}, {'ano'...","[{'ano': 2017, 'qtde_funcionarios': 8}, {'ano'..."


In [12]:
df_empresas_explode = df_empresas.explode('historico_funcionarios_padronizado')
df_empresas_explode[['historico_funcionarios', 'historico_funcionarios_padronizado']]

Unnamed: 0,historico_funcionarios,historico_funcionarios_padronizado
0,,"{'ano': 2023, 'qtde_funcionarios': nan}"
1,,"{'ano': 2023, 'qtde_funcionarios': nan}"
2,,"{'ano': 2023, 'qtde_funcionarios': nan}"
3,,"{'ano': 2023, 'qtde_funcionarios': nan}"
4,,"{'ano': 2023, 'qtde_funcionarios': nan}"
...,...,...
801638,"[{'ano': 2015, 'qtde_funcionarios': 95}, {'ano...","{'ano': 2018, 'qtde_funcionarios': 109}"
801638,"[{'ano': 2015, 'qtde_funcionarios': 95}, {'ano...","{'ano': 2019, 'qtde_funcionarios': 97}"
801638,"[{'ano': 2015, 'qtde_funcionarios': 95}, {'ano...","{'ano': 2020, 'qtde_funcionarios': 134}"
801638,"[{'ano': 2015, 'qtde_funcionarios': 95}, {'ano...","{'ano': 2023, 'qtde_funcionarios': 134.0}"


In [13]:
df_empresas_explode[~df_empresas_explode['historico_funcionarios'].isna()][['historico_funcionarios', 'historico_funcionarios_padronizado']]

Unnamed: 0,historico_funcionarios,historico_funcionarios_padronizado
8,"[{'ano': 2015, 'qtde_funcionarios': 2}, {'ano'...","{'ano': 2015, 'qtde_funcionarios': 2}"
8,"[{'ano': 2015, 'qtde_funcionarios': 2}, {'ano'...","{'ano': 2016, 'qtde_funcionarios': 2}"
8,"[{'ano': 2015, 'qtde_funcionarios': 2}, {'ano'...","{'ano': 2017, 'qtde_funcionarios': 2}"
8,"[{'ano': 2015, 'qtde_funcionarios': 2}, {'ano'...","{'ano': 2018, 'qtde_funcionarios': 2}"
8,"[{'ano': 2015, 'qtde_funcionarios': 2}, {'ano'...","{'ano': 2019, 'qtde_funcionarios': 2}"
...,...,...
801638,"[{'ano': 2015, 'qtde_funcionarios': 95}, {'ano...","{'ano': 2017, 'qtde_funcionarios': 88}"
801638,"[{'ano': 2015, 'qtde_funcionarios': 95}, {'ano...","{'ano': 2018, 'qtde_funcionarios': 109}"
801638,"[{'ano': 2015, 'qtde_funcionarios': 95}, {'ano...","{'ano': 2019, 'qtde_funcionarios': 97}"
801638,"[{'ano': 2015, 'qtde_funcionarios': 95}, {'ano...","{'ano': 2020, 'qtde_funcionarios': 134}"


In [14]:
df_empresas_explode['historico_funcionarios_ano'] = df_empresas_explode['historico_funcionarios_padronizado'].apply(
    lambda h: h['ano'] if h is not None and h['ano'] else None
)

df_empresas_explode['historico_funcionarios_qtde'] = df_empresas_explode['historico_funcionarios_padronizado'].apply(
    lambda h: h['qtde_funcionarios'] if h is not None and h['qtde_funcionarios'] else None
)

In [15]:
df_empresas_explode[['cnpj', 'historico_funcionarios_padronizado', 'historico_funcionarios_ano', 'historico_funcionarios_qtde']].head()

Unnamed: 0,cnpj,historico_funcionarios_padronizado,historico_funcionarios_ano,historico_funcionarios_qtde
0,63254718000124,"{'ano': 2023, 'qtde_funcionarios': nan}",2023,
1,35100882000141,"{'ano': 2023, 'qtde_funcionarios': nan}",2023,
2,63257273000136,"{'ano': 2023, 'qtde_funcionarios': nan}",2023,
3,33131711000154,"{'ano': 2023, 'qtde_funcionarios': nan}",2023,
4,48721732000105,"{'ano': 2023, 'qtde_funcionarios': nan}",2023,


In [16]:
cols = [
    'cnpj',
    'cnae_principal_grupo',
    'cnae_principal_subclasse',
    'uf',
    'municipio',
    'endereco',
    'historico_funcionarios_ano',
    'historico_funcionarios_qtde'
]

df_empresas_explode[cols].head()

Unnamed: 0,cnpj,cnae_principal_grupo,cnae_principal_subclasse,uf,municipio,endereco,historico_funcionarios_ano,historico_funcionarios_qtde
0,63254718000124,161,1610203,BAHIA,TEOLANDIA,"RODOVIA BR 101 SITIO MANGUEIRA, 14 - ZONA BURI...",2023,
1,35100882000141,161,1610203,MARANHAO,SAO BENTO,"RUA FELIPE CANDURU, 1173 - SAO CRISTOVAO - 652...",2023,
2,63257273000136,161,1610203,BAHIA,CATURAMA,"RUA DA CLINICA, 02 - CENTRO - 46575000",2023,
3,33131711000154,161,1610203,PARANA,RIO BRANCO DO IVAI,RUA RIO SAO FRANCISCO - PARQUE INDUSTRIAL - 86...,2023,
4,48721732000105,161,1610203,SAO PAULO,ITATIBA,BA TAPERA GRANDE - TAPERA GRANDE - 13257721,2023,


In [17]:
df_empresas_explode.to_csv('../../data/final_empresas.csv', index=False)