## 1. Preparação

### 1.1 Bibliotecas

In [1]:
import dask.dataframe as dd
import pandas as pd

### 1.2 Funções Base

In [2]:
# Definir o número máximo de colunas a serem exibidas
pd.set_option('display.max_columns', None)

In [3]:
def gerar_estatisticas_basicas(df, nome_df):
    # Contagem total de registros
    qtd_registros = df.shape[0].compute()
    
    # Contagem de nulos por coluna
    nulos_por_coluna = df.isnull().sum().compute()
    
    # Contagem de registros duplicados com base em todas as colunas
    # Primeiro, remover duplicados e calcular a diferença
    # qtd_registros_unicos = df.drop_duplicates().shape[0].compute()
    # qtd_duplicados = qtd_registros - qtd_registros_unicos
    
    # Imprimir a contagem total de registros
    print(f"A quantidade de registros no dataframe {nome_df} é de {qtd_registros}")
    
    # Imprimir a quantidade de nulos por coluna
    print(f"A quantidade de nulos no dataframe {nome_df} por coluna:")
    print(nulos_por_coluna)
    print("\n")
    
    # Imprimir a quantidade de duplicados
    # print(f"A quantidade de registros duplicados no dataframe {nome_df} é de {qtd_duplicados}")
    # print("\n")


In [4]:
# Função auxiliar para concatenar os valores se todos forem não nulos
def concatenar_cnpj(row):
    if pd.notna(row['cnpj_basico']) and pd.notna(row['cnpj_ordem']) and pd.notna(row['cnpj_dv']):
        return str(row['cnpj_basico']) + str(row['cnpj_ordem']) + str(row['cnpj_dv'])
    return str(row['cnpj_basico'])

## 2. Diretórios dos Arquivos

In [5]:
# Caminho do diretório onde os arquivos Parquet estão armazenados
empresas_dir = './parquets/empresas.parquet/'
simples_dir = './parquets/simples.parquet/'
estabelecimentos_dir = './parquets/estabelecimentos.parquet/'
socios_dir = './parquets/socios.parquet/'
paises_dir = './parquets/paises.parquet/'
municipios_dir = './parquets/municipios.parquet/'
natjur_dir = './parquets/natjuridicas.parquet/'
motivos_dir = './parquets/motivos.parquet/'
cnae_dir = './parquets/cnae.parquet/'
qualificacoes_dir = './parquets/qualificacoes.parquet/'


## 3. Load Dataframes

In [6]:
# Carregar todos os arquivos Parquet no diretório em um DataFrame Dask
df_empresas = dd.read_parquet(empresas_dir)
df_simples = dd.read_parquet(simples_dir)
df_estabelecimentos = dd.read_parquet(estabelecimentos_dir)
df_socios = dd.read_parquet(socios_dir)
df_paises = dd.read_parquet(paises_dir)
df_municipios = dd.read_parquet(municipios_dir)
df_natjur = dd.read_parquet(natjur_dir)
df_motivos = dd.read_parquet(motivos_dir)
df_cnae = dd.read_parquet(cnae_dir)
df_qualificacoes = dd.read_parquet(qualificacoes_dir)

### 3.1 Explorando e Tratando os Dados

#### 3.1.1 Explorando os dados

In [7]:
# Para visualizar o cabeçalho do dataframe Empresas
df_empresas.head(5)

Unnamed: 0,cnpj_basico,razao_social,natureza_juridica,qualificacao_responsavel,capital_social,porte,ente_federativo_responsavel
0,36627972,ANGELINA ANTUNES DA LUZ BORGES 87429187900,2135,50,100000,1,
1,36627973,ANTONIO PEREIRA ARANTES NETO 01699985170,2135,50,100000,1,
2,36627975,MICHELI PINHEIRO FLOR 06035748902,2135,50,100000,1,
3,36627976,RAFAELA DA SILVA INACIO 13417608716,2135,50,120000,1,
4,36627977,CAMILA SARAIVA MANGUEIRA 15168807739,2135,50,100000,1,


In [8]:
# Gerar a estatística de cada dataframe
gerar_estatisticas_basicas(df_empresas, "empresas")
gerar_estatisticas_basicas(df_simples, "simples")
gerar_estatisticas_basicas(df_estabelecimentos, "estabelecimentos")
gerar_estatisticas_basicas(df_socios, "socios")
gerar_estatisticas_basicas(df_paises, "paises")
gerar_estatisticas_basicas(df_municipios, "municipios")
gerar_estatisticas_basicas(df_natjur, "natureza juridica")
gerar_estatisticas_basicas(df_motivos, "motivos")
gerar_estatisticas_basicas(df_cnae, "cnae")
gerar_estatisticas_basicas(df_qualificacoes, "qualificacoes")


A quantidade de registros no dataframe empresas é de 19591235
A quantidade de nulos no dataframe empresas por coluna:
cnpj_basico                           0
razao_social                          0
natureza_juridica                     0
qualificacao_responsavel              0
capital_social                        0
porte                             13318
ente_federativo_responsavel    19579848
dtype: int64


A quantidade de registros no dataframe simples é de 40459179
A quantidade de nulos no dataframe simples por coluna:
cnpj_basico              0
opcao_simples            0
data_opcao_simples       0
data_exclusao_simples    0
opcao_mei                0
data_opcao_mei           0
data_exclusao_mei        0
dtype: int64


A quantidade de registros no dataframe estabelecimentos é de 19761160
A quantidade de nulos no dataframe estabelecimentos por coluna:
cnpj_basico                           0
cnpj_ordem                            0
cnpj_dv                               0
identificador

In [9]:
df_empresas['capital_social'] = df_empresas['capital_social'].str.replace(',', '.').astype(float)

In [10]:
# Para visualizar os dados
df_empresas.head(5)

Unnamed: 0,cnpj_basico,razao_social,natureza_juridica,qualificacao_responsavel,capital_social,porte,ente_federativo_responsavel
0,36627972,ANGELINA ANTUNES DA LUZ BORGES 87429187900,2135,50,1000.0,1,
1,36627973,ANTONIO PEREIRA ARANTES NETO 01699985170,2135,50,1000.0,1,
2,36627975,MICHELI PINHEIRO FLOR 06035748902,2135,50,1000.0,1,
3,36627976,RAFAELA DA SILVA INACIO 13417608716,2135,50,1200.0,1,
4,36627977,CAMILA SARAIVA MANGUEIRA 15168807739,2135,50,1000.0,1,


In [11]:
# Tratamento de possíveis inconsistências

df_empresas = df_empresas.fillna('')
df_simples = df_simples.fillna('')
# df_estabelecimentos = dd.fillna('')
# df_socios = dd.fillna('')
df_paises = df_paises.fillna('')
df_municipios = df_municipios.fillna('')
df_natjur = df_natjur.fillna('')
df_motivos = df_motivos.fillna('')
df_cnae = df_cnae.fillna('')
df_qualificacoes = df_qualificacoes.fillna('')

df_simples['data_opcao_simples'] = df_simples['data_opcao_simples'].replace('00000000', None) 
df_simples['data_exclusao_simples'] = df_simples['data_exclusao_simples'].replace('00000000', None) 
df_simples['data_opcao_mei'] = df_simples['data_opcao_mei'].replace('00000000', None) 
df_simples['data_exclusao_mei'] = df_simples['data_exclusao_mei'].replace('00000000', None) 

df_estabelecimentos['data_situacao_cadastral'] = df_estabelecimentos['data_situacao_cadastral'].replace('00000000', None) 
df_estabelecimentos['data_inicio_atividade'] = df_estabelecimentos['data_inicio_atividade'].replace('00000000', None) 
df_estabelecimentos['data_situacao_especial'] = df_estabelecimentos['data_situacao_especial'].replace('00000000', None) 

df_simples['data_opcao_simples'] = dd.to_datetime(df_simples['data_opcao_simples'], format='%Y%m%d', errors='coerce')
df_simples['data_exclusao_simples'] = dd.to_datetime(df_simples['data_exclusao_simples'], format='%Y%m%d', errors='coerce')
df_simples['data_opcao_mei'] = dd.to_datetime(df_simples['data_opcao_mei'], format='%Y%m%d', errors='coerce')
df_simples['data_exclusao_mei'] = dd.to_datetime(df_simples['data_exclusao_mei'], format='%Y%m%d', errors='coerce')

df_estabelecimentos['data_situacao_cadastral'] = dd.to_datetime(df_estabelecimentos['data_situacao_cadastral'], format='%Y%m%d', errors='coerce')
df_estabelecimentos['data_inicio_atividade'] = dd.to_datetime(df_estabelecimentos['data_inicio_atividade'], format='%Y%m%d', errors='coerce')
df_estabelecimentos['data_situacao_especial'] = dd.to_datetime(df_estabelecimentos['data_situacao_especial'], format='%Y%m%d', errors='coerce')

df_estabelecimentos['pais'] = df_estabelecimentos['pais'].fillna('999')
df_socios['pais'] = df_socios['pais'].fillna('999')

In [12]:
df_simples.head()

Unnamed: 0,cnpj_basico,opcao_simples,data_opcao_simples,data_exclusao_simples,opcao_mei,data_opcao_mei,data_exclusao_mei
0,0,N,2007-07-01,2007-07-01,N,2009-07-01,2009-07-01
1,6,N,2018-01-01,2019-12-31,N,NaT,NaT
2,8,N,2014-01-01,2021-12-31,N,NaT,NaT
3,11,S,2007-07-01,NaT,N,NaT,NaT
4,13,N,2009-01-01,2023-12-31,N,NaT,NaT


In [13]:
df_estabelecimentos.head()

Unnamed: 0,cnpj_basico,cnpj_ordem,cnpj_dv,identificador_matriz_filial,nome_fantasia,situacao_cadastral,data_situacao_cadastral,motivo_situacao_cadastral,nome_cidade_exterior,pais,data_inicio_atividade,cnae_fiscal_principal,cnae_fiscal_secundaria,tipo_logradouro,logradouro,numero,complemento,bairro,cep,uf,municipio,ddd1,telefone1,ddd2,telefone2,ddd_fax,fax,email,situacao_especial,data_situacao_especial
0,55854483,1,83,1,CAMBALACHOS BAR LANCHONETE,8,2015-02-09,73,,999,1986-06-19,5611203,,RUA,RANGEL PESTANA,546,,CENTRO,13400380,SP,6875,,,,,,,,,NaT
1,42864280,2,7,2,,8,1994-03-17,1,,999,1993-07-22,4642701,,RUA,SAO SEBASTIA,516,LOJA 2003,CENTRO,36013260,MG,4733,,,,,,,,,NaT
2,6677763,1,58,1,,8,2004-12-31,1,,999,2004-07-20,9492800,,SITIO,SAMAMBAIA,0,CASA,ZONA RUARL,55765000,PE,2553,,,,,,,,,NaT
3,6201069,1,60,1,,4,2019-01-16,63,,999,2004-04-01,9430800,94936009499500.0,SITIO,TAPAGEM,SN,,ZONA RURAL,58500000,PB,2095,,,,,,,,,NaT
4,55854624,1,68,1,CASA MURATO AOKI,8,1978-02-16,1,,999,1967-03-17,8888888,,RUA,HORACIO FERREIRA,39,,CENTRO,11900000,SP,6953,,,,,,,,,NaT


In [14]:
# Join das tabelas
df_joined = df_empresas.merge(df_estabelecimentos, on='cnpj_basico', how='inner')
df_joined = df_joined.merge(df_socios, on='cnpj_basico', how='left')
df_joined = df_joined.merge(df_simples, on='cnpj_basico', how='left')

In [15]:
# Renomear as colunas pais_x e pais_y para identificar claramente a origem
df_joined = df_joined.rename(columns={'pais_x': 'pais_estabelecimento', 'pais_y': 'pais_socio'})


In [16]:
# Fazer joins com outras tabelas auxiliares usando as colunas de códigos
df_joined = df_joined.merge(df_cnae, left_on='cnae_fiscal_principal', right_on='codigo', how='left', suffixes=('', '_cnae'))
df_joined = df_joined.merge(df_municipios, left_on='municipio', right_on='codigo', how='left', suffixes=('', '_municipio'))
df_joined = df_joined.merge(df_paises, left_on='pais_estabelecimento', right_on='codigo', how='left', suffixes=('', '_pais_estabelecimento'))
df_joined = df_joined.merge(df_paises, left_on='pais_socio', right_on='codigo', how='left', suffixes=('', '_pais_socio'))
df_joined = df_joined.merge(df_natjur, left_on='natureza_juridica', right_on='codigo', how='left', suffixes=('', '_natureza_juridica'))
df_joined = df_joined.merge(df_motivos, left_on='motivo_situacao_cadastral', right_on='codigo', how='left', suffixes=('', '_motivo'))


In [17]:
# Renomear as colunas para refletir suas funções
df_joined = df_joined.rename(columns={
    'codigo': 'codigo_cnae',
    'descricao': 'descricao_cnae',
    'codigo_municipio': 'municipio_codigo',
    'descricao_municipio': 'municipio_descricao',
    'codigo_pais_estabelecimento': 'pais_estabelecimento_codigo',
    'descricao_pais_estabelecimento': 'pais_estabelecimento_descricao',
    'codigo_pais_socio': 'pais_socio_codigo',
    'descricao_pais_socio': 'pais_socio_descricao',
    'codigo_natureza_juridica': 'natureza_juridica_codigo',
    'descricao_natureza_juridica': 'natureza_juridica_descricao',
    'codigo_motivo': 'motivo_codigo',
    'descricao_motivo': 'motivo_descricao'
})

In [18]:
# Aplicar a função usando apply com meta para garantir a inferência do Dask
df_joined['cnpj_completo'] = df_joined.apply(concatenar_cnpj, axis=1, meta=('cnpj_completo', 'object'))

In [19]:
# Movendo a coluna 'cnpj_completo' para a primeira posição
colunas = ['cnpj_completo'] + [col for col in df_joined.columns if col != 'cnpj_completo']
df_joined = df_joined[colunas]

In [20]:
print(df_joined.columns) 

Index(['cnpj_completo', 'cnpj_basico', 'razao_social', 'natureza_juridica',
       'qualificacao_responsavel', 'capital_social', 'porte',
       'ente_federativo_responsavel', 'cnpj_ordem', 'cnpj_dv',
       'identificador_matriz_filial', 'nome_fantasia', 'situacao_cadastral',
       'data_situacao_cadastral', 'motivo_situacao_cadastral',
       'nome_cidade_exterior', 'pais_estabelecimento', 'data_inicio_atividade',
       'cnae_fiscal_principal', 'cnae_fiscal_secundaria', 'tipo_logradouro',
       'logradouro', 'numero', 'complemento', 'bairro', 'cep', 'uf',
       'municipio', 'ddd1', 'telefone1', 'ddd2', 'telefone2', 'ddd_fax', 'fax',
       'email', 'situacao_especial', 'data_situacao_especial',
       'identificador_socio', 'nome_socio', 'cnpj_cpf_socio',
       'qualificacao_socio', 'data_entrada_sociedade', 'pais_socio',
       'cpf_representante_legal', 'nome_representante',
       'qualificacao_representante', 'faixa_etaria', 'opcao_simples',
       'data_opcao_simples', 'dat

In [21]:
df_joined.head(6)

Unnamed: 0,cnpj_completo,cnpj_basico,razao_social,natureza_juridica,qualificacao_responsavel,capital_social,porte,ente_federativo_responsavel,cnpj_ordem,cnpj_dv,identificador_matriz_filial,nome_fantasia,situacao_cadastral,data_situacao_cadastral,motivo_situacao_cadastral,nome_cidade_exterior,pais_estabelecimento,data_inicio_atividade,cnae_fiscal_principal,cnae_fiscal_secundaria,tipo_logradouro,logradouro,numero,complemento,bairro,cep,uf,municipio,ddd1,telefone1,ddd2,telefone2,ddd_fax,fax,email,situacao_especial,data_situacao_especial,identificador_socio,nome_socio,cnpj_cpf_socio,qualificacao_socio,data_entrada_sociedade,pais_socio,cpf_representante_legal,nome_representante,qualificacao_representante,faixa_etaria,opcao_simples,data_opcao_simples,data_exclusao_simples,opcao_mei,data_opcao_mei,data_exclusao_mei,codigo_cnae,descricao_cnae,municipio_codigo,municipio_descricao,pais_estabelecimento_codigo,pais_estabelecimento_descricao,pais_socio_codigo,pais_socio_descricao,natureza_juridica_codigo,natureza_juridica_descricao,motivo_codigo,motivo_descricao
0,47169160000122,47169160,SIMARA BATISTA DE MORAIS 07081015425,2135,50,15000.0,1,,1,22,1,,4,2024-08-22,63,,999,2022-07-15,4781400,4772500,RUA,JANUARIO CICCO,2055,,NORDESTE,59042090,RN,1761,84.0,81615536.0,,,,,BATISTASIMARA87@GMAIL.COM,,NaT,,,,,,,,,,,S,2022-07-15,NaT,S,2022-07-15,NaT,4781400,Comércio varejista de artigos do vestuário e a...,1761,NATAL,999,NAO DECLARADOS,,,2135,Empresário (Individual),63,OMISSAO DE DECLARACOES
1,47169171000102,47169171,MICHELE SILVA GOMES 04963042320,2135,50,3500.0,1,,1,2,1,,4,2024-08-27,63,,999,2022-07-15,4755502,,RUA,JORGE ACURCIO,824,LOJA E,VILA UNIAO,60410802,CE,1389,85.0,86305775.0,,,,,MICHELLYGOMES5559@GMAIL.COM,,NaT,,,,,,,,,,,S,2022-07-15,NaT,S,2022-07-15,NaT,4755502,Comercio varejista de artigos de armarinho,1389,FORTALEZA,999,NAO DECLARADOS,,,2135,Empresário (Individual),63,OMISSAO DE DECLARACOES
2,47169615000100,47169615,FIBRA TELECOM LTDA,2062,49,50000.0,1,,1,0,1,FIBRA TELECOM,2,2022-07-15,0,,105,2022-07-15,7319003,7319002749010446192004618499,QUADRA,QS 1 RUA 212 LOTE 19-21,23,SALA 1905,AREAL (AGUAS CLARAS),71950550,DF,9701,61.0,33565744.0,0.0,0.0,,,SVANESSARAMOS@GMAIL.COM,,NaT,,,,,,,,,,,S,2022-07-15,NaT,N,NaT,NaT,7319003,Marketing direto,9701,BRASILIA,105,BRASIL,,,2062,Sociedade Empresária Limitada,0,SEM MOTIVO
3,47169974000167,47169974,INDUSTRIA DE MODELOS PARA FUNDICAO SMA LTDA,2062,49,0.0,5,,1,67,1,,8,1998-04-06,1,,999,1975-08-28,2399101,,RUA,RIO PRETO,902,A,B VALPARAISO,9060090,SP,7057,,,,,,,,,NaT,,,,,,,,,,,,NaT,NaT,,NaT,NaT,2399101,"Decoração, lapidação, gravação, vitrificação e...",7057,SANTO ANDRE,999,NAO DECLARADOS,,,2062,Sociedade Empresária Limitada,1,EXTINCAO POR ENCERRAMENTO LIQUIDACAO VOLUNTARIA
4,47170112000154,47170112,MARIANA RAMOS SILVA 06782923106,2135,50,10000.0,1,,1,54,1,TODA BONITA,8,2023-09-01,1,,999,2022-07-15,4781400,478909947725004783101,RUA,ANTONIO AMARO DA ROCHA,62,,SILVINO DE BARROS,79430000,MS,9029,67.0,98680923.0,,,,,MARIANARAMOS123M@GMAIL.COM,,NaT,,,,,,,,,,,N,2022-07-15,2023-09-01,N,2022-07-15,2023-09-01,4781400,Comércio varejista de artigos do vestuário e a...,9029,BANDEIRANTES,999,NAO DECLARADOS,,,2135,Empresário (Individual),1,EXTINCAO POR ENCERRAMENTO LIQUIDACAO VOLUNTARIA
5,47171574000196,47171574,MANOEL CLAUDIO DE OLIVEIRA,2135,50,0.0,5,,1,96,1,,8,2008-12-31,71,,999,1975-09-19,4785701,,AVENIDA,MARTIN FRANCISCO,1148,,VL LUCINDA,9230700,SP,7057,,,,,,,,,NaT,,,,,,,,,,,,NaT,NaT,,NaT,NaT,4785701,Comércio varejista de antigüidades,7057,SANTO ANDRE,999,NAO DECLARADOS,,,2135,Empresário (Individual),71,INAPTIDAO (LEI 11.941/2009 ART.54)


In [22]:
gerar_estatisticas_basicas(df_joined, "df_completo")

A quantidade de registros no dataframe df_completo é de 7346834
A quantidade de nulos no dataframe df_completo por coluna:
cnpj_completo                        0
cnpj_basico                          0
razao_social                         0
natureza_juridica                    0
qualificacao_responsavel             0
                                ...   
pais_socio_descricao           5674705
natureza_juridica_codigo             0
natureza_juridica_descricao          0
motivo_codigo                        0
motivo_descricao                     0
Length: 65, dtype: int64




In [23]:
print(df_joined[['cpf_representante_legal', 'nome_representante',
       'qualificacao_representante', 'faixa_etaria', 'opcao_simples',
       'data_opcao_simples', 'data_exclusao_simples', 'opcao_mei',
       'data_opcao_mei', 'data_exclusao_mei', 'codigo_cnae']].head())

  cpf_representante_legal nome_representante qualificacao_representante  \
0                    <NA>               <NA>                       <NA>   
1                    <NA>               <NA>                       <NA>   
2                    <NA>               <NA>                       <NA>   
3                    <NA>               <NA>                       <NA>   
4                    <NA>               <NA>                       <NA>   

  faixa_etaria opcao_simples data_opcao_simples data_exclusao_simples  \
0         <NA>             N         2022-02-28            2023-11-14   
1         <NA>             N         2022-02-28            2022-04-07   
2         <NA>             S         2022-02-28                   NaT   
3         <NA>             N         2022-02-28            2022-09-30   
4         <NA>             S         2022-02-28                   NaT   

  opcao_mei data_opcao_mei data_exclusao_mei codigo_cnae  
0         N     2022-02-28        2023-11-14     49

In [None]:
# Lista de colunas de data que você deseja tratar
# colunas_data = [
#     'data_opcao_simples', 
#     'data_exclusao_simples', 
#     'data_opcao_mei', 
#     'data_exclusao_mei'
# ]

# # Substituir NaT por pd.NA nas colunas de data
# df_joined[colunas_data] = df_joined[colunas_data].mask(df_joined[colunas_data].isnull(), pd.NA)

# # Verificar o resultado
# print(df_joined[colunas_data].head())


In [24]:
# Salvar em um novo Parquet (opcional)
df_joined.to_parquet('./parquets/dataset_final.parquet', engine='pyarrow')