In [None]:
from pathlib import Path
import pandas as pd

def criar_df_estabelecimento(caminho_arquivo: Path):
    # carregando o dataframe estabelecimento
    # definindo as colunas que serão carregadas
    colunas_selecionadas = [0, 1, 2, 3, 4, 5, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 27]
    # definindo o nome das colunas
    colunas_estabelecimentos = ['CNPJ BÁSICO',
                                'CNPJ ORDEM',
                                'CNPJ DV',
                                'ID MATRIZ/FILIAL',
                                'NOME FANTASIA',
                                'SITUAÇÃO CADASTRAL',
                                'DATA INÍCIO ATIVIDADE',
                                'CNAE PRINCIPAL',
                                'CNAE SECUNDÁRIA',
                                'TIPO DE LOGRADOURO',
                                'LOGRADOURO',
                                'NÚMERO',
                                'COMPLEMENTO',
                                'BAIRRO',
                                'CEP',
                                'UF',
                                'COD_MUNICÍPIO',
                                'DDD 1',
                                'TELEFONE 1',
                                'CORREIO ELETRÔNICO']
    df_estabelecimento = pd.read_csv(
        caminho_arquivo,
        sep=';',
        encoding='latin-1',
        usecols=colunas_selecionadas,
        names=colunas_estabelecimentos,
        parse_dates=['DATA INÍCIO ATIVIDADE'],
        dtype={'CEP': 'string', 'DDD 1': 'string', 'TELEFONE 1': 'string', 'CNPJ ORDEM': 'string', 'CNPJ DV': 'string', 'CNPJ BÁSICO': 'string'},
        nrows=10000
        )
    # selecionando as empresas ativas
    df_empresas_ativos = df_estabelecimento[df_estabelecimento['SITUAÇÃO CADASTRAL'] == 2]

    # selecionando apenas as empresas do RJ
    df_empresas_ativos_rj = df_empresas_ativos[df_empresas_ativos['UF'] == 'RJ'].copy()

    # excluindo as colunas UF e SITUAÇÃO CADASTRAL
    df_empresas_ativos_rj.drop(columns=['SITUAÇÃO CADASTRAL', 'UF'], inplace=True)
    
    return df_empresas_ativos_rj
    

In [None]:
def criar_df_municipio(caminho_arquivo: Path):
    # criando um dataframe contendo os códigos e seus respectivos nomes
    dataframe_municipios = pd.read_csv(caminho_arquivo, sep=';', encoding='latin-1', names=['COD_MUNICÍPIO', 'MUNICÍPIO'])
    return dataframe_municipios

In [None]:
def criar_df_empresa(caminho_arquivo: Path):
    # carregando o dataframe empresas0
    # definindo o nome das colunas
    colunas_empresas =  ['CNPJ BÁSICO', 'RAZÃO SOCIAL','CAPITAL SOCIAL', 'PORTE']
    df_empresas = pd.read_csv(
        caminho_arquivo, sep=';', encoding='latin-1', usecols=[0, 1, 4, 5], names=colunas_empresas, dtype={'CNPJ BÁSICO': 'string', 'PORTE': 'Int64'}
        )
    return df_empresas

In [None]:
from pathlib import Path

caminho = Path(r'Baixados\Selecionados')

# percorrendo pela pasta e salvando todos os dataframes em uma lista
lista_dataframe_estabelecimento = []
for pasta in caminho.iterdir():
    if 'Estabelecimentos' in pasta.name:
        # obter o nome do arquivo dentro da pasta
        for arquivo in pasta.iterdir():
            if arquivo:
                # aplicar a função
                dataframe = criar_df_estabelecimento(arquivo)
                lista_dataframe_estabelecimento.append(dataframe)

# Concatendo todos os dataframes encontrados
dataframe_final = pd.concat(lista_dataframe_estabelecimento, ignore_index=True)

In [None]:
# dataframe_merge = pd.merge(dataframe_final, dataframe_municipios, on='COD_MUNICÍPIO', how='left')
# dataframe_merge.drop(columns=['COD_MUNICÍPIO'], inplace=True)
# ordem_colunas = [               'CNPJ BÁSICO',
#                                 'CNPJ ORDEM',
#                                 'CNPJ DV',
#                                 'ID MATRIZ/FILIAL',
#                                 'NOME FANTASIA',
#                                 'DATA INÍCIO ATIVIDADE',
#                                 'CNAE PRINCIPAL',
#                                 'CNAE SECUNDÁRIA',
#                                 'TIPO DE LOGRADOURO',
#                                 'LOGRADOURO',
#                                 'NÚMERO',
#                                 'COMPLEMENTO',
#                                 'BAIRRO',
#                                 'CEP',
#                                 'MUNICÍPIO',
#                                 'DDD 1',
#                                 'TELEFONE 1',
#                                 'CORREIO ELETRÔNICO']
# dataframe_merge = dataframe_merge.reindex(ordem_colunas, axis=1)

In [None]:
import pandas as pd

# carregando o dataframe empresas0
# definindo o nome das colunas
colunas_empresas =  ['CNPJ BÁSICO', 'RAZÃO SOCIAL','CAPITAL SOCIAL', 'PORTE']
df_empresas0 = pd.read_csv(
    r'Baixados\Selecionados\Empresas0\K3241.K03200Y0.D50307.EMPRECSV', sep=';', encoding='latin-1', usecols=[0, 1, 4, 5], names=colunas_empresas, dtype={'CNPJ BÁSICO': 'string', 'PORTE': 'Int64'}
    )