In [1]:
import requests
from bs4 import BeautifulSoup
import os
import concurrent.futures  # Biblioteca para gerenciar os downloads simult√¢neos

# --- CONFIGURA√á√ïES ---
BASE_URL = "https://arquivos.receitafederal.gov.br/dados/cnpj/dados_abertos_cnpj/2026-01/"
OUTPUT_DIR = "Tabelas 2026_01"
MAX_SIMULTANEOS = 3  # Limite de downloads ao mesmo tempo

# Headers para simular navegador real
HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
}

def baixar_arquivo_unico(nome_arquivo):
    """
    Fun√ß√£o que ser√° executada por cada 'worker' (thread) individualmente.
    """
    url_completa = BASE_URL + nome_arquivo
    caminho_local = os.path.join(OUTPUT_DIR, nome_arquivo)

    # Verifica se j√° existe
    if os.path.exists(caminho_local):
        return f"‚è≠Ô∏è [Pular] {nome_arquivo} j√° existe."

    print(f"‚¨áÔ∏è Iniciando: {nome_arquivo}...")

    try:
        # Timeout de 60s para conex√£o, mas sem timeout para o download em si
        with requests.get(url_completa, headers=HEADERS, stream=True, timeout=60) as r:
            r.raise_for_status()
            with open(caminho_local, 'wb') as f:
                for chunk in r.iter_content(chunk_size=8192):
                    if chunk:
                        f.write(chunk)
        return f"‚úÖ Conclu√≠do: {nome_arquivo}"
    
    except Exception as e:
        return f"‚ùå Erro em {nome_arquivo}: {e}"

def main():
    # 1. Cria a pasta
    if not os.path.exists(OUTPUT_DIR):
        os.makedirs(OUTPUT_DIR)

    # 2. Obt√©m a lista de arquivos
    print("üîé Mapeando arquivos no servidor...")
    try:
        resp = requests.get(BASE_URL, headers=HEADERS)
        resp.raise_for_status()
    except Exception as e:
        print(f"Erro fatal ao acessar URL: {e}")
        return

    soup = BeautifulSoup(resp.text, 'html.parser')
    links = soup.find_all('a')

    # Filtra apenas os ZIPS
    arquivos_para_baixar = [
        link.get('href') for link in links 
        if link.get('href') and link.get('href').lower().endswith('.zip')
    ]

    print(f"üìã Total de arquivos encontrados: {len(arquivos_para_baixar)}")
    print(f"üöÄ Iniciando downloads (M√°ximo de {MAX_SIMULTANEOS} simult√¢neos)...")
    print("-" * 50)

    # 3. Gerenciador de Contexto para Threads
    # O ThreadPoolExecutor gerencia a fila e garante que n√£o passe de 5
    with concurrent.futures.ThreadPoolExecutor(max_workers=MAX_SIMULTANEOS) as executor:
        
        # Envia todas as tarefas para o pool
        # O dicion√°rio 'future_to_file' mapeia a tarefa ao nome do arquivo (para controle)
        future_to_file = {
            executor.submit(baixar_arquivo_unico, arquivo): arquivo 
            for arquivo in arquivos_para_baixar
        }

        # Conforme as tarefas completam, mostramos o resultado
        for future in concurrent.futures.as_completed(future_to_file):
            nome = future_to_file[future]
            try:
                resultado = future.result()
                print(resultado)
            except Exception as exc:
                print(f"‚ùå Exce√ß√£o n√£o tratada em {nome}: {exc}")

    print("-" * 50)
    print("üèÅ Todo o processo foi finalizado.")

if __name__ == "__main__":
    main()

üîé Mapeando arquivos no servidor...
üìã Total de arquivos encontrados: 37
üöÄ Iniciando downloads (M√°ximo de 3 simult√¢neos)...
--------------------------------------------------
‚¨áÔ∏è Iniciando: Socios9.zip...
‚¨áÔ∏è Iniciando: Socios8.zip...
‚¨áÔ∏è Iniciando: Socios7.zip...
‚úÖ Conclu√≠do: Socios7.zip‚¨áÔ∏è Iniciando: Socios6.zip...

‚úÖ Conclu√≠do: Socios8.zip‚¨áÔ∏è Iniciando: Socios5.zip...

‚úÖ Conclu√≠do: Socios9.zip
‚¨áÔ∏è Iniciando: Socios4.zip...
‚¨áÔ∏è Iniciando: Socios3.zip...
‚úÖ Conclu√≠do: Socios6.zip
‚¨áÔ∏è Iniciando: Socios2.zip...
‚úÖ Conclu√≠do: Socios5.zip
‚úÖ Conclu√≠do: Socios4.zip‚¨áÔ∏è Iniciando: Socios1.zip...

‚úÖ Conclu√≠do: Socios2.zip
‚¨áÔ∏è Iniciando: Socios0.zip...
‚úÖ Conclu√≠do: Socios3.zip‚¨áÔ∏è Iniciando: Simples.zip...

‚úÖ Conclu√≠do: Socios1.zip
‚¨áÔ∏è Iniciando: Qualificacoes.zip...
‚úÖ Conclu√≠do: Qualificacoes.zip
‚¨áÔ∏è Iniciando: Paises.zip...
‚úÖ Conclu√≠do: Paises.zip‚¨áÔ∏è Iniciando: Naturezas.zip...

‚úÖ Conclu√≠do: Naturezas.zip
‚¨áÔ

In [10]:
PASTA_ORIGEM = "Tabelas 2026_01"
os.listdir(PASTA_ORIGEM)

['Cnaes.zip',
 'Empresas0.zip',
 'Empresas1.zip',
 'Empresas2.zip',
 'Empresas3.zip',
 'Empresas4.zip',
 'Empresas5.zip',
 'Empresas6.zip',
 'Empresas7.zip',
 'Empresas8.zip',
 'Empresas9.zip',
 'Estabelecimentos0.zip',
 'Estabelecimentos1.zip',
 'Estabelecimentos2.zip',
 'Estabelecimentos3.zip',
 'Estabelecimentos4.zip',
 'Estabelecimentos5.zip',
 'Estabelecimentos6.zip',
 'Estabelecimentos7.zip',
 'Estabelecimentos8.zip',
 'Estabelecimentos9.zip',
 'Motivos.zip',
 'Municipios.zip',
 'Naturezas.zip',
 'Paises.zip',
 'Qualificacoes.zip',
 'Simples.zip',
 'Socios0.zip',
 'Socios1.zip',
 'Socios2.zip',
 'Socios3.zip',
 'Socios4.zip',
 'Socios5.zip',
 'Socios6.zip',
 'Socios7.zip',
 'Socios8.zip',
 'Socios9.zip']

In [3]:
import os
import zipfile
import re

# --- CONFIGURA√á√ïES ---
# Pasta onde est√£o os arquivos .zip baixados (do passo anterior)
PASTA_ORIGEM = "Tabelas 2026_01"

# Pasta onde os arquivos descompactados ser√£o salvos
PASTA_DESTINO_BASE = "Tabelas extraidas"

def extrair_dados():
    # Verifica se a pasta de origem existe
    if not os.path.exists(PASTA_ORIGEM):
        print(f"‚ùå Erro: A pasta de origem '{PASTA_ORIGEM}' n√£o foi encontrada.")
        return

    # Lista todos os arquivos .zip
    arquivos_zip = [f for f in os.listdir(PASTA_ORIGEM) if f.lower().endswith('.zip')]
    
    if not arquivos_zip:
        print("Nenhum arquivo .zip encontrado para extrair.")
        return

    total = len(arquivos_zip)
    print(f"üìÇ Encontrados {total} arquivos para extrair. Iniciando...\n")

    for i, nome_arquivo in enumerate(arquivos_zip, 1):
        caminho_completo_zip = os.path.join(PASTA_ORIGEM, nome_arquivo)
        
        # --- L√≥gica de Cria√ß√£o da Pasta ---
        # 1. Remove a extens√£o .zip
        nome_sem_extensao = os.path.splitext(nome_arquivo)[0]
        
        # 2. Remove n√∫meros do final (Ex: "Empresas0" vira "Empresas", "Simples" continua "Simples")
        # A regex '\d+$' busca d√≠gitos apenas no final da string
        nome_categoria = re.sub(r'\d+$', '', nome_sem_extensao)
        
        # 3. Define o caminho da subpasta (ex: dados_extraidos/Empresas)
        caminho_destino_final = os.path.join(PASTA_DESTINO_BASE, nome_categoria)
        
        # Cria a pasta se n√£o existir
        if not os.path.exists(caminho_destino_final):
            os.makedirs(caminho_destino_final)

        print(f"[{i}/{total}] Extraindo '{nome_arquivo}' para a pasta '{nome_categoria}'...")

        try:
            with zipfile.ZipFile(caminho_completo_zip, 'r') as zip_ref:
                # Extrai tudo para a pasta da categoria
                zip_ref.extractall(caminho_destino_final)
                
            print(f"   ‚úÖ Sucesso.")
            
        except zipfile.BadZipFile:
            print(f"   ‚ùå Erro: O arquivo '{nome_arquivo}' parece estar corrompido.")
        except Exception as e:
            print(f"   ‚ùå Erro desconhecido em '{nome_arquivo}': {e}")

    print("\nüèÅ Processo de extra√ß√£o finalizado!")
    print(f"Os arquivos est√£o em: {os.path.abspath(PASTA_DESTINO_BASE)}")

if __name__ == "__main__":
    extrair_dados()

üìÇ Encontrados 37 arquivos para extrair. Iniciando...

[1/37] Extraindo 'Cnaes.zip' para a pasta 'Cnaes'...
   ‚úÖ Sucesso.
[2/37] Extraindo 'Empresas0.zip' para a pasta 'Empresas'...
   ‚úÖ Sucesso.
[3/37] Extraindo 'Empresas1.zip' para a pasta 'Empresas'...
   ‚úÖ Sucesso.
[4/37] Extraindo 'Empresas2.zip' para a pasta 'Empresas'...
   ‚úÖ Sucesso.
[5/37] Extraindo 'Empresas3.zip' para a pasta 'Empresas'...
   ‚úÖ Sucesso.
[6/37] Extraindo 'Empresas4.zip' para a pasta 'Empresas'...
   ‚úÖ Sucesso.
[7/37] Extraindo 'Empresas5.zip' para a pasta 'Empresas'...
   ‚úÖ Sucesso.
[8/37] Extraindo 'Empresas6.zip' para a pasta 'Empresas'...
   ‚úÖ Sucesso.
[9/37] Extraindo 'Empresas7.zip' para a pasta 'Empresas'...
   ‚úÖ Sucesso.
[10/37] Extraindo 'Empresas8.zip' para a pasta 'Empresas'...
   ‚úÖ Sucesso.
[11/37] Extraindo 'Empresas9.zip' para a pasta 'Empresas'...
   ‚úÖ Sucesso.
[12/37] Extraindo 'Estabelecimentos0.zip' para a pasta 'Estabelecimentos'...
   ‚úÖ Sucesso.
[13/37] Extraindo '

## Teste de conex√£o Banco de Dados

In [6]:
import pandas as pd
from sqlalchemy import create_engine

ARQUIVO_TESTE = './Tabelas extraidas/Empresas/K3241.K03200Y1.D60110.EMPRECSV'

COLUNAS_EMPRESAS = [
    'cnpj_basico', 'razao_social', 'natureza_juridica', 'qualificacao_responsavel',
    'capital_social', 'porte_empresa', 'ente_federativo_responsavel'
]

print('Lendo amostra dos dados..')

df_teste = pd.read_csv(
    ARQUIVO_TESTE,
    sep=';',
    encoding='latin1',
    header=None,
    names=COLUNAS_EMPRESAS,
    dtype=str,
    nrows=100
)

df_teste.head(5)

Lendo amostra dos dados..


Unnamed: 0,cnpj_basico,razao_social,natureza_juridica,qualificacao_responsavel,capital_social,porte_empresa,ente_federativo_responsavel
0,0,BANCO DO BRASIL SA,2038,10,12000000000000,5,
1,1,ASSOCIACAO DE AMIGOS DE BAIRRO DO CONJ PAULISTANO,3999,16,0,5,
2,2,WM&R EMPREITEIRA DE CONSTRUCAO CIVIL LIMITADA,2240,49,0,5,
3,3,CASA CARIDADE LUZETE ROBERTA DE MORAIS CONJ PA...,3999,16,0,5,
4,4,ASSOCIACAO DO PEQUENO ADOLECENTE DO CONJ PAULI...,3999,16,0,5,


In [9]:
CONEXAO_DB = 'postgresql://postgres:2560@localhost:5432/cnpj_receita'

engine = create_engine(CONEXAO_DB)

print('Criando tabela e inserir dados')

try:
    df_teste.to_sql(
        'empresas_teste',
        engine,
        if_exists='replace',
        index=False
    )
    
    print('Sucesso! Dados inseridos na tabela "empresa_teste".')
except Exception as e:
    print(f'Erro ao conectar ou inserir {e}')

Criando tabela e inserir dados
Sucesso! Dados inseridos na tabela "empresa_teste".
