In [100]:
import os
import requests
from bs4 import BeautifulSoup
import zipfile
import io

In [101]:
# ✅ Definir corretamente o diretório base dentro do seu workspace
PASTA_BASE = "/home/danielbarbosa/seget/notebooks/dados_abertos_cnpj/arquivos"

# Criar o diretório base se não existir
os.makedirs(PASTA_BASE, exist_ok=True)

# Definir permissões para garantir acesso
os.chmod(PASTA_BASE, 0o755)

# URL principal dos dados
BASE_URL = "https://arquivos.receitafederal.gov.br/dados/cnpj/dados_abertos_cnpj/"

In [102]:
# 1️⃣ BAIXAR A PÁGINA PRINCIPAL E EXTRAIR OS DIRETÓRIOS
print("🔄 Obtendo a lista de diretórios...")
response = requests.get(BASE_URL)
soup = BeautifulSoup(response.text, "html.parser")

# Encontrar todos os links que correspondem a diretórios (exemplo: "2025-02/")
pastas = [a['href'] for a in soup.find_all("a", href=True) if a['href'].endswith("/") and a['href'] != "../"]
print(f"📁 Diretórios encontrados: {pastas}")

🔄 Obtendo a lista de diretórios...
📁 Diretórios encontrados: ['/dados/cnpj/', '2023-05/', '2023-06/', '2023-07/', '2023-08/', '2023-09/', '2023-10/', '2023-11/', '2023-12/', '2024-01/', '2024-02/', '2024-03/', '2024-04/', '2024-05/', '2024-06/', '2024-07/', '2024-08/', '2024-09/', '2024-10/', '2024-11/', '2024-12/', '2025-01/', '2025-02/', 'temp/']


In [103]:
# 2️⃣ ITERAR SOBRE CADA DIRETÓRIO PARA BAIXAR OS ARQUIVOS ZIP
for pasta in pastas:
    url_pasta = BASE_URL + pasta
    response_pasta = requests.get(url_pasta)
    soup_pasta = BeautifulSoup(response_pasta.text, "html.parser")

    # ✅ Criar a estrutura correta dentro de `arquivos/dados/`
    caminho_pasta_local = os.path.join(PASTA_BASE, "dados", pasta.strip('/'))
    print(f'📂 Criando pasta: {caminho_pasta_local}')
    
    os.makedirs(caminho_pasta_local, exist_ok=True)

    # Definir permissões na pasta criada
    os.chmod(caminho_pasta_local, 0o755)

    # 3️⃣ LISTAR ARQUIVOS ZIP DENTRO DO DIRETÓRIO
    arquivos_zip = [a['href'] for a in soup_pasta.find_all("a", href=True) if a['href'].endswith(".zip")]
    print(f"📂 {pasta} - Arquivos ZIP encontrados: {arquivos_zip}")

    for arquivo_zip in arquivos_zip:
        url_arquivo = url_pasta + arquivo_zip
        caminho_arquivo_zip = os.path.join(caminho_pasta_local, arquivo_zip)

        # 4️⃣ FAZER DOWNLOAD DO ARQUIVO ZIP SE ELE NÃO EXISTIR
        if not os.path.exists(caminho_arquivo_zip):
            print(f"⬇️ Baixando {url_arquivo}...")
            response_zip = requests.get(url_arquivo, stream=True)

            if response_zip.status_code == 200:
                with open(caminho_arquivo_zip, "wb") as f:
                    f.write(response_zip.content)
                print(f"✅ Download concluído: {caminho_arquivo_zip}")
            else:
                print(f"❌ Erro ao baixar {url_arquivo}")

        # 5️⃣ EXTRAIR O CONTEÚDO DO ZIP NA MESMA ESTRUTURA
        with zipfile.ZipFile(caminho_arquivo_zip, "r") as zip_ref:
            zip_ref.extractall(caminho_pasta_local)
            print(f"📂 Arquivo extraído em: {caminho_pasta_local}")

print("✅ Processo concluído! Todos os arquivos foram baixados e extraídos.")

📂 Criando pasta: /home/danielbarbosa/seget/notebooks/dados_abertos_cnpj/arquivos/dados/dados/cnpj
📂 /dados/cnpj/ - Arquivos ZIP encontrados: []
📂 Criando pasta: /home/danielbarbosa/seget/notebooks/dados_abertos_cnpj/arquivos/dados/2023-05
📂 2023-05/ - Arquivos ZIP encontrados: ['Cnaes.zip', 'Empresas0.zip', 'Empresas1.zip', 'Empresas2.zip', 'Empresas3.zip', 'Empresas4.zip', 'Empresas5.zip', 'Empresas6.zip', 'Empresas7.zip', 'Empresas8.zip', 'Empresas9.zip', 'Estabelecimentos0.zip', 'Estabelecimentos1.zip', 'Estabelecimentos2.zip', 'Estabelecimentos3.zip', 'Estabelecimentos4.zip', 'Estabelecimentos5.zip', 'Estabelecimentos6.zip', 'Estabelecimentos7.zip', 'Estabelecimentos8.zip', 'Estabelecimentos9.zip', 'Motivos.zip', 'Municipios.zip', 'Naturezas.zip', 'Paises.zip', 'Qualificacoes.zip', 'Simples.zip', 'Socios0.zip', 'Socios1.zip', 'Socios2.zip', 'Socios3.zip', 'Socios4.zip', 'Socios5.zip', 'Socios6.zip', 'Socios7.zip', 'Socios8.zip', 'Socios9.zip']
⬇️ Baixando https://arquivos.receitafe

: 