In [1]:
import findspark    # findspark ajuda o Python a localizar a instalação do Spark em notebooks como o Jupyter
findspark.init()  #permite que você use o pyspark no seu ambiente mesmo que o spark tenha sido instalado separadamente.

In [2]:
import requests
import os
import zipfile
from datetime import datetime
import traceback

In [3]:
url = 'https://arquivos.receitafederal.gov.br/dados/cnpj/dados_abertos_cnpj/2025-06/Simples.zip'

In [4]:
data_hoje = datetime.now().strftime('%y-%m-%d')
pasta = r"C:\Users\ResTIC16\Documents\IBGE_PROJETO\datawarehouse_ibge\data\LND"
arquivo_zip = os.path.join(pasta, f'simples_{data_hoje}.zip')
arquivo_saida = os.path.join(pasta, f'simples_{data_hoje}.csv')

In [5]:
os.makedirs(pasta,exist_ok=True)

In [6]:
try:
    print("Iniciando download...")
    response = requests.get(url, timeout=30)
    response.raise_for_status()
    print(f"Download concluído. Tamanho: {len(response.content) / (1024*1024):.2f} MB")

    with open(arquivo_zip, 'wb') as f:
        f.write(response.content)
    print(f"Arquivo ZIP salvo: {arquivo_zip}")

    with zipfile.ZipFile(arquivo_zip) as zip_ref:
        print("Conteúdo do ZIP:")
        for i, name in enumerate(zip_ref.namelist()):
            print(f"  {i+1}. {name}")
        
        # CORREÇÃO: Busca por arquivo com padrão da Receita Federal
        csv_files = [n for n in zip_ref.namelist() if 'CNAECSV' in n]
        
        if not csv_files:
            raise ValueError("Nenhum arquivo CNAECSV encontrado no ZIP")
        
        csv_name = csv_files[0]
        print(f"Processando arquivo: {csv_name}")

        with zip_ref.open(csv_name) as csv_file, \
             open(arquivo_saida, 'w', encoding='utf-8') as output_csv:
            
            print("Convertendo codificação...")
            for i, line in enumerate(csv_file):
                try:
                    decoded_line = line.decode('latin1')
                    output_csv.write(decoded_line)
                except UnicodeDecodeError:
                    decoded_line = line.decode('utf-8', errors='replace')
                    output_csv.write(decoded_line)
                
                # Exibe progresso a cada 500 mil linhas
                if i % 500000 == 0 and i > 0:
                    print(f"Linhas processadas: {i}")
    
    print(f"Conversão concluída. Arquivo CSV salvo em: {arquivo_saida}")
    
    # Remove o ZIP após extração
    os.remove(arquivo_zip)
    print(f"Arquivo ZIP removido: {arquivo_zip}")

except Exception as erro:
    error_details = traceback.format_exc()
    print(f"\nERRO DETALHADO:\n{error_details}")
    print(f"\nERRO: {erro}")

Iniciando download...
Download concluído. Tamanho: 0.02 MB
Arquivo ZIP salvo: C:\Users\ResTIC16\Documents\IBGE_PROJETO\datawarehouse_ibge\data\LND\CNAE_25-07-16.zip
Conteúdo do ZIP:
  1. F.K03200$Z.D50614.CNAECSV
Processando arquivo: F.K03200$Z.D50614.CNAECSV
Convertendo codificação...
Conversão concluída. Arquivo CSV salvo em: C:\Users\ResTIC16\Documents\IBGE_PROJETO\datawarehouse_ibge\data\LND\CNAE_25-07-16.csv
Arquivo ZIP removido: C:\Users\ResTIC16\Documents\IBGE_PROJETO\datawarehouse_ibge\data\LND\CNAE_25-07-16.zip
