<a href="https://colab.research.google.com/github/Isa-Duque/Automa-o---Projeto-MEI/blob/main/Untitled1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [22]:
import pandas as pd
import zipfile
import os

# Configurações baseadas no seu mapeamento de sucesso
COL_DATA = 6
COL_SITUACAO = 5
COL_CNPJ = 0
COL_CNAE = 11
COL_DDD = 18
COL_FONE = 19

url = "https://arquivos.receitafederal.gov.br/dados/cnpj/dados_abertos_cnpj/2025-12/Estabelecimentos0.zip"
print("Iniciando extração total do Lote 0 usando o novo mapa (Coluna 6)...")
os.system(f"wget -q {url} -O lote0.zip")

try:
    with zipfile.ZipFile('lote0.zip', 'r') as z:
        nome = [f for f in z.namelist() if 'ESTABELE' in f.upper()][0]
        with z.open(nome) as f:
            # Lendo o arquivo inteiro em blocos de 1 milhão
            chunks = pd.read_csv(f, sep=';', encoding='latin-1', header=None,
                                 dtype=str, chunksize=1000000)

            leads_finais = []

            for i, chunk in enumerate(chunks):
                # Filtro: Ativa (02) + Ano 2024/2025 + Telefone não vazio
                filtro = (chunk[COL_SITUACAO] == '02') & \
                         (chunk[COL_DATA].str.startswith('202', na=False)) & \
                         (chunk[COL_FONE].notnull())

                dados = chunk[filtro].copy()

                if not dados.empty:
                    # Seleciona e renomeia
                    selecao = dados[[COL_CNPJ, COL_DATA, COL_CNAE, COL_DDD, COL_FONE]]
                    selecao.columns = ['cnpj', 'data_abertura', 'cnae', 'ddd', 'telefone']
                    leads_finais.append(selecao)
                    print(f"Bloco {i}: +{len(selecao)} leads encontrados!")

            if leads_finais:
                df_completo = pd.concat(leads_finais)

                # Criar link do WhatsApp
                df_completo['whatsapp'] = "https://wa.me/55" + df_completo['ddd'].str.strip() + df_completo['telefone'].str.strip()

                # Salvar no Drive
                from google.colab import drive
                drive.mount('/content/drive')
                caminho = '/content/drive/MyDrive/LEADS_LOTE0_2024_2025.xlsx'
                df_completo.to_excel(caminho, index=False)

                print(f"\n--- SUCESSO TOTAL! ---")
                print(f"Foram encontrados {len(df_completo)} leads reais!")
                print(f"Arquivo salvo em: {caminho}")
            else:
                print("Nenhum lead encontrado no processamento completo.")

except Exception as e:
    print(f"Erro: {e}")
finally:
    if os.path.exists('lote0.zip'): os.remove('lote0.zip')

Iniciando extração total do Lote 0 usando o novo mapa (Coluna 6)...
Bloco 0: +38419 leads encontrados!
Bloco 1: +60953 leads encontrados!
Bloco 2: +152470 leads encontrados!
Bloco 3: +456844 leads encontrados!
Bloco 4: +704269 leads encontrados!
Bloco 5: +392258 leads encontrados!
Bloco 6: +16513 leads encontrados!
Bloco 7: +40535 leads encontrados!
Bloco 8: +64593 leads encontrados!
Bloco 9: +184451 leads encontrados!
Bloco 10: +490731 leads encontrados!
Bloco 11: +724512 leads encontrados!
Bloco 12: +298797 leads encontrados!
Bloco 13: +19212 leads encontrados!
Bloco 14: +41430 leads encontrados!
Bloco 15: +66793 leads encontrados!
Bloco 16: +225560 leads encontrados!
Bloco 17: +519466 leads encontrados!
Bloco 18: +741579 leads encontrados!
Bloco 19: +206241 leads encontrados!
Bloco 20: +21043 leads encontrados!
Bloco 21: +43409 leads encontrados!
Bloco 22: +69300 leads encontrados!
Bloco 23: +257535 leads encontrados!
Bloco 24: +558233 leads encontrados!
Bloco 25: +759564 leads enco