<a href="https://colab.research.google.com/github/Isa-Duque/Automa-o---Projeto-MEI/blob/main/Untitled1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [22]:
import pandas as pd
import zipfile
import os

# Configurações baseadas no seu mapeamento de sucesso
COL_DATA = 6
COL_SITUACAO = 5
COL_CNPJ = 0
COL_CNAE = 11
COL_DDD = 18
COL_FONE = 19

url = "https://arquivos.receitafederal.gov.br/dados/cnpj/dados_abertos_cnpj/2025-12/Estabelecimentos0.zip"
print("Iniciando extração total do Lote 0 usando o novo mapa (Coluna 6)...")
os.system(f"wget -q {url} -O lote0.zip")

try:
    with zipfile.ZipFile('lote0.zip', 'r') as z:
        nome = [f for f in z.namelist() if 'ESTABELE' in f.upper()][0]
        with z.open(nome) as f:
            # Lendo o arquivo inteiro em blocos de 1 milhão
            chunks = pd.read_csv(f, sep=';', encoding='latin-1', header=None,
                                 dtype=str, chunksize=1000000)

            leads_finais = []

            for i, chunk in enumerate(chunks):
                # Filtro: Ativa (02) + Ano 2024/2025 + Telefone não vazio
                filtro = (chunk[COL_SITUACAO] == '02') & \
                         (chunk[COL_DATA].str.startswith('202', na=False)) & \
                         (chunk[COL_FONE].notnull())

                dados = chunk[filtro].copy()

                if not dados.empty:
                    # Seleciona e renomeia
                    selecao = dados[[COL_CNPJ, COL_DATA, COL_CNAE, COL_DDD, COL_FONE]]
                    selecao.columns = ['cnpj', 'data_abertura', 'cnae', 'ddd', 'telefone']
                    leads_finais.append(selecao)
                    print(f"Bloco {i}: +{len(selecao)} leads encontrados!")

            if leads_finais:
                df_completo = pd.concat(leads_finais)

                # Criar link do WhatsApp
                df_completo['whatsapp'] = "https://wa.me/55" + df_completo['ddd'].str.strip() + df_completo['telefone'].str.strip()

                # Salvar no Drive
                from google.colab import drive
                drive.mount('/content/drive')
                caminho = '/content/drive/MyDrive/LEADS_LOTE0_2024_2025.xlsx'
                df_completo.to_excel(caminho, index=False)

                print(f"\n--- SUCESSO TOTAL! ---")
                print(f"Foram encontrados {len(df_completo)} leads reais!")
                print(f"Arquivo salvo em: {caminho}")
            else:
                print("Nenhum lead encontrado no processamento completo.")

except Exception as e:
    print(f"Erro: {e}")
finally:
    if os.path.exists('lote0.zip'): os.remove('lote0.zip')



Iniciando extração total do Lote 0 usando o novo mapa (Coluna 6)...
Bloco 0: +38419 leads encontrados!
Bloco 1: +60953 leads encontrados!
Bloco 2: +152470 leads encontrados!
Bloco 3: +456844 leads encontrados!
Bloco 4: +704269 leads encontrados!
Bloco 5: +392258 leads encontrados!
Bloco 6: +16513 leads encontrados!
Bloco 7: +40535 leads encontrados!
Bloco 8: +64593 leads encontrados!
Bloco 9: +184451 leads encontrados!
Bloco 10: +490731 leads encontrados!
Bloco 11: +724512 leads encontrados!
Bloco 12: +298797 leads encontrados!
Bloco 13: +19212 leads encontrados!
Bloco 14: +41430 leads encontrados!
Bloco 15: +66793 leads encontrados!
Bloco 16: +225560 leads encontrados!
Bloco 17: +519466 leads encontrados!
Bloco 18: +741579 leads encontrados!
Bloco 19: +206241 leads encontrados!
Bloco 20: +21043 leads encontrados!
Bloco 21: +43409 leads encontrados!
Bloco 22: +69300 leads encontrados!
Bloco 23: +257535 leads encontrados!
Bloco 24: +558233 leads encontrados!
Bloco 25: +759564 leads enco

In [23]:
# 1. Juntar todos os milhões de leads em um só lugar
print("Agrupando os 7.2 milhões de leads...")
df_gigante = pd.concat(leads_finais)

# 2. Salvar em CSV (O Excel não aguenta, mas o CSV sim!)
caminho_csv = '/content/drive/MyDrive/LEADS_GIGANTE_2024_2025.csv'
df_gigante.to_csv(caminho_csv, index=False, sep=';', encoding='utf-8-sig')
print(f"SUCESSO! Arquivo CSV salvo: {caminho_csv}")

# 3. OPICIONAL: Salvar apenas o primeiro 1 milhão em Excel para você já usar hoje
caminho_excel_v1 = '/content/drive/MyDrive/LEADS_PARTE_1.xlsx'
df_gigante.head(1000000).to_excel(caminho_excel_v1, index=False)
print(f"PARTE 1 (Excel) salva: {caminho_excel_v1}")

Agrupando os 7.2 milhões de leads...
SUCESSO! Arquivo CSV salvo: /content/drive/MyDrive/LEADS_GIGANTE_2024_2025.csv


KeyboardInterrupt: 

In [24]:
# 1. Consolidar todos os leads da memória
df_total = pd.concat(leads_finais)

# 2. Aplicar o filtro específico para Novembro de 2025 (Ano 2025 + Mês 11)
# O formato na Coluna 6 é YYYYMMDD, então buscamos o que começa com 202511
filtro_novembro = df_total['data_abertura'].str.startswith('202511', na=False)
df_novembro = df_total[filtro_novembro].copy()

print(f"Busca finalizada!")
print(f"Total de empresas abertas em Novembro/2025 encontradas: {len(df_novembro)}")

# 3. Salvar o resultado específico no seu Google Drive
if not df_novembro.empty:
    caminho_novembro = '/content/drive/MyDrive/LEADS_NOVEMBRO_2025.xlsx'
    df_novembro.to_excel(caminho_novembro, index=False)
    print(f"Planilha de Novembro salva com sucesso: {caminho_novembro}")
else:
    print("Nenhuma empresa encontrada especificamente para este mês no Lote 0.")

Busca finalizada!
Total de empresas abertas em Novembro/2025 encontradas: 150874
Planilha de Novembro salva com sucesso: /content/drive/MyDrive/LEADS_NOVEMBRO_2025.xlsx


In [25]:
import pandas as pd
from google.colab import drive

# 1. Conectar ao seu Google Drive
drive.mount('/content/drive')

# 2. Configurações - AJUSTE AQUI O CAMINHO DO SEU ARQUIVO
# Exemplo: '/content/drive/MyDrive/CNPJ/K3241.K03200Y0.D41109.ESTABELE.EMPRECSV'
caminho_arquivo = '/content/drive/MyDrive/LEADS_NOVEMBRO_2025.xlsx'

# 3. Colunas importantes do arquivo ESTABELECIMENTO (Layout da Receita)
# 0: CNPJ Básico, 11: Situação (2=Ativa), 12: Data Abertura, 20: DDD, 21: Telefone
colunas = [0, 11, 12, 20, 21]
nomes_colunas = ['cnpj_basico', 'situacao', 'data_abertura', 'ddd', 'telefone']

print("Lendo arquivo... isso pode demorar um pouco dependendo do tamanho.")

# 4. Ler o arquivo com filtros (Usando separador ';' que é o padrão da Receita)
# Lemos em 'chunks' (pedaços) para não travar a memória
chunks = pd.read_csv(caminho_arquivo, sep=';', encoding='latin-1',
                     header=None, usecols=colunas, names=nomes_colunas,
                     dtype=str, chunksize=100000)

lista_filtrada = []

for chunk in chunks:
    # Filtrar: Situação Ativa (02) e apenas quem tem telefone preenchido
    filtro = (chunk['situacao'] == '02') & (chunk['telefone'].notnull())

    # Filtrar por Data (Exemplo: Empresas abertas em Novembro de 2025)
    # A data na Receita vem como YYYYMMDD (Ex: 20251101)
    filtro_data = chunk['data_abertura'].str.startswith('202511')

    lista_filtrada.append(chunk[filtro & filtro_data])

# Unir os resultados
df_final = pd.concat(lista_filtrada)

# 5. Criar link para WhatsApp
def criar_link(row):
    tel = str(row['ddd']) + str(row['telefone'])
    tel = ''.join(filter(str.isdigit, tel)) # remove espaços/traços
    return f'https://wa.me/55{tel}'

df_final['link_whatsapp'] = df_final.apply(criar_link, axis=1)

# 6. Salvar o resultado em um Excel no seu Drive
df_final.to_excel('/content/drive/MyDrive/leadsoficial_novembro_2025.xlsx', index=False)

print(f"Sucesso! Foram encontrados {len(df_final)} leads.")
print("O arquivo 'leadsoficial_novembro_2025.xlsx' foi salvo no seu Google Drive.")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Lendo arquivo... isso pode demorar um pouco dependendo do tamanho.


ParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file.


In [26]:
# Carregar os leads que você já salvou de Novembro
df_vendas = pd.read_excel('/content/drive/MyDrive/LEADS_NOVEMBRO_2025.xlsx')

# Criar uma coluna com a mensagem personalizada
def criar_mensagem(row):
    # Aqui você personaliza o seu texto!
    texto = (f"Olá! Vi que você abriu sua empresa recentemente em {row['data_abertura']}. "
             f"Sou especialista em taxas para novos negócios. Podemos conversar?")
    return texto

df_vendas['mensagem_customizada'] = df_vendas.apply(criar_mensagem, axis=1)

# Salvar a planilha pronta para o combate
df_vendas.to_excel('/content/drive/MyDrive/PLANILHA_PRONTA_PARA_VENDAS.xlsx', index=False)
print("Planilha de automação gerada com sucesso!")

Exception ignored in: <function ZipFile.__del__ at 0x7df960c04c20>
Traceback (most recent call last):
  File "/usr/lib/python3.12/zipfile/__init__.py", line 1966, in __del__
    self.close()
  File "/usr/lib/python3.12/zipfile/__init__.py", line 1983, in close
    self.fp.seek(self.start_dir)
ValueError: seek of closed file


Planilha de automação gerada com sucesso!
