# Crawler de Contatos dos Grupos WhatsApp

Este notebook busca todos os contatos dos grupos do WhatsApp usando a Evolution API e salva em Excel e CSV.


In [6]:
import os
import asyncio
import httpx
import pandas as pd
from pathlib import Path
from typing import List, Dict
from datetime import datetime

# Verificar e instalar openpyxl se necess√°rio (para salvar Excel)
try:
    import openpyxl
except ImportError:
    print("üì¶ Instalando openpyxl...")
    import subprocess
    subprocess.check_call(["pip", "install", "openpyxl"])
    import openpyxl
    print("‚úÖ openpyxl instalado")

# Configura√ß√µes da Evolution API
EVOLUTION_URL = os.getenv("EVOLUTION_API_URL", "http://localhost:8080")
EVOLUTION_API_KEY = os.getenv("EVOLUTION_API_KEY")
INSTANCE = os.getenv("EVOLUTION_INSTANCE", "Revoluna")

if not EVOLUTION_API_KEY:
    raise ValueError("EVOLUTION_API_KEY n√£o configurada. Configure no .env ou vari√°veis de ambiente.")

print(f"‚úÖ Evolution API URL: {EVOLUTION_URL}")
print(f"‚úÖ Instance: {INSTANCE}")
print(f"‚úÖ API Key: {EVOLUTION_API_KEY[:10]}..." if len(EVOLUTION_API_KEY) > 10 else "‚úÖ API Key configurada")


‚úÖ Evolution API URL: http://localhost:8080
‚úÖ Instance: Revoluna
‚úÖ API Key: c24ecc525f...


In [None]:
class EvolutionContactsCrawler:
    """Cliente para buscar contatos dos grupos via Evolution API."""
    
    def __init__(self):
        self.base_url = EVOLUTION_URL.rstrip("/")
        self.api_key = EVOLUTION_API_KEY
        self.instance = INSTANCE
        self.headers = {"apikey": self.api_key}
    
    async def testar_conexao(self) -> bool:
        """Testa se a conex√£o com a Evolution API est√° funcionando."""
        url = f"{self.base_url}/instance/fetchInstances"
        
        async with httpx.AsyncClient() as client:
            try:
                response = await client.get(url, headers=self.headers, timeout=10.0)
                response.raise_for_status()
                print(f"‚úÖ Conex√£o com Evolution API OK (Status: {response.status_code})")
                return True
            except httpx.ConnectError as e:
                print(f"‚ùå Erro de conex√£o: N√£o foi poss√≠vel conectar em {self.base_url}")
                print(f"   Verifique se a Evolution API est√° rodando e a URL est√° correta")
                return False
            except httpx.HTTPStatusError as e:
                print(f"‚ùå Erro HTTP {e.response.status_code}: {e.response.text[:200]}")
                return False
            except Exception as e:
                print(f"‚ùå Erro ao testar conex√£o: {type(e).__name__}: {e}")
                return False
    
    async def listar_grupos(self, com_participantes: bool = False, max_retries: int = 3) -> List[Dict]:
        """
        Lista todos os grupos que a inst√¢ncia participa.
        
        Args:
            com_participantes: Se True, retorna grupos com lista de participantes
            max_retries: N√∫mero m√°ximo de tentativas em caso de timeout
        """
        # Seguindo o padr√£o do join_groups.py que est√° funcionando
        url = f"{self.base_url}/group/fetchAllGroups/{self.instance}?getParticipants={'true' if com_participantes else 'false'}"
        
        print(f"üîó URL: {url}")
        print(f"üîë Headers: apikey={self.api_key[:10]}...")
        
        # Timeout maior para muitos grupos (5 minutos)
        timeout = 300.0 if com_participantes else 180.0
        
        for tentativa in range(1, max_retries + 1):
            try:
                print(f"‚è≥ Tentativa {tentativa}/{max_retries} (timeout: {timeout}s)...")
                
                async with httpx.AsyncClient(timeout=timeout) as client:
                    response = await client.get(url, headers=self.headers)
                    print(f"üì° Status HTTP: {response.status_code}")
                    
                    response.raise_for_status()
                    grupos = response.json()
                    
                    # Verificar formato da resposta
                    if isinstance(grupos, dict):
                        # Pode retornar um objeto com 'groups' ou similar
                        if 'groups' in grupos:
                            grupos = grupos['groups']
                        elif 'data' in grupos:
                            grupos = grupos['data']
                        else:
                            print(f"‚ö†Ô∏è Resposta inesperada: {list(grupos.keys())}")
                            print(f"   Resposta completa: {grupos}")
                            return []
                    
                    if not isinstance(grupos, list):
                        print(f"‚ö†Ô∏è Resposta n√£o √© uma lista: {type(grupos)}")
                        print(f"   Conte√∫do: {grupos}")
                        return []
                    
                    print(f"‚úÖ Sucesso! {len(grupos)} grupos encontrados")
                    return grupos
                    
            except httpx.ReadTimeout as e:
                if tentativa < max_retries:
                    wait_time = tentativa * 10  # Backoff: 10s, 20s, 30s
                    print(f"‚è±Ô∏è Timeout na tentativa {tentativa}. Aguardando {wait_time}s antes de tentar novamente...")
                    await asyncio.sleep(wait_time)
                    # Aumentar timeout na pr√≥xima tentativa
                    timeout = min(timeout * 1.5, 600.0)  # M√°ximo 10 minutos
                else:
                    print(f"‚ùå Timeout ap√≥s {max_retries} tentativas")
                    print(f"   A requisi√ß√£o est√° demorando muito. Isso pode acontecer com muitos grupos.")
                    print(f"   üí° Tente novamente ou verifique se a Evolution API est√° processando a requisi√ß√£o")
                    return []
                    
            except httpx.ConnectError as e:
                print(f"‚ùå Erro de conex√£o: N√£o foi poss√≠vel conectar em {self.base_url}")
                print(f"   Detalhes: {e}")
                return []
            except httpx.HTTPStatusError as e:
                print(f"‚ùå Erro HTTP {e.response.status_code}")
                print(f"   Resposta: {e.response.text[:500]}")
                if e.response.status_code == 404:
                    print(f"   üí° Verifique se a inst√¢ncia '{self.instance}' existe")
                elif e.response.status_code == 401:
                    print(f"   üí° Verifique se a API key est√° correta")
                return []
            except Exception as e:
                if tentativa < max_retries:
                    wait_time = tentativa * 5
                    print(f"‚ö†Ô∏è Erro na tentativa {tentativa}: {type(e).__name__}")
                    print(f"   Aguardando {wait_time}s antes de tentar novamente...")
                    await asyncio.sleep(wait_time)
                else:
                    print(f"‚ùå Erro ao listar grupos: {type(e).__name__}: {e}")
                    import traceback
                    print(f"   Traceback: {traceback.format_exc()}")
                    return []
        
        return []
    
    async def buscar_todos_participantes(self) -> Dict[str, List[Dict]]:
        """
        Busca todos os participantes de todos os grupos de uma vez.
        Retorna um dicion√°rio: {grupo_jid: [participantes]}
        """
        grupos = await self.listar_grupos(com_participantes=True)
        
        resultado = {}
        for grupo in grupos:
            grupo_jid = grupo.get("id", "")
            participantes = grupo.get("participants", [])
            if grupo_jid:
                resultado[grupo_jid] = participantes
        
        return resultado

# Criar inst√¢ncia do crawler
crawler = EvolutionContactsCrawler()
print("‚úÖ Crawler inicializado")

# Testar conex√£o primeiro
print("\nüîç Testando conex√£o com Evolution API...")
conexao_ok = await crawler.testar_conexao()

# Verificar inst√¢ncias dispon√≠veis
if conexao_ok:
    print("\nüîç Verificando inst√¢ncias dispon√≠veis...")
    url = f"{crawler.base_url}/instance/fetchInstances"
    async with httpx.AsyncClient() as client:
        try:
            response = await client.get(url, headers=crawler.headers, timeout=10.0)
            response.raise_for_status()
            instances = response.json()
            print(f"‚úÖ Inst√¢ncias encontradas: {instances}")
            
            # Verificar se a inst√¢ncia configurada existe
            if isinstance(instances, list):
                # A API retorna 'name', n√£o 'instanceName'
                instance_names = [inst.get('name', '') for inst in instances if isinstance(inst, dict)]
                print(f"   Inst√¢ncias dispon√≠veis: {instance_names}")
                
                if INSTANCE not in instance_names:
                    print(f"\n‚ö†Ô∏è ATEN√á√ÉO: A inst√¢ncia '{INSTANCE}' n√£o foi encontrada!")
                    print(f"   Verifique a vari√°vel EVOLUTION_INSTANCE")
                else:
                    # Verificar status da conex√£o
                    instancia_info = next((inst for inst in instances if inst.get('name') == INSTANCE), None)
                    if instancia_info:
                        status = instancia_info.get('connectionStatus', 'unknown')
                        print(f"\n‚úÖ Inst√¢ncia '{INSTANCE}' encontrada!")
                        print(f"   Status da conex√£o: {status}")
                        if status != 'open':
                            print(f"   ‚ö†Ô∏è A inst√¢ncia n√£o est√° conectada (status: {status})")
            elif isinstance(instances, dict):
                print(f"   Formato de resposta: {list(instances.keys())}")
        except Exception as e:
            print(f"‚ö†Ô∏è N√£o foi poss√≠vel verificar inst√¢ncias: {e}")


‚úÖ Crawler inicializado

üîç Testando conex√£o com Evolution API...
‚úÖ Conex√£o com Evolution API OK (Status: 200)

üîç Verificando inst√¢ncias dispon√≠veis...
‚úÖ Inst√¢ncias encontradas: [{'id': '49fe9268-dda3-44d9-8388-3e482cf81ef0', 'name': 'Revoluna', 'connectionStatus': 'open', 'ownerJid': '5511916175810@s.whatsapp.net', 'profileName': 'Julia', 'profilePicUrl': 'https://pps.whatsapp.net/v/t61.24694-24/534424589_1934969654116716_5298075044391826328_n.jpg?ccb=11-4&oh=01_Q5Aa3QGKEqW2pT6tvTPhKJ8A2_OElBVg8h2hXkmQriwyYnwhsg&oe=695FC118&_nc_sid=5e03e0&_nc_cat=104', 'integration': 'WHATSAPP-BAILEYS', 'number': None, 'businessId': None, 'token': 'EA3E1CF57A6D-49C6-89F7-21E74CE39269', 'clientName': 'evolution_exchange', 'disconnectionReasonCode': 401, 'disconnectionObject': '{"error":{"data":null,"isBoom":true,"isServer":false,"output":{"statusCode":401,"payload":{"statusCode":401,"error":"Unauthorized","message":"Log out instance: Revoluna"},"headers":{}}},"date":"2025-12-16T19:21:11.

In [9]:
async def extrair_contatos_todos_grupos() -> List[Dict]:
    """Extrai todos os contatos de todos os grupos."""
    print("\nüîç Buscando grupos (sem participantes primeiro)...")
    grupos = await crawler.listar_grupos(com_participantes=False)
    
    if not grupos:
        print("‚ö†Ô∏è Nenhum grupo encontrado!")
        print("üí° Poss√≠veis causas:")
        print("   ‚Ä¢ A inst√¢ncia n√£o est√° conectada ao WhatsApp")
        print("   ‚Ä¢ A inst√¢ncia n√£o participa de nenhum grupo")
        print(f"   ‚Ä¢ Verifique o nome da inst√¢ncia (atual: {INSTANCE})")
        return []
    
    print(f"‚úÖ Encontrados {len(grupos)} grupos")
    print("\nüìã Listando grupos:")
    for i, grupo in enumerate(grupos, 1):
        nome = grupo.get("subject", "Sem nome")
        jid = grupo.get("id", "")
        tamanho = grupo.get("size", 0)
        print(f"  {i}. {nome} ({tamanho} participantes) - {jid[:30]}...")
    
    print("\nüîç Buscando participantes de todos os grupos...")
    print("‚è≥ Fazendo uma √∫nica requisi√ß√£o para buscar todos os participantes...\n")
    
    # Buscar todos os participantes de uma vez (mais eficiente)
    participantes_por_grupo = await crawler.buscar_todos_participantes()
    
    todos_contatos = []
    
    # Processar participantes de cada grupo
    for idx, grupo in enumerate(grupos, 1):
        grupo_jid = grupo.get("id", "")
        grupo_nome = grupo.get("subject", "Sem nome")
        participantes = participantes_por_grupo.get(grupo_jid, [])
        
        print(f"[{idx}/{len(grupos)}] Processando: {grupo_nome} ({len(participantes)} participantes)")
        
        for participante in participantes:
            # Extrair informa√ß√µes do participante
            participante_id = participante.get("id", "")
            phone_number = participante.get("phoneNumber", "")
            push_name = participante.get("pushName", "")
            name = participante.get("name", "")
            
            # Usar pushName se dispon√≠vel, sen√£o name, sen√£o vazio
            nome_contato = push_name or name or ""
            
            # Extrair n√∫mero de telefone
            telefone = ""
            if phone_number:
                # Formato geral: 5511999999999@s.whatsapp.net
                if "@s.whatsapp.net" in phone_number:
                    telefone = phone_number.split("@")[0]
                else:
                    telefone = phone_number
            elif participante_id and "@s.whatsapp.net" in participante_id:
                telefone = participante_id.split("@")[0]
            
            # Adicionar contato √† lista
            todos_contatos.append({
                "Nome": nome_contato,
                "Numero_Telefone": telefone,
                "Grupo_Origem": grupo_nome,
                "Grupo_JID": grupo_jid
            })
    
    print(f"\n‚úÖ Total de contatos coletados: {len(todos_contatos)}")
    return todos_contatos

# Executar extra√ß√£o
contatos = await extrair_contatos_todos_grupos()



üîç Buscando grupos (sem participantes primeiro)...
üîó URL: http://localhost:8080/group/fetchAllGroups/Revoluna?getParticipants=false
üîë Headers: apikey=c24ecc525f...
‚ùå Erro ao listar grupos: ReadTimeout: 
   Traceback: Traceback (most recent call last):
  File "/Users/rafaelpivovar/Documents/Projetos/whatsapp-api/.venv/lib/python3.13/site-packages/httpx/_transports/default.py", line 101, in map_httpcore_exceptions
    yield
  File "/Users/rafaelpivovar/Documents/Projetos/whatsapp-api/.venv/lib/python3.13/site-packages/httpx/_transports/default.py", line 394, in handle_async_request
    resp = await self._pool.handle_async_request(req)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/Users/rafaelpivovar/Documents/Projetos/whatsapp-api/.venv/lib/python3.13/site-packages/httpcore/_async/connection_pool.py", line 256, in handle_async_request
    raise exc from None
  File "/Users/rafaelpivovar/Documents/Projetos/whatsapp-api/.venv/lib/python3.13/site-packages/httpcor

In [None]:
# Criar DataFrame
df = pd.DataFrame(contatos)

# Remover duplicatas (mesmo n√∫mero em grupos diferentes)
print(f"üìä Total de registros: {len(df)}")
print(f"üìä Contatos √∫nicos (por n√∫mero): {df['Numero_Telefone'].nunique()}")

# Mostrar estat√≠sticas
print("\nüìà Estat√≠sticas:")
print(f"  ‚Ä¢ Grupos processados: {df['Grupo_Origem'].nunique()}")
print(f"  ‚Ä¢ Contatos com nome: {df[df['Nome'] != '']['Nome'].count()}")
print(f"  ‚Ä¢ Contatos sem nome: {df[df['Nome'] == '']['Nome'].count()}")

# Mostrar preview
print("\nüëÄ Preview dos dados:")
print(df.head(10))


In [None]:
# Criar diret√≥rio de sa√≠da se n√£o existir
output_dir = Path("data/contatos_grupos")
output_dir.mkdir(parents=True, exist_ok=True)

# Gerar nome do arquivo com timestamp
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
csv_file = output_dir / f"contatos_grupos_{timestamp}.csv"
excel_file = output_dir / f"contatos_grupos_{timestamp}.xlsx"

# Salvar CSV
df.to_csv(csv_file, index=False, encoding='utf-8-sig')
print(f"‚úÖ CSV salvo: {csv_file}")

# Salvar Excel
df.to_excel(excel_file, index=False, engine='openpyxl')
print(f"‚úÖ Excel salvo: {excel_file}")

print(f"\nüìÅ Arquivos salvos em: {output_dir.absolute()}")
print(f"   ‚Ä¢ {csv_file.name}")
print(f"   ‚Ä¢ {excel_file.name}")


In [None]:
# An√°lise adicional: contatos por grupo
print("üìä Contatos por grupo:")
contatos_por_grupo = df.groupby('Grupo_Origem').size().sort_values(ascending=False)
print(contatos_por_grupo)

# Contatos que aparecem em m√∫ltiplos grupos
print("\nüë• Contatos em m√∫ltiplos grupos:")
contatos_multiplos = df.groupby('Numero_Telefone').agg({
    'Nome': 'first',
    'Grupo_Origem': lambda x: ', '.join(x.unique()),
    'Numero_Telefone': 'count'
}).rename(columns={'Numero_Telefone': 'Qtd_Grupos'})
contatos_multiplos = contatos_multiplos[contatos_multiplos['Qtd_Grupos'] > 1].sort_values('Qtd_Grupos', ascending=False)
print(f"Total: {len(contatos_multiplos)} contatos aparecem em mais de um grupo")
print(contatos_multiplos.head(20))
