# üìß Tutorial 3: Extrator de Email Inteligente

## üéØ Objetivos de Aprendizado
Ao final deste tutorial, voc√™ ser√° capaz de:
- **Criar prompts estruturados** para extrair dados espec√≠ficos
- **Usar Output Parsers** para formatar respostas da IA
- **Implementar valida√ß√£o de dados** com Pydantic
- **Processar emails** de forma inteligente e automatizada
- **Construir sistemas de categoriza√ß√£o** autom√°tica

## üìö Conceitos que vamos dominar

### 1. **PromptTemplate vs ChatPromptTemplate**
- **PromptTemplate**: Para modelos de texto simples (GPT-3.5, etc.)
- **ChatPromptTemplate**: Para modelos conversacionais (ChatGPT, etc.)
- **Diferen√ßa**: ChatPromptTemplate inclui roles (system, human, assistant)

### 2. **Output Parsers**
- **StrOutputParser**: Converte resposta em string simples
- **PydanticOutputParser**: Converte resposta em objeto estruturado
- **JSONOutputParser**: Converte resposta em JSON v√°lido

### 3. **Pydantic para Valida√ß√£o**
- **BaseModel**: Classe base para modelos de dados
- **Field**: Define campos com valida√ß√£o e descri√ß√£o
- **EmailStr**: Valida√ß√£o espec√≠fica para emails
- **Valida√ß√£o autom√°tica**: Garante integridade dos dados

### 4. **Regex para Processamento de Texto**
- **Padr√µes de email**: `r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'`
- **Extra√ß√£o de dados**: Encontrar informa√ß√µes espec√≠ficas no texto
- **Valida√ß√£o local**: Verificar formatos antes de enviar para IA

## üöÄ Por que este tutorial √© importante?

### **Aplica√ß√µes Reais:**
- **Sistema de triagem de emails** para empresas
- **An√°lise de sentimento** em comunica√ß√µes
- **Categoriza√ß√£o autom√°tica** de mensagens
- **Dashboard de monitoramento** de comunica√ß√µes

### **Habilidades Desenvolvidas:**
- **Estrutura√ß√£o de dados** com modelos robustos
- **Valida√ß√£o de entrada** para evitar erros
- **Processamento em lote** para efici√™ncia
- **Exporta√ß√£o de dados** para an√°lise posterior

In [4]:
# Imports do LangChain
from langchain.prompts import PromptTemplate
from langchain_core.output_parsers import PydanticOutputParser
from langchain_openai import ChatOpenAI

# Imports do Pydantic para valida√ß√£o de dados
from pydantic import BaseModel, Field, EmailStr
from typing import List, Optional

# Imports para processamento de dados
from datetime import datetime
import re  # Para processamento de texto com padr√µes
import json  # Para exporta√ß√£o de dados

# Imports para configura√ß√£o
from dotenv import load_dotenv

# Carrega vari√°veis de ambiente (API keys)
load_dotenv()

True

### üèóÔ∏è DEFINI√á√ÉO DOS MODELOS DE DADOS

Explica√ß√£o: Por que usar Pydantic?
- Valida√ß√£o autom√°tica de tipos
- Documenta√ß√£o autom√°tica dos campos
- Serializa√ß√£o/deserializa√ß√£o f√°cil
- Integra√ß√£o perfeita com LangChain

In [6]:
class InformacoesEmail(BaseModel):
    """
    Modelo para informa√ß√µes extra√≠das de um email
    
    Este modelo define a estrutura dos dados que queremos extrair
    de cada email, com valida√ß√£o autom√°tica de tipos.
    """
    # Campo obrigat√≥rio com valida√ß√£o de email
    remetente: str = Field(
        description="Nome completo do remetente do email",
        min_length=2,
        max_length=100
    )
    
    # Valida√ß√£o espec√≠fica para email
    email_remetente: EmailStr = Field(
        description="Endere√ßo de email do remetente (formato v√°lido)"
    )
    
    # Assunto do email
    assunto: str = Field(
        description="Assunto/t√≠tulo do email",
        min_length=5,
        max_length=200
    )
    
    # Data de envio
    data_envio: str = Field(
        description="Data e hora de envio do email (formato: DD/MM/AAAA HH:MM)"
    )
    
    # Prioridade com valores espec√≠ficos
    prioridade: str = Field(
        description="N√≠vel de prioridade do email",
        pattern="^(alta|m√©dia|baixa|urgente)$"
    )
    
    # Categoria do email
    categoria: str = Field(
        description="Categoria do email (trabalho, pessoal, spam, newsletter, etc.)",
        min_length=3,
        max_length=50
    )
    
    # Lista de palavras-chave importantes
    palavras_chave: List[str] = Field(
        description="Lista de palavras-chave importantes encontradas no email",
        min_length=1,
        max_length=10
    )
    
    # Resumo do conte√∫do
    resumo: str = Field(
        description="Resumo conciso do conte√∫do do email (m√°ximo 200 caracteres)",
        max_length=200
    )
    
    # Se requer a√ß√£o
    acao_necessaria: bool = Field(
        description="Indica se o email requer alguma a√ß√£o do destinat√°rio"
    )
    
    # N√≠vel de urg√™ncia (1-5)
    urgencia: int = Field(
        description="N√≠vel de urg√™ncia do email (1=baixa, 5=cr√≠tica)",
        ge=1,
        le=5
    )

class ListaEmails(BaseModel):
    """
    Modelo para lista de emails processados
    
    Este modelo agrupa m√∫ltiplos emails e inclui estat√≠sticas
    para an√°lise em lote.
    """
    # Lista de emails processados
    emails: List[InformacoesEmail] = Field(
        description="Lista de emails processados e categorizados"
    )
    
    # Total de emails
    total_emails: int = Field(
        description="N√∫mero total de emails processados"
    )
    
    # Contagem por categoria
    categorias: dict = Field(
        description="Dicion√°rio com contagem de emails por categoria"
    )

print("‚úÖ Modelos de dados definidos!")
print("üìã Valida√ß√£o autom√°tica configurada!")
print("üîç Campos documentados com descri√ß√µes!")

‚úÖ Modelos de dados definidos!
üìã Valida√ß√£o autom√°tica configurada!
üîç Campos documentados com descri√ß√µes!


### üîß CONFIGURA√á√ÉO DOS OUTPUT PARSERS

Explica√ß√£o: O que s√£o Output Parsers?
- Convertem respostas de texto da IA em dados estruturados
- Garantem que os dados estejam no formato correto
- Facilitam a integra√ß√£o com sistemas de banco de dados
- Reduzem erros de parsing manual

In [7]:
def configurar_parser():
    """
    Configura o parser para extrair dados de um email individual
    
    Este parser converte a resposta da IA em um objeto InformacoesEmail
    com valida√ß√£o autom√°tica de todos os campos.
    """
    parser = PydanticOutputParser(pydantic_object=InformacoesEmail)
    return parser

def configurar_parser_lista():
    """
    Configura o parser para processar m√∫ltiplos emails
    
    Este parser converte a resposta da IA em um objeto ListaEmails
    que cont√©m todos os emails processados e estat√≠sticas.
    """
    parser = PydanticOutputParser(pydantic_object=ListaEmails)
    return parser

# Teste do parser
parser = configurar_parser()
print("‚úÖ Output Parser configurado!")
print("üìã Formato esperado pela IA:")
print(parser.get_format_instructions())
print("\nüí° A IA receber√° estas instru√ß√µes para formatar sua resposta corretamente!")

‚úÖ Output Parser configurado!
üìã Formato esperado pela IA:
The output should be formatted as a JSON instance that conforms to the JSON schema below.

As an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]}
the object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.

Here is the output schema:
```
{"description": "Modelo para informa√ß√µes extra√≠das de um email\n\nEste modelo define a estrutura dos dados que queremos extrair\nde cada email, com valida√ß√£o autom√°tica de tipos.", "properties": {"remetente": {"description": "Nome completo do remetente do email", "maxLength": 100, "minLength": 2, "title": "Remetente", "type": "string"}, "email_remetente": {"description": "Endere√ßo de email do remetente (formato v√°lido)", "format": "email", "title": "Email Remetente", "type":

### üìã CRIA√á√ÉO DE PROMPTS ESTRUTURADOS

Explica√ß√£o: Por que usar prompts estruturados?
- Garantem consist√™ncia nas respostas da IA
- Reduzem ambiguidade e erros de interpreta√ß√£o
- Facilitam a manuten√ß√£o e atualiza√ß√£o
- Permitem reutiliza√ß√£o em diferentes contextos

In [8]:

def criar_prompt_extrator():
    """
    Cria prompt para extrair informa√ß√µes de um email individual
    
    Este prompt instrui a IA sobre:
    - O que extrair (campos espec√≠ficos)
    - Como formatar (JSON v√°lido)
    - Qual o contexto (an√°lise de email)
    """
    template = """
    Voc√™ √© um especialista em an√°lise de emails.
    
    Sua tarefa √© extrair informa√ß√µes espec√≠ficas do email fornecido e retornar
    os dados no formato JSON exato especificado abaixo.
    
    {format_instructions}
    
    IMPORTANTE:
    - Analise cuidadosamente o conte√∫do do email
    - Identifique a prioridade baseada no tom e urg√™ncia
    - Categorize o email baseado no assunto e conte√∫do
    - Extraia palavras-chave relevantes
    - Determine se h√° necessidade de a√ß√£o
    - Avalie o n√≠vel de urg√™ncia de 1 a 5
    
    Email para an√°lise:
    {email}
    
    Responda APENAS com o JSON v√°lido, sem explica√ß√µes adicionais.
    """
    
    prompt = PromptTemplate(
        template=template,
        input_variables=["email"],
        partial_variables={"format_instructions": parser.get_format_instructions()}
    )
    
    return prompt

def criar_prompt_categorizador():
    """
    Cria prompt para categorizar m√∫ltiplos emails
    
    Este prompt instrui a IA sobre:
    - Como processar m√∫ltiplos emails
    - Como categorizar cada um
    - Como gerar estat√≠sticas
    """
    template = """
    Voc√™ √© um especialista em organiza√ß√£o e categoriza√ß√£o de emails.
    
    Sua tarefa √© analisar a lista de emails fornecida e:
    1. Extrair informa√ß√µes de cada email
    2. Categorizar cada email adequadamente
    3. Gerar estat√≠sticas de categoriza√ß√£o
    
    {format_instructions}
    
    DIRETRIZES DE CATEGORIZA√á√ÉO:
    - trabalho: Emails relacionados ao trabalho/profissional
    - pessoal: Emails pessoais/familiares
    - spam: Emails suspeitos ou indesejados
    - newsletter: Boletins informativos
    - financeiro: Emails banc√°rios/financeiros
    - urgente: Emails que requerem aten√ß√£o imediata
    
    Lista de emails:
    {emails}
    
    Responda APENAS com o JSON v√°lido, sem explica√ß√µes adicionais.
    """
    
    prompt = PromptTemplate(
        template=template,
        input_variables=["emails"],
        partial_variables={"format_instructions": configurar_parser_lista().get_format_instructions()}
    )
    
    return prompt

print("‚úÖ Prompts estruturados criados!")
print("üìã Instru√ß√µes detalhadas para a IA configuradas!")
print("üéØ Contexto e diretrizes definidos!")

‚úÖ Prompts estruturados criados!
üìã Instru√ß√µes detalhadas para a IA configuradas!
üéØ Contexto e diretrizes definidos!


### ü§ñ CONFIGURA√á√ÉO DO MODELO E CHAIN

Explica√ß√£o: O que √© uma Chain no LangChain?
- Uma sequ√™ncia de opera√ß√µes conectadas
- Cada opera√ß√£o passa seu resultado para a pr√≥xima
- Facilita a constru√ß√£o de pipelines complexos
- Permite reutiliza√ß√£o e modularidade

In [9]:

# Modelo de IA (configura√ß√£o otimizada para extra√ß√£o)
chat_model = ChatOpenAI(
    temperature=0.0,  # Baixa criatividade para consist√™ncia
    model_name="gpt-3.5-turbo"  # Modelo r√°pido e eficiente
)
    

def configurar_extrator():
    """
    Configura o extrator de emails individual
    
    Chain: Prompt ‚Üí Modelo ‚Üí Parser
    - Prompt: Instrui a IA sobre o que fazer
    - Modelo: Processa o texto e gera resposta
    - Parser: Converte resposta em dados estruturados
    """
    # Parser para dados estruturados
    parser = configurar_parser()
    
    # Prompt estruturado
    prompt = criar_prompt_extrator()
    
    # Chain: conecta todas as opera√ß√µes
    chain = prompt | chat_model | parser
    
    return chain

def configurar_categorizador():
    """
    Configura o categorizador de m√∫ltiplos emails
    
    Chain: Prompt ‚Üí Modelo ‚Üí Parser
    - Prompt: Instrui sobre categoriza√ß√£o em lote
    - Modelo: Processa m√∫ltiplos emails
    - Parser: Converte em lista estruturada
    """
    # Parser para lista de emails
    parser = configurar_parser_lista()
    
    # Prompt para categoriza√ß√£o
    prompt = criar_prompt_categorizador()
    
    # Chain: conecta todas as opera√ß√µes
    chain = prompt | chat_model | parser
    
    return chain

print("‚úÖ Extrator e categorizador configurados!")
print("üîó Chains criadas: Prompt ‚Üí Modelo ‚Üí Parser")
print("‚öôÔ∏è Configura√ß√£o otimizada para consist√™ncia!")

‚úÖ Extrator e categorizador configurados!
üîó Chains criadas: Prompt ‚Üí Modelo ‚Üí Parser
‚öôÔ∏è Configura√ß√£o otimizada para consist√™ncia!


### üìß FUN√á√ïES DE PROCESSAMENTO DE EMAILS

Explica√ß√£o: Por que separar em fun√ß√µes?
- C√≥digo mais limpo e organizado
- Facilita testes e manuten√ß√£o
- Permite reutiliza√ß√£o
- Melhora a legibilidade

In [10]:

def extrair_informacoes_email(email_texto, extrator):
    """
    Extrai informa√ß√µes de um email usando IA
    
    Esta fun√ß√£o √© o cora√ß√£o do sistema de extra√ß√£o:
    1. Recebe o texto do email
    2. Envia para a IA processar
    3. Retorna dados estruturados e validados
    
    Args:
        email_texto (str): Texto completo do email
        extrator: Chain configurado para extra√ß√£o
    
    Returns:
        InformacoesEmail: Dados extra√≠dos e validados
        None: Se houver erro na extra√ß√£o
    """
    try:
        # Invoca a chain para processar o email
        resultado = extrator.invoke({"email": email_texto})
        
        # Valida√ß√£o adicional (Pydantic j√° valida automaticamente)
        if resultado and hasattr(resultado, 'remetente'):
            print(f"‚úÖ Email processado: {resultado.assunto}")
            return resultado
        else:
            print("‚ö†Ô∏è Dados incompletos retornados")
            return None
            
    except Exception as e:
        print(f"‚ùå Erro ao extrair informa√ß√µes: {e}")
        return None

def processar_multiplos_emails(emails_texto, categorizador):
    """
    Processa m√∫ltiplos emails de uma vez (processamento em lote)
    
    Esta fun√ß√£o √© otimizada para processar muitos emails:
    1. Formata a lista de emails
    2. Envia tudo para a IA de uma vez
    3. Retorna dados estruturados de todos os emails
    
    Args:
        emails_texto (List[str]): Lista de textos de emails
        categorizador: Chain configurado para categoriza√ß√£o
    
    Returns:
        ListaEmails: Dados processados de todos os emails
        None: Se houver erro no processamento
    """
    try:
        # Formata a lista de emails para a IA
        emails_formatados = "\n\n".join([
            f"Email {i+1}:\n{email}" 
            for i, email in enumerate(emails_texto)
        ])
        
        # Processa todos os emails de uma vez
        resultado = categorizador.invoke({"emails": emails_formatados})
        
        if resultado and hasattr(resultado, 'emails'):
            print(f"‚úÖ Processados {resultado.total_emails} emails")
            return resultado
        else:
            print("‚ö†Ô∏è Dados incompletos retornados")
            return None
            
    except Exception as e:
        print(f"‚ùå Erro ao processar emails: {e}")
        return None

def validar_email_regex(email):
    """
    Valida formato de email usando regex (valida√ß√£o local)
    
    Por que validar localmente?
    - Reduz chamadas desnecess√°rias para a IA
    - Valida√ß√£o mais r√°pida
    - Reduz custos de API
    - Melhora a experi√™ncia do usu√°rio
    
    Args:
        email (str): Endere√ßo de email para validar
    
    Returns:
        bool: True se v√°lido, False caso contr√°rio
    """
    # Padr√£o regex para valida√ß√£o de email
    padrao = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
    return re.match(padrao, email) is not None

def extrair_emails_regex(texto):
    """
    Extrai emails de um texto usando regex
    
    √ötil para:
    - Encontrar emails em textos longos
    - Validar presen√ßa de emails
    - Extrair m√∫ltiplos emails de uma vez
    
    Args:
        texto (str): Texto para extrair emails
    
    Returns:
        List[str]: Lista de emails encontrados
    """
    # Padr√£o regex para encontrar emails
    padrao = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
    emails = re.findall(padrao, texto)
    return emails

print("‚úÖ Fun√ß√µes de processamento criadas!")
print("üîç Valida√ß√£o local implementada!")
print("‚ö° Processamento em lote otimizado!")

‚úÖ Fun√ß√µes de processamento criadas!
üîç Valida√ß√£o local implementada!
‚ö° Processamento em lote otimizado!


### üß™ TESTE COMPLETO DO EXTRATOR DE EMAIL

In [None]:
def teste_completo_extrator():
    """
    Testa todas as funcionalidades do extrator de email
    """
    print("üöÄ TESTE COMPLETO DO EXTRATOR DE EMAIL")
    print("=" * 60)
    
    # 1. Configura o extrator
    print("1Ô∏è‚É£ Configurando extrator...")
    extrator = configurar_extrator()
    categorizador = configurar_categorizador()
    print("‚úÖ Extrator configurado!")
    
    # 2. Emails de teste variados
    print("\n2Ô∏è‚É£ Preparando emails de teste...")
    emails_teste = [
        # Email de trabalho urgente
        """
        De: Jo√£o Silva <joao.silva@empresa.com>
        Para: maria.santos@empresa.com
        Assunto: URGENTE: Reuni√£o cancelada - Projeto X
        Data: 15/03/2024 14:30
        
        Ol√° Maria,
        
        A reuni√£o de hoje √†s 16h foi CANCELADA devido a problemas t√©cnicos.
        Preciso reagendar para amanh√£ √†s 10h. √â URGENTE pois o prazo est√° apertado.
        
        Por favor, confirme sua disponibilidade.
        
        Atenciosamente,
        Jo√£o Silva
        Gerente de Projetos
        """,
        
        # Email pessoal
        """
        De: Ana Costa <ana.costa@gmail.com>
        Para: lucas.biason@outlook.com
        Assunto: Convite para anivers√°rio
        Data: 16/03/2024 19:45
        
        Oi Lucas!
        
        Como vai? Quero te convidar para meu anivers√°rio no s√°bado!
        Ser√° na minha casa √†s 20h. Vai ter bolo, m√∫sica e muita divers√£o.
        
        Confirma se vai conseguir vir? Preciso saber para organizar a comida.
        
        Beijos,
        Ana
        """,
        
        # Email spam
        """
        De: Ganhe Dinheiro <spam@falso.com>
        Para: usuario@email.com
        Assunto: GANHE R$ 10.000 POR M√äS TRABALHANDO DE CASA!
        Data: 17/03/2024 08:00
        
        ATEN√á√ÉO! OPORTUNIDADE √öNICA!
        
        Descubra o segredo que os bancos n√£o querem que voc√™ saiba!
        Ganhe R$ 10.000 por m√™s sem sair de casa!
        
        Clique AQUI agora: [LINK SUSPEITO]
        
        Oferta v√°lida apenas por 24 horas!
        """,
        
        # Newsletter
        """
        De: Newsletter Tech <newsletter@techblog.com>
        Para: assinante@email.com
        Assunto: Newsletter Semanal - IA e Machine Learning
        Data: 18/03/2024 09:00
        
        Ol√° Assinante,
        
        Esta semana trouxemos as principais novidades em IA:
        
        ÔøΩÔøΩ OpenAI lan√ßa GPT-5
        ü§ñ Google anuncia novo modelo de linguagem
        üìä Estudo mostra crescimento de 300% no uso de IA
        
        Leia mais em nosso blog: [LINK]
        
        Equipe TechBlog
        """,
        
        # Email financeiro
        """
        De: Banco Digital <noreply@bancodigital.com>
        Para: cliente@email.com
        Assunto: Extrato mensal dispon√≠vel
        Data: 19/03/2024 07:30
        
        Prezado Cliente,
        
        Seu extrato de mar√ßo/2024 est√° dispon√≠vel para download.
        
        Resumo da conta:
        - Saldo atual: R$ 2.450,00
        - Movimenta√ß√µes: 15 transa√ß√µes
        - Limite dispon√≠vel: R$ 5.000,00
        
        Acesse sua conta para visualizar o extrato completo.
        
        Banco Digital
        """
    ]
    
    print(f"‚úÖ {len(emails_teste)} emails de teste preparados!")
    
    # 3. Testa extra√ß√£o individual
    print("\n3Ô∏è‚É£ Testando extra√ß√£o individual...")
    resultados_individuais = []
    
    for i, email in enumerate(emails_teste):
        print(f"\nüìß Processando Email {i+1}...")
        resultado = extrair_informacoes_email(email, extrator)
        
        if resultado:
            resultados_individuais.append(resultado)
            print(f"‚úÖ Extra√≠do: {resultado.assunto}")
            print(f"   ÔøΩÔøΩ De: {resultado.remetente} ({resultado.email_remetente})")
            print(f"   üè∑Ô∏è Categoria: {resultado.categoria}")
            print(f"   ‚ö° Prioridade: {resultado.prioridade}")
            print(f"   üö® Urg√™ncia: {resultado.urgencia}/5")
            print(f"   üéØ A√ß√£o necess√°ria: {'Sim' if resultado.acao_necessaria else 'N√£o'}")
        else:
            print(f"‚ùå Falha na extra√ß√£o do Email {i+1}")
    
    # 4. Testa processamento em lote
    print(f"\n4Ô∏è‚É£ Testando processamento em lote...")
    resultado_lote = processar_multiplos_emails(emails_teste, categorizador)
    
    if resultado_lote:
        print(f"‚úÖ Processados {resultado_lote.total_emails} emails em lote")
        print(f"üìä Categorias encontradas: {list(resultado_lote.categorias.keys())}")
        
        # Mostra estat√≠sticas
        print("\nüìà ESTAT√çSTICAS:")
        for categoria, count in resultado_lote.categorias.items():
            print(f"   {categoria}: {count} emails")
    
    # 5. Testa valida√ß√µes
    print(f"\n5Ô∏è‚É£ Testando valida√ß√µes...")
    emails_validos = [
        "joao@empresa.com",
        "maria.santos@gmail.com",
        "lucas+teste@outlook.com"
    ]
    
    emails_invalidos = [
        "email-invalido",
        "@dominio.com",
        "usuario@",
        "teste@dominio"
    ]
    
    print("‚úÖ Emails v√°lidos:")
    for email in emails_validos:
        print(f"   {email}: {validar_email_regex(email)}")
    
    print("‚ùå Emails inv√°lidos:")
    for email in emails_invalidos:
        print(f"   {email}: {validar_email_regex(email)}")
    
    # 6. Testa extra√ß√£o com regex
    print(f"\n6Ô∏è‚É£ Testando extra√ß√£o com regex...")
    texto_com_emails = """
    Contato: joao@empresa.com
    Suporte: suporte@tech.com
    Vendas: vendas@loja.com.br
    """
    
    emails_encontrados = extrair_emails_regex(texto_com_emails)
    print(f"ÔøΩÔøΩ Emails encontrados: {emails_encontrados}")
    
    # 7. Resumo final
    print(f"\n7Ô∏è‚É£ RESUMO FINAL:")
    print(f"‚úÖ Emails processados individualmente: {len(resultados_individuais)}")
    print(f"‚úÖ Emails processados em lote: {resultado_lote.total_emails if resultado_lote else 0}")
    print(f"‚úÖ Valida√ß√µes testadas: {len(emails_validos + emails_invalidos)}")
    print(f"‚úÖ Extra√ß√£o regex testada: {len(emails_encontrados)} emails encontrados")
    
    print(f"\nÔøΩÔøΩ TESTE COMPLETO FINALIZADO COM SUCESSO!")
    
    return resultados_individuais, resultado_lote

# Executa o teste completo
resultados_ind, resultados_lote = teste_completo_extrator()

üöÄ TESTE COMPLETO DO EXTRATOR DE EMAIL
1Ô∏è‚É£ Configurando extrator...
‚úÖ Extrator configurado!

2Ô∏è‚É£ Preparando emails de teste...
‚úÖ 5 emails de teste preparados!

3Ô∏è‚É£ Testando extra√ß√£o individual...

üìß Processando Email 1...
‚úÖ Email processado: URGENTE: Reuni√£o cancelada - Projeto X
‚úÖ Extra√≠do: URGENTE: Reuni√£o cancelada - Projeto X
   ÔøΩÔøΩ De: Jo√£o Silva (joao.silva@empresa.com)
   üè∑Ô∏è Categoria: trabalho
   ‚ö° Prioridade: urgente
   üö® Urg√™ncia: 5/5
   üéØ A√ß√£o necess√°ria: Sim

üìß Processando Email 2...
‚úÖ Email processado: Convite para anivers√°rio
‚úÖ Extra√≠do: Convite para anivers√°rio
   ÔøΩÔøΩ De: Ana Costa (ana.costa@gmail.com)
   üè∑Ô∏è Categoria: pessoal
   ‚ö° Prioridade: baixa
   üö® Urg√™ncia: 3/5
   üéØ A√ß√£o necess√°ria: Sim

üìß Processando Email 3...
‚úÖ Email processado: GANHE R$ 10.000 POR M√äS TRABALHANDO DE CASA!
‚úÖ Extra√≠do: GANHE R$ 10.000 POR M√äS TRABALHANDO DE CASA!
   ÔøΩÔøΩ De: Ganhe Dinheiro (spam@falso.c

## üéØ Desafios para Praticar

### **Desafio 1: Sistema de Filtros Avan√ßados** üîç
**Objetivo:** Implementar um sistema de filtros que permita buscar emails por m√∫ltiplos crit√©rios simultaneamente.

**O que voc√™ deve fazer:**
- Criar uma fun√ß√£o que filtre emails por categoria (trabalho, pessoal, spam, etc.)
- Implementar filtros por prioridade (alta, m√©dia, baixa, urgente)
- Adicionar filtro por n√≠vel de urg√™ncia (1-5)
- Criar filtro por emails que requerem a√ß√£o
- Implementar busca por palavras-chave espec√≠ficas
- Permitir combina√ß√£o de m√∫ltiplos filtros

**Exemplo de uso:**
```python
emails_urgentes = filtrar_emails_por_criterios(emails, {
    'urgencia_minima': 4,
    'acao_necessaria': True,
    'categoria': 'trabalho'
})
```

**Dica:** Use operadores l√≥gicos (AND) para combinar crit√©rios.

In [20]:
def filtrar_emails_por_criterios(emails, criterios):
    """
    Filtra emails por m√∫ltiplos crit√©rios
    
    Args:
        emails: Lista de emails processados
        criterios: Dicion√°rio com crit√©rios de filtro
    
    Returns:
        Lista de emails que atendem aos crit√©rios
    """
    emails_filtrados = []
    
    for email in emails:
        atende_criterios = True
        
        # Filtro por categoria
        if 'categoria' in criterios:
            if email.categoria != criterios['categoria']:
                atende_criterios = False
        
        # Filtro por prioridade
        if 'prioridade' in criterios:
            if email.prioridade != criterios['prioridade']:
                atende_criterios = False
        
        # Filtro por urg√™ncia m√≠nima
        if 'urgencia_minima' in criterios:
            if email.urgencia < criterios['urgencia_minima']:
                atende_criterios = False
        
        # Filtro por a√ß√£o necess√°ria
        if 'acao_necessaria' in criterios:
            if email.acao_necessaria != criterios['acao_necessaria']:
                atende_criterios = False
        
        # Filtro por palavras-chave
        if 'palavras_chave' in criterios:
            palavras_encontradas = any(
                palavra.lower() in ' '.join(email.palavras_chave).lower()
                for palavra in criterios['palavras_chave']
            )
            if not palavras_encontradas:
                atende_criterios = False
        
        if atende_criterios:
            emails_filtrados.append(email)
    
    return emails_filtrados


print("\nüîç Testando filtros...")
emails_urgentes = filtrar_emails_por_criterios(resultados_ind, {
    'urgencia_minima': 4,
    'acao_necessaria': True
})
print(f"üìß Emails urgentes com a√ß√£o: {len(emails_urgentes)}")

emails_trabalho = filtrar_emails_por_criterios(resultados_ind, {
    'categoria': 'trabalho'
})
print(f"üìß Emails de trabalho: {len(emails_trabalho)}")


üîç Testando filtros...
üìß Emails urgentes com a√ß√£o: 2
üìß Emails de trabalho: 1


### **Desafio 2: An√°lise de Sentimento** üòä
**Objetivo:** Implementar an√°lise autom√°tica de sentimento dos emails para entender o tom da comunica√ß√£o.

**O que voc√™ deve fazer:**
- Criar um prompt para classificar sentimento (POSITIVO/NEGATIVO/NEUTRO)
- Implementar an√°lise baseada no resumo do email
- Criar fun√ß√£o que processe m√∫ltiplos emails
- Gerar relat√≥rio de sentimento por email
- Integrar com o sistema de urg√™ncia para correlacionar sentimento e urg√™ncia

**Exemplo de sa√≠da:**

üìß "Reuni√£o cancelada": NEGATIVO (Urg√™ncia: 5)

üìß "Convite para anivers√°rio": POSITIVO (Urg√™ncia: 2)

üìß "Newsletter semanal": NEUTRO (Urg√™ncia: 1)


**Dica:** Use o resumo do email para an√°lise, √© mais eficiente que o texto completo.


In [21]:
def analisar_sentimento_emails(emails):
    """
    Analisa o sentimento dos emails
    
    Args:
        emails: Lista de emails processados
    
    Returns:
        Dicion√°rio com an√°lise de sentimento
    """
    from langchain.prompts import PromptTemplate
    from langchain_openai import ChatOpenAI
    from langchain_core.output_parsers import StrOutputParser
    
    # Configura an√°lise de sentimento
    chat_model = ChatOpenAI(temperature=0.0, model_name="gpt-3.5-turbo")
    output_parser = StrOutputParser()
    
    prompt_sentimento = PromptTemplate(
        template="""
        Analise o sentimento do seguinte email e responda apenas com uma das op√ß√µes:
        - POSITIVO: Email com tom positivo, amig√°vel, otimista
        - NEGATIVO: Email com tom negativo, cr√≠tico, pessimista
        - NEUTRO: Email com tom neutro, informativo, formal
        
        Email:
        {email}
        
        Sentimento:
        """,
        input_variables=["email"]
    )
    
    chain_sentimento = prompt_sentimento | chat_model | output_parser
    
    analises = []
    for email in emails:
        try:
            sentimento = chain_sentimento.invoke({"email": email.resumo})
            analises.append({
                "assunto": email.assunto,
                "sentimento": sentimento.strip(),
                "urgencia": email.urgencia
            })
        except Exception as e:
            print(f"‚ùå Erro ao analisar sentimento: {e}")
            analises.append({
                "assunto": email.assunto,
                "sentimento": "NEUTRO",
                "urgencia": email.urgencia
            })
    
    return analises

print("\nüòä Testando an√°lise de sentimento...")
sentimentos = analisar_sentimento_emails(resultados_ind)
for sentimento in sentimentos[:3]:  # Mostra apenas os primeiros 3
    print(f"   {sentimento['assunto']}: {sentimento['sentimento']}")



üòä Testando an√°lise de sentimento...
   URGENTE: Reuni√£o cancelada - Projeto X: NEGATIVO
   Convite para anivers√°rio: POSITIVO
   GANHE R$ 10.000 POR M√äS TRABALHANDO DE CASA!: NEGATIVO


### **Desafio 3: Dashboard de Estat√≠sticas** üìä
**Objetivo:** Criar um dashboard completo com m√©tricas e estat√≠sticas dos emails processados.

**O que voc√™ deve fazer:**
- Calcular total de emails processados
- Contar emails por categoria e prioridade
- Calcular estat√≠sticas de urg√™ncia (m√©dia, m√°xima, m√≠nima)
- Contar emails que requerem a√ß√£o
- Identificar palavras-chave mais frequentes
- Calcular percentuais e propor√ß√µes
- Criar estrutura de dados organizada para visualiza√ß√£o

**M√©tricas obrigat√≥rias:**
- Total de emails
- Distribui√ß√£o por categoria
- Distribui√ß√£o por prioridade
- Estat√≠sticas de urg√™ncia
- Percentual de emails com a√ß√£o necess√°ria
- Top 10 palavras-chave mais frequentes

**Dica:** Use `Counter` do Python para contar frequ√™ncias.


In [23]:
def criar_dashboard_emails(emails):
    """
    Cria dashboard com estat√≠sticas dos emails
    
    Args:
        emails: Lista de emails processados
    
    Returns:
        Dicion√°rio com estat√≠sticas completas
    """
    if not emails:
        return {"erro": "Nenhum email para analisar"}
    
    # Estat√≠sticas b√°sicas
    total_emails = len(emails)
    
    # Contagem por categoria
    categorias = {}
    for email in emails:
        categoria = email.categoria
        categorias[categoria] = categorias.get(categoria, 0) + 1
    
    # Contagem por prioridade
    prioridades = {}
    for email in emails:
        prioridade = email.prioridade
        prioridades[prioridade] = prioridades.get(prioridade, 0) + 1
    
    # Estat√≠sticas de urg√™ncia
    urgencias = [email.urgencia for email in emails]
    urgencia_media = sum(urgencias) / len(urgencias)
    urgencia_max = max(urgencias)
    urgencia_min = min(urgencias)
    
    # Emails que requerem a√ß√£o
    emails_com_acao = sum(1 for email in emails if email.acao_necessaria)
    
    # Palavras-chave mais frequentes
    todas_palavras = []
    for email in emails:
        todas_palavras.extend(email.palavras_chave)
    
    from collections import Counter
    palavras_frequentes = Counter(todas_palavras).most_common(10)
    
    dashboard = {
        "total_emails": total_emails,
        "categorias": categorias,
        "prioridades": prioridades,
        "urgencia": {
            "media": round(urgencia_media, 2),
            "maxima": urgencia_max,
            "minima": urgencia_min
        },
        "emails_com_acao": emails_com_acao,
        "percentual_acao": round((emails_com_acao / total_emails) * 100, 2),
        "palavras_frequentes": palavras_frequentes
    }
    
    return dashboard


print("\nüìä Testando dashboard...")
dashboard = criar_dashboard_emails(resultados_ind)
print(f"üìß Total de emails: {dashboard['total_emails']}")
print(f"üìä Categorias: {dashboard['categorias']}")
print(f"‚ö° Urg√™ncia m√©dia: {dashboard['urgencia']['media']}")
print(f"üìß Emails com a√ß√£o: {dashboard['emails_com_acao']} ({dashboard['percentual_acao']}%)")



üìä Testando dashboard...
üìß Total de emails: 5
üìä Categorias: {'trabalho': 1, 'pessoal': 1, 'spam': 1, 'newsletter': 1, 'Financeiro': 1}
‚ö° Urg√™ncia m√©dia: 3.6
üìß Emails com a√ß√£o: 3 (60.0%)


### **Desafio 4: Exporta√ß√£o Avan√ßada** üíæ
**Objetivo:** Implementar sistema de exporta√ß√£o de dados em formato estruturado para an√°lise posterior.

**O que voc√™ deve fazer:**
- Exportar dados em formato JSON estruturado
- Incluir metadados (timestamp, vers√£o, total de emails)
- Exportar dashboard completo com estat√≠sticas
- Exportar lista detalhada de todos os emails processados
- Criar fun√ß√£o que salve arquivo com nome personalizado
- Incluir informa√ß√µes de valida√ß√£o e integridade dos dados

**Estrutura do arquivo JSON:**
```json
{
  "metadata": {
    "timestamp": "2024-03-20T10:30:00",
    "versao": "1.0",
    "total_emails": 5
  },
  "dashboard": {
    "categorias": {"trabalho": 2, "pessoal": 1},
    "urgencia": {"media": 3.2, "maxima": 5}
  },
  "emails": [...]
}
```

**Dica:** Use `json.dump()` com `ensure_ascii=False` para caracteres especiais.


In [24]:
def exportar_dados_completos(emails, dashboard, filename="relatorio_emails_completo.json"):
    """
    Exporta dados completos em formato JSON
    
    Args:
        emails: Lista de emails processados
        dashboard: Dashboard com estat√≠sticas
        filename: Nome do arquivo para exportar
    """
    import json
    from datetime import datetime
    
    # Prepara dados para exporta√ß√£o
    dados_export = {
        "metadata": {
            "timestamp": datetime.now().isoformat(),
            "versao": "1.0",
            "total_emails": len(emails)
        },
        "dashboard": dashboard,
        "emails": []
    }
    
    # Adiciona emails processados
    for email in emails:
        dados_export["emails"].append({
            "remetente": email.remetente,
            "email_remetente": email.email_remetente,
            "assunto": email.assunto,
            "data_envio": email.data_envio,
            "categoria": email.categoria,
            "prioridade": email.prioridade,
            "urgencia": email.urgencia,
            "acao_necessaria": email.acao_necessaria,
            "palavras_chave": email.palavras_chave,
            "resumo": email.resumo
        })
    
    # Salva arquivo
    with open(filename, 'w', encoding='utf-8') as f:
        json.dump(dados_export, f, ensure_ascii=False, indent=2)
    
    print(f"‚úÖ Dados exportados para {filename}")
    return filename

print("\nüíæ Testando exporta√ß√£o...")
arquivo_exportado = exportar_dados_completos(resultados_ind, dashboard)
print(f"‚úÖ Arquivo exportado: {arquivo_exportado}")


üíæ Testando exporta√ß√£o...
‚úÖ Dados exportados para relatorio_emails_completo.json
‚úÖ Arquivo exportado: relatorio_emails_completo.json
