In [None]:
# ==============================================================================
# PASSO 1: INSTALAÇÃO DE TODAS AS DEPENDÊNCIAS
# ==============================================================================
print("PASSO 1: Instalando todas as bibliotecas necessárias para o projeto completo...")

# Instala o Whisper e suas dependências
!pip install git+https://github.com/openai/whisper.git --quiet

# Instala as bibliotecas para o Llama 3 e processamento de texto
!pip install transformers torch accelerate bitsandbytes --quiet
!pip install pydantic --quiet
!pip install unidecode --quiet

print("✅ Todas as bibliotecas foram instaladas!")


# ==============================================================================
# PASSO 2: IMPORTS GERAIS, CONFIGURAÇÕES E DEFINIÇÕES DE CLASSES
# ==============================================================================
print("\nPASSO 2: Realizando imports e definindo todas as classes e funções...")

# --- Imports de Sistema e IA ---
import torch
import whisper
import os
import json
import re
import unidecode
from collections import OrderedDict
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from pydantic import BaseModel, Field
from typing import Any

# --- Imports para Gravação no Colab ---
from google.colab import output
from IPython.display import display, Javascript
import base64

# --- Módulo de Normalização de Texto ---
def _criar_mapeamento_numeros():
    unidades = {'zero': 0, 'um': 1, 'uma': 1, 'dois': 2, 'duas': 2, 'três': 3, 'quatro': 4, 'cinco': 5, 'seis': 6, 'sete': 7, 'oito': 8, 'nove': 9}
    especiais = {'dez': 10, 'onze': 11, 'doze': 12, 'treze': 13, 'catorze': 14, 'quatorze': 14, 'quinze': 15, 'dezesseis': 16, 'dezessete': 17, 'dezoito': 18, 'dezenove': 19}
    dezenas = {'vinte': 20, 'trinta': 30, 'quarenta': 40, 'cinquenta': 50, 'sessenta': 60, 'setenta': 70, 'oitenta': 80, 'noventa': 90}
    centenas = {'cem': 100, 'cento': 100, 'duzentos': 200, 'trezentos': 300, 'quatrocentos': 400, 'quinhentos': 500, 'seiscentos': 600, 'setecentos': 700, 'oitocentos': 800, 'novecentos': 900}
    mapa_numeros = {}; mapa_numeros.update(unidades); mapa_numeros.update(especiais); mapa_numeros.update(dezenas); mapa_numeros.update(centenas)
    for d_texto, d_valor in dezenas.items():
        for u_texto, u_valor in unidades.items():
            if u_valor > 0: mapa_numeros[f'{d_texto} e {u_texto}'] = d_valor + u_valor
    itens_menores_que_100 = {k: v for k, v in mapa_numeros.items() if 0 < v < 100}
    for c_texto, c_valor in centenas.items():
        if c_texto == 'cem': continue
        for resto_texto, resto_valor in itens_menores_que_100.items(): mapa_numeros[f'{c_texto} e {resto_texto}'] = c_valor + resto_valor
    mapa_numeros['mil'] = 1000
    mapa_numeros_str = {k: str(v) for k, v in mapa_numeros.items()}
    return OrderedDict(sorted(mapa_numeros_str.items(), key=lambda item: len(item[0]), reverse=True))

MAPA_NUMEROS = _criar_mapeamento_numeros()

def converter_numeros(texto: str) -> str:
    for extenso, digital in MAPA_NUMEROS.items():
        texto = re.sub(r'\b' + re.escape(extenso) + r'\b', digital, texto)
    def somar_tokens(match):
        num1, num2 = int(match.group(1)), int(match.group(2))
        return str(num1 + num2) if num1 > num2 else match.group(0)
    texto_anterior = ""
    while texto_anterior != texto:
        texto_anterior = texto
        texto = re.sub(r'(\d+)\s+e\s+(\d+)', somar_tokens, texto)
    return texto

def normalizar_texto(texto: str) -> str:
    if not isinstance(texto, str): return ""
    texto_processado = texto.lower()
    texto_processado = converter_numeros(texto_processado)
    texto_processado = unidecode.unidecode(texto_processado)
    texto_processado = re.sub(r'[^\w\s\d.-]', '', texto_processado)
    texto_processado = re.sub(r'\s+', ' ', texto_processado).strip()
    return texto_processado

# --- Classes para o Pipeline do Llama 3 ---
class ExtractedInfo(BaseModel):
    entidade: Any = Field(description="A entidade alvo exata encontrada.")
    contexto: str = Field(description="A frase completa onde a entidade foi encontrada.")

class PromptGenerationEngine:
    def generate_prompt(self, texto_para_analise: str, entidade_alvo: str, tipo_entidade: str, nome_do_ambiente: str, heuristica: str = None):
        prompt_parts = []
        prompt_parts.append(
            f"### Atribuição de Papel (Persona)\n"
            f"Você é um sistema de extração de informações (IE) ultra-preciso, especializado em analisar textos e anúncios em um ambiente de '{nome_do_ambiente}'. "
            "Seu único propósito é identificar e extrair entidades específicas e o contexto em que elas aparecem. "
            "Siga as instruções à risca. Não forneça explicações ou diálogos. Apenas o JSON solicitado."
        )
        cot_instructions = [
            "\n### Instruções e Cadeia de Pensamento (CoT)", "Siga estes passos rigorosamente:",
            f"1. Analise o 'Texto para Análise' para encontrar qualquer menção que se pareça com um(a) '{tipo_entidade}'.",
            f"2. Verifique se a menção encontrada corresponde EXATAMENTE à 'Entidade Alvo' definida: '{entidade_alvo}'.",
            "3. Se uma correspondência exata for encontrada, extraia a frase completa e inalterada onde ela apareceu.",
            "4. Se nenhuma correspondência exata for encontrada, retorne um JSON com os campos 'entidade' e 'contexto' como strings vazias.",
            "5. Finalmente, formate a saída RIGOROSAMENTE como o 'Esquema de Saída JSON' especificado, sem adicionar nenhum texto antes ou depois."
        ]
        prompt_parts.append("\n".join(cot_instructions))
        if heuristica and heuristica.strip():
            prompt_parts.append(f"\n### Heurística de Extração (Regra)\nUtilize esta regra para ajudar: \"{heuristica}\"")
        schema_json_string = json.dumps(ExtractedInfo.model_json_schema(), indent=2)
        prompt_parts.append(f"\n### Esquema de Saída (JSON Schema)\nSua resposta DEVE ser um único objeto JSON que adere a este esquema:\n```json\n{schema_json_string}\n```")
        prompt_parts.append(f'\n### Texto para Análise\n"""\n{texto_para_analise}\n"""')
        prompt_parts.append("\n### Objeto JSON Extraído:")
        return "\n\n".join(prompt_parts)

class LLMInferenceEngine:
    def __init__(self, model, tokenizer): self.model = model; self.tokenizer = tokenizer
    def infer(self, prompt: str, pydantic_schema: BaseModel):
        print("\nIniciando a inferência direta...")
        messages = [{"role": "user", "content": prompt}]
        chat_prompt = self.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
        inputs = self.tokenizer(chat_prompt, return_tensors="pt").to(self.model.device)
        input_length = inputs.input_ids.shape[1]
        terminators = [self.tokenizer.eos_token_id, self.tokenizer.convert_tokens_to_ids("<|eot_id|>")]
        outputs = self.model.generate(**inputs, max_new_tokens=256, eos_token_id=terminators, do_sample=True, temperature=0.1, top_p=0.9)
        response_text = self.tokenizer.decode(outputs[0][input_length:], skip_special_tokens=True)
        print("Inferência concluída. Extraindo JSON manualmente...")
        try:
            json_start = response_text.find('{'); json_end = response_text.rfind('}') + 1
            if json_start == -1 or json_end == 0: raise ValueError("Nenhum JSON válido encontrado na saída do modelo.")
            json_string = response_text[json_start:json_end]
            validated_object = pydantic_schema.model_validate_json(json_string)
            print("JSON extraído e validado com sucesso.")
            return validated_object
        except Exception as e:
            print(f"❌ Falha ao processar a saída do LLM. Erro: {e}"); print(f"--- Saída Bruta do Modelo --- \n{response_text}\n--------------------------"); raise e

class PostProcessingValidator:
    def validate(self, extracted_data: ExtractedInfo, entidade_alvo: str):
        print("\nIniciando validação de pós-processamento...")
        if str(extracted_data.entidade).strip() == str(entidade_alvo).strip():
            print(f"✅ Validação OK: Entidade extraída '{extracted_data.entidade}' corresponde ao alvo.")
            return True
        else:
            print(f"❌ Validação Falhou: Entidade extraída '{extracted_data.entidade}' NÃO corresponde ao alvo '{entidade_alvo}'."); return False

print("✅ Todas as classes e funções foram definidas.")


# ==============================================================================
# PASSO 3: CARREGAMENTO DOS MODELOS DE IA (WHISPER E LLAMA 3)
# ==============================================================================
print("\nPASSO 3: Carregando todos os modelos de IA...")

# --- Carregamento do Whisper ---
try:
    whisper_model = whisper.load_model("medium")
    print("✅ Modelo Whisper carregado com sucesso!")
except Exception as e:
    print(f"❌ Falha ao carregar o modelo Whisper. Erro: {e}")

# --- Carregamento do Llama 3 ---
try:
    HF_TOKEN = "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" # ⚠️ Insira seu token de acesso do Hugging Face aqui.
    if HF_TOKEN == "COLE_SEU_TOKEN_AQUI" or not HF_TOKEN: raise ValueError("Token do Hugging Face é obrigatório!")
    quantization_config = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_compute_dtype=torch.float16)
    model_name = "meta-llama/Meta-Llama-3-8B-Instruct"
    llama_model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto", quantization_config=quantization_config, token=HF_TOKEN)
    llama_tokenizer = AutoTokenizer.from_pretrained(model_name, token=HF_TOKEN)
    print("✅ Modelo Llama 3 e Tokenizador carregados com sucesso!")
except Exception as e:
    print(f"❌ Falha ao carregar o modelo Llama 3. Erro: {e}")

print("✅ Carregamento dos modelos concluído.")


# ==============================================================================
# PASSO 4: FUNÇÕES DE EXECUÇÃO DO PIPELINE
# ==============================================================================
print("\nPASSO 4: Definindo as funções de execução dos pipelines...")

# --- Função para o Pipeline de Simulação (Texto Fixo) ---
def executar_simulacoes_texto():
    simulacoes = [
        {
            "nome_do_ambiente": "Aeroporto Internacional",
            "texto_bruto": "Atenção, senhores passageiros. O voo JJ3054 com destino a Recife está com o embarque encerrado. Informamos também que o voo AD4402 para Salvador terá um atraso de trinta minutos.",
            "entidade_alvo": "JJ3054",
            "tipo_entidade": "número de voo da LATAM",
            "heuristica": "O número do voo da LATAM começa com 'JJ' e tem quatro dígitos."
        },
        {
            "nome_do_ambiente": "Consultório Médico",
            "texto_bruto": "A Dra. Aline informa que a paciente Maria Souza, prontuário MS0025B, deve se dirigir ao consultório três para a coleta de exames. A senha para o Wi-Fi é clinica2025.",
            "entidade_alvo": "MS0025B",
            "tipo_entidade": "número de prontuário do paciente",
            "heuristica": "O prontuário é um código que começa com as iniciais do paciente, seguido por números e uma letra no final."
        },
        {
            "nome_do_ambiente": "Supermercado",
            "texto_bruto": "Oferta do dia! Leite integral da marca LeiteBom, código de barras 7891234567890, de cinco e cinquenta por apenas quatro e noventa e nove. Aproveite!",
            "entidade_alvo": "7891234567890",
            "tipo_entidade": "código de barras de um produto (EAN-13)",
            "heuristica": "O código de barras de um produto no Brasil (EAN-13) é um número que geralmente começa com 789 e tem 13 dígitos no total."
        }
    ]
    prompt_engine = PromptGenerationEngine()
    inference_engine = LLMInferenceEngine(llama_model, llama_tokenizer)
    validator = PostProcessingValidator()

    for i, sim in enumerate(simulacoes):
        print(f"\n\n{'='*50}")
        print(f"🚀 SIMULAÇÃO {i+1}/{len(simulacoes)}: {sim['nome_do_ambiente']}")
        print(f"{'='*50}")

        texto_normalizado = normalizar_texto(sim['texto_bruto'])
        print(f"\nTexto Bruto:   '{sim['texto_bruto']}'")
        print(f"Normalizado: '{texto_normalizado}'")

        prompt = prompt_engine.generate_prompt(
            texto_para_analise=texto_normalizado,
            entidade_alvo=sim['entidade_alvo'],
            tipo_entidade=sim['tipo_entidade'],
            nome_do_ambiente=sim['nome_do_ambiente'],
            heuristica=sim['heuristica']
        )
        try:
            extracted_data = inference_engine.infer(prompt, ExtractedInfo)
            print("\n--- JSON Extraído ---")
            print(extracted_data.model_dump_json(indent=2))
            validator.validate(extracted_data, sim['entidade_alvo'])
        except Exception as e:
            print(f"\n🚨 Ocorreu um erro na simulação: {e}")

# --- Funções para o Pipeline de Áudio em Tempo Real ---
DURATION = 10  # <--- MUDANÇA: Tempo de áudio estendido para 10 segundos
FILENAME = "temp_audio_chunk.webm"

RECORD_JS = f"""
const sleep = time => new Promise(resolve => setTimeout(resolve, time));
async function recordAudio() {{
    const div = document.createElement('div');
    const label = document.createElement('label');
    label.textContent = "Gravando... Fale agora!";
    div.appendChild(label);
    document.body.appendChild(div);
    const stream = await navigator.mediaDevices.getUserMedia({{ audio: true }});
    const mediaRecorder = new MediaRecorder(stream, {{ mimeType: 'audio/webm' }});
    let audioChunks = [];
    mediaRecorder.addEventListener("dataavailable", event => {{
        audioChunks.push(event.data);
    }});
    const stopPromise = new Promise(resolve => {{
        mediaRecorder.addEventListener("stop", () => {{
            stream.getTracks().forEach(track => track.stop());
            const audioBlob = new Blob(audioChunks, {{ type: 'audio/webm' }});
            const reader = new FileReader();
            reader.readAsDataURL(audioBlob);
            reader.onloadend = () => {{
                const base64data = reader.result;
                document.body.removeChild(div);
                resolve(base64data);
            }};
        }});
    }});
    mediaRecorder.start();
    await sleep({DURATION * 1000});
    mediaRecorder.stop();
    return await stopPromise;
}}
"""

def record_audio_colab():
    print(f"\nIniciando gravação de {DURATION} segundos...")
    display(Javascript(RECORD_JS))
    base64_audio = output.eval_js('recordAudio()')
    audio_data = base64.b64decode(base64_audio.split(',')[1])
    with open(FILENAME, 'wb') as f:
        f.write(audio_data)
    print("Gravação concluída e salva.")
    return FILENAME

def executar_escuta_tempo_real():
    print("\n--- CONFIGURANDO MODO DE ESCUTA ---")
    nome_do_ambiente = input("Em que tipo de ambiente você está (ex: Aeroporto, Hospital)? ")
    entidade_alvo = input("Qual é a informação EXATA que você quer encontrar (ex: JJ3054, MS0025B)? ")
    tipo_entidade = input("Descreva o TIPO de informação (ex: número de voo, prontuário)? ")
    heuristica = input("Alguma dica ou regra para ajudar a encontrar? (Opcional, pressione Enter para pular): ")
    print("------------------------------------")

    prompt_engine = PromptGenerationEngine()
    inference_engine = LLMInferenceEngine(llama_model, llama_tokenizer)
    validator = PostProcessingValidator()

    try:
        while True:
            record_audio_colab()

            print("Processando transcrição...")
            result = whisper_model.transcribe(FILENAME, language="pt", fp16=torch.cuda.is_available())
            transcribed_text = result["text"].strip()

            if transcribed_text:
                print("="*50)
                print(">>> TEXTO TRANSCrito: ", transcribed_text)
                print("="*50)

                # Integração com o pipeline do Llama 3
                texto_normalizado = normalizar_texto(transcribed_text)
                prompt = prompt_engine.generate_prompt(
                    texto_para_analise=texto_normalizado,
                    entidade_alvo=entidade_alvo,
                    tipo_entidade=tipo_entidade,
                    nome_do_ambiente=nome_do_ambiente,
                    heuristica=heuristica
                )
                extracted_data = inference_engine.infer(prompt, ExtractedInfo)
                print("\n--- RESULTADO DA ANÁLISE ---")
                print(extracted_data.model_dump_json(indent=2))
                if validator.validate(extracted_data, entidade_alvo):
                    print("\n🎉🎉🎉 ALERTA! INFORMAÇÃO ENCONTRADA! 🎉🎉🎉")

            else:
                print("Nenhum áudio detectado ou a transcrição está vazia.")

            user_input = input("\nPressione Enter para gravar novamente ou digite 'sair' para parar: ")
            if user_input.lower() == 'sair':
                break
    finally:
        if os.path.exists(FILENAME):
            os.remove(FILENAME)
        print("\nModo de escuta finalizado.")

print("✅ Funções de execução prontas.")

# ==============================================================================
# PASSO 5: MENU PRINCIPAL DE EXECUÇÃO
# ==============================================================================
print("\n" + "="*60)
print("🚀 PROJETO 'OUVIDO SELETIVO' - SISTEMA INTEGRADO 🚀")
print("="*60)

while True:
    print("\nEscolha o modo de operação:")
    print("1. Executar simulações com texto pré-definido.")
    print("2. Iniciar modo de escuta em tempo real (usando o microfone).")
    print("3. Sair.")

    escolha = input("Digite o número da sua escolha: ")

    if escolha == '1':
        executar_simulacoes_texto()
    elif escolha == '2':
        executar_escuta_tempo_real()
    elif escolha == '3':
        print("\nFinalizando o programa. Até mais!")
        break
    else:
        print("\n❌ Opção inválida. Por favor, escolha 1, 2 ou 3.")

PASSO 1: Instalando todas as bibliotecas necessárias para o projeto completo...
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.3/61.3 MB[0m [31m12.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.8/235.8 kB[0m [31m7.7 MB/s[0m eta [36m0:00:00[0m
[?25h✅ Todas as bibliotecas foram instaladas!

PASSO 2: Realizando imports e definindo todas as classes e funções...
✅ Todas as classes e funções foram definidas.

PASSO 3: Carregando todos os modelos de IA...


100%|█████████████████████████████████████| 1.42G/1.42G [00:58<00:00, 26.0MiB/s]


✅ Modelo Whisper carregado com sucesso!


config.json:   0%|          | 0.00/654 [00:00<?, ?B/s]

`torch_dtype` is deprecated! Use `dtype` instead!


model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/187 [00:00<?, ?B/s]

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/51.0k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/73.0 [00:00<?, ?B/s]

✅ Modelo Llama 3 e Tokenizador carregados com sucesso!
✅ Carregamento dos modelos concluído.

PASSO 4: Definindo as funções de execução dos pipelines...
✅ Funções de execução prontas.

🚀 PROJETO 'OUVIDO SELETIVO' - SISTEMA INTEGRADO 🚀

Escolha o modo de operação:
1. Executar simulações com texto pré-definido.
2. Iniciar modo de escuta em tempo real (usando o microfone).
3. Sair.
Digite o número da sua escolha: 1


Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.




🚀 SIMULAÇÃO 1/3: Aeroporto Internacional

Texto Bruto:   'Atenção, senhores passageiros. O voo JJ3054 com destino a Recife está com o embarque encerrado. Informamos também que o voo AD4402 para Salvador terá um atraso de trinta minutos.'
Normalizado: 'atencao senhores passageiros. o voo jj3054 com destino a recife esta com o embarque encerrado. informamos tambem que o voo ad4402 para salvador tera 1 atraso de 30 minutos.'

Iniciando a inferência direta...


Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


Inferência concluída. Extraindo JSON manualmente...
JSON extraído e validado com sucesso.

--- JSON Extraído ---
{
  "entidade": "JJ3054",
  "contexto": "o voo jj3054 com destino a recife esta com o embarque encerrado."
}

Iniciando validação de pós-processamento...
✅ Validação OK: Entidade extraída 'JJ3054' corresponde ao alvo.


🚀 SIMULAÇÃO 2/3: Consultório Médico

Texto Bruto:   'A Dra. Aline informa que a paciente Maria Souza, prontuário MS0025B, deve se dirigir ao consultório três para a coleta de exames. A senha para o Wi-Fi é clinica2025.'
Normalizado: 'a dra. aline informa que a paciente maria souza prontuario ms0025b deve se dirigir ao consultorio 3 para a coleta de exames. a senha para o wi-fi e clinica2025.'

Iniciando a inferência direta...


Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


Inferência concluída. Extraindo JSON manualmente...
JSON extraído e validado com sucesso.

--- JSON Extraído ---
{
  "entidade": "MS0025B",
  "contexto": "a paciente maria souza prontuario MS0025B deve se dirigir ao consultorio 3 para a coleta de exames."
}

Iniciando validação de pós-processamento...
✅ Validação OK: Entidade extraída 'MS0025B' corresponde ao alvo.


🚀 SIMULAÇÃO 3/3: Supermercado

Texto Bruto:   'Oferta do dia! Leite integral da marca LeiteBom, código de barras 7891234567890, de cinco e cinquenta por apenas quatro e noventa e nove. Aproveite!'
Normalizado: 'oferta do dia leite integral da marca leitebom codigo de barras 7891234567890 de 5 e 50 por apenas 4 e 99. aproveite'

Iniciando a inferência direta...
Inferência concluída. Extraindo JSON manualmente...
JSON extraído e validado com sucesso.

--- JSON Extraído ---
{
  "entidade": "7891234567890",
  "contexto": "codigo de barras 7891234567890 de 5 e 50 por apenas 4 e 99."
}

Iniciando validação de pós-processamento..

Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.




🚀 SIMULAÇÃO 1/3: Aeroporto Internacional

Texto Bruto:   'Atenção, senhores passageiros. O voo JJ3054 com destino a Recife está com o embarque encerrado. Informamos também que o voo AD4402 para Salvador terá um atraso de trinta minutos.'
Normalizado: 'atencao senhores passageiros. o voo jj3054 com destino a recife esta com o embarque encerrado. informamos tambem que o voo ad4402 para salvador tera 1 atraso de 30 minutos.'

Iniciando a inferência direta...


Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


Inferência concluída. Extraindo JSON manualmente...
JSON extraído e validado com sucesso.

--- JSON Extraído ---
{
  "entidade": "JJ3054",
  "contexto": "o voo jj3054 com destino a recife esta com o embarque encerrado."
}

Iniciando validação de pós-processamento...
✅ Validação OK: Entidade extraída 'JJ3054' corresponde ao alvo.


🚀 SIMULAÇÃO 2/3: Consultório Médico

Texto Bruto:   'A Dra. Aline informa que a paciente Maria Souza, prontuário MS0025B, deve se dirigir ao consultório três para a coleta de exames. A senha para o Wi-Fi é clinica2025.'
Normalizado: 'a dra. aline informa que a paciente maria souza prontuario ms0025b deve se dirigir ao consultorio 3 para a coleta de exames. a senha para o wi-fi e clinica2025.'

Iniciando a inferência direta...


Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


Inferência concluída. Extraindo JSON manualmente...
JSON extraído e validado com sucesso.

--- JSON Extraído ---
{
  "entidade": "MS0025B",
  "contexto": "a paciente maria souza prontuario MS0025B deve se dirigir ao consultorio 3 para a coleta de exames."
}

Iniciando validação de pós-processamento...
✅ Validação OK: Entidade extraída 'MS0025B' corresponde ao alvo.


🚀 SIMULAÇÃO 3/3: Supermercado

Texto Bruto:   'Oferta do dia! Leite integral da marca LeiteBom, código de barras 7891234567890, de cinco e cinquenta por apenas quatro e noventa e nove. Aproveite!'
Normalizado: 'oferta do dia leite integral da marca leitebom codigo de barras 7891234567890 de 5 e 50 por apenas 4 e 99. aproveite'

Iniciando a inferência direta...
Inferência concluída. Extraindo JSON manualmente...
JSON extraído e validado com sucesso.

--- JSON Extraído ---
{
  "entidade": "7891234567890",
  "contexto": "codigo de barras 7891234567890"
}

Iniciando validação de pós-processamento...
✅ Validação OK: Entidade ex

<IPython.core.display.Javascript object>


Modo de escuta finalizado.


MessageError: NotAllowedError: The request is not allowed by the user agent or the platform in the current context.