# ü§ñ Assistente Virtual H√≠brido (IA + Comandos Locais)

Este notebook apresenta a implementa√ß√£o de um assistente virtual modular. Ele combina o poder de modelos de linguagem de larga escala (LLMs) com funcionalidades locais de automa√ß√£o.

### üåü Funcionalidades Principais:
- **STT (Speech to Text)**: Reconhecimento de fala local utilizando o modelo **OpenAI Whisper**.
- **TTS (Text to Speech)**: S√≠ntese de voz offline atrav√©s da biblioteca **pyttsx3**.
- **IA (C√©rebro)**: Integra√ß√£o com o modelo **GLM-4.7-Flash** via Hugging Face Router.
- **Automa√ß√£o Local**: Comandos diretos para Wikipedia, YouTube e busca por servi√ßos pr√≥ximos (ex: farm√°cias).

## üõ†Ô∏è Passo 1: Instala√ß√£o de Depend√™ncias

Antes de come√ßar, precisamos garantir que todas as bibliotecas necess√°rias estejam instaladas no ambiente. Este bloco detecta depend√™ncias ausentes e as instala automaticamente.

In [1]:
# Verifica√ß√£o e instala√ß√£o autom√°tica de depend√™ncias
try:
    # Tenta importar as bibliotecas principais para checar se existem
    import openai
    import whisper
    import sounddevice
    import pyttsx3
    import dotenv
    print("‚úÖ Depend√™ncias j√° est√£o configuradas no ambiente.")
except ImportError:
    # Caso alguma falhe, inicia a instala√ß√£o via pip
    print("‚è≥ Algumas depend√™ncias n√£o foram encontradas. Instalando... (isso pode levar alguns minutos)")
    # Bibliotecas:
    # - openai: Interface para a API da IA
    # - openai-whisper: Modelo de transcri√ß√£o de √°udio local
    # - sounddevice & scipy: Captura e processamento de √°udio do microfone
    # - pyttsx3: Motor de s√≠ntese de voz offline
    # - python-dotenv: Carregamento de chaves de API de arquivos .env
    %pip install openai openai-whisper sounddevice scipy pyttsx3 python-dotenv

‚úÖ Depend√™ncias j√° est√£o configuradas no ambiente.


## ‚öôÔ∏è Passo 2: Importa√ß√µes e Configura√ß√µes

Importamos os m√≥dulos do Python e carregamos as vari√°veis de ambiente (como o token do Hugging Face).

In [2]:
import argparse
from typing import Protocol, Optional, Iterable
from dataclasses import dataclass
import os
import urllib.parse
import webbrowser
import time
from dotenv import load_dotenv

# Carrega as configura√ß√µes do arquivo .env (Token da API, etc.)
load_dotenv()

print("‚úÖ M√≥dulos importados e configura√ß√µes de ambiente carregadas.")

‚úÖ M√≥dulos importados e configura√ß√µes de ambiente carregadas.


## üèóÔ∏è Passo 3: Defini√ß√£o de Interfaces (Protocolos)

Para manter o c√≥digo organizado e modular, definimos interfaces para o Reconhecimento de Voz (STT) e S√≠ntese de Voz (TTS). Isso permite trocar as tecnologias sem alterar a l√≥gica principal do assistente.

In [3]:
class SpeechToText(Protocol):
    """Interface para componentes que convertem fala em texto."""
    def listen(self, timeout: Optional[float] = None) -> Optional[str]:
        """Ouve o √°udio e retorna a string transcrita ou None."""
        pass

class TextToSpeech(Protocol):
    """Interface para componentes que convertem texto em fala."""
    def speak(self, text: str) -> None:
        """Processa a string de texto e emite o som correspondente."""
        pass

## üéôÔ∏è Passo 4: Implementa√ß√£o do STT (Escuta)

Implementamos duas formas de entrada: 
1. **WhisperSTT**: Usa o microfone e o modelo local do Whisper.
2. **TextInputSTT**: Permite interagir via teclado (ideal para depura√ß√£o ou ambientes sem microfone).

In [4]:
class WhisperSTT:
    """Reconhecimento de fala local usando OpenAI Whisper."""
    def __init__(self, model_size: str = "base", language: str = "pt", duration: int = 5):
        """
        Inicializa o modelo Whisper.
        :param model_size: Tamanho do modelo (base, tiny, small, etc.)
        :param language: Idioma para transcri√ß√£o
        :param duration: Tempo padr√£o de grava√ß√£o em segundos
        """
        # Importa√ß√µes internas para carregar apenas se necess√°rio
        import whisper
        import sounddevice as sd
        import scipy.io.wavfile as wav
        import tempfile
        import os
        
        self._whisper = whisper
        self._sd = sd
        self._wav = wav
        self._tempfile = tempfile
        self._os = os
        
        # Carrega o modelo na mem√≥ria
        print(f"‚è≥ Carregando modelo Whisper '{model_size}'...")
        self._model = whisper.load_model(model_size)
        self._language = language
        self._duration = duration

    def listen(self, timeout: Optional[float] = None) -> Optional[str]:
        """Grava o microfone e transcreve o √°udio para texto."""
        duration = timeout if timeout is not None else self._duration
        fs = 44100  # Frequ√™ncia de amostragem
        
        print(f"\nüé§ [Escutando...] Fale agora ({duration}s).")
        
        try:
            # Grava √°udio do dispositivo de entrada padr√£o
            recording = self._sd.rec(int(duration * fs), samplerate=fs, channels=1, dtype='int16')
            self._sd.wait()  # Espera a grava√ß√£o terminar
            print("‚è≥ [Processando...]")
            
            # Salva em um arquivo tempor√°rio para processamento do Whisper
            with self._tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
                temp_filename = f.name
            
            self._wav.write(temp_filename, fs, recording)
            
            # Transcri√ß√£o
            result = self._model.transcribe(temp_filename, language=self._language, fp16=False)
            text = result["text"].strip()
            
            # Limpeza do arquivo tempor√°rio
            try:
                self._os.remove(temp_filename)
            except:
                pass
                
            return text if text else None
        except Exception as e:
            print(f"‚ùå Erro no processamento de √°udio: {e}")
            return None

class TextInputSTT:
    """Simula reconhecimento de fala atrav√©s de entrada de texto no console."""
    def __init__(self, inputs: Optional[Iterable[str]] = None):
        self._inputs = list(inputs) if inputs is not None else None

    def listen(self, timeout: Optional[float] = None) -> Optional[str]:
        """L√™ do teclado ou de uma lista pr√©-definida de comandos."""
        if self._inputs is not None:
            if not self._inputs: return None
            return self._inputs.pop(0)
        try:
            return input("\n‚å®Ô∏è Digite seu comando (ou 'sair'): ").strip()
        except EOFError:
            return None

## üîä Passo 5: Implementa√ß√£o do TTS (Fala)

Configuramos a sa√≠da de voz. O **Pyttsx3TTS** utiliza as vozes instaladas no sistema operacional, funcionando totalmente offline.

In [5]:
class Pyttsx3TTS:
    """S√≠ntese de voz offline usando pyttsx3."""
    def __init__(self, language: str = "pt-BR", rate: Optional[int] = None):
        """
        Inicializa o motor de voz.
        :param language: Prefixo do idioma (ex: pt)
        :param rate: Velocidade da fala
        """
        import pyttsx3
        self._engine = pyttsx3.init()
        self._language = language
        
        if rate is not None:
            self._engine.setProperty("rate", rate)
            
        self._select_voice()

    def _select_voice(self) -> None:
        """Busca no sistema uma voz compat√≠vel com o idioma escolhido."""
        voices = self._engine.getProperty("voices")
        chosen = None
        for v in voices:
            name = getattr(v, "name", "") or ""
            lang = "".join(getattr(v, "languages", []) or [])
            # Verifica se o idioma ou nome da voz cont√©m o c√≥digo do idioma (ex: pt)
            if self._language.lower()[:2] in (lang.lower(), name.lower()):
                chosen = v.id
                break
        if chosen:
            self._engine.setProperty("voice", chosen)

    def speak(self, text: str) -> None:
        """Imprime o texto e reproduz o √°udio."""
        print(f"ü§ñ Assistente: {text}")
        try:
            self._engine.say(text)
            self._engine.runAndWait()
        except Exception as e:
            print(f"‚ö†Ô∏è Erro ao emitir som: {e}")

class SilentTTS:
    """Apenas imprime as respostas, sem emitir som."""
    def speak(self, text: str) -> None:
        print(f"ü§ñ Assistente (Modo Silencioso): {text}")

## üß† Passo 6: Integra√ß√£o com Intelig√™ncia Artificial

Conectamos o assistente ao modelo **GLM-4.7-Flash**. Esta fun√ß√£o inclui l√≥gica de retentativa para garantir robustez contra falhas tempor√°rias de rede.

In [6]:
def get_glm_response(text: str) -> Optional[str]:
    """
    Envia o texto para a API da IA e retorna a resposta gerada.
    Inclui 3 tentativas em caso de erro de timeout ou servidor.
    """
    max_retries = 3
    retry_delay = 2
    
    for attempt in range(max_retries):
        try:
            from openai import OpenAI
            
            # Recupera o token do arquivo .env
            hf_token = os.getenv("HF_TOKEN")
            if not hf_token or hf_token == "seu_token_hf_aqui":
                return "‚ö†Ô∏è Erro: HF_TOKEN n√£o configurado no arquivo .env."
                
            # Configura o cliente para o Router do Hugging Face
            client = OpenAI(
                base_url="https://router.huggingface.co/v1",
                api_key=hf_token,
                timeout=30.0
            )
            
            # Chamada de chat completion
            response = client.chat.completions.create(
                model="zai-org/GLM-4.7-Flash",
                messages=[
                    {"role": "system", "content": "Voc√™ √© um assistente virtual prestativo e conciso. Responda em portugu√™s brasileiro."},
                    {"role": "user", "content": text}
                ]
            )
            return response.choices[0].message.content
            
        except Exception as e:
            error_str = str(e)
            # Verifica se √© um erro que vale a pena tentar de novo (502, 503, 504, Timeout)
            if any(code in error_str for code in ["504", "502", "503", "timeout"]) and attempt < max_retries - 1:
                print(f"‚ö†Ô∏è Falha na conex√£o com a IA. Tentando novamente em {retry_delay}s... (Tentativa {attempt + 1})")
                time.sleep(retry_delay * (attempt + 1))
                continue
            
            # Trata erros espec√≠ficos de infraestrutura (respostas HTML)
            if "<!DOCTYPE html>" in error_str or "<html>" in error_str:
                return "‚ùå O servidor de IA est√° inst√°vel no momento. Por favor, tente novamente mais tarde."
                
            return f"‚ùå Erro t√©cnico na IA: {error_str}"
            
    return "‚ùå Falha definitiva ap√≥s m√∫ltiplas tentativas de conex√£o."

## ‚ö° Passo 7: Processamento de Comandos e A√ß√µes

Aqui definimos a l√≥gica que decide se o comando do usu√°rio √© um atalho local (abrir site, pesquisar) ou se deve ser enviado para a IA.

In [7]:
@dataclass
class ActionResult:
    """Classe simples para armazenar o resultado de uma execu√ß√£o de comando."""
    success: bool
    message: str
    is_ai: bool = False

def parse_and_execute(text: str) -> ActionResult:
    """
    Analisa a string de entrada e executa a a√ß√£o correspondente.
    Prioriza comandos locais antes de enviar para a IA.
    """
    s = (text or "").lower().strip()
    if not s: return ActionResult(False, "N√£o entendi o que voc√™ disse.")
    
    # --- COMANDOS LOCAIS ---
    
    # A√ß√£o: Pesquisar na Wikipedia
    if "wikipedia" in s:
        q = s.replace("wikipedia", "").replace("pesquisar", "").strip()
        url = "https://pt.wikipedia.org/wiki/Special:Search?search=" + urllib.parse.quote_plus(q)
        webbrowser.open(url)
        return ActionResult(True, f"Pesquisando sobre '{q}' na Wikipedia.")
        
    # A√ß√£o: Pesquisar no YouTube
    if "youtube" in s or "video" in s:
        q = s.replace("youtube", "").replace("video", "").replace("pesquisar", "").strip()
        url = "https://www.youtube.com/results?search_query=" + urllib.parse.quote_plus(q)
        webbrowser.open(url)
        return ActionResult(True, f"Buscando v√≠deos sobre '{q}' no YouTube.")
        
    # A√ß√£o: Buscar farm√°cia pr√≥xima
    if "farm√°cia" in s or "farmacia" in s:
        webbrowser.open("https://www.google.com/maps/search/farmacia+perto+de+mim")
        return ActionResult(True, "Abrindo o mapa com as farm√°cias mais pr√≥ximas.")
    
    # --- PROCESSAMENTO VIA IA ---
    # Se nenhum comando local foi detectado, pergunta ao GLM-4
    print("üîç Consultando a intelig√™ncia artificial...")
    ai_response = get_glm_response(text)
    
    if ai_response:
        return ActionResult(True, ai_response, is_ai=True)
        
    return ActionResult(False, "Desculpe, n√£o consegui processar seu pedido.")

## üïπÔ∏è Passo 8: Classe Orquestradora do Assistente

Esta classe gerencia o ciclo de vida do assistente: ouvir o usu√°rio, processar a inten√ß√£o e responder via √°udio.

In [8]:
class Assistant:
    """Gerenciador principal do fluxo de conversa√ß√£o do assistente virtual."""
    def __init__(self, stt: SpeechToText, tts: TextToSpeech):
        """
        Injeta as depend√™ncias de Voz e Fala.
        :param stt: Inst√¢ncia de um provedor de fala-para-texto
        :param tts: Inst√¢ncia de um provedor de texto-para-fala
        """
        self._stt = stt
        self._tts = tts

    def run(self):
        """Inicia o loop infinito de intera√ß√£o."""
        self._tts.speak("Ol√°! Sou seu assistente virtual inteligente. Como posso ajudar voc√™ hoje?")
        
        while True:
            # 1. Escuta a entrada do usu√°rio
            text = self._stt.listen()
            if not text: continue
            
            print(f"üë§ Usu√°rio: {text}")
            
            # 2. Verifica se o usu√°rio quer encerrar o programa
            if text.lower().strip() in ["sair", "encerrar", "tchau", "finalizar", "adeus"]:
                self._tts.speak("Entendido. Encerrando o sistema. At√© logo!")
                break
                
            # 3. Processa o comando (Local ou IA)
            result = parse_and_execute(text)
            
            # 4. Responde via √°udio e texto
            self._tts.speak(result.message)

## üöÄ Passo 9: Inicializa√ß√£o e Execu√ß√£o

Agora, configuramos as implementa√ß√µes que queremos usar (Voz vs Teclado) e iniciamos o assistente.

In [9]:
# Configura√ß√£o dos componentes para o Notebook

# Recomendado para Notebook: Entrada via teclado (TextInputSTT)
# Para usar microfone, descomente a linha do WhisperSTT abaixo e comente a do TextInputSTT
stt = TextInputSTT()
# stt = WhisperSTT(duration=5)

try:
    # Tenta carregar o motor de voz local
    tts = Pyttsx3TTS()
except Exception as e:
    # Se o sistema n√£o tiver suporte a som, usa o modo silencioso (apenas texto)
    print(f"‚ö†Ô∏è Aviso: N√£o foi poss√≠vel iniciar o motor de voz ({e}). Usando modo silencioso.")
    tts = SilentTTS()

# Instancia e executa o assistente
assistant = Assistant(stt, tts)
assistant.run()

ü§ñ Assistente: Ol√°! Sou seu assistente virtual inteligente. Como posso ajudar voc√™ hoje?
üë§ Usu√°rio: oi
üîç Consultando a intelig√™ncia artificial...
ü§ñ Assistente: Ol√°! Como posso ajudar voc√™ hoje?
üë§ Usu√°rio: sair
ü§ñ Assistente: Entendido. Encerrando o sistema. At√© logo!
