In [1]:
import os
import numpy as np
import sounddevice as sd
import tempfile
import scipy.io.wavfile
import cv2
import torch
import io
from pydub import AudioSegment
from IPython.display import Audio as IPyAudio
from playsound import playsound
from faster_whisper import WhisperModel
from transformers import VitsModel, AutoTokenizer
from ultralytics import YOLO
from langchain_ollama import ChatOllama
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_core.output_parsers import StrOutputParser
from langchain_core.messages import AIMessage, HumanMessage

# === CONFIG ===
SAMPLE_RATE = 16000
DURATION = 5
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
print(DEVICE)

  from .autonotebook import tqdm as notebook_tqdm


cuda


In [2]:
# ------------------------------ Configura√ß√£o do Modelo ------------------------------
def model_ollama(model, temperature=0.1):
    """Retorna uma inst√¢ncia do modelo LLM especificado."""
    return ChatOllama(model=model.lower().replace(" ", ""), temperature=temperature)

def model_response(user_query, chat_history, model_name):
    """Gera uma resposta baseada na intera√ß√£o do usu√°rio com o modelo de IA."""
    try:
        llm = model_ollama(model_name)

        system_prompt = """
            Voc√™ √© um assistente inteligente para automa√ß√£o residencial.
            Utilize racioc√≠nio estruturado seguindo o m√©todo cadeia de pensamento (chain-of-thought):

            1. Compreenda claramente o comando do usu√°rio.
            2. Identifique qual a√ß√£o deve ser executada (ligar dispositivo, informar status, alterar configura√ß√£o).
            3. Se o usu√°rio quiser conversar seja simples e direto nas respostas.
            4. Execute (simule) a a√ß√£o solicitada.
            5. Confirme a execu√ß√£o ou forne√ßa a informa√ß√£o solicitada ao usu√°rio de forma clara e amig√°vel.

            Sempre responda com linguagem simples e amig√°vel, adequada para uma conversa casual dentro de casa.
            N√£o mencione sua an√°lise ou interpreta√ß√£o ao usu√°rio, apenas confirme diretamente a execu√ß√£o da a√ß√£o.
        """

        prompt_template = ChatPromptTemplate.from_messages([
            ("system", system_prompt),
            MessagesPlaceholder(variable_name="chat_history"),
            ("user", "{input}")
        ])

        chain = prompt_template | llm | StrOutputParser()

        return chain.invoke({
            "chat_history": chat_history,
            "input": user_query
        })

    except Exception:
        return "‚ùå Desculpe, n√£o consegui entender ou realizar essa a√ß√£o. Por favor, tente novamente."



In [3]:
modelos_disponiveis = ["Llama 3.2", "phi4", "gemma3:27b"]
escolha = 1  # √çndice do modelo desejado

In [4]:
# === √ÅUDIO PARA TEXTO ===
def capture_audio_and_transcribe():
    print("üéôÔ∏è Gravando √°udio...")
    audio = sd.rec(int(DURATION * SAMPLE_RATE), samplerate=SAMPLE_RATE, channels=1, dtype='float32')
    sd.wait()
    print("‚úÖ Grava√ß√£o conclu√≠da.")
    
    audio = np.squeeze(audio)
    audio = np.clip(audio, -1.0, 1.0)
    audio_int16 = (audio * 32767).astype(np.int16)
    
    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
        scipy.io.wavfile.write(tmp.name, SAMPLE_RATE, audio_int16)
        audio_path = tmp.name
    
    model = WhisperModel("medium", compute_type="float32", device=DEVICE)
    segments, info = model.transcribe(audio_path, language="pt")
    os.remove(audio_path)
    
    transcription = " ".join([seg.text for seg in segments])
    print(f"üìù Transcri√ß√£o: {transcription}")
    return transcription

# === VIS√ÉO POR C√ÇMERA ===
def capture_image_and_describe():
    model = YOLO("yolov8n.pt")
    cap = cv2.VideoCapture(0)
    ret, frame = cap.read()
    cap.release()
    if not ret:
        return "Nenhuma imagem capturada."

    results = model(frame)
    names = results[0].names
    boxes = results[0].boxes

    objetos = []
    for box in boxes:
        cls_id = int(box.cls[0])
        label = names[cls_id]
        conf = float(box.conf[0])
        objetos.append((label, conf))

    if not objetos:
        return "Nenhum objeto detectado."

    descricoes = []
    for label, conf in objetos:
        conf_percent = int(conf * 100)
        if conf >= 0.7:
            descricoes.append(f"{label} ({conf_percent}%)")
        elif conf >= 0.4:
            descricoes.append(f"poss√≠vel {label} ({conf_percent}%)")
        else:
            descricoes.append(f"{label} incerto ({conf_percent}%)")

    return f"Objetos detectados: {', '.join(descricoes)}."


# ------------------------------ Configura√ß√£o do Modelo ------------------------------
def model_ollama(model, temperature=0.1):
    """Retorna uma inst√¢ncia do modelo LLM especificado."""
    return ChatOllama(model=model.lower().replace(" ", ""), temperature=temperature)

def ask_llm_ollama(user_query, chat_history, model_name="phi4"):
    """Gera uma resposta baseada na intera√ß√£o do usu√°rio com o modelo de IA."""
    try:
        llm = model_ollama(model_name)

        # system_prompt = """
        #     Voc√™ √© um assistente inteligente para automa√ß√£o residencial.
        #     Utilize racioc√≠nio estruturado seguindo o m√©todo cadeia de pensamento (chain-of-thought):

        #     1. Compreenda claramente o comando do usu√°rio.
        #     2. Identifique qual a√ß√£o deve ser executada (ligar dispositivo, informar status, alterar configura√ß√£o).
        #     3. Se o usu√°rio quiser conversar seja simples e direto nas respostas.
        #     4. Execute (simule) a a√ß√£o solicitada.
        #     5. Confirme a execu√ß√£o ou forne√ßa a informa√ß√£o solicitada ao usu√°rio de forma clara e amig√°vel.

        #     Sempre responda com linguagem simples e amig√°vel, adequada para uma conversa casual dentro de casa.
        #     N√£o mencione sua an√°lise ou interpreta√ß√£o ao usu√°rio, apenas confirme diretamente a execu√ß√£o da a√ß√£o.
        # """
        system_prompt = """
            Voc√™ √© um assistente dom√©stico com percep√ß√£o visual e auditiva.

            - Use a descri√ß√£o da c√¢mera, que inclui objetos detectados e seus n√≠veis de confian√ßa.
            - Avalie se o que foi detectado √© confi√°vel ou n√£o.
            - Baseie sua resposta na fala do usu√°rio e nos objetos com maior confian√ßa.
            - Ignore objetos com baixa confian√ßa, ou mencione que s√£o incertos.
            - Seja claro, educado e direto.

            Exemplos:
            - Se um objeto tem confian√ßa > 80%, considere-o confirmado.
            - Se est√° entre 40% e 80%, mencione como "poss√≠vel".
            - Abaixo disso, trate como incerto e evite afirmar.

            Fale sempre em portugu√™s, como se estivesse presente no ambiente.
            """


        prompt_template = ChatPromptTemplate.from_messages([
            ("system", system_prompt),
            MessagesPlaceholder(variable_name="chat_history"),
            ("user", "{input}")
        ])

        chain = prompt_template | llm | StrOutputParser()

        return chain.invoke({
            "chat_history": chat_history,
            "input": user_query
        })

    except Exception:
        return "‚ùå Desculpe, n√£o consegui entender ou realizar essa a√ß√£o. Por favor, tente novamente."

# === TEXTO PARA √ÅUDIO ===
def speak_text_with_mms(text):
    from transformers import VitsModel, AutoTokenizer
    import torch
    import io
    import scipy.io.wavfile
    import numpy as np
    from IPython.display import Audio, display

    model = VitsModel.from_pretrained("facebook/mms-tts-por")
    tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-por")

    inputs = tokenizer(text, return_tensors="pt")
    with torch.no_grad():
        output = model(**inputs).waveform

    audio = output.squeeze().numpy()
    audio = audio / np.max(np.abs(audio))  # normaliza para [-1, 1]
    audio_int16 = (audio * 32767).astype(np.int16)

    # Cria buffer de √°udio em mem√≥ria (formato WAV)
    buffer = io.BytesIO()
    scipy.io.wavfile.write(buffer, rate=model.config.sampling_rate, data=audio_int16)
    buffer.seek(0)

    # Exibe e toca o √°udio automaticamente no notebook
    display(Audio(buffer.read(), rate=model.config.sampling_rate, autoplay=True))



In [5]:
history = []
while True:
    user_input = capture_audio_and_transcribe()
    if not user_input.strip():
        continue
    if "sair" in user_input.lower():
        print("üëã Encerrando assistente.")
        break

    vision_desc = capture_image_and_describe()
    full_prompt = f"{user_input}\nVis√£o: {vision_desc}"
    history.append(HumanMessage(content=full_prompt))
    modelo_escolhido = modelos_disponiveis[escolha - 1] if 0 < escolha <= len(modelos_disponiveis) else "phi4"
    print(f"\n‚úÖ Modelo selecionado: {modelo_escolhido}")
    llm_response = model_response(full_prompt, history, modelo_escolhido)
    print("ü§ñ:", llm_response)
    speak_text_with_mms(llm_response)

    history.append(HumanMessage(content=user_input))
    history.append(AIMessage(content=llm_response))

üéôÔ∏è Gravando √°udio...
‚úÖ Grava√ß√£o conclu√≠da.
üìù Transcri√ß√£o:  Quais objetos estava vendo aqui na minha m√£o?

0: 480x640 3 persons, 1 cell phone, 38.6ms
Speed: 2.0ms preprocess, 38.6ms inference, 64.4ms postprocess per image at shape (1, 3, 480, 640)

‚úÖ Modelo selecionado: Llama 3.2
ü§ñ: Parece que voc√™ est√° segurando um objeto que pode ser uma celular, mas n√£o estou seguro. Vou tentar ajudar! Voc√™ quer saber se √© uma celular ou algo mais?


üéôÔ∏è Gravando √°udio...
‚úÖ Grava√ß√£o conclu√≠da.
üìù Transcri√ß√£o: 
üéôÔ∏è Gravando √°udio...
‚úÖ Grava√ß√£o conclu√≠da.
üìù Transcri√ß√£o: 
üéôÔ∏è Gravando √°udio...
‚úÖ Grava√ß√£o conclu√≠da.
üìù Transcri√ß√£o: 
üéôÔ∏è Gravando √°udio...
‚úÖ Grava√ß√£o conclu√≠da.
üìù Transcri√ß√£o: 
üéôÔ∏è Gravando √°udio...
‚úÖ Grava√ß√£o conclu√≠da.
üìù Transcri√ß√£o: 
üéôÔ∏è Gravando √°udio...
‚úÖ Grava√ß√£o conclu√≠da.
üìù Transcri√ß√£o: 
üéôÔ∏è Gravando √°udio...
‚úÖ Grava√ß√£o conclu√≠da.
üìù Transcri√ß√£o: 
üéôÔ∏è Gravando √°udio...
‚úÖ Grava√ß√£o conclu√≠da.
üìù Transcri√ß√£o:  Parece que voc√™ est√° segurando um objeto que pode ser uma celular.

0: 480x640 1 person, 9.5ms
Speed: 1.5ms preprocess, 9.5ms inference, 2.0ms postprocess per image at shape (1, 3, 480, 640)

‚úÖ Modelo selecionado: Llama 3.2
ü§ñ: Sim, parece que a confian√ßa est√° aumentando! Voc√™ est√° certinho, √© prov√°vel que seja uma celular. Posso tentar ajudar com algo? Voc√™ quer lig√°-la ou fazer alg

KeyboardInterrupt: 