In [2]:
import re

def get_cpu_model_name():
    """
    Manually parses /proc/cpuinfo to find the 'model name'.
    Returns a list of all model names found (one for each logical core).
    """
    model_names = []
    try:
        with open('/proc/cpuinfo', 'r') as f:
            for line in f:
                if 'model name' in line:
                    # Use regex to extract the text after the colon and strip whitespace
                    match = re.search(r'model name\s*:\s*(.*)', line)
                    if match:
                        model_names.append(match.group(1).strip())
    except IOError:
        print("Error: Could not read /proc/cpuinfo file.")
        return []
    
    # Return unique model names if there are multiple identical cores
    return list(set(model_names))

if __name__ == '__main__':
    cpu_models = get_cpu_model_name()
    if cpu_models:
        for index, model in enumerate(cpu_models):
            print(f"CPU Model {index + 1}: {model}")
    else:
        print("Could not determine CPU model name.")


CPU Model 1: AMD Ryzen 9 9950X3D 16-Core Processor


In [3]:
cpu_models[0]

'AMD Ryzen 9 9950X3D 16-Core Processor'

In [4]:
import platform
import psutil
import json

def get_system_info():
    info = {}
    info['Plataforma'] = platform.system()
    #info['Nome do N√≥'] = platform.node()
    info[f'Vers√£o do SO'] = platform.release()
    info['Arquitetura'] = platform.machine()
    info['Processador'] = cpu_models[0]
    # Informa√ß√£o de RAM em GB
    info['RAM Total'] = str(round(psutil.virtual_memory().total / (1024.0 ** 3))) + " GB"
    # Informa√ß√£o da CPU (exemplo simples)
    info['CPU Cores (f√≠sicos)'] = psutil.cpu_count(logical=False)
    info['CPU Cores (l√≥gicos)'] = psutil.cpu_count(logical=True)
    return info
print("="*40, "Informa√ß√µes do Sistema e Hardware", "="*40)
#print(get_system_info())
for key, value in get_system_info().items():
    print(f"{key}: {value}")
print("="*40, "="*40)



Plataforma: Linux
Vers√£o do SO: 6.12.63-1-MANJARO
Arquitetura: x86_64
Processador: AMD Ryzen 9 9950X3D 16-Core Processor
RAM Total: 60 GB
CPU Cores (f√≠sicos): 16
CPU Cores (l√≥gicos): 32


In [5]:
import torch

if torch.cuda.is_available():
    print(f"GPU Name: {torch.cuda.get_device_name(0)}")
    print(f"CUDA version PyTorch was built with: {torch.version.cuda}")

print(f"Python version: {platform.python_version()}")
print(f"PyTorch version: {torch.__version__}")
#print(f"CUDA available: {torch.cuda.is_available()}")


GPU Name: NVIDIA GeForce RTX 5070 Ti
CUDA version PyTorch was built with: 12.8
Python version: 3.11.14
PyTorch version: 2.11.0.dev20260108+cu128


## Gerador de voz

In [7]:
import numpy as np
import sounddevice as sd
from piper.voice import PiperVoice

# 1. Carregar o modelo
model_path = "voz_br.onnx"
config_path = "voz_br.onnx.json"
voice = PiperVoice.load(model_path, config_path)

def sintetizar_voz_br(texto):
    print("üó£Ô∏è Sintetizando √°udio (Piper PT-BR)...")
    
    audio_segments = []
    
    # Iteramos sobre os chunks gerados pelo Piper
    for chunk in voice.synthesize(texto):
        # Baseado no seu dir(chunk), o atributo correto √© audio_int16_array
        if hasattr(chunk, 'audio_int16_array'):
            audio_segments.append(chunk.audio_int16_array)
    
    if not audio_segments:
        print("‚ùå Nenhum dado de √°udio foi gerado.")
        return

    # Concatena os arrays NumPy
    full_audio = np.concatenate(audio_segments)
    
    # Normaliza int16 -> float32 para o sounddevice (divis√£o por 32768)
    audio_float = full_audio.astype(np.float32) / 32768.0
    
    # Taxa de amostragem padr√£o (22050Hz para o modelo Faber)
    rate = 22050 
    
    print(f"üîä Reproduzindo na sua RTX 5070 Ti...")
    sd.play(audio_float, samplerate=rate)
    sd.wait()
    print("‚úÖ Conclu√≠do!")

# Teste final:
sintetizar_voz_br("O or√°culo est√° vivo e falando portugu√™s brasileiro perfeitamente!")

üó£Ô∏è Sintetizando √°udio (Piper PT-BR)...
üîä Reproduzindo na sua RTX 5070 Ti...
‚úÖ Conclu√≠do!


## Grava√ß√£o de audio

In [8]:
import sounddevice as sd
import numpy as np
from scipy.io.wavfile import write
import tempfile
import os

def gravar_audio(duracao_segundos=5, taxa_amostragem=16000):

    """
    Grava √°udio do microfone e salva em um arquivo tempor√°rio.
    Grava √°udio do microfone e salva em um arquivo tempor√°rio.
    O Whisper funciona melhor com 16000Hz.
    """
    print(f"üé§ Ouvindo por {duracao_segundos} segundos... Fale agora!")

    # Captura o √°udio (mono, float32)

    gravacao = sd.rec(
    int(duracao_segundos * taxa_amostragem),
    samplerate=taxa_amostragem,
    channels=1,
    dtype='float32'
    )

    # Aguarda a grava√ß√£o terminar

    sd.wait()
    print("‚úÖ Grava√ß√£o finalizada.")

    # Salva em um arquivo tempor√°rio para o Whisper ler

    temp_file = tempfile.mktemp(suffix='.wav')
    write(temp_file, taxa_amostragem, gravacao)

    return temp_file

# Teste r√°pido de grava√ß√£o:

arquivo_teste = gravar_audio(duracao_segundos=4)

üé§ Ouvindo por 4 segundos... Fale agora!
‚úÖ Grava√ß√£o finalizada.


In [9]:
arquivo_teste

'/tmp/tmpoc1oh3iw.wav'

In [10]:
from IPython.display import Audio, display

# Supondo que 'arquivo_teste' seja o caminho do arquivo .wav gerado
print(f"Ouvindo o arquivo: {arquivo_teste}")

# O player do Jupyter carrega o arquivo do disco
display(Audio(arquivo_teste))

Ouvindo o arquivo: /tmp/tmpoc1oh3iw.wav


## Transcri√ß√£o de audio para fala

In [15]:
from faster_whisper import WhisperModel
import os

# 1. Inicializa√ß√£o do modelo (se ainda n√£o o fez nesta sess√£o)
# Para a s√©rie 50, o flash_attention pode acelerar ainda mais se dispon√≠vel
print("üöÄ Carregando modelo na RTX 5070 Ti...")
model_stt = WhisperModel(
    "medium", 
    device="cuda", 
    compute_type="float16"
)

def transcrever_audio(caminho_arquivo):
    if not os.path.exists(caminho_arquivo):
        print("‚ùå Arquivo n√£o encontrado!")
        return ""

    print("üîç Iniciando transcri√ß√£o...")
    
    # Par√¢metros vitais para evitar transcri√ß√µes vazias:
    # - language="pt": Evita que ele perca tempo tentando identificar o idioma.
    # - vad_filter=True: Remove sil√™ncios brancos que podem confundir o modelo.
    # - beam_size=5: Melhora a precis√£o da busca.
    segments, info = model_stt.transcribe(
        caminho_arquivo, 
        beam_size=5,
        language="pt",
        vad_filter=True,
        vad_parameters=dict(min_silence_duration_ms=500)
    )

    print(f"Detectado idioma: {info.language} (Probabilidade: {info.language_probability:.2f})")

    texto_final = ""
    # Itera pelos segmentos e imprime conforme aparecem
    for segment in segments:
        # CORRE√á√ÉO: Usamos .2f para float. O 's' de segundos deve ficar fora das chaves.
        print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")
        texto_final += segment.text + " "

    return texto_final.strip()


üöÄ Carregando modelo na RTX 5070 Ti...




In [16]:
# --- EXECU√á√ÉO ---
resultado = transcrever_audio(arquivo_teste)

if resultado:
    print(f"\n‚úÖ TRANSCRITO: {resultado}")
else:
    print("\n‚ö†Ô∏è O modelo n√£o detectou fala no √°udio. Verifique o volume da grava√ß√£o.")

üîç Iniciando transcri√ß√£o...
Detectado idioma: pt (Probabilidade: 1.00)
[0.37s -> 2.37s]  Teste de grava√ß√£o de √°udio.

‚úÖ TRANSCRITO: Teste de grava√ß√£o de √°udio.


## Testando o modelo de LLM 

In [20]:
import ollama

def testar_gemma(texto_usuario):
    try:
        response = ollama.chat(
            model='gemma3:12b-it-qat', 
            messages=[
                {'role': 'system', 'content': 'Voc√™ √© um assistente conciso. Responda apenas com texto puro.'},
                {'role': 'user', 'content': texto_usuario},
            ]
        )
        
        resposta_texto = response['message']['content']
        
        # LIMPEZA: Remove tokens de parada e espa√ßos extras
        tokens_para_remover = ["</end_of_turn>", "<pad>", "<eos>"]
        for token in tokens_para_remover:
            resposta_texto = resposta_texto.replace(token, "")
            
        resposta_texto = resposta_texto.strip()
        
        print(f"ü§ñ Or√°culo: {resposta_texto}")
        return resposta_texto

    except Exception as e:
        print(f"‚ùå Erro: {e}")
        return "Erro na intelig√™ncia."

# Teste manual
resposta = testar_gemma("Quem √© voc√™ e qual placa de v√≠deo voc√™ est√° usando?")

ü§ñ Or√°culo: Sou um modelo de linguagem grande, treinado pelo Google. N√£o uso placas de v√≠deo.


## Rodando o teste final    

In [21]:
# 1. Grava e Transcreve (o que fizemos antes)
arquivo_audio = gravar_audio(duracao_segundos=5)
texto_pergunta = transcrever_audio(arquivo_audio)

if texto_pergunta:
    # 2. Envia para a LLM
    resposta_ia = testar_gemma(texto_pergunta)
    
    # 3. Faz a IA falar (usando a fun√ß√£o do Piper que validamos)
    sintetizar_voz_br(resposta_ia)
else:
    print("Nenhum texto detectado para enviar √† LLM.")

üé§ Ouvindo por 5 segundos... Fale agora!
‚úÖ Grava√ß√£o finalizada.
üîç Iniciando transcri√ß√£o...
Detectado idioma: pt (Probabilidade: 1.00)
[0.18s -> 3.18s]  Qual a melhor forma de estudar a programa√ß√£o?
ü§ñ Or√°culo: Pr√°tica, projetos, comunidade, recursos online.
üó£Ô∏è Sintetizando √°udio (Piper PT-BR)...
üîä Reproduzindo na sua RTX 5070 Ti...
‚úÖ Conclu√≠do!
