In [None]:
!pip install nemo-toolkit[asr]

In [4]:
# ------------------------------
# 1. Fun√ß√µes auxiliares (ASR)
# ------------------------------
import librosa
import numpy as np
import time
import nemo.collections.asr as nemo_asr
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch

def carregar_audio(caminho, sr=16000):
    """Carrega arquivo de √°udio e converte para 16 kHz mono, retornando dura√ß√£o."""
    audio, _ = librosa.load(caminho, sr=sr, mono=True)
    return np.array(audio, dtype=np.float32), sr, len(audio) / sr  # dura√ß√£o em segundos

# ------------------------------
# Fun√ß√£o para modelos NeMo
# ------------------------------
def avaliar_modelo_nemo(modelo_id, caminho_audio):
    """
    Executa infer√™ncia com modelos NeMo, retornando:
    - RTF
    - lat√™ncia total (segundos)
    - transcri√ß√£o
    """
    print(f"üîΩ Carregando modelo NeMo {modelo_id} ...")
    asr_model = nemo_asr.models.ASRModel.from_pretrained(modelo_id)

    # Carregar √°udio e obter dura√ß√£o
    audio, sr, duracao = carregar_audio(caminho_audio, sr=16000)

    inicio = time.time()
    transcricao_obj = asr_model.transcribe([caminho_audio])[0]
    fim = time.time()

    tempo_processamento = fim - inicio  # lat√™ncia total em segundos
    rtf = tempo_processamento / duracao  # c√°lculo do RTF

    transcricao_texto = getattr(transcricao_obj, "text", str(transcricao_obj))
    return rtf, tempo_processamento, transcricao_texto

# ------------------------------
# Fun√ß√£o para modelos Hugging Face
# ------------------------------
def avaliar_modelo_hf(modelo_id, caminho_audio):
    """
    Executa infer√™ncia com modelos Hugging Face, retornando:
    - RTF
    - lat√™ncia total (segundos)
    - transcri√ß√£o
    """
    print(f"üîΩ Carregando modelo HF {modelo_id} ...")
    processor = Wav2Vec2Processor.from_pretrained(modelo_id)
    model = Wav2Vec2ForCTC.from_pretrained(modelo_id)
    model.eval()

    audio, sr, duracao = carregar_audio(caminho_audio, sr=16000)
    input_values = processor(audio, sampling_rate=sr, return_tensors="pt").input_values

    inicio = time.time()
    with torch.no_grad():
        logits = model(input_values).logits
    fim = time.time()

    tempo_processamento = fim - inicio
    rtf = tempo_processamento / duracao

    pred_ids = torch.argmax(logits, dim=-1)
    transcricao_texto = processor.batch_decode(pred_ids)[0]

    return rtf, tempo_processamento, transcricao_texto

# ------------------------------
# Fun√ß√£o para calcular m√©tricas
# ------------------------------
def calcular_metricas(modelo, rtf, latencia_total, saida, referencia=None, rank=None):
    """
    Retorna dicion√°rio com:
    - Rank
    - Modelo
    - RTF
    - Lat√™ncia total (s e ms)
    - Transcri√ß√£o
    - WER aproximado
    """
    if not isinstance(saida, str) and hasattr(saida, 'text'):
        saida = saida.text
    elif not isinstance(saida, str):
        saida = str(saida)

    resultado = {
        "Rank": rank if rank is not None else "-",
        "Modelo": modelo,
        "RTF": round(rtf, 3),
        "Lat√™ncia (s)": round(latencia_total, 3),
        "Lat√™ncia (ms)": round(latencia_total * 1000, 2),
        "Transcri√ß√£o": saida,
        "WER aproximado": None
    }

    if referencia:
        ref_tokens = referencia.lower().split()
        out_tokens = saida.lower().split()
        intersecao = len(set(ref_tokens) & set(out_tokens))
        wer_aprox = 1 - (intersecao / len(ref_tokens)) if ref_tokens else 1.0
        resultado["WER aproximado"] = round(wer_aprox, 3)

    return resultado


In [None]:
# ------------------------------
# Avalia√ß√£o de modelos ASR espec√≠ficos (PT-BR) - com RTF + LAT√äNCIA
# ------------------------------

import os
import time
import pandas as pd
import librosa
import nemo.collections.asr as nemo_asr
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
import numpy as np

# ------------------------------
# Fun√ß√µes auxiliares
# ------------------------------

def carregar_audio(caminho, sr=16000):
    """Carrega arquivo de √°udio, converte para 16 kHz mono e retorna dura√ß√£o em segundos."""
    audio, _ = librosa.load(caminho, sr=sr, mono=True)
    audio = np.array(audio, dtype=np.float32)
    duracao = len(audio) / sr if sr > 0 else 0.0
    return audio, sr, duracao

def avaliar_modelo_nemo(modelo_id, caminho_audio):
    """Executa infer√™ncia com modelos NeMo e retorna RTF, lat√™ncia total e transcri√ß√£o."""
    print(f"\nüîπ Avaliando modelo NeMo: {modelo_id}")
    asr_model = nemo_asr.models.ASRModel.from_pretrained(modelo_id)

    _, _, duracao = carregar_audio(caminho_audio, sr=16000)

    inicio = time.time()
    transcricao_obj = asr_model.transcribe([caminho_audio])[0]
    fim = time.time()

    tempo_processamento = fim - inicio
    rtf = tempo_processamento / duracao if duracao > 0 else float("inf")

    transcricao_texto = getattr(transcricao_obj, "text", str(transcricao_obj))
    return rtf, tempo_processamento, transcricao_texto

def avaliar_modelo_hf(modelo_id, caminho_audio):
    """Executa infer√™ncia com modelos Hugging Face e retorna RTF, lat√™ncia total e transcri√ß√£o."""
    print(f"\nüîπ Avaliando modelo HF: {modelo_id}")
    processor = Wav2Vec2Processor.from_pretrained(modelo_id)
    model = Wav2Vec2ForCTC.from_pretrained(modelo_id)
    model.eval()

    audio, sr, duracao = carregar_audio(caminho_audio)
    if sr != 16000:
        raise ValueError("O modelo HF requer √°udio em 16 kHz.")

    inputs = processor(audio, sampling_rate=16000, return_tensors="pt", padding=True)

    inicio = time.time()
    with torch.no_grad():
        logits = model(inputs.input_values).logits
    fim = time.time()

    tempo_processamento = fim - inicio
    rtf = tempo_processamento / duracao if duracao > 0 else float("inf")

    predicted_ids = torch.argmax(logits, dim=-1)
    transcricao_texto = processor.batch_decode(predicted_ids)[0]

    return rtf, tempo_processamento, transcricao_texto

def calcular_metricas(modelo, rtf, latencia_total, saida, referencia=None):
    """Retorna m√©tricas b√°sicas para compara√ß√£o de transcri√ß√£o (inclui RTF + lat√™ncia total)."""
    resultado = {
        "Modelo": modelo,
        "RTF": round(rtf, 3),
        "Lat√™ncia (s)": round(latencia_total, 3),
        "Lat√™ncia (ms)": round(latencia_total * 1000, 2),
        "Transcri√ß√£o": saida
    }

    if referencia:
        if not isinstance(saida, str):
            saida = str(saida)

        ref_tokens = referencia.lower().split()
        out_tokens = saida.lower().split()

        intersecao = len(set(ref_tokens) & set(out_tokens))
        wer_aprox = 1 - (intersecao / len(ref_tokens)) if ref_tokens else 1.0

        resultado["WER aproximado"] = round(wer_aprox, 3)

    return resultado

def limpar_transcricao(x):
    """Extrai texto se for objeto Hypothesis do NeMo."""
    try:
        if isinstance(x, (list, tuple)) and len(x) > 0:
            return getattr(x[0], "text", str(x[0]))
        return getattr(x, "text", str(x))
    except Exception:
        return str(x) if x is not None else ""

# ------------------------------
# Configura√ß√µes
# ------------------------------

audio_teste = "/content/audio3.wav"
referencia_texto = "um dois tr√™s testando isto √© um exemplo para a transcri√ß√£o de √°udio para texto"

if not os.path.isfile(audio_teste):
    raise FileNotFoundError(f"Arquivo de √°udio n√£o encontrado: {audio_teste}")

# ------------------------------
# Lista de modelos para testar
# ------------------------------
modelos = [
     {"nome": "FastConformer-Hybrid", "id": "nvidia/stt_pt_fastconformer_hybrid_large_pc", "tipo": "nemo"},
     {"nome": "Citrinet-PT-Gamma-0.25", "id": "neongeckocom/stt_pt_citrinet_512_gamma_0_25", "tipo": "nemo"},
     {"nome": "QuartzNet-PT-Ottema", "id": "ottema/stt_pt_quartznet15x5_ctc_small", "tipo": "nemo"},
     {"nome": "QuartzNet-PT", "id": "dominguesm/stt_pt_quartznet15x5_ctc_small", "tipo": "nemo"},
     {"nome": "Parakeet-TDT-0.6b-v3", "id": "nvidia/parakeet-tdt-0.6b-v3", "tipo": "nemo"},
     {"nome": "wav2vec2-PT-BR-Light", "id": "danielpedrozo/wav2vec2-portuguese-wpp-checkpoint-480", "tipo": "hf"},
]

# ------------------------------
# Execu√ß√£o e coleta de resultados
# ------------------------------
resultados = []

for modelo in modelos:
    try:
        if modelo["tipo"] == "nemo":
            rtf, latencia_total, transcricao = avaliar_modelo_nemo(modelo["id"], audio_teste)
        elif modelo["tipo"] == "hf":
            rtf, latencia_total, transcricao = avaliar_modelo_hf(modelo["id"], audio_teste)

        metricas = calcular_metricas(modelo["nome"], rtf, latencia_total, transcricao, referencia_texto)
        resultados.append(metricas)

    except Exception as e:
        print(f"‚ùå Erro ao avaliar modelo {modelo['nome']}: {e}")

# ------------------------------
# Cria√ß√£o do DataFrame
# ------------------------------
df_resultados = pd.DataFrame(resultados)

if "Transcri√ß√£o" in df_resultados.columns:
    df_resultados["Transcri√ß√£o"] = df_resultados["Transcri√ß√£o"].apply(limpar_transcricao)

# -------- ORDENA√á√ÉO --------
colunas_ordem = [c for c in ["WER aproximado", "RTF"] if c in df_resultados.columns]

if colunas_ordem:
    df_resultados = df_resultados.sort_values(
        by=colunas_ordem,
        ascending=[True] * len(colunas_ordem),
        ignore_index=True
    )

# Adicionar coluna de ranking
df_resultados.insert(0, "Rank", range(1, len(df_resultados) + 1))

# -------- VISUALIZA√á√ÉO --------
pd.set_option("display.max_colwidth", None)

print("\nüîπ Resultados ordenados (melhor WER e menor RTF):")
print(df_resultados[["Rank", "Modelo", "WER aproximado", "RTF", "Lat√™ncia (ms)", "Transcri√ß√£o"]])

# -------- EXPORTA√á√ÉO --------
df_resultados.to_csv("resultados_asr.csv", index=False, encoding="utf-8")

with open("resultados_asr.txt", "w", encoding="utf-8") as f:
    for _, row in df_resultados.iterrows():
        f.write(f"Modelo: {row['Modelo']}\n")
        f.write(f"WER aproximado: {row.get('WER aproximado', 'N/A')}\n")
        f.write(f"RTF: {row['RTF']}\n")
        f.write(f"Lat√™ncia (ms): {row['Lat√™ncia (ms)']}\n")
        f.write(f"Transcri√ß√£o: {row['Transcri√ß√£o']}\n")
        f.write("-" * 60 + "\n")

print("\n‚úÖ Resultados salvos em resultados_asr.csv e resultados_asr.txt")
