In [None]:
!pip install nemo-toolkit[asr]

In [None]:
# ------------------------------
# 1. Fun√ß√µes auxiliares (ASR)
# ------------------------------
import librosa
import numpy as np
import time
import nemo.collections.asr as nemo_asr
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch

def carregar_audio(caminho, sr=16000):
    """Carrega arquivo de √°udio e converte para 16 kHz mono."""
    audio, _ = librosa.load(caminho, sr=sr, mono=True)
    return np.array(audio, dtype=np.float32), sr

# ------------------------------
# Fun√ß√£o para modelos NeMo
# ------------------------------
def avaliar_modelo_nemo(modelo_id, caminho_audio):
    """
    Executa infer√™ncia com modelos NeMo e retorna lat√™ncia e transcri√ß√£o.
    """
    print(f"üîΩ Carregando modelo NeMo {modelo_id} ...")
    asr_model = nemo_asr.models.ASRModel.from_pretrained(modelo_id)

    inicio = time.time()
    transcricao_obj = asr_model.transcribe([caminho_audio])[0]
    fim = time.time()

    latencia_ms = (fim - inicio) * 1000
    transcricao_texto = getattr(transcricao_obj, "text", str(transcricao_obj))

    return latencia_ms, transcricao_texto

# ------------------------------
# Fun√ß√£o para modelos Hugging Face
# ------------------------------
def avaliar_modelo_hf(modelo_id, caminho_audio):
    """
    Executa infer√™ncia com modelos Hugging Face (Wav2Vec2/Whisper) e retorna lat√™ncia e transcri√ß√£o.
    """
    print(f"üîΩ Carregando modelo HF {modelo_id} ...")
    processor = Wav2Vec2Processor.from_pretrained(modelo_id)
    model = Wav2Vec2ForCTC.from_pretrained(modelo_id)
    model.eval()

    audio, sr = carregar_audio(caminho_audio, sr=16000)
    input_values = processor(audio, sampling_rate=sr, return_tensors="pt").input_values

    inicio = time.time()
    with torch.no_grad():
        logits = model(input_values).logits
    pred_ids = torch.argmax(logits, dim=-1)
    transcricao_texto = processor.batch_decode(pred_ids)[0]
    fim = time.time()

    latencia_ms = (fim - inicio) * 1000
    return latencia_ms, transcricao_texto

# ------------------------------
# Fun√ß√£o para calcular m√©tricas
# ------------------------------
def calcular_metricas(modelo, latencia, saida, referencia=None, rank=None):
    """
    Retorna dicion√°rio com m√©tricas: Rank, Modelo, Lat√™ncia, Transcri√ß√£o e WER aproximado.
    """
    # Garantir que a sa√≠da seja string
    if not isinstance(saida, str) and hasattr(saida, 'text'):
        saida = saida.text
    elif not isinstance(saida, str):
        saida = str(saida)

    resultado = {
        "Rank": rank if rank is not None else "-",
        "Modelo": modelo,
        "Lat√™ncia (ms)": round(latencia, 2),
        "Transcri√ß√£o": saida,
        "WER aproximado": None  # Sempre presente para evitar KeyError
    }

    if referencia:
        ref_tokens = referencia.lower().split()
        out_tokens = saida.lower().split()
        intersecao = len(set(ref_tokens) & set(out_tokens))
        wer_aprox = 1 - (intersecao / len(ref_tokens)) if ref_tokens else 1.0
        resultado["WER aproximado"] = round(wer_aprox, 3)

    return resultado



In [None]:

# ------------------------------
# Avalia√ß√£o de modelos ASR espec√≠ficos (PT-BR)
# ------------------------------

import os
import time
import pandas as pd
import librosa
import nemo.collections.asr as nemo_asr
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
import numpy as np

# ------------------------------
# Fun√ß√µes auxiliares
# ------------------------------

def carregar_audio(caminho, sr=16000):
    """Carrega arquivo de √°udio e converte para 16 kHz mono."""
    audio, _ = librosa.load(caminho, sr=sr, mono=True)
    return np.array(audio, dtype=np.float32), sr

def avaliar_modelo_nemo(modelo_id, caminho_audio):
    """Executa infer√™ncia com modelos NeMo (QuartzNet, Citrinet, FastConformer, Parakeet)."""
    print(f"\nüîπ Avaliando modelo NeMo: {modelo_id}")
    asr_model = nemo_asr.models.ASRModel.from_pretrained(modelo_id)

    inicio = time.time()
    transcricao_obj = asr_model.transcribe([caminho_audio])[0]
    fim = time.time()

    # Extrair texto se for objeto Hypothesis
    transcricao_texto = getattr(transcricao_obj, "text", str(transcricao_obj))
    latencia_ms = (fim - inicio) * 1000
    return latencia_ms, transcricao_texto

def avaliar_modelo_hf(modelo_id, caminho_audio):
    """Executa infer√™ncia com modelos Hugging Face (ex: wav2vec2)."""
    print(f"\nüîπ Avaliando modelo HF: {modelo_id}")
    processor = Wav2Vec2Processor.from_pretrained(modelo_id)
    model = Wav2Vec2ForCTC.from_pretrained(modelo_id)

    audio, sr = carregar_audio(caminho_audio)
    if sr != 16000:
        raise ValueError("O modelo HF requer √°udio em 16 kHz.")

    inputs = processor(audio, sampling_rate=16000, return_tensors="pt", padding=True)
    inicio = time.time()
    with torch.no_grad():
        logits = model(inputs.input_values).logits
    predicted_ids = torch.argmax(logits, dim=-1)
    fim = time.time()

    transcricao_texto = processor.batch_decode(predicted_ids)[0]
    latencia_ms = (fim - inicio) * 1000
    return latencia_ms, transcricao_texto

def calcular_metricas(modelo, latencia, saida, referencia=None):
    """Retorna m√©tricas b√°sicas para compara√ß√£o de transcri√ß√£o."""
    resultado = {
        "Modelo": modelo,
        "Lat√™ncia (ms)": round(latencia, 2),
        "Transcri√ß√£o": saida
    }

    if referencia:
        if not isinstance(saida, str):
            saida = str(saida)
        ref_tokens = referencia.lower().split()
        out_tokens = saida.lower().split()
        intersecao = len(set(ref_tokens) & set(out_tokens))
        wer_aprox = 1 - (intersecao / len(ref_tokens)) if ref_tokens else 1.0
        resultado["WER aproximado"] = round(wer_aprox, 3)

    return resultado

def limpar_transcricao(x):
    """Extrai texto se for objeto Hypothesis do NeMo."""
    try:
        if isinstance(x, (list, tuple)) and len(x) > 0:
            return getattr(x[0], "text", str(x[0]))
        return getattr(x, "text", str(x))
    except Exception:
        return str(x) if x is not None else ""

# ------------------------------
# Configura√ß√µes
# ------------------------------

audio_teste = "/content/audio3.wav"          #/Caminho para o √°udio
referencia_texto = "este √© um exemplo de fala"

if not os.path.isfile(audio_teste):
    raise FileNotFoundError(f"Arquivo de √°udio n√£o encontrado: {audio_teste}")

# ------------------------------
# Lista de modelos para testar
# ------------------------------
modelos = [
     {"nome": "FastConformer-Hybrid", "id": "nvidia/stt_pt_fastconformer_hybrid_large_pc", "tipo": "nemo"},
     {"nome": "Citrinet-PT-Gamma-0.25", "id": "neongeckocom/stt_pt_citrinet_512_gamma_0_25", "tipo": "nemo"},
     {"nome": "QuartzNet-PT-Ottema", "id": "ottema/stt_pt_quartznet15x5_ctc_small", "tipo": "nemo"},
     {"nome": "QuartzNet-PT", "id": "dominguesm/stt_pt_quartznet15x5_ctc_small", "tipo": "nemo"},
     {"nome": "Parakeet-TDT-0.6b-v3 (multilingual)", "id": "nvidia/parakeet-tdt-0.6b-v3", "tipo": "nemo"},
     {"nome": "wav2vec2-PT-BR-Light", "id": "danielpedrozo/wav2vec2-portuguese-wpp-checkpoint-480", "tipo": "hf"},
]

# ------------------------------
# Execu√ß√£o e coleta de resultados
# ------------------------------
resultados = []

for modelo in modelos:
    try:
        if modelo["tipo"] == "nemo":
            latencia, transcricao = avaliar_modelo_nemo(modelo["id"], audio_teste)
        elif modelo["tipo"] == "hf":
            latencia, transcricao = avaliar_modelo_hf(modelo["id"], audio_teste)
        else:
            print(f"‚ö†Ô∏è Tipo de modelo desconhecido: {modelo['nome']}")
            continue
        metricas = calcular_metricas(modelo["nome"], latencia, transcricao, referencia_texto)
        resultados.append(metricas)
    except Exception as e:
        print(f"‚ùå Erro ao avaliar modelo {modelo['nome']}: {e}")

# ------------------------------
# Cria√ß√£o do DataFrame
# ------------------------------
df_resultados = pd.DataFrame(resultados)

if "Transcri√ß√£o" in df_resultados.columns:
    df_resultados["Transcri√ß√£o"] = df_resultados["Transcri√ß√£o"].apply(limpar_transcricao)

# -------- ORDENA√á√ÉO --------
colunas_ordem = [c for c in ["WER aproximado", "Lat√™ncia (ms)"] if c in df_resultados.columns]
if colunas_ordem:
    df_resultados = df_resultados.sort_values(
        by=colunas_ordem,
        ascending=[True] * len(colunas_ordem),
        na_position="last",
        ignore_index=True
    )

# Adicionar coluna de ranking
df_resultados.insert(0, "Rank", range(1, len(df_resultados) + 1))

# -------- VISUALIZA√á√ÉO NO CONSOLE --------
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_rows", None)

print("\nüîπ Resultados ordenados (melhor WER e menor lat√™ncia):")

# Seleciona apenas colunas que realmente existem
colunas_display = [c for c in ["Rank", "Modelo", "WER aproximado", "Lat√™ncia (ms)", "Transcri√ß√£o"] if c in df_resultados.columns]
print(df_resultados[colunas_display])

# -------- EXPORTA√á√ÉO --------
saida_csv = "resultados_asr.csv"
saida_txt = "resultados_asr.txt"

df_resultados.to_csv(saida_csv, index=False, encoding="utf-8")

with open(saida_txt, "w", encoding="utf-8") as f:
    for _, row in df_resultados.iterrows():
        f.write(f"Modelo: {row.get('Modelo', 'N/A')}\n")
        f.write(f"WER aproximado: {row.get('WER aproximado', 'N/A')}\n")
        f.write(f"Lat√™ncia (ms): {row.get('Lat√™ncia (ms)', 'N/A')}\n")
        f.write(f"Transcri√ß√£o: {row.get('Transcri√ß√£o', '')}\n")
        f.write("-" * 60 + "\n")

print(f"\n‚úÖ Resultados salvos em: {saida_csv} e {saida_txt}")