In [1]:
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset

  from .autonotebook import tqdm as notebook_tqdm


In [3]:

device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "openai/whisper-large-v3-turbo"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    torch_dtype=torch_dtype,
    device=device,
)


Device set to use cpu


In [5]:
generate_kwargs = {
    "max_new_tokens": 200,
    "num_beams": 1,
    "condition_on_prev_tokens": False,
    "compression_ratio_threshold": 1.35,  # zlib compression ratio threshold (in token space)
    "temperature": (0.0, 0.2, 0.4, 0.6, 0.8, 1.0),
    "logprob_threshold": -1.0,
    "no_speech_threshold": 0.6,
    "return_timestamps": True,
}

dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation")
sample = dataset[0]["audio"]

result = pipe(sample, generate_kwargs=generate_kwargs)
print(result["text"])

TypeError: WhisperForConditionalGeneration.forward() got an unexpected keyword argument 'input_ids'

In [None]:
import whisper
model = whisper.load_model("base")




 The text in video: 
  O ano era 1922, dentro de um banco nos Estados Unidos. Em meio ao caos do expediente, uma das operadoras de caixa, Grace Fryer, sentiu uma pontada na boca. Ao tocar os lábios, ela percebeu que os seus dentes tinha caído. E dias depois, um enchaço do lorido na mandíbula fez ela buscar ajuda médica. O raio X do seu rosto revelou algo aterrorizante. Os ossos dela estavam se deteriorando como se estivessem sendo corroídos de dentro para fora. A sua mandíbula estava cheia de buracos, como um tecido roído por traças. Ela não fazia ideia. Mas entraria para a história com uma das primeiras vítimas de um acidente nuclear da história. E ela não era única. Casos como de Grace começaram a surgir por toda a nova Jersey. Mas antes de explicar o que aconteceu, eu preciso fazer uma pergunta. O que vem na sua mente quando fala a palavra radiação? Para o maior parte das pessoas, a palavra traz lembranças de desastres no clara esfamosos como de Chernobyl. Mas radiação nem sempre fo

In [None]:
result = model.transcribe("test_audio.mp3", language="pt")
print(f' The text in video: \n {result["text"]}')

 The text in video: 
  O ano era 1922, dentro de um banco nos Estados Unidos. Em meio ao caos do expediente, uma das operadoras de caixa, Grace Fryer, sentiu uma pontada na boca. Ao tocar os lábios, ela percebeu que os seus dentes tinha caído. E dias depois, um enchaço do lorido na mandíbula fez ela buscar ajuda médica. O raio X do seu rosto revelou algo aterrorizante. Os ossos dela estavam se deteriorando como se estivessem sendo corroídos de dentro para fora. A sua mandíbula estava cheia de buracos, como um tecido roído por traças. Ela não fazia ideia. Mas entraria para a história com uma das primeiras vítimas de um acidente nuclear da história. E ela não era única. Casos como de Grace começaram a surgir por toda a nova Jersey. Mas antes de explicar o que aconteceu, eu preciso fazer uma pergunta. O que vem na sua mente quando fala a palavra radiação? Para o maior parte das pessoas, a palavra traz lembranças de desastres no clara esfamosos como de Chernobyl. Mas radiação nem sempre fo

: 