In [1]:
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

In [3]:
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "openai/whisper-large-v3"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [4]:
pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=64,
    chunk_length_s=32,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)

result = pipe('C:/ressys/typification.mp3')
print(result["text"])

Due to a bug fix in https://github.com/huggingface/transformers/pull/28687 transcription using a multilingual Whisper will default to language detection followed by transcription instead of translation to English.This might be a breaking change for your use case. If you want to instead always translate your audio to English, make sure to pass `language='en'`.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


 Язык программирования Python является типизированным языком. Типизация языка помогает разработчику создавать более надежные и удобные программы, обеспечивает улучшенную опическая типизация позволяет определять и изменять тип переменных во время выполнения программы, в отличие от статической, при которой типом данных. Например, переменная x инициализируется как целое число int, затем переопределяется как строка str и после как список list. Строгая типизация обеспечивается или требует явного приведения типов. Например, переменная x имеет тип данных int, а переменная y – str, то есть строка. Попытка выполнить сложение между перем, Python автоматически приведет x к типу float и выполнит сложение. Хотя Python и является строго типизированным языком, он обладает гибкостью динамической типизации,


In [5]:
pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=256,
    chunk_length_s=32,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)

result = pipe('C:/ressys/typification.mp3',
              generate_kwargs={"language": "russian"},
              return_timestamps=True)
print(result["chunks"])

[{'timestamp': (0.46, 4.68), 'text': ' Язык программирования Python является типизированным языком.'}, {'timestamp': (5.16, 9.54), 'text': ' Типизация языка помогает разработчику создавать более надежные и удобные программы,'}, {'timestamp': (9.64, 13.52), 'text': ' обеспечивает улучшенную оптимизацию, производительность и безопасность кода.'}, {'timestamp': (14.02, 16.88), 'text': ' Каждый типизированный язык создается для конкретных целей,'}, {'timestamp': (17.24, 21.0), 'text': ' поэтому языки программирования стали отличаться по своим методам типизации.'}, {'timestamp': (21.46, 24.82), 'text': ' Типизация в Python является динамической и строгой.'}, {'timestamp': (25.32, 30.69), 'text': ' Динамическая типизация позволяет определять и изменять тип переменных во время выполнения программы,'}, {'timestamp': (30.97, 36.83), 'text': ' в отличие от статической, при которой типы данных определяются на этапе компиляции и не подлежат изменениям.'}, {'timestamp': (36.95, 40.25), 'text': ' Ди

In [6]:
pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=32,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)

result = pipe('C:/ressys/typification.mp3',
              generate_kwargs={"language": "russian"},
              return_timestamps=True)
print(result)

{'text': ' Язык программирования Python является типизированным языком. Типизация языка помогает разработчику создавать более надежные и удобные программы, обеспечивает улучшенную оптимизацию, производительность и безопасность кода. Каждый типизированный язык создается для конкретных целей, поэтому языки программирования стали отличаться по своим методам типизации. Типизация в Python является динамической и строгой. Динамическая типизация позволяет определять и изменять тип переменных во время выполнения программы, в отличие от статической, при которой типы данных определяются на этапе компиляции и не подлежат изменениям. Динамическая типизация позволяет уменьшить сложность кода, но при этом возрастает риск появления ошибок, связанных с неправильным типом данных. Например, переменная x инициализируется как целое число int, затем переопределяется как строка str и после как список list. Строгая типизация обеспечивается соблюдением необходимых правил при взаимодействии с разными типами да