# Speech recognition with a pre-trained model

```python
python run_speech_recognition_seq2seq.py \
	--model_name_or_path="openai/whisper-small" \
	--dataset_name="mozilla-foundation/common_voice_11_0" \
	--dataset_config_name="vi" \
	--language="vietnamese" \
	--train_split_name="train+validation" \
	--eval_split_name="test" \
	--max_steps="5000" \
	--output_dir="./whisper-small-vi" \
	--per_device_train_batch_size="4" \
	--gradient_accumulation_steps="2" \
	--per_device_eval_batch_size="4" \
	--logging_steps="25" \
	--learning_rate="1e-5" \
	--warmup_steps="500" \
	--evaluation_strategy="steps" \
	--eval_steps="1000" \
	--save_strategy="steps" \
	--save_steps="1000" \
	--generation_max_length="225" \
	--preprocessing_num_workers="16" \
	--length_column_name="input_length" \
	--max_duration_in_seconds="30" \
	--text_column_name="sentence" \
	--freeze_feature_encoder="False" \
	--gradient_checkpointing \
	--group_by_length \
	--fp16 \
	--overwrite_output_dir \
	--do_train \
	--do_eval \
	--predict_with_generate
```

In [3]:
# !pip install evaluate

In [4]:
import os
import pathlib
import pandas as pd
import torchaudio
import matplotlib.pyplot as plt
from IPython.display import Audio

## Inference

### Prepare dataset

In [5]:
DATA_DIR = "datasets/fosd/mp3/"
TRANSCRIPT_PATH = "datasets/fosd/transcriptAll.txt"
df = pd.read_csv(TRANSCRIPT_PATH, sep="|", header=None, names=["file_path", "text", "duration"])
df["file_path"] = DATA_DIR + df["file_path"]

In [6]:
sample = df.sample(1).iloc[0]
waveform, sample_rate = torchaudio.load(sample["file_path"])
print(f"transcript: {sample['text']}")
Audio(waveform.numpy()[0], rate=sample_rate)

transcript: Diễn biến cùng chiều với thị trường Mỹ , khu vực chứng khoán châu Âu cũng lên điểm .


### Prepare model

In [1]:
checkpoint = "whisper-small-vi"

In [2]:
from transformers import pipeline

asr = pipeline("automatic-speech-recognition", model=checkpoint)

In [9]:
asr(waveform[1].numpy())

{'text': ' వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వా వ�'}