# Speech Recognition dengan Whisper

Notebook ini mendemonstrasikan automatic speech recognition (ASR) menggunakan model Whisper dari OpenAI via Hugging Face Transformers.

In [None]:
%pip install torch transformers

In [None]:
from transformers import pipeline

# Untuk audio bahasa Indonesia, hapus language="en" agar Whisper auto-detect bahasa
asr = pipeline("automatic-speech-recognition", model="openai/whisper-base", generate_kwargs={"task": "transcribe"})

  from .autonotebook import tqdm as notebook_tqdm
Device set to use mps:0


In [None]:
result = asr("https://huggingface.co/datasets/Narsil/asr_dummy/resolve/main/1.flac")
print(result["text"]) # type: ignore

`return_token_timestamps` is deprecated for WhisperFeatureExtractor and will be removed in Transformers v5. Use `return_attention_mask` instead, as the number of frames can be inferred from it.


 He hoped there would be stew for dinner, turnips and carrots and bruised potatoes and fat mutton pieces to be ladled out in thick, peppered flour fat and sauce.


## Penjelasan Masalah Bahasa

**Masalah:** Audio MP3 bahasa Indonesia tapi hasil transkripsi keluar bahasa Inggris.

**Penyebab:** Pada kode sebelumnya, parameter `language="en"` memaksa model untuk mentranskripsi ke bahasa Inggris, meskipun audio aslinya bahasa Indonesia.

**Solusi:** Hapus parameter `language="en"` agar Whisper dapat auto-detect bahasa dari audio, atau tentukan bahasa yang sesuai.

### Hasil Percobaan:
- **Tanpa language setting (auto-detect):** "I'm sure you will understand this question. You can make podcasts, audiobooks, or videos related to online and expressive content."
- **Dengan language="id" (eksplisit Indonesia):** "Gue firman akan mengubah text jadi suara sealami ini. Kamu bisa bikin podcast, audio book atau video dengan narasi yang jernih dan ekspresif."

**Kesimpulan:** Audio `voice_id.mp3` memang berbahasa Indonesia. Whisper auto-detect tidak selalu akurat, terutama untuk bahasa non-Inggris. Lebih baik tentukan bahasa eksplisit untuk hasil yang lebih akurat.

In [7]:
# Jika ingin eksplisit bahasa Indonesia
asr_id = pipeline("automatic-speech-recognition", model="openai/whisper-base", generate_kwargs={"task": "transcribe", "language": "id"})

# Contoh penggunaan untuk audio bahasa Indonesia
result_id = asr_id("dataset/voice_id.mp3")
print("Hasil dengan bahasa Indonesia eksplisit:\n", result_id["text"]) # type: ignore

Device set to use mps:0


Hasil dengan bahasa Indonesia eksplisit:
  Gue firman akan mengubah text jadi suara sealami ini. Kamu bisa bikin podcast, audio book atau video dengan narasi yang jernih dan ekspresif.


# Penjelasan Kode dan QnA

## Penjelasan Kode
Code di atas menggunakan library Transformers dari Hugging Face untuk melakukan automatic speech recognition (ASR) pada sebuah file audio. Berikut penjelasan langkah-langkahnya:
1. Import Library: Mengimpor fungsi pipeline dari modul transformers.
2. Inisialisasi Pipeline ASR: Membuat pipeline ASR dengan model "openai/whisper-base". Parameter generate_kwargs mengatur tugas transkripsi dan bahasa yang diinginkan (Inggris).
3. Proses Audio: Memanggil pipeline ASR dengan URL file audio (.flac) untuk melakukan transkripsi.
4. Output Teks: Hasil transkripsi disimpan dalam variabel result, dan teks transkripsi diakses melalui result["text"] dan dicetak ke layar.

## Masalah Bahasa dan Solusi
**Masalah:** Audio bahasa Indonesia tapi hasil transkripsi keluar bahasa Inggris.

**Penyebab:** Whisper auto-detect bahasa tidak selalu akurat untuk bahasa non-Inggris.

**Solusi:**
- Hapus parameter `language="en"` untuk auto-detect
- Atau tentukan bahasa eksplisit: `language="id"` untuk Indonesia, `language="en"` untuk Inggris, dll.

## QnA: Pertanyaan dan Jawaban

**Q: Kenapa hasil transkripsi audio bahasa Indonesia keluar bahasa Inggris?**

A: Ada beberapa kemungkinan penyebab:
1. **Parameter bahasa eksplisit:** Jika Anda set `language="en"`, model akan memaksa transkripsi ke bahasa Inggris meskipun audio bahasa lain.
2. **Auto-detect tidak akurat:** Whisper auto-detect bahasa tidak selalu akurat untuk bahasa non-Inggris, terutama jika audio memiliki aksen atau kualitas audio yang buruk.
3. **Model base kurang optimal:** Model `whisper-base` mungkin kurang akurat untuk bahasa Indonesia dibanding model yang lebih besar seperti `whisper-large-v3`.

**Solusi:**
- Hapus parameter `language` untuk auto-detect: `generate_kwargs={"task": "transcribe"}`
- Tentukan bahasa eksplisit: `language="id"` untuk Indonesia
- Gunakan model yang lebih besar untuk akurasi lebih baik: `model="openai/whisper-large-v3"`
- Pastikan kualitas audio baik (tidak ada noise berlebih, volume cukup)