[![Open in Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/biodatlab/whisper-th-demo/blob/main/whisper_th_demo.ipynb)


# **Thonburian Whisper**

Automatic Speech Recognition (ASR) model for Thai

<img src="https://raw.githubusercontent.com/biodatlab/whisper-th-demo/main/assets/Thonburian-Whisper-1.jpg" width="800"/>
---



> By Crews from Looloo Technology and Mahidol University




## **Install Dependencies** ⚙

In [1]:
!pip install git+https://github.com/huggingface/transformers
!pip install librosa
!sudo apt install ffmpeg
!pip install torchaudio ipywebrtc notebook
!pip install -q gradio
!pip install pytube
!jupyter nbextension enable --py widgetsnbextension

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting git+https://github.com/huggingface/transformers
  Cloning https://github.com/huggingface/transformers to /tmp/pip-req-build-zz0syzti
  Running command git clone --filter=blob:none --quiet https://github.com/huggingface/transformers /tmp/pip-req-build-zz0syzti
  Resolved https://github.com/huggingface/transformers to commit 92ce53aab859012f7714dae6d6fce7a7d701e75f
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting huggingface-hub<1.0,>=0.11.0
  Downloading huggingface_hub-0.12.0-py3-none-any.whl (190 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m190.3/190.3 KB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1
  Downloading tokenizers-0.13.2-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64

## **Load and Set-up Thonburian Whisper 🤗**


In [2]:
import torch
from transformers import pipeline

MODEL_NAME = "biodatlab/whisper-th-medium-combined"
lang = "th"

device = 0 if torch.cuda.is_available() else "cpu"

pipe = pipeline(
    task="automatic-speech-recognition",
    model=MODEL_NAME,
    chunk_length_s=30,
    device=device,
)

pipe.model.config.forced_decoder_ids = pipe.tokenizer.get_decoder_prompt_ids(language=lang, task="transcribe")

Downloading (…)lve/main/config.json:   0%|          | 0.00/1.02k [00:00<?, ?B/s]

Downloading (…)"pytorch_model.bin";:   0%|          | 0.00/3.06G [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/848 [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/494k [00:00<?, ?B/s]

Downloading (…)main/normalizer.json:   0%|          | 0.00/52.7k [00:00<?, ?B/s]

Downloading (…)in/added_tokens.json:   0%|          | 0.00/2.11k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/2.06k [00:00<?, ?B/s]

Downloading (…)rocessor_config.json:   0%|          | 0.00/185k [00:00<?, ?B/s]

## **Try it with your own voice** 🎥

### Record your own audio here in the notebook!

In [3]:
from ipywebrtc import AudioRecorder, CameraStream
from google.colab import output
output.enable_custom_widget_manager()

In [4]:
camera = CameraStream(constraints={'audio': True, 'video': False})
recorder = AudioRecorder(stream=camera)
recorder

AudioRecorder(audio=Audio(value=b'', format='webm'), stream=CameraStream(constraints={'audio': True, 'video': …

In [9]:
# Save the recorded audio.
recorder.save("audio.mp3")

### Now let our *Thonburian Whisper* do the work!!

In [10]:
transcriptions = pipe("audio.mp3", generate_kwargs={"language":"<|th|>", "task":"transcribe"}, batch_size=16)["text"]
print(transcriptions)



ฮัลโหล ฮัลโหล ฮัลโหล


## **Transcribe a Youtube Video?** 

> [![Watch the video](https://img.youtube.com/vi/jwBqoBIDv3o/default.jpg)](https://www.youtube.com/watch?v=jwBqoBIDv3o)




In [11]:
import pytube as pt

def yt_transcribe(yt_url: str):
    """Transcribe a given Youtube URL"""
    yt = pt.YouTube(yt_url)
    stream = yt.streams.filter(only_audio=True)[0]
    stream.download(filename="audio.mp3")
    text = pipe("audio.mp3", generate_kwargs={"language":"<|th|>", "task":"transcribe"}, batch_size=16)["text"]
    return text

In [12]:
# This may take some time depending on the length of the video.
url = "https://www.youtube.com/watch?v=jwBqoBIDv3o"

transcriptions = yt_transcribe(url)



In [13]:
transcriptions

'นอกจากเราจะได้ทำงานกับลีเดอร์ที่เก่ง ได้ทำโปรเจกต์ที่หลากหลาย เรายังมี Culture ที่จะรับฟังคำว่าคุณค่ะ รู้จัก Lulue มาจากเพื่อนแนะนำครับผม ตอนแรกก็หาสมัครงานไปเรื่อยๆ แล้วก็มาเจอบริษัท Lulue ผมก็เลยลองไปศึกษาหาข้อมูลมาเจอว่าพี่partner เขาดูเก่งดูน่าสนใจดูน่าทำงานด้วยวยสิ่งที่สกิจใจเวทย์มากในสุดเลยค่ะ ก็คือทำสิ่งที่มีอิมพ์แพคต่อสังคมค่ะ สนุกครับ ผมรู้สึกว่าได้ลองทำอะไรใหม่ ๆ ที่มันไม่ใช่แค่พัฒนา เทคโยรยี แบบทำทุกอย่างยังมีความหมาย เราก็แบบอยากทำมากกว่าแบบทำไปวัน ๆ นะค่ะ ได้เรียนรู้ในฟิวที่เรายังไม่เคยดู เช่นด้านดาร่าสไตร์ ด้านเอไอ�ี้ยทำให้เราเห็นว่าแบบ อื้อ นอกจากโปรแกรมมิ่งแล้ว เราได้เรียนรู้เรื่องอื่นไปด้วย มีความราฐานของแฟละอินดัสตรีด้วยครับผม ว่าเราก็ต้องคอยศึกษาหาคำรู้แล้วก็มาใช้ในงานในแต่อินดัสตรีให้เหมาะสม ถ้าพัฒนาสกิลเป็นพิเศษ ก็น่าจะเป็นในเรื่องโปรแกรมมมิ่งนะครับาไงดีอะ โค้ททุกบันทึ่งมีความหมาย มันไม่ใช่แค่ทำสุ่มๆไปอะค่ะ / เหมือนให้อธิบายในส่วนที่เขียนมาอย่างเป็นระเบียบว่า ตรงนี้หมายความว่าอะไรบ้าง / ทุกคนเนี่ยต่างแชร์ความรู้กันมากกว่าการชี้นิ้วสั่ง ไม่ว่าเมนเทอร์ของเราเนี่ยจะม