# Extracting and Processing Subtitles from a YouTube Video in Thai.

### References:

- [yt-dlp on GitHub](https://github.com/yt-dlp/yt-dlp)

## Setting the things up

In [2]:
import yt_dlp
import json
import re

YT_BASE_URL = 'https://www.youtube.com/watch?v='
DST_FOLDER = 'files'

In [3]:
def download_auto_subtitles(video_url, lang='th', output_path='files', skip_download=True):
    ydl_opts = {
        'writesubtitles': True,
        'writeautomaticsub': True,  # Enable auto-generated subtitles
        'subtitleslangs': [lang],
        'skip_download': skip_download,
        'outtmpl': f'{output_path}/%(title)s_%(id)s.%(ext)s',
        'format': 'best'
    }

    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
        info = ydl.extract_info(video_url, download=True)

    return info


## Extracting subtitles and optionally downloading the video.

In [4]:
v_id = '3QzvFvRsCMg'

In [5]:
info = download_auto_subtitles(YT_BASE_URL + v_id, lang='th', output_path=DST_FOLDER, skip_download=True)

[youtube] Extracting URL: https://www.youtube.com/watch?v=3QzvFvRsCMg
[youtube] 3QzvFvRsCMg: Downloading webpage
[youtube] 3QzvFvRsCMg: Downloading tv client config
[youtube] 3QzvFvRsCMg: Downloading player 643afba4
[youtube] 3QzvFvRsCMg: Downloading tv player API JSON
[youtube] 3QzvFvRsCMg: Downloading ios player API JSON
[youtube] 3QzvFvRsCMg: Downloading m3u8 information
[info] 3QzvFvRsCMg: Downloading subtitles: th
[info] 3QzvFvRsCMg: Downloading 1 format(s): 18
Deleting existing file files\ครั้งแรกของ 'สุจิตต์' บรรยายพิเศษที่สภาฯ ＂จากสยามถึงไทย ： เปลี่ยนชื่อ เปลี่ยนประเทศ？＂ ： Matichon TV_3QzvFvRsCMg.th.vtt
[info] Writing video subtitles to: files\ครั้งแรกของ 'สุจิตต์' บรรยายพิเศษที่สภาฯ ＂จากสยามถึงไทย ： เปลี่ยนชื่อ เปลี่ยนประเทศ？＂ ： Matichon TV_3QzvFvRsCMg.th.vtt
[download] Destination: files\ครั้งแรกของ 'สุจิตต์' บรรยายพิเศษที่สภาฯ ＂จากสยามถึงไทย ： เปลี่ยนชื่อ เปลี่ยนประเทศ？＂ ： Matichon TV_3QzvFvRsCMg.th.vtt
[download] 100% of  650.00KiB in 00:00:01 at 420.12KiB/s


In [6]:
info

{'id': '3QzvFvRsCMg',
 'title': 'ครั้งแรกของ \'สุจิตต์\' บรรยายพิเศษที่สภาฯ "จากสยามถึงไทย : เปลี่ยนชื่อ เปลี่ยนประเทศ?" : Matichon TV',
 'formats': [{'format_id': 'sb3',
   'format_note': 'storyboard',
   'ext': 'mhtml',
   'protocol': 'mhtml',
   'acodec': 'none',
   'vcodec': 'none',
   'url': 'https://i.ytimg.com/sb/3QzvFvRsCMg/storyboard3_L0/default.jpg?sqp=-oaymwENSDfyq4qpAwVwAcABBqLzl_8DBgjcwPW-Bg==&sigh=rs$AOn4CLDjahQ-eVveH7XyTT3BBqHihMrUaA',
   'width': 48,
   'height': 27,
   'fps': 0.02221235006663705,
   'rows': 10,
   'columns': 10,
   'fragments': [{'url': 'https://i.ytimg.com/sb/3QzvFvRsCMg/storyboard3_L0/default.jpg?sqp=-oaymwENSDfyq4qpAwVwAcABBqLzl_8DBgjcwPW-Bg==&sigh=rs$AOn4CLDjahQ-eVveH7XyTT3BBqHihMrUaA',
     'duration': 4502.0}],
   'audio_ext': 'none',
   'video_ext': 'none',
   'vbr': 0,
   'abr': 0,
   'tbr': None,
   'resolution': '48x27',
   'aspect_ratio': 1.78,
   'filesize_approx': None,
   'http_headers': {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64

In [8]:
subtitle_path = info['requested_subtitles']['th']['filepath']
subtitle_path

"files\\ครั้งแรกของ 'สุจิตต์' บรรยายพิเศษที่สภาฯ ＂จากสยามถึงไทย ： เปลี่ยนชื่อ เปลี่ยนประเทศ？＂ ： Matichon TV_3QzvFvRsCMg.th.vtt"

In [10]:
with open(subtitle_path + '.json', 'w', encoding='utf8') as f:
    f.write(json.dumps(info, indent=4, ensure_ascii=False))

In [11]:
info['requested_subtitles']

{'th': {'ext': 'vtt',
  'url': 'https://www.youtube.com/api/timedtext?v=3QzvFvRsCMg&ei=g0LiZ_SCK6m02roP7Lbf8Aw&caps=asr&opi=112496729&xoaf=5&hl=en&ip=0.0.0.0&ipbits=0&expire=1742906611&sparams=ip%2Cipbits%2Cexpire%2Cv%2Cei%2Ccaps%2Copi%2Cxoaf&signature=2F1D9747FB7C6EE7D9987C86CBDEB01FC967999E.DBB98B91C05639681446758C70F2BE232CA8785A&key=yt8&kind=asr&lang=th&fmt=vtt',
  'name': 'Thai',
  'filepath': "files\\ครั้งแรกของ 'สุจิตต์' บรรยายพิเศษที่สภาฯ ＂จากสยามถึงไทย ： เปลี่ยนชื่อ เปลี่ยนประเทศ？＂ ： Matichon TV_3QzvFvRsCMg.th.vtt"}}

## Processing subtitles

In [6]:
import re
from datetime import datetime as dt

TIME_FORMAT = '%H:%M:%S.%f'

In [7]:
def extract_timestamps_wth_texts(vtt_file, min_duration=.1):
    timestamps = []
    texts = []

    # Regular expression to match the timestamp pattern
    timestamp_pattern = re.compile(r'(\d{2}:\d{2}:\d{2}.\d{3}) --> (\d{2}:\d{2}:\d{2}.\d{3})')

    with open(vtt_file, 'r', encoding='utf-8') as file:
        lines = file.readlines()
    for idx, line in enumerate(lines):
        match = timestamp_pattern.match(line.strip())
        if match:
            start_time, end_time = match.groups()
            delta = dt.strptime(end_time, TIME_FORMAT) - dt.strptime(start_time, TIME_FORMAT)
            if delta.total_seconds() > min_duration:    
                timestamps.append((start_time, end_time))
                text = lines[idx + 2].strip()
                texts.append(re.sub(r'<[^>]*>', '', text))

    return list(zip(timestamps, texts))

In [5]:
subtitle_path = r'subtitles\โซเมีย, ไท-ไต ใน ＂นิธิ เอียวศรีวงศ์＂.th.vtt'

In [8]:
stamped = extract_timestamps_wth_texts(subtitle_path)
stamped

[(('00:00:00.160', '00:00:04.510'), 'ถามว่ามันเกิดอะไรขึ้นประเทศสยามถึงถูก'),
 (('00:00:04.520', '00:00:08.150'), 'เปลี่ยนเป็นประเทศไทยตอบว่าการเมืองชาติ'),
 (('00:00:08.160', '00:00:11.749'), 'นิยมช่วงเวลาตึงเครียดก่อนประกาศสงคราม'),
 (('00:00:11.759', '00:00:15.990'), 'โลกครั้งที่ 2 ปลุกระดมความรักชาติจนล้น'),
 (('00:00:16.000', '00:00:19.630'), 'เกินมี 2 อย่างที่สำคัญคือ 1 เปลี่ยนชื่อ'),
 (('00:00:19.640', '00:00:23.150'), 'ประเทศแบบคลั่งเชื้อชาติและ 2 เปลี่ยน'),
 (('00:00:23.160', '00:00:26.390'), 'ประวัติศาสตร์ให้มีเนื้อหาคลั่งเชื้อชาติ'),
 (('00:00:26.400', '00:00:30.429'), 'ตามชื่อประเทศด้วยการเสกสรรปั้นแต่งตาม'),
 (('00:00:30.439', '00:00:34.190'), 'จินตนาการที่อยากให้เป็นของชนชั้นนำเวลา'),
 (('00:00:34.200', '00:00:38.110'), 'นั้นโดยไม่ต้องค้นคว้าหาหลักฐานวิชาการมา'),
 (('00:00:38.120', '00:00:42.510'), 'สนับสนุนผลคือกระตุ้นความขัดแย้งรุนแรง'),
 (('00:00:42.520', '00:00:45.869'), 'ตั้งแต่บัดนั้นจนบัดนี้ยังแก้ไขไม่สำเร็จ'),
 (('00:00:45.879', '00:00:49.869'), 'รัฐบาลใช้ประโยชน์

In [9]:
file_name = subtitle_path.split("\\")[-1].split(".")[0]
file_name

"ครั้งแรกของ 'สุจิตต์' บรรยายพิเศษที่สภาฯ ＂จากสยามถึงไทย ： เปลี่ยนชื่อ เปลี่ยนประเทศ？＂ ： Matichon TV_3QzvFvRsCMg"

In [None]:
with open(f"{DST_FOLDER}/{file_name}.tsv", "w", encoding="utf-8") as file:
    file.write("start_time\tend_time\ttext\n")
    for timestamp, text in stamped:
        file.write(f"{timestamp[0]}\t{timestamp[1]}\t{text}\n")

with open(f"{DST_FOLDER}/{file_name}.txt", "w", encoding="utf-8") as file:
    for timestamp, text in stamped:
        file.write(f"{text}\n")

## Searching for timestamp by text entry

In [1]:
import pandas as pd 

In [2]:
path = r'subtitles\โซเมีย, ไท-ไต ใน ＂นิธิ เอียวศรีวงศ์＂.tsv'
subtitles_df = pd.read_csv(path, sep="\t")
subtitles_df

Unnamed: 0,start_time,end_time,text
0,00:00:02.730,00:00:10.589,[เพลง]
1,00:00:10.599,00:00:15.950,ถบประเด็นคลาสสิคคนไทยมาจากไหนในทัศนนิธิ
2,00:00:15.960,00:00:17.670,เอียวศรีวงศ์
3,00:00:17.680,00:00:21.670,รู้จักที่สูงแห่งเอเชียหลักแหล่งที่มาของ
4,00:00:21.680,00:00:26.950,ไทยไตติดท้ายข้อสรุปไทยมาจากชาวเขาที่
...,...,...,...
796,00:42:51.400,00:42:57.430,เที่ยวดินยาฟ้าเขียวอาถร
797,00:42:57.440,00:43:01.069,ถิ่นฐานบ้านเมือง
798,00:43:01.079,00:43:06.109,ดึกดำบรรคู่คันลุ่มดอนบึ
799,00:43:06.119,00:43:10.790,บางทิ้งไว้แต่รอยเท้าเบา


In [3]:
query = 'เที่ยวดินยาฟ้าเขียวอาถร'

In [4]:
subtitles_df[subtitles_df['text'].str.contains(query)]

Unnamed: 0,start_time,end_time,text
796,00:42:51.400,00:42:57.430,เที่ยวดินยาฟ้าเขียวอาถร


In [9]:
while True:
    query = input("Enter search query: ")
    if not query:
        break
    for timestamp, text in stamped:
        if query in text:
            print(timestamp, text)

('00:02:35.200', '00:02:38.710') คืออย่างงี้นะครับคืออ่อความเข้าใจเกี่ยว


## Formatting the text with sentence (and paragraph) breaks

In [1]:
sub_txt = 'หลักฐานเก่าแก่สุดเรื่อง ＂หมอลำ＂ พบที่เวียดนาม แล้วเกี่ยวอะไรกับไทย？_Q_8kUnZv_cQ' + '.txt'
sub_txt

'หลักฐานเก่าแก่สุดเรื่อง ＂หมอลำ＂ พบที่เวียดนาม แล้วเกี่ยวอะไรกับไทย？_Q_8kUnZv_cQ.txt'

In [4]:
with open(f"{DST_FOLDER}/{sub_txt}", "r", encoding="utf-8") as file:
    text = file.read().replace("\n", "")

print(text[:266])

คือไอ้เลี้ยงผีฟ้าเนี่ยมันมีมาเนี่ยไม่น้อยกว่า 2,500 ปีมาแล้วหมายความว่าก่อนก่อนพ.ศ 1 อ่ะมันมีหลักฐานอยู่แล้วนะแต่มันเป็นหลักฐานเป็นลายสลักบนเครื่องมือสำฤทธิ์รูปคล้ายขวานขุดพบที่เวียดนามโดยนักบราณคดีชาวฝรั่งเศสชื่อลูเบฟอืเมื่อ 96 ปีที่แล้วนะครับเมื่อประมาณพ.ศ 2470 2 


### Trying with PyThaiNLP

- [PyThaiNLP documentation](https://pythainlp.org/docs/5.1/index.html)

In [None]:
# %pip install pythainlp
# %pip install pycrfsuite
# %pip install tltk
# %pip install pandas
# %pip install wtpsplit

Collecting wtpsplit
  Downloading wtpsplit-2.1.4-py3-none-any.whl.metadata (746 bytes)
Collecting onnxruntime>=1.13.1 (from wtpsplit)
  Downloading onnxruntime-1.21.0-cp312-cp312-win_amd64.whl.metadata (4.9 kB)
Collecting transformers>=4.22.2 (from wtpsplit)
  Downloading transformers-4.50.0-py3-none-any.whl.metadata (39 kB)
Collecting huggingface-hub (from wtpsplit)
  Downloading huggingface_hub-0.29.3-py3-none-any.whl.metadata (13 kB)
Collecting skops (from wtpsplit)
  Downloading skops-0.11.0-py3-none-any.whl.metadata (6.0 kB)
Collecting cached_property (from wtpsplit)
  Downloading cached_property-2.0.1-py3-none-any.whl.metadata (10 kB)
Collecting mosestokenizer (from wtpsplit)
  Downloading mosestokenizer-1.2.1.tar.gz (37 kB)
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'done'
  Preparing metadata (pyproject.toml): star



In [5]:
from pythainlp.tokenize import sent_tokenize as stk

In [None]:
# Ensure pycryptodome is installed
# %pip install pycryptodome


In [None]:

# Ensure torch is installed
# %pip install torch

stk(text[:666], engine='wtp')



ValueError: Please install `torch` to use WtP with a PyTorch model.

In [4]:
import tltk

In [7]:
tltk.word_segment(text[:666])

'คือ|ไอ้|เลี้ยง|ผีฟ้า|เนี่ย|มัน|มี|มา|เนี่ย|ไม่|น้อย|กว่า|<s/>2,500|<s/>ปี|มา|แล้ว|หมายความ|ว่า|ก่อน|ก่อน|พ.|ศ|<s/>1|<s/><Fail>อ่ะมันมีหลักฐานอยู่แล้วนะแต่มันเป็นหลักฐานเป็นลายสลักบนเครื่องมือสำฤทธิ์รูปคล้ายขวานขุดพบที่เวียดนามโดยนักบราณคดีชาวฝรั่งเศสชื่อลูเบฟอืเมื่อ</Fail>|<s/>96|<s/>ปี|ที่แล้ว|นะ|ครับ|เมื่อ|ประมาณ|พ.|ศ|<s/>2470|<s/>2|<s/><Fail>ทั้งหมดเนี่ยเค้ามีบทความเสนอไว้เป็นภาษาฝรั่งเศสอืผมไม่ได้อ่านบทความภาษาฝรั่งเศสแต่มีผู้ส่งลายสลักลายเส้นลายสลักมาให้อันนี้นะครับลายเส้นเป็นลายสลักอืเขาจำลองลายเส้นออกมาจากลายสลักไอ้เนี่ยขวานหินข้างล่างเนี่ยไอ้เป็นขวานสัมฤทธิ์ขอพระโทษไม่ใช่ขวานหินขวานสัมฤทธิ์รูปร่างคล้ายขวานหินนั่นแหละแต่มันทำด้วยสำฤทธิ์ขุดพบที่เวียดนามมีลายสลักอยู่ข้างล่างนี่นะครับเฉพาะที่เป็นรูปบุคคลเนี่ยเขาทำจำลองขึ้นมาอยู่ข้างบ</Fail>|<s/>'