### Processing Extracted Subtitles

In [None]:
import re
from datetime import datetime as dt

TIME_FORMAT = '%H:%M:%S.%f'

In [None]:
def vtt_to_text(vtt_file):
    with open(vtt_file, 'r', encoding='utf-8') as file:
        lines = file.readlines()
    
    text_lines = []
    for line in lines:
        # Skip timestamps and metadata
        if '-->' not in line and '<c>' not in line and line.strip():
            text_lines.append(line.strip())
    
    return '\n'.join(text_lines)


def extract_timestamps_wth_texts(vtt_file, min_duration=.1):
    timestamps = []
    texts = []

    # Regular expression to match the timestamp pattern
    timestamp_pattern = re.compile(r'(\d{2}:\d{2}:\d{2}.\d{3}) --> (\d{2}:\d{2}:\d{2}.\d{3})')

    with open(vtt_file, 'r', encoding='utf-8') as file:
        lines = file.readlines()
        for idx, line in enumerate(lines):
            match = timestamp_pattern.match(line.strip())
            if match:
                start_time, end_time = match.groups()
                delta = dt.strptime(end_time, TIME_FORMAT) - dt.strptime(start_time, TIME_FORMAT)
                if delta.total_seconds() > min_duration:    
                    timestamps.append((start_time, end_time))
                else:
                    texts.append(lines[idx + 1].strip())

    return list(zip(timestamps, texts))

In [None]:
file_url = 'subtitles/โซเมีย, ไท-ไต ใน ＂นิธิ เอียวศรีวงศ์＂.th.vtt'
file_name = file_url.split("/")[-1].split(".")[0]
file_name

'โซเมีย, ไท-ไต ใน ＂นิธิ เอียวศรีวงศ์＂'

In [None]:
extract_timestamps_wth_texts(file_url)

[(('00:00:02.730', '00:00:10.589'), ''),
 (('00:00:10.599', '00:00:15.950'), 'ถบประเด็นคลาสสิคคนไทยมาจากไหนในทัศนนิธิ'),
 (('00:00:15.960', '00:00:17.670'), 'เอียวศรีวงศ์'),
 (('00:00:17.680', '00:00:21.670'), 'รู้จักที่สูงแห่งเอเชียหลักแหล่งที่มาของ'),
 (('00:00:21.680', '00:00:26.950'), 'ไทยไตติดท้ายข้อสรุปไทยมาจากชาวเขาที่'),
 (('00:00:26.960', '00:00:30.669'), 'โน่นที่นั่นและที่นี่'),
 (('00:00:30.679', '00:00:33.310'), 'สวัสดีครับกลับมาพบกับรายการขันชัยสุจิตร'),
 (('00:00:33.320', '00:00:35.229'), 'ทอดน่องท่องเที่ยวกันอีกครั้งนึงนะครับใน'),
 (('00:00:35.239', '00:00:37.510'), 'เดือนนี้เราไม่ได้ไปทอดน่องที่ไหนนะครับ'),
 (('00:00:37.520', '00:00:39.510'), 'แต่ว่าเราได้รับเกียรติจากอาจารย์นิธิ'),
 (('00:00:39.520', '00:00:41.510'), 'เอียวศรีวงศ์นะครับท่านเดินทางมาจาก'),
 (('00:00:41.520', '00:00:43.590'), 'จังหวัดเชียงใหม่วันนี้ลงมาพูดคุยกับเรา'),
 (('00:00:43.600', '00:00:46.350'), 'และเนื่องในโอกาส 80 ปีของท่านด้วยนะครับ'),
 (('00:00:46.360', '00:00:48.950'), 'ซึ่งวันนี้ประเด็นที่เ