In [1]:
def get_original_text(file_path: str):
    with open(file_path, 'r', encoding='utf-8') as file:
        lines = file.readlines()

    events_section = False
    text_column = []

    for line in lines:
        if line.strip() == '[Events]':
            events_section = True
            continue
        if events_section and line.startswith('Dialogue'):
            text = line.split(',', maxsplit=9)[-1].strip()
            text_column.append(text)
    return text_column

def list_to_lines(list_str: list):
    numbered_lines = ""
    for index, item in enumerate(list_str):
        numbered_lines += f"{index}-{item}\n"
    return numbered_lines

def numbered_str_to_dict(input_str):
    output_dict = {}
    lines = input_str.split("\n")
    for line in lines:
        try:
            key, value = line.split("-")
        except ValueError:
            continue
        output_dict[key] = value
    return output_dict

original_sentences = get_original_text('/Users/kaewsai/Downloads/240706/Original File/03.ass')
numbered_sentences = list_to_lines(original_sentences[0:20])
print(numbered_sentences)

FileNotFoundError: [Errno 2] No such file or directory: '/Users/kaewsai/Downloads/240706/Original File/03.ass'

In [10]:
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

llm = ChatOpenAI(model="gpt-3.5-turbo")

prompt = ChatPromptTemplate.from_messages([
    ("system",
     """
     You are movie subtitle translator that can translate Chinese into Thai.
     You will be provide with list of Chinese subtitle string.
     You have to translate each of them and while keep same number of sentence.
     Output should be in line, while the number of line should be the same as number of sentence.
     Example input:
     ```
     0-[离婚协议书]
     1-[未完待续]
     2-你来这干嘛啊
     3-怎么
     4-我来的不是时候了
     5-打扰我老公
     6-跟我闺蜜的好事了
     7-还有你陈雅舒
     8-我把你当亲姐妹
     9-你居然
     ```
     Example output:
     ```
     0-[สัญญาหย่า]
     1-[ติดตามตอนต่อไป]
     2-มาทำไมเนี่ย
     3-ทำไม
     4-ฉันมารบกวน
     5-สามีฉัน
     6-กับเพื่อนซี้ฉันหรือไง
     7-ริษา
     8-เราสนิทกันขนาดนี้
     9-แต่เธอ
     ```
     """),
    ("user",
     """
     {sentences}
     """),
])

output_parser = StrOutputParser()

chain = prompt | llm | output_parser
output = chain.invoke({"sentences": numbered_sentences})
print(output)


```
0-[สัญญาหย่า]
1-[ติดตามตอนต่อไป]
2-มาทำไมเนี่ย
3-ทำไม
4-ฉันมารบกวน
5-สามีฉัน
6-กับเพื่อนซี้ฉันหรือไง
7-ริษา
8-เราสนิทกันขนาดนี้
9-แต่เธอ
10-ไปยั่วยวนสามีฉัน
11-เธอมันหน้าด้าน
12-อ๊ะ
13-พอแล้ว
14-หลินหยู ฉันบอกเธอ
15-ฉันทนเธอมานานแล้ว
16-เฮ้อ
17-เธอน่าจะดูตัวเองบ้าง
18-ตอนนี้สภาพเธอซกมก
19-เธอเหมาะกับฉันไหม
```


In [15]:
numbered_str_to_dict(output)

{'0': '[สัญญาหย่า]',
 '1': '[ติดตามตอนต่อไป]',
 '2': 'มาทำไมเนี่ย',
 '3': 'ทำไม',
 '4': 'ฉันมารบกวน',
 '5': 'สามีฉัน',
 '6': 'กับเพื่อนซี้ฉันหรือไง',
 '7': 'ริษา',
 '8': 'เราสนิทกันขนาดนี้',
 '9': 'แต่เธอ',
 '10': 'ไปยั่วยวนสามีฉัน',
 '11': 'เธอมันหน้าด้าน',
 '12': 'อ๊ะ',
 '13': 'พอแล้ว',
 '14': 'หลินหยู ฉันบอกเธอ',
 '15': 'ฉันทนเธอมานานแล้ว',
 '16': 'เฮ้อ',
 '17': 'เธอน่าจะดูตัวเองบ้าง',
 '18': 'ตอนนี้สภาพเธอซกมก',
 '19': 'เธอเหมาะกับฉันไหม'}