# Collect Open Subtitle Style Files
This script generate the following files:

1.tmx files are the source parallel corpus downloaded from the Open Subtitle Corpus
2.en_subtitle.pkl, fa_subtitles.pkl; are parallel subtitles collected in list form
3.en_subtitles_transformed.pkl is cleaned en_subtitles.pkl file. Each substitle in this file has been cleaned with the Transformation function in jiwer toolkit.

In [None]:
import json
from lxml import etree
import lxml
from tqdm import tqdm
import pickle as pkl
import re
import jiwer

## Read source subtitle data from Open Subtitle Corpus

In [7]:
# Load Open Subtitle Bitext
xml_file = etree.parse('en_fa/en-fa.tmx')

In [8]:
# Collect subtitles
en_subtitle = []
fa_subtitle = []
root = xml_file.getroot()
count = 0
for node in tqdm(root.iter()):
    if node.tag=='seg':
        if count % 2 ==0:
            en_subtitle.append(node.text)
        else:
            fa_subtitle.append(node.text)
        count += 1

27292178it [00:19, 1373737.04it/s]


In [13]:
# Clean subtitle in English Side
transformation = jiwer.Compose([
    jiwer.ToLowerCase(),
    jiwer.RemoveMultipleSpaces(),
    jiwer.ExpandCommonEnglishContractions(),
    jiwer.RemovePunctuation(),
    jiwer.Strip()
])

In [22]:
en_subtitle_transformed = []
for x in tqdm(en_subtitle):
    en_subtitle_transformed.append(transformation(x))

100%|██████████| 5458435/5458435 [01:03<00:00, 85390.43it/s]


In [24]:
# Write processed subtitle file
pkl.dump(en_subtitle, open('en_fa/en_subtitles.pkl', 'wb'))
pkl.dump(fa_subtitle, open('en_fa/fa_subtitles.pkl', 'wb'))
pkl.dump(en_subtitle_transformed, open('en_fa/en_subtitles_transformed.pkl', 'wb'))

In [25]:
# Check Farsi Subtitle
with open('en_fa/fa_subtitles.pkl', 'rb') as f:
    data = pkl.load(f)

In [27]:
for x in data[:20]:
    print(x.split(" "))

['مصائب', 'ژاندارک']
['فيلمي', 'از', 'کارل', 'تئودور', 'دراير']
['در', 'کتابخانه', 'مجلس', 'نمايندگان', 'پاريس،', 'يکي', 'از', 'خارق\u200cالعاده\u200cترين', 'اسناد', 'تاريخ', 'جهان', 'قرار', 'دارد:']
['پرونده', 'محاکمه', 'ژاندارک', 'محاکمه\u200cاي', 'که', 'منجر', 'به', 'مرگ', 'وي', 'شد.']
['پرسشهاي', 'قضات', 'و', 'پاسخهاي', 'ژان', 'عيناً', 'پرونده', 'شدند.']
['ما', 'با', 'خواندن', 'اين', 'پرونده', 'دريافتيم', 'ژانِ', 'واقعي...', 'نه', 'تنها', 'سلاحي', 'نداشته', 'بلکه', 'فردي', 'ساده', 'و', 'داراي', 'خوي', 'انساني', 'بوده.', 'زني', 'جوان', 'که', 'براي', 'کشورش', 'جانباخته', 'است.']
['و', 'ما', 'شاهد', 'نمايش', 'متحيرکننده\u200cاي', 'هستيم:']
['زني', 'مومن', 'و', 'جوان', 'در', 'برابر', 'گروهي', 'از', 'الاهيات', 'دانان', 'ارتدکس', 'و', 'قضات', 'قدرتمند.']
['سوگند', 'ميخورم', 'حقيقت', 'را', 'بگويم،', 'تمام', 'حقيقت', 'را...', 'هيچ', 'چيز', 'مگر', 'حقيقت...', '...']
['در', 'فرانسه', 'مرا', 'ژان', 'ميخوانند...', 'در', 'روستايم،', 'ژانت', 'صدايم', 'ميزنند.']
['چند', 'سال', 'داري؟']
['گمان', '