## Read the footnotes from tex file
### copy all of your latex source (chapters) inot a single file named latexsource.tex


In [1]:
import re
import csv


with open('latexsource.tex', 'r', encoding='utf-8') as thesis_file:
    thesis_content = thesis_file.read()


footnote_pattern = r'\\LTRfootnote\{([^}]+)\}'
footnotes = re.findall(footnote_pattern, thesis_content)

csv_filename = 'footnotes.csv'
with open(csv_filename, 'w', encoding='utf-8') as csv_file:
    writer = csv.writer(csv_file)
    for footnote in footnotes:
        writer.writerow([footnote,""])

print(f"Footnotes extracted and saved to {csv_filename}")


Footnotes extracted and saved to footnotes.csv


## Edit the generated csv. put the persian translation in the second column
### after cleaning up unwanted footnotes in the dictionary and adding the translations
### run the cell below to sort and create two dictionaries persian to english and english to persian

In [2]:
import csv


input_filename = 'footnotes.csv'
p2e = '_p2e.csv'
e2p ='_e2p.csv'

with open(input_filename, 'r', newline='') as csvfile:
    reader = csv.reader(csvfile)
    data = list(reader)

p2e_sorted = sorted(data, key=lambda row: row[1])
e2p_sorted = sorted(data, key=lambda row: row[0])

with open(p2e, 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerows(p2e_sorted)
with open(e2p, 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerows(e2p_sorted)
print(f"persian to english saved to {p2e}")
print(f"english to persian saved to {e2p}")


persian to english saved to _p2e.csv
english to persian saved to _e2p.csv


## Generating the Persian to English dictionary tex file

In [3]:
header='''
\\addcontentsline{toc}{section}{واژه‌نامه فارسی به انگلیسی }

\\begin{center}
\\vspace{1.5cm}
\\Huge{واژه‌نامه فارسی به انگلیسی}
\\vspace{1.5cm}
\\end{center}
\\begin{center}
الف
\\end{center}

'''
head_char="ا"
fe_dir="FE.tex"
with open(fe_dir,"w+") as fe:
    fe.write(header)
    for entry in p2e_sorted:
        print(entry)
        if entry[1][0]!= head_char:
            head_char = entry[1][0]
            sep_text="\\begin{center}\n"+ head_char +"\n\\end{center}\n"
            fe.write(sep_text)
        entry_text=entry[1] + "\t \\dotfill \t \\lr{"+entry[0]+"} \\\\ \n"
        fe.write(entry_text)
    
    

['bidirectional-encoder', ' رمزگذار دوسویه']
['pre-trained', ' قبل آموزش داده\u200c شده']
['Peripheral context', ' محتوای محیطی']
['encoder only transformer models', ' مدل ترانسفورمر فقط رمزگذار']
['learning rate', ' نرخ یادگیری']
['testing', 'آزمون']
['training', 'آموزش']
['part of speech (POS)', 'اجزای کلام']
['integration of the spatial pyramid', 'ادغام هرم فضایی']
['train batch size', 'اندازه دسته آموزشی']
['effective batch size', 'اندازه دسته\u200cی آموزشی موثر']
['epochs', 'ایپاک']
['contextualized representations', 'بازنمایی\u200cهای متنی']
['BERT', 'برت']
['one-hot vector', 'برداری که یکی یک و مابقی صفر است']
['context vectors', 'بردار\u200cهای زمینه']
['part of speech tagging', 'برچسب\u200cزدن اجزای کلام']
['computer vision', 'بینایی کامپیتر']
['sentiment analysis', 'تجزیه و تحلیل احساسات']
['dependency parser', 'تجزیه وابستگی']
['Named Entity Recognition(NER)', 'تشخیص موجودیت\u200cهای نامدار']
['word segmentation', 'تقسیم\u200cبندی کلمات']
['fine-tune', 'تنظیم دقیق']
['token'

## Generating the English to Persian dictionary tex file

In [4]:
header='''
\\addcontentsline{toc}{section}{واژه‌نامه انگلیسی به فارسی }

\\begin{center}
\\vspace{1.5cm}
\\Huge{واژه‌نامه انگلیسی به فارسی}
\\vspace{1.5cm}
\\end{center}
\\begin{center}
A
\end{center}
'''
head_char="A"
fe_dir="EF.tex"
with open(fe_dir,"w+") as fe:
    fe.write(header)
    for entry in e2p_sorted:
        print(entry)
        if entry[0][0]!= head_char.upper():
            head_char = entry[0][0].upper()
            sep_text="\\begin{center}\n"+ head_char +"\n\\end{center}\n"
            fe.write(sep_text)
        entry_text="\\lr{"+entry[0] + "}\t \\dotfill \t"+entry[1]+" \\\\ \n"
        fe.write(entry_text)
    
    

['BERT', 'برت']
['CharBERT', 'کر برت']
['Computer Science', 'علوم کامپیوتر']
['Conditional Random Fields', 'فیلدهای تصادفی شرطی']
['Dictionary', 'لغت\u200cنامه']
['Dictionary-based Methods', 'روش\u200cهای لغت\u200cنامه محور']
['Editor', 'ویراستار']
['Generative-AI', 'هوش مصنوعی مولد']
['Large Language Models', 'مدل\u200cهای زبانی بزرگ']
['Learning Methods', 'روش\u200cهای یادگیری محور']
['Masked Language Modeling', 'مدل\u200cسازی زبان ماسک\u200cدار']
['N-gram', 'چندگرام']
['Named Entity Recognition(NER)', 'تشخیص موجودیت\u200cهای نامدار']
['Natural Language Processing', 'پردازش زبان طبیعی']
['Next Sentence Prediction', 'پیش\u200cبینی جمله بعدی']
['Peripheral context', ' محتوای محیطی']
['RoBERTa', 'روبرتا']
['Rule-based Methods', 'روش\u200cهای قانون محور']
['Unicode', 'یونی\u200cکد']
['bidirectional-encoder', ' رمزگذار دوسویه']
['byte-pair encoding', 'جنگاشتگر سطح بایت']
['computer vision', 'بینایی کامپیتر']
['context vectors', 'بردار\u200cهای زمینه']
['context window', 'پنجره زمینه']
['c