# Text Deciphering Tool

In [1]:
import pickle, re, nltk

In [2]:
import numpy as np
import pandas as pd

from pandas import DataFrame, Series

Sister files:
- Pickled corpora cleaned in text_cleaning_tokenizing
- Corpora stats in corpora_statistics

## I. Importing Corpora



Corpora:
- (1) indo_toks = Indian historical manuscripts edited by others
- (2) indo_toks_man = Indian historical manuscripts transcribed by me
- (3) edited_toks = Transoxania historical manuscripts edited by others
- (4) notes_toks = Transoxania historical manuscripts edited by me
- (5) pers_lit_toks = Full Persian literary corpus (from Roshan)
- (6) markdown_toks = Document transcriptions at MarkDown stage
- (7) xml_toks = Document trasncriptoins at XML stage


In [49]:
with open("pickled_refined_data/corpora.pkl", "rb") as f:
    edited_toks, indo_toks, indo_toks_man, notes_toks, markdown_toks, xml_toks = pickle.load(f)

In [51]:
#markdown_toks.keys()

Sub-Corpuses:
- (a) Indic Persian Mansucripts: corpus (1) + manuscript notes (2)
- (b) Transoxania Manuscripts: corpus (3) + manuscript notes (4)
- (c) Persian literature (5)
- (d) Documents (right now all together, regardless of location): markdown (6) + xml (7)



Combined Corpora:
- (i) History: a + b
- (ii) Literature: c
- (iii) Documents: d

Meta Corpus: i+ii+iii

In [5]:
with open("pickled_refined_data/meta_corpora.pkl", "rb") as f:
    india_man_toks, trans_man_toks, doc_corpus_toks, hist_corpus_toks, combined_corpus_toks = pickle.load(f)

In [6]:
#combined_corpus_toks.keys()

## II. Importing Raw Tokens
I.e. tokens without parent text designation, i.e. format necessary for many NLTK routines.

In [53]:
with open("pickled_refined_data/raw_tokens.pkl", "rb") as f:
    doc_toks, hist_toks, lit_toks, combined_toks = pickle.load(f)

## III. Importing Datasets

- Von Melzer Persian Lexicon
- Glossary
- Place Names

In [8]:
# Von Melzer
meltzer = pd.read_csv("data_master/von_melzer.csv")

In [9]:
#meltzer["Transkription"].sample(5)
#meltzer.head()

In [10]:
# Locations
locations = pd.read_csv('data/locations.csv', names=['UID', 'Ar_Names', \
                                                'Lat_Name', 'Nickname', 'Type'])

# Social Roles

# Glossary

glossary = pd.read_csv('data/glossary.csv', names=['UID', 'Term', \
                                                'Eng_Term', 'Translation', 'Transliteration', 'Scope', 'Tags'])

___
___

# Basic Search

Regex reminders:
- Just the word itself: `^مال$`

In [77]:
search_term = re.compile(r"..احب")

### Von Melzer Persion Dictionary

In [78]:
melz_query_mask = meltzer["Präs.-Stamm"].str.contains(search_term, na=False)
melz_query = meltzer[melz_query_mask]
melz_query

Unnamed: 0,UID,Volume,Unnamed: 2,Persisch,Präs.-Stamm,Transkription,Deutsch,Bemerkung,Quellenangaben
2241,2242,I,2241,2242,‫اﺟلۀ صاحب منصبان‬,aǧelle⁺-je sāheb⁺ mansab⁺-ān,die höchsten der Offiziere,,Kāva I/11:6/3b
2381,2382,I,2381,2382,(Pl. ‫احبوش )احابیش‬,ohbūš⁺ (Pl. ahābīš),Horde (f.),,
9570,9571,I,9570,9571,‫آن صاحب‬,ān sāheb⁺,jener Herr (Briefanrede an Europäer),,Beck 1915:221
18128,18129,I,18128,6640,‫بی صاحبی‬,bī-sāheb⁺ī,Herrenlosigkeit (f.),,Ibrāhīm Baik (Siyāḥatnāma 26/3)
25903,25904,II,7119,2751,‫تصاحب‬,tasāhob⁺ A,nei,gnung (f.),Šaibānī 1314:I 76/8
25904,25905,II,7120,2752,‫تصاحب کردن‬,tasāhob⁺ kardan (+Akk.) b,ese,tzen,Īrān 6015/3a
25905,25906,II,7121,2753,‫تصاحب کردن‬,tasāhob⁺ kardan (+Akk.) i,n B,esitz nehmen; sich aneignen,"Ramażānī 1315:21/21, 246/11, Šaibānī 1314:I 34..."
33354,33355,II,14570,1318,‫حکیم صاحب‬,hakīm⁺ sāheb⁺,Herr Doktor!,,Qaraǧadaġī (Mūsī Žūrdān 21) 1197
34012,34013,II,15228,183,‫خاقان صاحب قران‬,ḫāqān⁺⁺-e sāheb⁺-qerān⁺,der Großherr mit der günstigen Stern- stellung...,,"Qulī-Ḫān (Sifāratnāma 14/6, 18, 20/19)"
38057,38058,III,464,166,5 ‫درﺟۀ صاحب منصفی‬,daraǧe⁺-je sāheb⁺- mansaf⁺ī,Rangabzeichen der Offiziere [rect...,ﻲ,‬Īrānšahr I 21/20f.


### Database Terms

#### (a) Technical Lexicon

In [24]:
glos_query_mask = glossary["Term"].str.contains(search_term, na=False)
glos_query = glossary[glos_query_mask]
glos_query

Unnamed: 0,UID,Term,Eng_Term,Translation,Transliteration,Scope,Tags


#### (b) Social Roles

#### (c) Place Names

In [25]:
loc_query_mask = locations["Ar_Names"].str.contains(search_term, na=False)
loc_query = locations[loc_query_mask]
loc_query

Unnamed: 0,UID,Ar_Names,Lat_Name,Nickname,Type


### Corpus Tokens

In [79]:
combo_freq = nltk.FreqDist(combined_toks)
toks = [x for x in combo_freq if re.match(search_term, x)]
toks[:5]

['بصاحب', 'مصاحبت', 'مراحب', 'مصاحب', 'بصاحبقران']

### Keyword in Context

In [83]:
search_term = re.compile(r"عیدین")

In [85]:
trans_corpus = nltk.Text(combined_toks)

In [84]:
conc0 = sum([trans_corpus.concordance_list(x) for x in toks], [])
conc1 = [c.line for c in conc0]
print('\n'.join(conc1))

بق دستور سابق عبد الرحیم خانخانان را بصاحب صوبگی خاندیس و برار و دکن سرافرازی د
ید ضبط درآورده داراب خان را قسم داده بصاحب سوبگی بنگاله سرافراز فرمودند و زن و 
عار ازو انتزاع نموده خلعت خلافت والا بصاحب دولتی دیگر بپوشانند و افسر سروری بر 
 سببی باو داشتند منزلتهای والا یافته بصاحب صوبگی صوبه های کلان لوای استقلال برا
و عواطف پادشاهانه که بر همه سرافرازی بصاحب صوبگی گجرات بود مشمول گردید و مامور 
ش مخمل زربفت مرحمت نموده لشکر خان را بصاحب صوبگی کابل و مرحمت خلعت خاصه سرافراز
خان خانخانان از تغییر خان جهان لودهی بصاحب صوبگی دکن و خاندیس و برار و سرداری ا
سپ از طویله خاصه سر مباهات برافراخته بصاحب صوبگی دهلی سرافراز شده دستوری یافت م
 بفوجداری پرگنات اکبرآباد و وزیر خان بصاحب صوبگی پنجاب سرافراز گردیدند و باعث ا
ر بحراست آباد از تغییر قلیچ خان و او بصاحب صوبگی ملتان از تغییر نجابت خان سعادت
ند باقر خان بعد از تغییر صوبه اودیسه بصاحب صوبگی ولایت گجرات از تغییر اسلام خان
ب پنج هزاری ذات و سوار سربلندی یافته بصاحب صوبگی پنجاب علم عزت برافراخت حکیم دا
ودند این نزهتکده بدیع آیین که بالفعل بصا

### Custom KWIC (beta)

In [None]:
five_grams = nltk.ngrams(doc_toks, 5)

In [None]:
five_grams = list(five_grams)
five_grams[5][2] == "پانصد"

In [None]:
search_toks = [x for x in five_grams if five_grams[x][2] is "پانصد"]
search_toks[:5]

___
___

# Conditional Frequency

*Meta-Corpus*

In [19]:
# ConditionalFreqDist() takes a list of pairs.
# Generator variable uses itself up upon assignment, so need to recreate above

bigrams_cfd = nltk.ngrams(combined_toks, 2)

cfd = nltk.ConditionalFreqDist(bigrams_cfd)

### Simple Conditional Frequency:

*Meta-Corpus*

In [54]:
search_term = ""

In [55]:
cfd[search_term].most_common(5)

[('را', 164), ('ای', 112), ('می', 91), ('وار', 80), ('به', 51)]

*Document Corpus*

In [75]:
bigrams_doc_fd = nltk.ngrams(doc_toks, 2)

cfd_doc = nltk.ConditionalFreqDist(bigrams_doc_fd)

In [76]:
search_term = "مقرر"
cfd_doc[search_term].most_common(5)

[('و', 27), ('بود', 6), ('شده', 5), ('گشته', 3), ('است', 3)]

### Third term, if first two known:

*Document Corpus (Meta-Corpus simply too computationally costly)*

In [60]:
tri0 = nltk.ngrams(doc_toks, 3)
tri1 = [((a, b), c) for (a, b, c) in tri0]
cfd1 = nltk.ConditionalFreqDist(tri1)

In [87]:
first_term = "و"
second_term = "موفوره"

cfd1[(first_term, second_term)]

FreqDist({})

### Reversed conditional frequency, i.e. if second word in sequence known but not first

*Meta-Corpus*

In [25]:
search_term = "راک"

In [26]:
bi0 = nltk.ngrams(combined_toks, 2)
bir = [(b, a) for (a, b) in bi0]
cfdr = nltk.ConditionalFreqDist(bir)

cfdr[search_term].most_common(15)

[('ی', 2), ('اثر', 2), ('مهر', 1), ('پ', 1), ('سجه', 1), ('بودند', 1)]