In [14]:
import pickle, re, nltk

In [3]:
import numpy as np
import pandas as pd

from pandas import DataFrame, Series

## I. Importing Corpora



Corpora:
- (1) indo_toks = Indian historical manuscripts edited by others
- (2) indo_toks_man = Indian historical manuscripts transcribed by me
- (3) edited_toks = Transoxania historical manuscripts edited by others
- (4) notes_toks = Transoxania historical manuscripts edited by me
- (5) pers_lit_toks = Full Persian literary corpus (from Roshan)
- (6) markdown_toks = Document transcriptions at MarkDown stage
- (7) xml_toks = Document trasncriptoins at XML stage


In [6]:
with open("pickled_refined_data/corpora.pkl", "rb") as f:
    edited_toks, indo_toks, indo_toks_man, notes_toks, markdown_toks, xml_toks = pickle.load(f)

In [8]:
#xml_toks.keys()

Sub-Corpuses:
- (a) Indic Persian Mansucripts: corpus (1) + manuscript notes (2)
- (b) Transoxania Manuscripts: corpus (3) + manuscript notes (4)
- (c) Persian literature (5)
- (d) Documents (right now all together, regardless of location): markdown (6) + xml (7)



Combined Corpora:
- (i) History: a + b
- (ii) Literature: c
- (iii) Documents: d

Meta Corpus: i+ii+iii

In [16]:
with open("pickled_refined_data/meta_corpora.pkl", "rb") as f:
    india_man_toks, trans_man_toks, doc_corpus_toks, hist_corpus_toks, combined_corpus_toks = pickle.load(f)

In [11]:
#combined_corpus_toks.keys()

## II. Importing Raw Tokens
I.e. tokens without parent text designation, i.e. format necessary for many NLTK routines.

In [17]:
with open("pickled_refined_data/raw_tokens.pkl", "rb") as f:
    doc_toks, hist_toks, lit_toks, combined_toks = pickle.load(f)

## III. Importing Datasets

- Von Melzer Persian Lexicon
- Glossary
- Place Names

In [4]:
# Von Melzer
meltzer = pd.read_csv("data_master/von_melzer.csv")

In [9]:
#meltzer["Transkription"].sample(5)
#meltzer.head()

In [50]:
# Locations
locations = pd.read_csv('data/locations.csv', names=['UID', 'Ar_Names', \
                                                'Lat_Name', 'Nickname', 'Type'])

# Social Roles

# Glossary

glossary = pd.read_csv('data/glossary.csv', names=['UID', 'Term', \
                                                'Eng_Term', 'Translation', 'Transliteration', 'Scope', 'Tags'])

# Basic Search

In [57]:
search_term = re.compile(r"م...له")

### Von Melzer Persion Dictionary

In [58]:
melz_query_mask = meltzer["Präs.-Stamm"].str.contains(search_term, na=False)
melz_query = meltzer[melz_query_mask]
melz_query

Unnamed: 0,UID,Volume,Unnamed: 2,Persisch,Präs.-Stamm,Transkription,Deutsch,Bemerkung,Quellenangaben
1523,1524,I,1523,1524,‫آتش مسلسلها‬,āteš-e mosalsal⁺-hā,Maschinengewehrfeuer (n.),,
3265,3266,I,3265,3266,‫ادام الله‬,adāma⁺-l-lāh⁺,Gott lasse dauern; Gott erhalte!,,"Saʿdī (Gulistān 9/9, Qazvīnī 1909:XXIFn., Nr I/3"
3266,3267,I,3266,3267,‫ادام الله اقباله‬,adāma⁺-l-lāho⁺ eqbāla⁺- ho⁺,Gott lasse sein Glück dauern!,,
3267,3268,I,3267,3268,‫ادام الله عزه‬,adāma⁺-l-lāho⁺ ezza⁺-ho⁺,Gott erhalte seine Macht!,,Nr 16/24f.a
3268,3269,I,3268,3269,‫ادام الله علوه‬,adāma⁺-l-lāho⁺ olowwa⁺- ho⁺,Gott lasse seine Größe dauern!,,Muvaffaq
8375,8376,I,8375,8376,‫اشیاء منقوله‬,ašjāʾ⁺-e manqūle⁺,bewegliche Güter,,
9103,9104,I,9103,9104,‫الحمد لله‬,al⁺-hamdo⁺ le⁺-l-lāh,das Lob gebührt Gott,,
9104,9105,I,9104,9105,‫الحمد لله‬,al⁺-hamdo⁺ le⁺-l-lāh⁺,Gott Lob!,,"LF 3/1, Beck 1914:64"
9105,9106,I,9105,9106,‫الحمد لله‬,al⁺-hamdo⁺ le⁺-l-lāh⁺,Gott sei Dank!,,Fleischer 1875:168
13556,13557,I,13556,2068,‫بحسب مقاوله‬,be-hasb⁺-e moqāwale⁺,vertragsgemäß,,Nicolas 1887:I 256


### Database Terms

#### (a) Technical Lexicon

In [59]:
glos_query_mask = glossary["Term"].str.contains(search_term, na=False)
glos_query = glossary[glos_query_mask]
glos_query

Unnamed: 0,UID,Term,Eng_Term,Translation,Transliteration,Scope,Tags
121,124,معامله,mu'amala,,,indic,taxes
211,214,منقوله,manqula,personal property,manqūla,islam,propertylaw


#### (b) Social Roles

#### (c) Place Names

In [60]:
loc_query_mask = locations["Ar_Names"].str.contains(search_term, na=False)
loc_query = locations[loc_query_mask]
loc_query

Unnamed: 0,UID,Ar_Names,Lat_Name,Nickname,Type


### Corpus Tokens

In [61]:
combo_freq = nltk.FreqDist(combined_toks)
toks = [x for x in combo_freq if re.match(search_term, x)]
toks[:5]

['منقوله', 'موصوله', 'مقاتله', 'مقابله', 'معامله']

### Keyword in Context

In [62]:
conc0 = sum([trans_corpus.concordance_list(x) for x in toks], [])
conc1 = [c.line for c in conc0]
print('\n'.join(conc1))

 خواهد شد و بحالت نه دادن از جایداد منقوله و غیر منقوله بمعرض وصول خواهد آمد ف
حالت نه دادن از جایداد منقوله و غیر منقوله بمعرض وصول خواهد آمد فصل دوم ناظم ر
ع کتب معقوله مثل شفا و اشارات و کتب منقوله و عربیه را مطالعه نموده نحوی تقریر 
 سعد خان باستیفا فنون علوم معقوله و منقوله و استقصا صنوف دانش و حفظ قرآن مجید 
لملک تونی که از فن نجوم و دیگر علوم منقوله و معقوله نصیبه وافی دارد و از پیشگا
 مجال نطق نبود تا کس چیز نپرسد ازین منقوله ساکت بود بعد از سوال بقدر ضرورت جوا
ال نطق نبود تا کسی چیزی نپرسید ازین منقوله ساکت بود بعد از سوال بقدر ضرورت جوا
د نمونه بسته فیصلنامهجات عدالت فلان موصوله ماه و سنه فلان تعمیل شده زید مدعی ب
ز شیخ لا و از صاحب بهادر دران میدان مقاتله جنگ و جدل از حد غایت شد داستان پانز
 و سلاطین چغتایی در ماورا النهر داد مقاتله و مجادله داده تخت بدخشان را بزور با
مخارج را مسدود ساخته مستعد مدافعه و مقاتله و آماده پیکار و کارزار شده بودند بی
ا استحکام داده مدت سه ماه بمجادله و مقاتله و مدافعه و مقابله روزگار گذرانیدند 
فنگ بمیان آمده تا دیری داد مجادله و مقاتله دادند بعد

### Custom KWIC (beta)

In [None]:
five_grams = nltk.ngrams(doc_toks, 5)

In [None]:
five_grams = list(five_grams)
five_grams[5][2] == "پانصد"

In [None]:
search_toks = [x for x in five_grams if five_grams[x][2] is "پانصد"]
search_toks[:5]

___
___

# Conditional Frequency

*Meta-Corpus*

In [64]:
# ConditionalFreqDist() takes a list of pairs.
# Generator variable uses itself up upon assignment, so need to recreate above

bigrams_cfd = nltk.ngrams(combined_toks, 2)

cfd = nltk.ConditionalFreqDist(bigrams_cfd)

### Simple Conditional Frequency:

*Meta-Corpus*

In [72]:
search_term = "بعث"

In [73]:
cfd[search_term].most_common(5)

[('و', 7), ('را', 4), ('نفس', 2), ('سر', 2), ('رسل', 2)]

### Third term, if first two known:

*Meta-Corpus (computationally costly)*

In [75]:
tri0 = nltk.ngrams(combined_toks, 3)
tri1 = [((a, b), c) for (a, b, c) in tri0]
cfd1 = nltk.ConditionalFreqDist(tri1)

KeyboardInterrupt: 

In [None]:
first_term = "چند"
second_term = "سال"

cfd1[(first_term, second_term)]

### Reversed conditional frequency, i.e. if second word in sequence known but not first

*Meta-Corpus*

In [None]:
search_term = "راک"

In [None]:
bi0 = nltk.ngrams(combined_toks, 2)
bir = [(b, a) for (a, b) in bi0]
cfdr = nltk.ConditionalFreqDist(bir)

cfdr[rev_cf_term].most_common(15)