In [1]:
from collections import Counter
from gensim.corpora import Dictionary
from nltk import ngrams
from scipy import stats

import itertools
import numpy as np
import os
import pybo

import matplotlib.pyplot as plt
%matplotlib inline

Store texts in the following directory structure:

    texts
      Bon
        file1.txt
        file2.txt
        ...
      Nyingma
        file1.txt
        file2.txt
        ...

In [2]:
tok = pybo.BoTokenizer('POS')

Loading Trie...
Time: 11.93508768081665


Assumptions here:
1. Drop all non-bo text
2. Drop all phrase delimiters (shad)
3. Reduce words to lemmas
4. Strip beginning and ending tseks from lemmas

In [3]:
tsek = '་'

# Create dictionary to map document index back to filename
bon_idx2fname = {}
bon_texts = []
for filename in sorted(os.listdir("texts/Bon")):
    if ".txt" in filename:
        with open("texts/Bon/" + filename, 'r', encoding='utf-8-sig') as f:
            bon_idx2fname[len(bon_texts)] = filename
            tokens = [t for t in tok.tokenize(f.read()) if t.type != "non-bo" and t.pos != "punct"]
            lemmas = [t.lemma.strip(tsek) if t.lemma else t.content.strip(tsek) for t in tokens]
            bon_texts.append(lemmas)
            
# Now process nyingma
nyingma_idx2fname = {}
nyingma_texts = []
for filename in sorted(os.listdir("texts/Nyingma")):
    if ".txt" in filename:
        with open("texts/Nyingma/" + filename, 'r', encoding='utf-8-sig') as f:
            nyingma_idx2fname[len(nyingma_texts)] = filename
            tokens = [t for t in tok.tokenize(f.read()) if t.type != "non-bo" and t.pos != "punct"]
            lemmas = [t.lemma.strip(tsek) if t.lemma else t.content.strip(tsek) for t in tokens]
            nyingma_texts.append(lemmas)

In [4]:
filter_list = ['གི','ལ','གིས','དང','ནི','ནས','པ','གོ','ཀྱང','དུ','ཀྱིས','དེ','ཏེ','མ','སྟེ','སུ','ཀྱི','གྱིས','ན','ཅེས','འདི','གྱི','ཅི','བ','པར','ཡིས','ཅིང','མོ','ཅེས་པ','རྣམས','ཏུ']

bon_texts_f = []
for t in bon_texts:
    t_f = [x for x in t if x not in filter_list]
    bon_texts_f.append(t_f)

nyingma_texts_f = []
for t in nyingma_texts:
    t_f = [x for x in t if x not in filter_list]
    nyingma_texts_f.append(t_f)
    
bon_bigrams_f = []
for t in bon_texts:
    grams = [tsek.join(x) for x in ngrams(t, 2) if not set(x).intersection(filter_list)]
    bon_bigrams_f.append(grams)
    
nyingma_bigrams_f = []
for t in nyingma_texts:
    grams = [tsek.join(x) for x in ngrams(t, 2) if not set(x).intersection(filter_list)]
    nyingma_bigrams_f.append(grams)

## Overall top words/bigrams

In [5]:
bon_words_counter = Counter(list(itertools.chain(*bon_texts_f)))
nyingma_words_counter = Counter(list(itertools.chain(*nyingma_texts_f)))

bon_bigrams_counter = Counter(list(itertools.chain(*bon_bigrams_f)))
nyingma_bigrams_counter = Counter(list(itertools.chain(*nyingma_bigrams_f)))

In [6]:
N = 100

print("Bon Texts Top {} words".format(N))
for k, v in bon_words_counter.most_common(N):
    print("{}: {}\n".format(k, v))

print("Nyingma Texts Top {} words".format(N))
for k, v in nyingma_words_counter.most_common(N):
    print("{}: {}\n".format(k, v))

print("Bon Texts Top {} bigrams".format(N))
for k, v in bon_bigrams_counter.most_common(N):
    print("{}: {}\n".format(k, v))

print("Bon Nyingma Top {} bigrams".format(N))
for k, v in nyingma_bigrams_counter.most_common(N):
    print("{}: {}\n".format(k, v))

Bon Texts Top 100 words
སེམས: 701

མི: 624

ལས: 513

མྱེད: 443

དོན: 435

བྱ: 419

ཉིད: 403

ཡེ་ཤེས: 332

ཐམས་ཅད: 313

བོན: 297

ཡིན: 270

ངང: 268

མེད་པ: 257

བྱང་ཆུབ: 255

མཚན་མ: 249

གསལ་བ: 238

ཆེན་པོ: 232

ཁུ་བྱུག: 221

གསུམ: 215

བདག: 206

རིག་པ: 200

གཉིས: 198

མེད: 196

ལུང: 188

ནམ་མཁའ: 184

གསལ: 182

བྱ་བ: 178

དབྱིངས: 177

ཞིང: 177

གནས: 172

ལྷ: 171

དུས: 165

བསྒོམ: 161

སེམས་ཉིད: 159

སྟོན་པ: 158

ལྔ: 157

རང་བཞིན: 157

རང: 156

རྟོགས: 156

ཀུན: 155

ཙམ: 149

ཡེ་ནས: 146

པས: 138

འོད: 136

བཞི: 135

བསྟན་པ: 135

ཤེས་པ: 134

སྤྲུལ་པ: 133

ལྟར: 132

སྐྱེ་བ: 131

རྟོགས་པ: 128

རྣམ་པར: 123

ཏིང་ངེ་འཛིན: 121

འབྱུང: 119

བྱུང: 116

གཤེན: 115

ཡིད: 113

ཅིག: 112

སྐུ: 112

སེམས་ཅན: 111

གནས་པ: 111

བརྣན: 111

སྣང: 110

ཅན: 110

ཐབས: 108

དེས: 105

དེ་ལྟར: 105

བདེ་བ: 104

སྟོན: 102

རྣམ་པ: 102

བག་ཆགས: 102

འདྲ: 102

རུ: 102

བཤད: 101

པོ: 101

གཤེན་ལྷ: 96

ལུས: 96

གཅིག: 95

ལྡན་པ: 93

རྒྱུ: 90

དོན་དམ: 89

བསྒོམ་པ: 89

གང: 88

ཐིག་ལེ: 88

འབྲས་བུ: 86

རྒྱལ་པོ: 86

མན་ངག: 85



## Per text top words/bigrams

In [7]:
N = 20

print("bon texts")
for i in range(len(bon_idx2fname)):
    words = Counter(bon_texts_f[i])
    bigrams = Counter(bon_bigrams_f[i])
    print("{} top {} words".format(bon_idx2fname[i], N))
    for k, v in words.most_common(N):
        print("{}: {}\n".format(k, v))
    print("{} top {} bigrams".format(bon_idx2fname[i], N))
    for k, v in bigrams.most_common(N):
        print("{}: {}\n".format(k, v))

print("nyingma texts")       
for i in range(len(nyingma_idx2fname)):
    words = Counter(nyingma_texts_f[i])
    bigrams = Counter(nyingma_bigrams_f[i])
    print("{} top {} words".format(nyingma_idx2fname[i], N))
    for k, v in words.most_common(N):
        print("{}: {}\n".format(k, v))
    print("{} top {} bigrams".format(nyingma_idx2fname[i], N))
    for k, v in bigrams.most_common(N):
        print("{}: {}\n".format(k, v))

bon texts
01-SMDG-gser-lung-non-che.txt top 20 words
སེམས: 166

བདག: 157

ལས: 156

མི: 146

ལུང: 111

ཡིན: 95

བརྣན: 86

བསྒོམ: 84

མེད་པ: 81

སླུ་བ: 74

དོན: 72

ཉིད: 72

ཡིད: 66

ཏིང་ངེ་འཛིན: 65

ཆེན་པོ: 62

མེད: 61

བྱང་ཆུབ: 59

གཉིས: 58

བཞི: 58

མཚན་མ: 58

01-SMDG-gser-lung-non-che.txt top 20 bigrams
ལུང་བརྣན: 80

སྙམ་བྱེད: 34

བདག་སྒོམ་པ: 24

སླུ་བ་ཡིན: 23

ཉམས་སོད: 21

རྣམ་པར་ཤེས་པ: 19

འཕྲག་དོག: 18

བོན་ཉིད: 15

སླུ་བ་པོ: 15

མི་ཁྱབ་པ: 13

ཏན་ཏྲ: 12

ཏྲ་ལས: 12

རྗེས་སུ་མི: 12

ལས་བྱུང་བ: 12

སྤྲུལ་པ་ལས: 12

འོད་དཀར: 11

ཡེ་ཤེས་ཆེན་པོ: 11

གཤེན་ལྷ་འོད: 10

རྣམ་པ་གསུམ: 10

བྱིན་ཆེ: 10

02-SMDG-gser-lung-non-chung.txt top 20 words
མཚན་མ: 54

མྱེད: 48

ཐམས་ཅད: 39

སེམས: 38

ཉིད: 34

ལས: 31

ལུང: 28

སེམས་ཉིད: 26

བརྣན: 25

དོན: 22

བསྒོམ: 21

བག་ཆགས: 20

འབྱུང: 19

བྱ་བ: 18

གཤེན་ལྷ: 15

རང: 15

དཀར་པོ: 15

ཞིང: 14

མི: 14

ཡེ་ཤེས: 13

02-SMDG-gser-lung-non-chung.txt top 20 bigrams
ལུང་བརྣན: 25

མཚན་མ་ཐམས་ཅད: 21

སེམས་རང: 14

རང་འབྱུང: 14

གཤེན་ལྷ་དཀར་པོ: 14

མཚན་མ་མྱེད: 10

ཐམས་ཅད


ཐིག་ལེ་མེད་པ: 2

ནུབ་པ་མེད: 2

མེད་བསྒོམ་པ: 2

འགྱུར་བ་མེད་པ: 2

བལ་ནག: 2

དེ་ནས་འཁོར: 1

བསྒོམ་བསྒྲུབ: 1

བསྒྲུབ་ཀུན: 1

LL07_L10_srog-gi-'khor-lo_v8.p491-494.txt top 20 words
མེད: 12

མི: 10

རང་བཞིན: 8

ཆོས་དབྱིངས: 8

དབྱིངས: 7

འཁོར་ལོ: 6

ངང: 6

སྐུ་གསུང་ཐུགས: 6

རྒྱལ་བ: 6

ཡོངས: 6

ཐུགས: 6

རྫོགས: 6

ཀུན: 5

བྱང་ཆུབ: 5

སྙིང་པོ: 5

འདུས: 5

རྒྱ་མཚོ: 5

མེད་པ: 5

སྲོག: 4

ཐབས: 4

LL07_L10_srog-gi-'khor-lo_v8.p491-494.txt top 20 bigrams
བྱང་ཆུབ་སེམས: 3

མི་ཟད་རྒྱན: 3

རྣལ་འབྱོར་ཡོངས: 2

རང་རིག་དབང་ཕྱུག: 2

སྐྱེ་མེད: 2

མྱ་ངན་འདས: 2

ང་མེད: 2

མེད་བདག: 2

མེད་པ་ཡུམ: 2

ཡེ་ཤེས་དབྱིངས: 2

མཆོག་མི་ཟད: 2

རྒྱུ་གཅིག: 2

བསམ་མི: 2

མི་ཁྱབ: 2

འཁོར་ལོ་བཅོམ་ལྡན་འདས: 1

བཅོམ་ལྡན་འདས་ཏེ་མ: 1

ཏེ་མ་ལུས: 1

ལུས་ཀུན: 1

དཔལ་ཐུགས་རྗེ: 1

ཐུགས་རྗེ་ཐབས: 1

LL08_thig-le-drug-pa-NGB-vol33.txt top 20 words
ཀུན: 16

མེད: 15

མི: 15

གནས: 10

ལམ: 10

ལས: 6

ཤིང: 6

ཆོས: 6

ཉིད: 6

བྲལ: 6

ཡུལ: 6

སེམས: 5

གཉིས: 5

མཐའ: 5

རང་བཞིན: 5

ཆེན་པོ: 4

བྱང་ཆུབ: 4

རྒྱུད: 4

རང: 4

དག: 4

LL08_thig-le-drug-pa-N