# Russian Synodal Bible (1885)

## Import

### Libraries

In [1]:
#import os
#from lxml import etree
from backend import *
import matplotlib
import string

In [2]:
segmenter = Segmenter()
morph_vocab = MorphVocab()
emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)
names_extractor = NamesExtractor(morph_vocab)

### Definitions

In [3]:
bibleTXT = './texts/bible/sinodalnyi-perevod.txt' 
booksJSON = './texts/bible/booksDict.json'
bibleJSON = './texts/bible/bible.json'
bibleIdJSON = './texts/bible/bibleID.json'
bibleXML = './texts/bible/bible.xml'
bibFrazyTXT = './texts/bible/Dubrovina_Slovar_Bibleyskikh_Frazeologizmov.txt'

bibleOHCO = ['test', 'book', 'chap', 'verse']
tokenCols = ['p_id', 'start', 'stop', 'text', 'token_id', 'head_id', 'rel', 'pos', 'lemma', 'anim', 'aspect', 'case', 'degree', 'gender', 'mood', 'number', 'person', 'tense', 'verb_form', 'voice']

chap_lines_re = '^===\s(\d{1,3})\s===$'
book_lines_re = '^==\s(.+)\s==$'
matt_name = 'От Матфея святое благовествование'

In [4]:
with open(booksJSON) as json_file: 
    booksDict = json.load(json_file)

## Pre-Processing

### Import Text into DF

In [135]:
with open(bibleTXT, 'r', encoding='windows-1251') as f: 
    bibleText = f.readlines()

bibliiaDf = pd.DataFrame(bibleText).rename(columns={0:'text'}).dropna()
bibliiaDf

Unnamed: 0,text
0,\n
1,== Бытие ==\n
2,\n
3,=== 1 ===\n
4,\n
...,...
41374,17 И Дух и невеста говорят: прииди! И слышавши...
41375,18 И я также свидетельствую всякому слышащему ...
41376,19 и если кто отнимет что от слов книги пророч...
41377,"20 Свидетельствующий сие говорит: ей, гряду ск..."


### Tidy Up

In [136]:
# remove blank lines and select puncutation, keeping only header & clean text lines
bibliiaDf.loc[:,'text'] = bibliiaDf.loc[:,'text'].str.replace(r'\n', '')
bibliiaDf.loc[:,'text'] = bibliiaDf.loc[:,'text'].str.replace('\]|\[|_|-|', '')
bibliiaDf = bibliiaDf.loc[bibliiaDf.text != '']
bibliiaDf

  bibliiaDf.loc[:,'text'] = bibliiaDf.loc[:,'text'].str.replace(r'\n', '')
  bibliiaDf.loc[:,'text'] = bibliiaDf.loc[:,'text'].str.replace('\]|\[|_|-|', '')


Unnamed: 0,text
1,== Бытие ==
3,=== 1 ===
5,1 В начале сотворил Бог небо и землю.
6,"2 Земля же была безвидна и пуста, и тьма над б..."
7,3 И сказал Бог: да будет свет. И стал свет.
...,...
41374,17 И Дух и невеста говорят: прииди! И слышавши...
41375,18 И я также свидетельствую всякому слышащему ...
41376,19 и если кто отнимет что от слов книги пророч...
41377,"20 Свидетельствующий сие говорит: ей, гряду ск..."


### Find Parts

In [141]:
# find df rows containing all the book and chapter title lines 
# as well as the OT/NT split on the 1st page of Matthew
chap_lines = bibliiaDf.loc[bibliiaDf.text.str.contains(chap_lines_re)].index
book_lines = bibliiaDf.loc[bibliiaDf.text.str.contains(book_lines_re)].index
test_line = bibliiaDf.loc[bibliiaDf.text.str.contains(matt_name)].index

# combine the title lines for extraction later
title_lines = test_line.append([chap_lines, book_lines]).sort_values()
title_lines

  chap_lines = bibliiaDf.loc[bibliiaDf.text.str.contains(chap_lines_re)].index
  book_lines = bibliiaDf.loc[bibliiaDf.text.str.contains(book_lines_re)].index


Int64Index([30299], dtype='int64', name='v_id')

### Assign OHCO Labels

In [142]:
# ['test']
bibliiaDf[bibleOHCO[0]] = np.where(bibliiaDf.index<test_line[0], 'O', 'N')
# ['book']
bibliiaDf[bibleOHCO[1]] = bibliiaDf.loc[book_lines].text.str.extract(book_lines_re)
# ['chap']
bibliiaDf[bibleOHCO[2]] = bibliiaDf.loc[chap_lines].text.str.extract(chap_lines_re)
# ['verse'] by splitting verse num at beginning from text in current verse lines
bibliiaDf[[bibleOHCO[3],'text']] = bibliiaDf.text.str.split(' ', 1, expand=True).iloc[:, [0, 1]]
# fill in book and chapter titles to cells below them
bibliiaDf[bibleOHCO[1:3]] = bibliiaDf[['book','chap']].ffill()
# drop title lines and reset index to give verse id num 
bibliiaDf = bibliiaDf.drop(title_lines, axis=0).reset_index()#.set_index(bibleOHCO)
bibliiaDf.index = range(1,len(bibliiaDf)+1)
bibliiaDf.index.name = 'v_id'
# reorder columns
bibliiaDf = bibliiaDf[['test', 'book', 'chap', 'verse', 'text']]
bibliiaDf

Unnamed: 0_level_0,test,book,chap,verse,text
v_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,O,,,Бытие,==
2,O,,,1,===
3,O,,,В,начале сотворил Бог небо и землю.
4,O,,,Земля,"же была безвидна и пуста, и тьма над бездною, ..."
5,O,,,И,сказал Бог: да будет свет. И стал свет.
...,...,...,...,...,...
38543,N,,,И,Дух и невеста говорят: прииди! И слышавший да ...
38544,N,,,И,я также свидетельствую всякому слышащему слова...
38545,N,,,и,если кто отнимет что от слов книги пророчества...
38546,N,,,Свидетельствующий,"сие говорит: ей, гряду скоро! Аминь. Ей, гряди..."


### Swap Full Book Name for Abbreviation

In [143]:
book_nums = [(x+1,y) for x,y in enumerate(bibliiaDf.book.unique())]

In [None]:
bibliiaDf.book = [booksDict[str(x)]['eng_abbr'] for x,y in book_nums for name in bibliiaDf.book if y == name]
bibliiaDf.sample(10)

### Export to JSON

## Processing

### OHCO DFs

#### Testaments

#### Books

#### Chapters

### Make XML

## Token DFs

In [39]:
TokenDf = pd.read_pickle('./proc/BibleVerseTokenDf.pkl')
TokenDf.set_index(['p_id', 'token_id'])

Unnamed: 0_level_0,Unnamed: 1_level_0,start,stop,text,head_id,rel,pos,lemma,anim,aspect,case,degree,gender,mood,number,person,tense,verb_form,voice
p_id,token_id,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
1,1_1,0,1,В,1_2,case,ADP,в,,,,,,,,,,,
1,1_2,2,8,начале,1_3,obl,NOUN,начало,Inan,,Loc,,Neut,,Sing,,,,
1,1_3,9,17,сотворил,1_0,root,VERB,сотворить,,Perf,,,Masc,Ind,Sing,,Past,Fin,Act
1,1_4,18,21,Бог,1_3,nsubj,PROPN,бог,Anim,,Nom,,Masc,,Sing,,,,
1,1_5,22,26,небо,1_3,obj,NOUN,небо,Inan,,Acc,,Neut,,Sing,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
37110,1_5,32,38,Христа,1_4,flat:name,PROPN,христос,Anim,,Gen,,Masc,,Sing,,,,
37110,1_6,39,41,со,1_8,case,ADP,с,,,,,,,,,,,
37110,1_7,42,47,всеми,1_8,det,DET,весь,,,Ins,,,,Plur,,,,
37110,1_8,48,52,вами,1_4,nmod,PRON,вы,,,Ins,,,,Plur,2,,,


In [40]:
TokenDf.set_index('p_id').loc[2343:18494, 'lemma'].value_counts().to_dict()

{'и': 26802,
 'он': 9041,
 'в': 8103,
 'они': 5188,
 'я': 4422,
 'не': 4400,
 'на': 4200,
 'быть': 4098,
 'господь': 3792,
 'сын': 3722,
 'ты': 3622,
 'весь': 3434,
 'твой': 3264,
 'свой': 2950,
 'с': 2776,
 'сказать': 2681,
 'мой': 2530,
 'который': 2456,
 'что': 2445,
 'из': 2318,
 'к': 2271,
 'от': 2246,
 'бог': 2111,
 'царь': 2088,
 'она': 1699,
 'тот': 1596,
 'как': 1554,
 'народ': 1469,
 'по': 1461,
 'земля': 1412,
 'а': 1392,
 'у': 1385,
 'вы': 1319,
 'день': 1260,
 'дом': 1209,
 'для': 1168,
 'мы': 1132,
 'человек': 1116,
 'ибо': 1106,
 'за': 1081,
 'когда': 1057,
 'чтобы': 1046,
 'пред': 1027,
 'говорить': 997,
 'давид': 955,
 'же': 942,
 'рука': 937,
 'но': 921,
 'сделать': 879,
 'город': 866,
 'это': 842,
 'пойти': 812,
 'о': 811,
 'отец': 805,
 'так': 771,
 'если': 766,
 'взять': 745,
 'сей': 744,
 'один': 739,
 'вот': 734,
 'до': 722,
 'прийти': 712,
 'то': 702,
 'кто': 700,
 'его': 693,
 'израиль': 690,
 'священник': 668,
 'ваш': 663,
 'да': 648,
 'себя': 647,
 'дать': 64

In [None]:
# TF-IDF

vocab = TokenDf.loc[TokenDf['p_id'] <= 10, 'lemma'].unique().tolist()
tokens = TokenDf.loc[TokenDf['p_id'] <= 10, 'lemma'].tolist()
total_words = len(tokens)
instances = TokenDf.loc[:, 'lemma'].value_counts().to_frame().loc['он'].lemma

num_docs = TokenDf.p_id.unique().size

TF = instances / total_words
IDF = num_docs / docsw_word

TFIDF = TF * IDF

In [42]:
bibliiaDf = pd.read_json(bibleJSON, orient='index')
bibliiaDf.index.name = 'p_id'
bibliiaDf

Unnamed: 0_level_0,test,book,chap,verse,text
p_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,O,Gen,1,1,В начале сотворил Бог небо и землю.
2,O,Gen,1,2,"Земля же была безвидна и пуста, и тьма над без..."
3,O,Gen,1,3,И сказал Бог: да будет свет. И стал свет.
4,O,Gen,1,4,"И увидел Бог свет, что он хорош, и отделил Бог..."
5,O,Gen,1,5,"И назвал Бог свет днем, а тьму ночью. И был ве..."
...,...,...,...,...,...
37106,N,Rev,22,17,И Дух и невеста говорят: прииди! И слышавший д...
37107,N,Rev,22,18,И я также свидетельствую всякому слышащему сло...
37108,N,Rev,22,19,и если кто отнимет что от слов книги пророчест...
37109,N,Rev,22,20,"Свидетельствующий сие говорит: ей, гряду скоро..."


In [46]:
p_idDict = bibliiaDf.drop('text', axis=1).to_dict(orient='index')
p_idDict

{1: {'test': 'O', 'book': 'Gen', 'chap': 1, 'verse': '1'},
 2: {'test': 'O', 'book': 'Gen', 'chap': 1, 'verse': '2'},
 3: {'test': 'O', 'book': 'Gen', 'chap': 1, 'verse': '3'},
 4: {'test': 'O', 'book': 'Gen', 'chap': 1, 'verse': '4'},
 5: {'test': 'O', 'book': 'Gen', 'chap': 1, 'verse': '5'},
 6: {'test': 'O', 'book': 'Gen', 'chap': 1, 'verse': '6'},
 7: {'test': 'O', 'book': 'Gen', 'chap': 1, 'verse': '7'},
 8: {'test': 'O', 'book': 'Gen', 'chap': 1, 'verse': '8'},
 9: {'test': 'O', 'book': 'Gen', 'chap': 1, 'verse': '9'},
 10: {'test': 'O', 'book': 'Gen', 'chap': 1, 'verse': '10'},
 11: {'test': 'O', 'book': 'Gen', 'chap': 1, 'verse': '11'},
 12: {'test': 'O', 'book': 'Gen', 'chap': 1, 'verse': '12'},
 13: {'test': 'O', 'book': 'Gen', 'chap': 1, 'verse': '13'},
 14: {'test': 'O', 'book': 'Gen', 'chap': 1, 'verse': '14'},
 15: {'test': 'O', 'book': 'Gen', 'chap': 1, 'verse': '15'},
 16: {'test': 'O', 'book': 'Gen', 'chap': 1, 'verse': '16'},
 17: {'test': 'O', 'book': 'Gen', 'chap': 

In [45]:
PartLineNumsDict = {}
for test_name in bibliiaDf.test.unique():
    t_min = bibliiaDf.loc[bibliiaDf['test'] == test_name].reset_index().p_id.min()
    t_max = bibliiaDf.loc[bibliiaDf['test'] == test_name].reset_index().p_id.max()
    print(f"{test_name}: {t_min} - {t_max}")
    for book_name in bibliiaDf.book.unique():
        b_min = bibliiaDf.loc[bibliiaDf['book'] == book_name].reset_index().p_id.min()
        b_max = bibliiaDf.loc[bibliiaDf['book'] == book_name].reset_index().p_id.max()
        PartLineNumsDict.update({book_name: (b_min, b_max)})
        #print(f"{book_name}: {b_min} - {b_max}")
        #for chap_name in bibliiaDf.loc[bibliiaDf['book'] == book_name].chap.unique():
        #    c_min = bibliiaDf.loc[(bibliiaDf['book'] == book_name) & (bibliiaDf['chap'] == chap_name)].reset_index().p_id.min()
        #    c_max = bibliiaDf.loc[(bibliiaDf['book'] == book_name) & (bibliiaDf['chap'] == chap_name)].reset_index().p_id.max()
        #    print(f"{chap_name}: {c_min} - {c_max}")
#print(PartLineNumsDict)

O: 1 - 29147
N: 29148 - 37110


In [90]:
GetRankDf(TokenDf, 'lemma')#.plot(x='rank')

Unnamed: 0_level_0,n,rank
lemma,Unnamed: 1_level_1,Unnamed: 2_level_1
он,19656,1
они,12325,2
быть,10839,3
я,10762,4
ты,7851,5
...,...,...
таинница,1,20821
избирательница,1,20822
добивать,1,20823
полезнее,1,20824


In [161]:
GetRankDf(TokenDf, 'pos')

Unnamed: 0_level_0,n,rank
pos,Unnamed: 1_level_1,Unnamed: 2_level_1
NOUN,147028,1
VERB,108063,2
PRON,78480,3
ADP,70754,4
CCONJ,63398,5
PROPN,55336,6
ADJ,35327,7
DET,34131,8
PART,23999,9
ADV,21304,10


In [156]:
GetRankDf(TokenDf, 'rel')

Unnamed: 0_level_0,n,rank
rel,Unnamed: 1_level_1,Unnamed: 2_level_1
case,71010,1
nsubj,63995,2
cc,63839,3
conj,61390,4
obl,56899,5
obj,53924,6
nmod,44289,7
advmod,42893,8
root,42520,9
det,26656,10


In [157]:
GetRankDf(TokenDf, 'anim')

Unnamed: 0_level_0,n,rank
anim,Unnamed: 1_level_1,Unnamed: 2_level_1
Inan,145289,1
Anim,83455,2


In [158]:
GetRankDf(TokenDf, 'person')

Unnamed: 0_level_0,n,rank
person,Unnamed: 1_level_1,Unnamed: 2_level_1
3,57935,1
2,22086,2
1,19806,3


In [159]:
VocabDf = TokenDf.loc[~TokenDf[tokenCols[9:]].isna().all(1)].lemma.value_counts().to_frame().reset_index()#.reset_index()
VocabDf.columns = ['lemma', 'count']
VocabDf.index = VocabDf.index.map(lambda x: x + 1).rename('rank')
VocabDf.iloc[:25]#.plot(x='rank')

Unnamed: 0_level_0,lemma,count
rank,Unnamed: 1_level_1,Unnamed: 2_level_1
1,он,19656
2,они,12325
3,быть,10839
4,я,10762
5,ты,7851
6,господь,7101
7,весь,6982
8,свой,6038
9,твой,5958
10,сказать,5846


## Bible Phrase Dictionary

In [5]:
with open(bibFrazyTXT) as bibleFrazy: 
    bibleFrazyLines = bibleFrazy.readlines()

In [6]:
BibleFrazyDf = pd.DataFrame(bibleFrazyLines).rename(columns={0:'fraza'})
BibleFrazyDf.loc[:,'fraza'] = BibleFrazyDf.loc[:,'fraza'].apply(lambda x: x.strip().strip('\n').translate(str.maketrans('', '', string.punctuation)))
BibleFrazyDf = BibleFrazyDf.loc[BibleFrazyDf.fraza != '']

In [7]:
frazyList = BibleFrazyDf.loc[30189:].fraza.to_list()
FrazyDf = pd.DataFrame(data=frazyList).rename(columns={0:'fraza'})
FrazyDf.index.name = 'f_id'

In [8]:
FrazyDf

Unnamed: 0_level_0,fraza
f_id,Unnamed: 1_level_1
0,Агнец Божий непорочный как будто как будто сло...
1,Адамова голова
2,Адамово яблоко
3,Адамовы веки времена
4,Адамовы слёзы
...,...
535,Что посеешь то и пожнёшь
536,Юдоль плача печали скорби бед плачевная земная...
537,Явление Христа народу
538,Язык прилип прильпе устар к гортани у кого чьей


In [None]:
FrazyDf = nat_parse(FrazyDf, textCol='fraza')

In [10]:
caseWords = ['что', 'чего', 'чему', 'чём', 'чем',\
    'кто', 'кого', 'кем', 'ком', 'кому']

In [11]:
FrazyDf['caseword'] = [True if x in caseWords else False for x in FrazyDf['lemma']]

In [38]:
FrazyDf

Unnamed: 0,p_id,start,stop,text,token_id,head_id,rel,pos,lemma,anim,...,case,degree,gender,mood,number,person,tense,verb_form,voice,caseword
0,0,0,5,Агнец,1_1,1_3,nsubj,PROPN,агнец,Anim,...,Nom,,Masc,,Sing,,,,,False
1,0,6,11,Божий,1_2,1_1,det,ADJ,божий,,...,Nom,Pos,Masc,,Sing,,,,,False
2,0,12,22,непорочный,1_3,1_0,root,VERB,непорочный,,...,,,Masc,Ind,Sing,,Past,Fin,Mid,False
3,0,23,26,как,1_4,1_10,mark,SCONJ,как,,...,,,,,,,,,,False
4,0,27,32,будто,1_5,1_6,fixed,PART,будто,,...,,,,,,,,,,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1,539,4,7,аки,1_2,1_1,obj,NOUN,аки,Anim,...,Nom,,Masc,,Sing,,,,,False
2,539,8,11,как,1_3,1_4,case,SCONJ,как,,...,,,,,,,,,,False
3,539,12,16,тать,1_4,1_2,acl,NOUN,тать,Inan,...,Nom,,Masc,,Sing,,,,,False
4,539,17,18,в,1_5,1_6,case,ADP,в,,...,,,,,,,,,,False


In [136]:
FrazyDf.set_index('p_id').lemma#.to_numpy()#.groupby('p_id', axis=1)

p_id
0           агнец
0           божий
0      непорочный
0             как
0           будто
          ...    
539           аки
539           как
539          тать
539             в
539          нощь
Name: lemma, Length: 2668, dtype: object

In [None]:
for phrase_id in FrazyDf.p_id.unique().tolist():
   testPhrase = FrazyDf.loc[FrazyDf.p_id] 

In [141]:
pos_lists = []
for x in range(0,(FrazyDf.p_id.max()+1)):
    pos_lists.append(FrazyDf.loc[FrazyDf.p_id == x].lemma.unique())

In [140]:
#bibliiaDf.loc[(bibliiaDf.test == 'N')]
bibliiaDf.loc[(bibliiaDf.book == 'Lk') & (bibliiaDf.chap == 10)].index

Int64Index([31371, 31372, 31373, 31374, 31375, 31376, 31377, 31378, 31379,
            31380, 31381, 31382, 31383, 31384, 31385, 31386, 31387, 31388,
            31389, 31390, 31391, 31392, 31393, 31394, 31395, 31396, 31397,
            31398, 31399, 31400, 31401, 31402, 31403, 31404, 31405, 31406,
            31407, 31408, 31409, 31410, 31411, 31412],
           dtype='int64', name='p_id')

In [149]:
#phraseList = [x.tolist() for x in pos_lists]
for verse_id in range(31400,31450):
    testVerse = FrazyDf.loc[TokenDf.p_id == verse_id].lemma.tolist()
    print(testVerse)
    for phrase in pos_lists:
        print(phrase)
        i = 0
        for word in phrase.tolist():
            if word in testVerse:
                i+=1
        print(f"{verse_id} : {i} / {phrase.size}")

KeyboardInterrupt: 

In [122]:
testPhrase = FrazyDf.loc[FrazyDf.p_id == 22].lemma.unique()

In [131]:
testVerse = TokenDf.loc[TokenDf.p_id == 31412].lemma.tolist()

In [130]:
i = 0
print(testPhrase.tolist())
print(testVerse)
for x in testPhrase.tolist():
    if x in testVerse:
        i+=1
print(f"i = {i}")
if i == testPhrase.size:
    print("phrase in verse")

['благой', 'часть', 'избрать']
['а', 'один', 'только', 'нужный', 'мария', 'же', 'избрать', 'благой', 'часть', 'который', 'не', 'отняться', 'у', 'она']
i = 3
phrase in verse


In [81]:
for x in pos_lists[20:25]:
    print(x)
    for y in TokenDf.p_id:
        #print(TokenDf.loc[TokenDf.p_id == y].lemma.unique())
        #if x in TokenDf.loc[TokenDf.p_id == y].lemma.unique():
            #print(f"{x} in {y}")

['бесплодный' 'смоковница']
['бить' 'колотить' 'ударять' 'себя' 'в' 'грудь']
['благой' 'часть' 'избрать']
['блаженный' 'кто' 'веровать' 'тепло' 'он' 'на' 'свет']
['блаженный' 'муж' 'иже' 'не' 'ида' 'на' 'совет' 'нечестивый']


In [15]:
FrazyAbbrsDf = BibleFrazyDf.iloc[:105].fraza.str.split(' – ', expand=True).rename(columns={0:"abbr", 1:"fraza"})
FrazyAbbrsDf.loc[:,'abbr'] = FrazyAbbrsDf.loc[:,'abbr'].apply(lambda x: x.strip())
FrazyAbbrsDf.loc[:,'fraza'] = FrazyAbbrsDf.loc[:,'fraza'].apply(lambda x: x.strip())
FrazyAbbrsDict = FrazyAbbrsDf.set_index('abbr').to_dict().get('fraza')
FrazyAbbrsDict

{'АиФ': 'Аргументы и факты',
 'Лит газета': '«Литературная газета»',
 'англ': 'английский',
 'межд': 'междометие',
 'ант': 'антоним антонимы',
 'местн п': 'местный падеж',
 'бел': 'белорусский',
 'МК': '«Московский комсомолец»',
 'библ': 'библейский',
 'болг': 'болгарский',
 'МН': '«Московские новости»',
 'бран': 'бранный',
 'мн ч': 'множественное число',
 'букв': 'буквально',
 'м р': 'мужской род',
 'в': 'век',
 'нареч': 'наречие',
 'вв': 'века',
 'нач': 'начало',
 'возм': 'возможно',
 'НГ': '«Независимая газета»',
 'высок': 'высокий',
 'негативн': 'негативный',
 'г': 'год',
 'неизм': 'неизменяемое',
 'гг': 'годы',
 'нем': 'немецкий',
 'глаг': 'глагол',
 'неодобр': 'неодобрительный',
 'гол': 'голландский',
 'нов': 'новый',
 'греч': 'греческий',
 'Нов изв': '«Новые известия»',
 'грубопрост': 'грубопросторечный',
 'нэ': 'новой эры',
 'дат п': 'дательный падеж',
 'обл': 'областное',
 'диал': 'диалектный',
 'одобр': 'одобрительный',
 'до нэ': 'до новой эры',
 'ок': 'около',
 'дргреч': 'др