# Микродиахроническое исследование русских приставок методами дистрибутивной семантики
## Автор: Елизавета Клыкова, БКЛ181
### Часть 9: получение грамматических профилей глаголов
1. Выбрать из базы предложения нужных периодов
2. Для каждого исследуемого глагола получить набор токенов с грамматическими характеристиками
3. Сохранить в pickle-файлы

#### Импорт модулей

In [1]:
%load_ext pycodestyle_magic
%pycodestyle_on

In [2]:
import pickle
import pymongo
import pandas as pd
from tqdm.auto import tqdm
from collections import Counter

**Подключение к базе**

In [3]:
client = pymongo.MongoClient('localhost', 27017)
db = client['thesis']
# fs = gridfs.GridFS(db)
db

Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'thesis')

In [4]:
sentences = db.sentences
lemmas = db.lemmas
tokens = db.tokens

#### Получение списка глаголов

In [5]:
pref_df = pd.read_csv('prefixes_and_lemmas.tsv', sep='\t')
pref_df

Unnamed: 0,prefix,lemma,freq,freq_0,freq_1,freq_2
0,бе[зс],бездействовать,541,155,255,131
1,бе[зс],бездельничать,308,41,169,98
2,бе[зс],безмолвствовать,726,361,191,174
3,бе[зс],безобразить,149,99,43,7
4,бе[зс],безобразничать,306,110,136,60
...,...,...,...,...,...,...
8440,у,ущемляться,62,8,16,38
8441,у,ущипывать,510,147,222,141
8442,у,уязвлять,1305,606,411,288
8443,у,уяснять,1803,677,740,386


In [6]:
# list of dicts
pref_dict = pref_df.to_dict(orient='records')

In [7]:
verbs_to_search = sorted(set([v['lemma'] for v in pref_dict]))

#### Поиск глагольных употреблений в базе

In [8]:
# досоветский период

presov_verb_dict = {verb: [] for verb in verbs_to_search}

for sentence in tqdm(sentences.find({'period': 0},
                                    {'token_info': True, '_id': False})):
    verb_list = [token for token in sentence['token_info']
                 if token['pos'] == 'V']
    for verb in verb_list:
        if verb['lemma'] in verbs_to_search:
            presov_verb_dict[verb['lemma']].append({'token': verb['token'],
                                                    'gram': verb['gram'].split('|')[0]})

0it [00:00, ?it/s]

12:80: E501 line too long (88 > 79 characters)


In [10]:
with open('presov_verb_dict.pickle', 'wb') as f:
    pickle.dump(presov_verb_dict, f)

In [11]:
# советский период

sov_verb_dict = {verb: [] for verb in verbs_to_search}

for sentence in tqdm(sentences.find({'period': 1},
                                    {'token_info': True, '_id': False})):
    verb_list = [token for token in sentence['token_info']
                 if token['pos'] == 'V']
    for verb in verb_list:
        if verb['lemma'] in verbs_to_search:
            sov_verb_dict[verb['lemma']].append({'token': verb['token'],
                                                 'gram': verb['gram'].split('|')[0]})

0it [00:00, ?it/s]

12:80: E501 line too long (85 > 79 characters)


In [12]:
with open('sov_verb_dict.pickle', 'wb') as f:
    pickle.dump(sov_verb_dict, f)

In [14]:
# постсоветский период

postsov_verb_dict = {verb: [] for verb in verbs_to_search}

for sentence in tqdm(sentences.find({'period': 2},
                                    {'token_info': True, '_id': False})):
    verb_list = [token for token in sentence['token_info']
                 if token['pos'] == 'V']
    for verb in verb_list:
        if verb['lemma'] in verbs_to_search:
            postsov_verb_dict[verb['lemma']].append({'token': verb['token'],
                                                     'gram': verb['gram'].split('|')[0]})

0it [00:00, ?it/s]

12:80: E501 line too long (89 > 79 characters)


In [15]:
with open('postsov_verb_dict.pickle', 'wb') as f:
    pickle.dump(postsov_verb_dict, f)