In [1]:
import pandas as pd
from conllu import parse

In [123]:
name = 'vkushat-19-2'

In [124]:
def create_path_and_file_name(name):
    path = '../data/{}.xlsx'.format(name)
    text_file_name = 'sents_{}.txt'.format(name)
    conllu_file_name = 'parsed_sents_{}.conllu'.format(name)
    file_name = [path, text_file_name, conllu_file_name]
    return file_name

In [125]:
names = create_path_and_file_name(name)

In [126]:
def read_preprocess_data(names):
    dataframe = pd.read_excel(names[0])
    dataframe.drop(columns=['Reversed left context', 'Reversed center', 'Title', 'Author', 'Birthday', 'Header', 
                            'Publ_year', 'Medium', 'Ambiguity', 'Publication', 'Sphere', 'Type', 'Topic'], inplace = True)
    return dataframe

In [127]:
df = read_preprocess_data(names)

In [128]:
df

Unnamed: 0,Left context,Center,Punct,Right context,Created,Full context
0,"и в воздухе, отнюдь не",вкушайте,",","рыбу вкушать можно, а лучше и",1883,"Ничего, что живет и что движется на земле и в ..."
1,"бывать, мясного и хмельного не",вкушать,",","песни петь только те, что в",1883,"Должна избегать суеты, в гости не ходить, на п..."
2,"свою ручку, брал хлеб и",вкушал,,вместе с мальчиком.,1873,Тогда изображенный младенец протягивал свою ру...
3,ему: « Долго ли буду я,вкушать,,твой хлеб?,1873,Однажды младенец сказал ему: « Долго ли буду я...
4,удалялись в особенную потаенную горенку,вкушать,,"его под именем меда), заливали остроты",1865,"Наштукатуренные и черно- зубые купчихи, подгул..."
5,"по теням наливок, какие он",вкушал,",",однако ж дворянство и судилище раскланялись,1865,Хотя судья и сам походил с лица на букет разно...
6,"на дворе под яблонькой, сны",вкушаю,",",на прошлые картины во сне с,1877-1880,"Сплю я себе на дворе под яблонькой, сны вкушаю..."
7,"Прежде, когда он",вкушал,,от дивидендов и когда бюджет его,1898,"Прежде, когда он вкушал от дивидендов и когда ..."
8,"и горе тому, кто не",вкушал,,сладостного желания страдания за других!,1897,"Смешно; но тот сделает мне большое одолжение, ..."
9,было мне чрезвычайно приятно: я,вкушал,,в эти минуты священную сладость просвещения,1897,"В самом деле, каждое из ее слов раскрывало пер..."


In [129]:
def create_text_file(dataframe, names):
    with open(names[1], 'w', encoding = "UTF-8") as f:
        for i in range(dataframe.shape[0]):
            sent = dataframe['Full context'][i]
            f.write(sent[:sent.find('[')-1] + '\n')

In [130]:
create_text_file(df, names)

## Ввести названия файлов для парсера

In [112]:
print(names[1], names[2], sep = ' > ')

sents_vkushat-21.txt > parsed_sents_vkushat-21.conllu


In [113]:
!udpipe --tokenize --tag --parse\
    ../models/russian-syntagrus-ud-2.0-170801.udpipe sents_vkushat-21.txt > parsed_sents_vkushat-21.conllu

Loading UDPipe model: done.


## Распределение по годам

In [131]:
from finding_my_triplets import read_conllu, get_all_triples, get_standart_date, get_indexes, \
count_necessary_triplets, show_preview_for_sent

In [132]:
object_form = {'Case': 'Gen'}
verb_lemmas = ['вкушать', 'вкусить']
prep_in_var_of_constr = None
prep_in_constr = ['от', 'ото', 'отъ']

necessary_time_period = (1850, 1899)

In [133]:
sentences = read_conllu(names[2])
triplets = get_all_triples(sentences, verb_lemmas, object_form, prep_in_var_of_constr, prep_in_constr)

In [134]:
ids = get_indexes(triplets) # индексы предложений, которые подходят и для которых узнаём дату

In [135]:
distrib_by_time_periods = {
    (1700, 1749): [],
    (1750, 1799): [],
    (1800, 1849): [],
    (1850, 1899): [],
    (1900, 1949): [],
    (1950, 1999): [],
    (2000, 2049): []
}

for ind in ids:
    date = df.iloc[ind].Created # получение по индексу даты создания из DataFrame
    date = get_standart_date(date)
    date = int(date)
    for start_year, end_year in distrib_by_time_periods:
        if date >= start_year and date <= end_year:
            distrib_by_time_periods[(start_year, end_year)].append(ind)

In [136]:
sent_ids = distrib_by_time_periods[necessary_time_period]
necessary_triplets = []
for triplet in triplets:
    if 'object' in triplet and triplet['id'] in sent_ids:
        necessary_triplets.append(triplet)

In [137]:
# necessary_triplets

In [138]:
count_necessary_triplets(necessary_triplets, sentences)

id 8 вкушал сладостного желания
id 15 вкушал пищи
id 17 вкушать красоты
id 20 вкушал прямой тягости
id 24 вкушать его
id 26 вкушать которых
id 37 вкушала муки
id 44 вкушало скоромной пищи
id 45 вкушал роскошные яства
id 50 вкушать их
id 67 вкушаем хлеба
id 74 вкушал пищи
id 79 вкушает пищи
id 82 вкушать мясной пищи
id 90 вкушают мяса
id 95 вкушал ее
id 103 вкушать плода
id 106 вкушать изысканные яства
id 111 вкушать ее
id 119 вкушает вина


20

In [141]:
sentences[8] #*4

TokenList<Смешно, ;, но, тот, сделает, мне, большое, одолжение, ,, кто, не, станет, смеяться, над, этими, смешными, порывами, ,, так, как, я, не, знаю, ничего, лучше, их, ,, ―, и, горе, тому, ,, кто, не, вкушал, сладостного, желания, страдания, за, других, !>

In [140]:
len(triplets)

145