In [1]:
import pandas as pd

Функция создает таблицу с предложениями и граммемами всех слов в предложении. Та же функция описана в файле prepframe. Эта работает на 2 минуты дольше, но не гавнокод.

In [2]:
def prepfinder(word, table, filename):
    
    import re, csv
    from time import time
    start = time()
    
    cases = {'n': 'nominative', 'g': 'genitive', 'd': 'dative', 'a': 'accusative', 'v': 'vocative', 'l': 'locative', 
             'i': 'instrumental'}
    
    prep_counter = dict()
    noun_counter = dict()
    cases_counter = dict()
    
    def crawler(table, index, direction):
        tags = [''] * 10
        tokens = [''] * 10
        words = 0
        step = direction

        while table['gramm'].loc[index + step] != 'SENT' and words < 10 and 0 <= index + step < len(table):
            if re.search('\w', table['token'].loc[index + step]):
                if table['POS'].loc[index + step] in 'NSM':
                    tags[words] = table['gramm'].loc[index + step]
                    tokens[words] = table['token'].loc[index + step]
                    current_word = table['lemma'].loc[index + step]
                    current_gramm = table['gramm'].loc[index + step]
                    if table['POS'].loc[index + step] == 'N' and len(current_gramm) >= 5:
                        noun_counter[current_word] = noun_counter.get(current_word, 0) + 1
                        cases_counter[current_gramm[4]] = cases_counter.get(current_gramm[4], 0) + 1
                    elif table['POS'].loc[index + step] == 'S':
                        prep_counter[current_word] = prep_counter.get(current_word, 0) + 1
                else:
                    tags[words] = '-'
                    tokens[words] = '-'
                words += 1
            step += direction
        return (tags[::direction], tokens[::direction])
    
    with open(filename, 'a', encoding='utf-8') as infotable:
        writer = csv.writer(infotable, quoting=csv.QUOTE_NONE, escapechar='', quotechar='', delimiter='\t', lineterminator='\n')
        col_names = ['L10','L9','L8','L7','L6','L5','L4','L3','L2','L1','Verb','R1','R2','R3','R4','R5','R6','R7','R8','R9','R10']
        writer.writerow(col_names)
        infotable.flush()
        for index, row in table.iterrows():
            if row['lemma'] == word: 
                left = crawler(table, index, -1)
                right = crawler(table, index, 1)
        
                tags = left[0] + ['V'] + right[0]
                tokens = left[1] + [word] + right[1]
                
                writer.writerow(tags)
                writer.writerow(tokens)
                writer.writerow(' ')
                infotable.flush()
                
    print('Extraction time: {}'.format((time() - start) / 60))
    return (prep_counter, noun_counter, cases_counter)

In [9]:
document = pd.read_csv('.\corpora\corpus-i-part1.txt', delimiter='\t', header = 0)

In [4]:
(preps, nouns, cases) = prepfinder('любить', document, 'prepslubit.csv')

Extraction time: 53.48820296923319


In [5]:
preps

{'без': 13,
 'благодаря': 1,
 'в': 301,
 'включая': 1,
 'вместо': 1,
 'вне': 1,
 'во': 17,
 'вокруг': 1,
 'вроде': 1,
 'для': 24,
 'до': 24,
 'за': 50,
 'из': 40,
 'из-за': 4,
 'из-под': 1,
 'к': 35,
 'ко': 1,
 'кроме': 3,
 'на': 155,
 'над': 4,
 'насчет': 1,
 'о': 48,
 'об': 6,
 'обо': 1,
 'около': 2,
 'от': 32,
 'перед': 5,
 'по': 64,
 'под': 8,
 'помимо': 1,
 'после': 8,
 'посреди': 1,
 'прежде': 1,
 'при': 13,
 'про': 7,
 'против': 1,
 'ради': 2,
 'с': 122,
 'со': 15,
 'среди': 3,
 'у': 62,
 'через': 4}

In [6]:
nouns

{'повтор': 1,
 'рождение': 2,
 'черномырдин': 1,
 'креативность': 1,
 'парашют': 1,
 'вася': 1,
 'дедушка': 2,
 'мир': 10,
 'яковлевич': 1,
 'исполнитель': 1,
 'несправедливость': 1,
 'полиграф': 1,
 'изюм': 1,
 'занятие': 2,
 'гоген': 1,
 'любитель': 1,
 'интерфакс': 1,
 'врач-невропатолог': 2,
 'сестра': 3,
 'калининград': 1,
 'понятие': 1,
 'дорожка': 2,
 'леопольд': 1,
 'наука': 5,
 'представление': 1,
 'мстиславовна': 1,
 'основное': 1,
 'фланг': 1,
 'раздражение': 1,
 'месяц': 3,
 'казанова': 1,
 'клиент': 1,
 'профессия': 7,
 'жданов': 1,
 'сало': 1,
 'перепад': 1,
 'пролетариат': 2,
 'дизайнер': 1,
 'сцена': 4,
 'суд': 1,
 'банк': 3,
 'обаяние': 1,
 'петраков': 1,
 'галина': 1,
 'супруга': 2,
 'мальчик': 3,
 'атмосфера': 2,
 'факт': 3,
 'ветеран': 1,
 'вдохновенье': 1,
 'говорок': 1,
 'излишество': 1,
 'рука': 6,
 'анастасия': 2,
 'кафе': 1,
 'поколение': 4,
 'заводчанин': 1,
 'плодоношение': 1,
 'иммигрант': 1,
 'фильм': 13,
 'брат-близнец': 1,
 'мачеха': 1,
 'беспорядок': 1,


In [7]:
cases

{'a': 806, 'd': 149, 'g': 827, 'i': 258, 'l': 291, 'n': 1170, 'v': 1}

In [5]:
# import os
# for doc in os.listdir(".\corpora"):
#     doc = pd.read_csv(".\corpora\\" + doc,delimiter='\t',header=0,encoding='utf-8')
#     (preps, nouns, cases) = prepfinder('заменить', doc, 'prep+nouns.csv')

Extraction time: 7.2140048265457155
Extraction time: 7.250344371795654
Extraction time: 7.289626948038737
Extraction time: 8.039333148797352


In [15]:
document.head(50)

Unnamed: 0,sent_id,word_num,token,lemma,POS,gramm,head,link
0,1,1,Мне,я,P,P-1-sdn,4,2-компл
1,1,2,отчаянно,отчаянно,R,R,4,обст
2,1,3,не,не,Q,Q,4,огранич
3,1,4,хватает,хватать,V,Vmip3s-a-e,0,ROOT
4,1,5,романтики,романтика,N,Ncfsgn,4,предик
5,1,6,и,и,C,C,5,сочин
6,1,7,веры,вера,N,Ncfsgn,6,соч-союзн
7,1,8,",",",",",",",",7,PUNC
8,1,9,я,я,P,P-1-snn,10,предик
9,1,10,задыхаюсь,задыхаться,V,Vmip1s-m-e,4,сент-соч
