## Загрузка текста

In [1]:
import re
import os
from collections import defaultdict

In [2]:
import docx2txt
import pymystem3
m = pymystem3.Mystem(disambiguation=True, weight=False)
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

## Mystem

In [105]:
def declension(word_object):
    gr = word_object['gr']
    lex = word_object['lex']
    if len(gr.split('|')) > 10:
        return ('Н')
    elif 'муж' in gr:
        if re.match('.*[^аёиуэюяй]$', lex) or re.match('.*[^оиы]й$', lex):
            if lex in ['путь', 'пламень']: return 'Р'
            else: return '2'
        elif re.match('.*[^а][ая]$', lex): return '1'
        elif re.match('.*[оыи]й(ся)?$', lex):
            word = morph.parse(lex)
            n = None
            for key, value in enumerate(word):
                if 'masc' in value.tag and value.inflect({'gent', 'sing'}):
                    n = key
                    break
            if n is not None:
                if re.match('.*го(ся)?$', word[n].inflect({'gent','sing'}).word): return 'А'
                else: return '2'
    elif 'жен' in gr:
        if re.match('.*[^а][ая]$', lex): return '1'
        elif re.match('.*ь$', lex): return '3'
        elif re.match('.*(ая|яя)$(ся)?', lex):
            word = morph.parse(lex)
            n = None
            for key, value in enumerate(word):
                if 'femn' in value.tag and value.inflect({'gent', 'sing'}):
                    n = key
                    break
            if n is not None:
                if re.match('.*[ое]й(ся)?$', word[n].inflect({'gent','sing'}).word): return 'А'
                else: return '1'
    elif 'сред' in gr:
        if re.match('.*[^о][ое]$', lex): return '2'
        elif re.match('.*мя$', lex): return 'Р'
        elif re.match('.*ое$(ся)?', lex): return 'А'
        elif lex in ['дитя']: return 'Р'
    elif 'мж' in gr:
        return '1'
    elif 'мн' in gr:
        return ('T')

In [128]:
def general(array):
    for i in array:
        if i['analysis']:
            if 'S,' in i['analysis'][0]['gr']:
                print (declension(i['analysis'][0]), i['analysis'][0]['lex'])

In [98]:
text = 'Служащий гостиницы - большой вредина и киви Кай и мужчина'
analized = [x for x in m.analyze(text) if 'analysis' in x]
general(analized)

А служащий
1 гостиница
1 вредина
Н киви
2 кай
1 мужчина


In [28]:
def text_declension(array):
    for i in array:
        if i['analysis']:
            if 'S,' in i['analysis'][0]['gr']:
                yield declension(i['analysis'][0]), i['analysis'][0]['lex']

In [16]:
def clean_text(text):
    text = text.split('\n')
    for key, line in enumerate(text):
        if re.match('^[А-Я]\.\s?[А-Я].*?', line) or re.match('^.*?[А-Я][а-я]+\s?[А-Я]\..*?', line):
            text[key] = ''
    text = '\n'.join(text)
    text = text.replace('\n\n', '&&&&&')
    text = text.replace('\n', ' ')
    text = text.replace('&&&&&', '\n')
    return text

In [11]:
def get_all_texts(path):
    result = defaultdict(lambda: [None, 0])
    for root, dirs, files in os.walk (path):
        for file in files:
            text = docx2txt.process(root+'/'+file)
            text = clean_text(text)
            analized = [x for x in m.analyze(text) if 'analysis' in x]
            for dec, lemma in text_declension(analized):
                result[lemma][0] = dec
                result[lemma][1] += 1
    return result

In [132]:
def sorted_result(result):
    result2 = defaultdict(list)
    for key in sorted(result):
        result2[result[key][0]].append((key, result[key][1]))
    return result2

In [254]:
def declension_results(result, file):
    S = sorted_result(result)
    for key in S:
        print (key, '\n')
        for word, n in sorted(S[key], key=lambda x: (x[1], x[0]), reverse=True):
               print (word, '\t', n)
        print ('\n\n\n')

In [268]:
def stats_declension(path, filename):
    with open(filename, 'w', encoding='utf-8') as output:
        result = get_all_texts(path)
        S = sorted_result(result)
        for key in sorted(S.keys(), key=str):
            for word, n in sorted(S[key], key=lambda x: (x[1], x[0]), reverse=True):
                s = '{}\t{}\t{}\n'.format(str(key), str(word), str(n))
                output.write(s)

In [272]:
%time stats_declension('./texts/', 'output.txt')

Wall time: 14.8 s


# Предобработка

In [1]:
import re
import os
import win32com.client as win32
from win32com.client import constants

In [14]:
def save_as_docx(path):
    # Opening MS Word
    word = win32.gencache.EnsureDispatch('Word.Application')
    doc = word.Documents.Open(path)
    doc.Activate ()

    # Rename path with .docx
    new_file_abs = os.path.abspath(path)
    new_file_abs = re.sub(r'\.\w+$', '.docx', new_file_abs)

    # Save and Close
    word.ActiveDocument.SaveAs(
        new_file_abs, FileFormat=constants.wdFormatXMLDocument
    )
    doc.Close(False)

def find_docs(path):
    for root, dirs, files in os.walk (path):
        for file in files:
            if file[-4:] == '.doc':
                filename = os.path.abspath(root+'/'+file)
                save_as_docx(filename)
                os.remove(filename)

In [15]:
find_docs('./texts/')

## Разные форматы

In [2]:
def get_text(filename, mode):
    if mode == 'txt':
        with open(filename, 'r', encoding='utf-8') as f:
            return clean_text(f.read())
    elif mode == 'docx':
        text = docx2txt.process(filename)
        text = clean_text(text)
        return text
    else: print ('Error: '+ mode)

In [3]:
def get_all_texts(path):
    find_docs(path)
    for root, dirs, files in os.walk (path):
        for file in files:
            mode = file.split('.')[-1]
            text = get_text(os.path.abspath(root+'/'+file), mode)
            #print (text[:100])
            yield text

In [26]:
get_all_texts('./texts/')

(2-3).docx
(3-4).docx
(4-5).docx
(5-6).docx
(6-7).docx
lkjlj.txt


In [4]:
def one_text(text):
    text = ' '.join(text.split())
    analized = [x['analysis'][0] for x in m.analyze(text) if 'analysis' in x and x['analysis']]
    result = defaultdict(lambda: [0, ''])
    for i in analized:
        lex = i['lex']
        pos = i['gr'].split('=')[0].split(',')[0]
        result[(lex, pos)][0] += 1
        if pos == 'S':
            result[(lex, pos)][1] = declension(i)
    return result

In [5]:
def all_text_lex_stats(path):
    result = defaultdict(lambda: [0, ''])
    for text in get_all_texts(path):
        current = one_text(text)
        for key in current:
            result[key][0] += current[key][0]
            result[key][1] = current[key][1]
    with open ('frequency_list.txt','w',encoding='utf-8') as output:
        output.write('lemma\tPOS\tfreq\tdeclension\n')
        for key in sorted(result, key=lambda x: result[x][0], reverse=True):
            s = '{}\t{}\n'.format(str('\t'.join(key)), str('\t'.join(str(i) for i in result[key])))
            output.write(s)

In [87]:
result = {'абак':['S', 1, '2'], 'бабушка':['S', 10, '', '1']}

In [92]:
for key in sorted(result, key=lambda x: x[1], reverse=True):
    print('{}\t{}\n'.format(str(key), str('\t'.join(str(i) for i in result[key]))))

абак	S	1	2

бабушка	S	10		1



In [106]:
%time all_text_lex_stats('./texts/')

Wall time: 15.4 s


# UDPipe

In [3]:
import os

In [8]:
import sys
import ufal.udpipe
# ufal.udpipe.Model etc. are SWIG-magic and cannot be detected by pylint
# pylint: disable=no-member

class Model:
    def __init__(self, path):
        """Load given model."""
        self.model = ufal.udpipe.Model.load(path)
        if not self.model:
            raise Exception("Cannot load UDPipe model from file '%s'" % path)

    def tokenize(self, text):
        """Tokenize the text and return list of ufal.udpipe.Sentence-s."""
        tokenizer = self.model.newTokenizer(self.model.DEFAULT)
        if not tokenizer:
            raise Exception("The model does not have a tokenizer")
        return self._read(text, tokenizer)

    def read(self, text, in_format):
        """Load text in the given format (conllu|horizontal|vertical) and return list of ufal.udpipe.Sentence-s."""
        input_format = ufal.udpipe.InputFormat.newInputFormat(in_format)
        if not input_format:
            raise Exception("Cannot create input format '%s'" % in_format)
        return self._read(text, input_format)

    def _read(self, text, input_format):
        input_format.setText(text)
        error = ufal.udpipe.ProcessingError()
        sentences = []

        sentence = ufal.udpipe.Sentence()
        while input_format.nextSentence(sentence, error):
            sentences.append(sentence)
            sentence = ufal.udpipe.Sentence()
        if error.occurred():
            raise Exception(error.message)

        return sentences

    def tag(self, sentence):
        """Tag the given ufal.udpipe.Sentence (inplace)."""
        self.model.tag(sentence, self.model.DEFAULT)

    def parse(self, sentence):
        """Parse the given ufal.udpipe.Sentence (inplace)."""
        self.model.parse(sentence, self.model.DEFAULT)

    def write(self, sentences, out_format):
        """Write given ufal.udpipe.Sentence-s in the required format (conllu|horizontal|vertical)."""

        output_format = ufal.udpipe.OutputFormat.newOutputFormat(out_format)
        output = ''
        for sentence in sentences:
            output += output_format.writeSentence(sentence)
        output += output_format.finishDocument()

        return output

# Can be used as
#  model = Model('english-ud-1.2-160523.udpipe')
#  sentences = model.tokenize("Hi there. How are you?")
#  for s in sentences:
#      model.tag(s)
#      model.parse(s)
#  conllu = model.write(sentences, "conllu")

In [14]:
model = Model('russian-syntagrus-ud-2.0-170801.udpipe')
sentences = model.tokenize("Мама, дочь пошли домой")
for s in sentences:
    model.tag(s)
    model.parse(s)
conllu = model.write(sentences, "conllu")

In [15]:
print(conllu)

# newdoc
# newpar
# sent_id = 1
# text = Мама, дочь пошли домой
1	Мама	мама	NOUN	_	Animacy=Anim|Case=Nom|Gender=Fem|Number=Sing	4	nsubj	_	SpaceAfter=No
2	,	,	PUNCT	_	_	1	punct	_	_
3	дочь	дочь	NOUN	_	Animacy=Anim|Case=Nom|Gender=Fem|Number=Sing	1	appos	_	_
4	пошли	пойти	VERB	_	Aspect=Perf|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Act	0	root	_	_
5	домой	домой	ADV	_	Degree=Pos	4	advmod	_	SpaceAfter=No




In [7]:
def texts_for_udpipe(path):
    for root, dirs, files in os.walk (path):
        for file in files:
            text = docx2txt.process(root+'/'+file)
            text = clean_text(text)
            yield text, file

In [6]:
import os
os.makedirs('conllu')

In [9]:
def save_all_conllu(path):
    model = Model('russian-syntagrus-ud-2.0-170801.udpipe')
    for text, file in texts_for_udpipe(path):
        sentences = model.tokenize(text)
        for s in sentences:
            model.tag(s)
            model.parse(s)
        conllu = model.write(sentences, "conllu")
        with open('./conllu/{}.txt'.format(file[:-5]), 'w', encoding='utf-8') as f:
            f.write(conllu)

In [18]:
'd.docx'[:-5]

'd'

In [17]:
%time save_all_conllu('./texts/')

CPU times: user 2min 11s, sys: 159 ms, total: 2min 11s
Wall time: 2min 15s


In [24]:
model = Model('russian-syntagrus-ud-2.0-170801.udpipe')
sentences = model.tokenize("На дорожку не садись.")
for s in sentences:
    model.tag(s)
    model.parse(s)
conllu = model.write(sentences, "conllu")
print(conllu.replace('\t',' '))

# newdoc
# newpar
# sent_id = 1
# text = На дорожку не садись.
1 На на ADP _ _ 2 case _ _
2 дорожку дорожка NOUN _ Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing 4 obl _ _
3 не не PART _ _ 4 advmod _ _
4 садись садиться VERB _ Aspect=Imp|Mood=Imp|Number=Sing|Person=2|VerbForm=Fin|Voice=Mid 0 root _ SpaceAfter=No
5 . . PUNCT _ _ 4 punct _ SpaceAfter=No




In [4]:
from nltk.grammar import DependencyGrammar
from nltk.parse import DependencyGraph

In [46]:
s = sentences[455]
s = s.split('\n')
print (s[1])
d = DependencyGraph(s[2:])
d.nodes

# text = Якутская народная сказка «Как белка и заяц друг друга не узнали» Как-то летом познакомились белка и заяц и подружились.


  "The graph doesn't contain a node "


defaultdict(<function nltk.parse.dependencygraph.DependencyGraph.__init__.<locals>.<lambda>()>,
            {0: {'address': 0,
              'word': None,
              'lemma': None,
              'ctag': 'TOP',
              'tag': 'TOP',
              'feats': None,
              'head': None,
              'deps': defaultdict(list, {'root': [14], 'ROOT': []}),
              'rel': None},
             1: {'address': 1,
              'word': 'Якутская',
              'lemma': 'Якутский',
              'ctag': 'ADJ',
              'tag': '_',
              'feats': 'Case=Nom|Degree=Pos|Gender=Fem|Number=Sing',
              'head': 3,
              'deps': defaultdict(list, {}),
              'rel': 'amod'},
             3: {'address': 3,
              'word': 'сказка',
              'lemma': 'сказка',
              'ctag': 'NOUN',
              'tag': '_',
              'feats': 'Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing',
              'head': 14,
              'deps': defaultdic

In [10]:
check(27, sentences[27])

27 Я тобою дорожу, Я тебя не завожу.
		 {'завожу': {'conj', 'nsubj', 'root', 'obj'}}


  "The graph doesn't contain a node "


In [37]:
s = sentences[27]
s = s.split('\n')
graph = DependencyGraph(s[2:])
l = []
for i in graph.nodes:
    l.append(list(graph.nodes[i]['deps']))
    
l

  "The graph doesn't contain a node "


[['root', 'ROOT'],
 [],
 ['nsubj', 'obl', 'punct', 'conj'],
 [],
 [],
 [],
 ['nsubj', 'obj', 'advmod', 'punct'],
 [],
 [],
 []]

In [36]:
graph.nodes

defaultdict(<function nltk.parse.dependencygraph.DependencyGraph.__init__.<locals>.<lambda>()>,
            {0: {'address': 0,
              'word': None,
              'lemma': None,
              'ctag': 'TOP',
              'tag': 'TOP',
              'feats': None,
              'head': None,
              'deps': defaultdict(list, {'root': [3], 'ROOT': []}),
              'rel': None},
             3: {'address': 3,
              'word': 'дорожу',
              'lemma': 'дорожать',
              'ctag': 'VERB',
              'tag': '_',
              'feats': 'Aspect=Imp|Mood=Ind|Number=Sing|Person=1|Tense=Pres|VerbForm=Fin|Voice=Act',
              'head': 0,
              'deps': defaultdict(list, {'punct': [4], 'conj': [8]}),
              'rel': 'root'},
             4: {'address': 4,
              'word': ',',
              'lemma': ',',
              'ctag': 'PUNCT',
              'tag': '_',
              'feats': '_',
              'head': 3,
              'deps': defaultd

In [31]:
dir(graph.nodes[3]['deps'])

['__class__',
 '__contains__',
 '__copy__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__missing__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setitem__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'clear',
 'copy',
 'default_factory',
 'fromkeys',
 'get',
 'items',
 'keys',
 'pop',
 'popitem',
 'setdefault',
 'update',
 'values']

# Определение типов

In [43]:
def check(key, s):
    #s = sentences[726]
    s = s.split('\n')
    #print (s)
    graph = DependencyGraph(s[2:])

    tags = defaultdict(set)

    first = graph.nodes[0]['deps']['root']
    for i in graph.nodes:
        if graph.nodes[i]['rel'] in ('parataxis','acl:relcl','acl','advcl'):
            tags[i].add(graph.nodes[i]['rel'])
            if graph.nodes[i]['head'] in first: tags[i].add('root')
        if graph.nodes[i]['head'] in first and graph.nodes[i]['rel'] in ('conj'): 
            tags[i].add(graph.nodes[i]['rel'])
            tags[i].add('root')
        for j in graph.nodes[i]['deps']:
            if j in ('mark', 'cc', 'nsubj', 'obj', 'iobj') and graph.nodes[i]['rel'] not in ('nsubj'): tags[i].add(j)
    dictionary = {graph.nodes[i]['word'] : tags[i] for i in tags.keys()}
    if len(dictionary) > 1: 
        print (key, s[1][9:])
        print ('\t\t', dictionary)

In [44]:
with open('./conllu/(4-5).txt','r',encoding='utf-8') as f:
    conllu = f.read()
    conllu = conllu.replace('# newdoc\n', '').replace('# newpar\n', '')

sentences = conllu.split('\n\n')

for key, s in enumerate(sentences):
    check(key, s)

  "The graph doesn't contain a node "


1 Кот на дырочке летел, Заяц крылышками пел, Стрекоза варила мех, А на крыше падал смех!
		 {'летел': {'nsubj'}, 'пел': {'conj', 'nsubj', 'root'}, 'варила': {'conj', 'root', 'obj'}, 'падал': {'nsubj', 'cc'}}
2 Солнце светит — Денек очень жаркий, Ни души на бульварах и в парке.
		 {'светит': {'nsubj'}, 'жаркий': {'conj', 'nsubj', 'root'}, 'парке': {'cc'}, 'души': {'conj', 'root'}}
10 КИРПИЧ- безусловно, тяжелое.
		 {'тяжелое': {'nsubj'}, 'безусловно': {'root', 'parataxis'}}
17 Друзей находят люди, А также создают.
		 {'находят': {'nsubj', 'obj'}, 'создают': {'cc'}}
18 И только у нас, В магазине игрушек, Огромнейший выбор Друзей и подружек!
		 {'нас': {'cc'}, 'подружек': {'conj', 'root'}}
19 Мы ссорились, мирились И спорили порой, Но очень подружились За нашею игрой.
		 {'ссорились': {'nsubj'}, 'мирились': {'conj', 'root'}, 'спорили': {'conj', 'root', 'cc'}, 'подружились': {'conj', 'root', 'cc'}}
20 Игра игрой сменяется, Кончается игра, А дружба не кончается.
		 {'сменяется': {'nsubj'}, 

425 - Ах, какой чудесный звук! - подумал Снег.
		 {'Ах': {'parataxis'}, 'подумал': {'nsubj'}}
429 Один раз мама с сыном Артемкой пошли в магазин купить хлеба и молока.
		 {'пошли': {'nsubj'}, 'молока': {'cc'}}
430 В то время, когда они подошли к магазину, выгружали хлеб из машины.
		 {'время': {'mark'}, 'выгружали': {'iobj', 'obj'}, 'подошли': {'advcl', 'nsubj'}}
431 Когда хлеб выгрузили, двери машины захлопнулись и заработал мотор.
		 {'выгрузили': {'cc', 'obj'}, 'захлопнулись': {'conj', 'nsubj', 'root'}, 'заработал': {'conj', 'nsubj', 'root', 'cc'}}
432 Артемка вдруг побежал к машине и встал прямо перед радиатором: — Нельзя ехать, стойте, — закричал он.
		 {'побежал': {'nsubj'}, 'встал': {'conj', 'root', 'cc'}, 'Нельзя': {'nsubj', 'parataxis'}, 'закричал': {'nsubj', 'parataxis'}}
433 Мама испугалась, схватила Артемку.
		 {'испугалась': {'nsubj'}, 'схватила': {'conj', 'root', 'obj'}}
434 Шофер вышел из машины и подошел к ним.
		 {'вышел': {'nsubj'}, 'подошел': {'conj', 'root', 'cc'}}


705 Дядя Стёпа не спеша Поднимает малыша, Поднимает над собою, Над собой и над толпою Под высокий потолок: - Посмотри вокруг, сынок!
		 {'Дядя': {'advcl', 'root', 'obj'}, 'Поднимает': {'conj', 'nsubj', 'root'}, 'спеша': {'advcl', 'root'}, 'Посмотри': {'cc'}}
706 И увидел мальчик: прямо, У аптечного ларька, Вытирает слезы мама, Потерявшая сынка.
		 {'увидел': {'nsubj', 'cc'}, 'Вытирает': {'nsubj', 'parataxis', 'obj'}}
707 Слышит мама голос Колин: - Мама!
		 {'Слышит': {'nsubj', 'obj'}, 'Мама': {'parataxis'}}
710 – Дядя Стёпа был доволен: "Не распалася семья!"
		 {'доволен': {'nsubj'}, 'распалася': {'root', 'parataxis'}}
712 Он хотел созорничать, Но не знал, с чего начать.
		 {'хотел': {'nsubj'}, 'знал': {'cc'}}
714 В сумках - книжки и тетрадки, А в тетрадках всё в порядке.
		 {'сумках': {'nsubj'}, 'тетрадки': {'cc'}, 'порядке': {'conj', 'nsubj', 'root', 'cc'}}
715 Вдруг навстречу озорник, В ранце - с двойками дневник, Нет эмблемы на фуражке, И ремень уже без пряжки.
		 {'навстречу': {'n

984 – Жалко Зайца, – говорит Муравей.
		 {'Жалко': {'nsubj'}, 'говорит': {'root', 'parataxis'}}
986 Только спрятали Зайца – Лиса прибежала.
		 {'спрятали': {'nsubj'}, 'прибежала': {'nsubj', 'root', 'parataxis'}}
987 – Зайца не видели? – спрашивает.
		 {'видели': {'nsubj'}, 'спрашивает': {'root', 'parataxis'}}
989 Подошла Лиса поближе, понюхала: – Не тут ли он спрятался?
		 {'Подошла': {'nsubj'}, 'понюхала': {'conj', 'root'}, 'спрятался': {'nsubj', 'parataxis'}}
991 Махнула Лиса хвостом и ушла.
		 {'Махнула': {'obj'}, 'ушла': {'conj', 'root', 'cc'}}
992 К тому времени дождик прошёл – солнышко выглянуло.
		 {'прошёл': {'nsubj'}, 'выглянуло': {'conj', 'root'}}
993 Вылезли все из-под гриба – радуются.
		 {'Вылезли': {'nsubj'}, 'радуются': {'conj', 'root'}}
998 Все посмотрели: на шляпке гриба сидит Лягушка и хохочет: – Эх, вы!
		 {'посмотрели': {'nsubj'}, 'сидит': {'nsubj', 'root', 'parataxis'}, 'хохочет': {'cc'}, 'Эх': {'parataxis'}, 'вы': {'parataxis'}}
1001 Посмотрели все на гриб и тут д

1180 А за вами — это что? — пригляделся Кис.
		 {'что': {'nsubj', 'cc'}, 'пригляделся': {'nsubj', 'root', 'parataxis'}}
1184 — Я прозрачное потому, что так захотели люди.
		 {'прозрачное': {'nsubj'}, 'потому': {'mark'}, 'захотели': {'advcl', 'nsubj'}}
1185 Им приятно видеть то, что за мной.
		 {'приятно': {'nsubj'}, 'мной': {'acl:relcl', 'nsubj'}}
1187 — Придёт время, малыш, и из-за этих, как ты говоришь, грустных прутьев, ты забудешь обо мне.
		 {'Придёт': {'nsubj', 'obj'}, 'этих': {'conj', 'root', 'cc'}, 'говоришь': {'nsubj'}, 'забудешь': {'nsubj'}}
1195 Сначала на стекле появились прекрасные звёзды - снежинки.
		 {'появились': {'nsubj'}, 'снежинки': {'parataxis'}}
1201 Котёнок Кис очень сдружился с красивым окном, привык к его звенящему голосу.
		 {'сдружился': {'nsubj'}, 'привык': {'conj', 'root'}}
1202 И, конечно же, думать забыл о голых прутьях на улице.
		 {'забыл': {'cc'}, 'конечно': {'root', 'parataxis'}}
1203 Кто-то как-то между прочим сказал ему, что они называются ветками, 

		 {'Наверное': {'root', 'parataxis'}, 'потому': {'mark'}, 'поссорился': {'advcl', 'nsubj', 'root'}}
1426 Но прощения просить всё равно не буду.
		 {'буду': {'cc'}, 'просить': {'obj'}}
1427 Я, может, себе другую маму найду.
		 {'найду': {'nsubj', 'obj'}, 'может': {'root', 'parataxis'}}
1430 Это была длинная-предлинная такса.
		 {'длинная': {'nsubj'}, 'такса': {'root', 'parataxis'}}
1432 И вдруг эта тётя, проходя мимо Васи, шепнула: ‒ Хочешь, я буду твоей мамой?
		 {'шепнула': {'nsubj', 'cc'}, 'проходя': {'advcl', 'root', 'obj'}, 'мамой': {'conj', 'nsubj', 'root'}}
1433 «Если уж брать новую маму, то с собакой», ― подумал Вася и тихо сказал: ‒ Ладно.
		 {'подумал': {'mark'}, 'брать': {'advcl', 'root', 'cc', 'obj'}, 'сказал': {'conj', 'nsubj', 'root', 'cc'}}
1434 Ух, как загудел ветер-ветрище!
		 {'Ух': {'root', 'parataxis'}, 'загудел': {'nsubj'}, 'ветрище': {'root', 'parataxis'}}
1435 Комната, куда тётя в зелёной шубке привела Васю, была вся засыпана снегом.
		 {'засыпана': {'nsubj'}, 'т

		 {'Прошёл': {'nsubj'}, 'стала': {'nsubj'}, 'гнать': {'obj'}, 'Ступай': {'parataxis'}}
1696 Сидит заяц и плачет, горюет, лапками слёзы обтирает.
		 {'Сидит': {'obj'}, 'плачет': {'conj', 'nsubj', 'root', 'cc'}, 'обтирает': {'conj', 'root'}}
1700 Была у меня избушка лубяная, а у лисы — ледяная.
		 {'лубяная': {'nsubj'}, 'лисы': {'conj', 'root', 'cc'}, 'ледяная': {'acl'}}
1701 Пришла весна, избушка у лисы растаяла.
		 {'Пришла': {'nsubj'}, 'растаяла': {'acl:relcl', 'nsubj'}}
1702 Попросилась лиса ко мне, да меня же и выгнала.
		 {'Попросилась': {'nsubj'}, 'выгнала': {'conj', 'root', 'cc', 'obj'}}
1703 — Не плачь, зайчик, — говорят собаки.
		 {'зайчик': {'root', 'parataxis'}, 'говорят': {'nsubj', 'root', 'parataxis'}}
1710 Как выскочу, Как выпрыгну — Пойдут клочки По закоулочкам!
		 {'Пойдут': {'nsubj', 'mark', 'cc', 'obj'}, 'выскочу': {'root', 'parataxis'}}
1711 Испугались собаки и убежали.
		 {'Испугались': {'nsubj'}, 'убежали': {'conj', 'root', 'cc'}}
1712 Опять сидит зайчик и плачет.


In [54]:
def check_sentence(graph, sentence):
    tags = defaultdict(list)
    for i in graph.nodes: tags[graph.nodes[i]['rel']].append(i)
    s = graph.nodes[0]['deps']['root'][0]
    print (graph.nodes[s])
    return tags

In [57]:
s = sentences[726]
s = s.split('\n')
print (s[1])
d = DependencyGraph(s[2:])
check_sentence(d, s[1])

# text = Треснул лёд - река пошла, И бабуся поплыла.
{'address': 1, 'word': 'Треснул', 'lemma': 'треснул', 'ctag': 'VERB', 'tag': '_', 'feats': 'Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act', 'head': 0, 'deps': defaultdict(<class 'list'>, {'nsubj': [2]}), 'rel': 'root'}


  "The graph doesn't contain a node "


defaultdict(list,
            {None: [0],
             'root': [1],
             'nsubj': [2, 4],
             'punct': [3, 6, 10],
             'parataxis': [5],
             'cc': [7],
             'conj': [9],
             'obj': [8]})