In [1]:
import operator
import re
from builtins import list as imp_list
from dataclasses import dataclass, field

import chardet
import pymorphy2


def lemmatize():
    current_dir = 'D:\\Programms\\python programms\\diplom_lematizer_try1' #os.path.dirname(os.path.abspath(__file__))
    f = "in.txt"
    with open(current_dir + "\\" + f, mode='rb') as file:
        text = file.read()
    codepage = chardet.detect(text)['encoding']
    text = text.decode(codepage)
    text = " ".join(word.lower() for word in text.split())  # lowercasing and removing short words
    text = re.sub('\s\r\n\s{1,}|\s\r\n|\r\n', '', text)  # deleting newlines and line-breaks
    text = re.sub('[,:;%©*@#$^&()\d]|[+=]|[[]|[]]|[/]|"|\s{2,}', ' ', text)  # deleting symbols
    text = re.sub('[.]', ' .', text)
    text = re.sub('[!]', ' !', text)
    text = re.sub('[?]', ' ?', text)
    text = " ".join(pymorphy2.MorphAnalyzer().parse(str(word))[0].normal_form for word in text.split())
    return text

@dataclass
class VocNode:
    key: str
    tag: str
    pos: imp_list
    dist: imp_list = field(default_factory=imp_list)

    def get_key(self):
        return self.key


@dataclass()
class Voc:
    nodes: imp_list = field(default_factory=imp_list)

    def contains_key(self, key):
        for n in self.nodes:
            if n.get_key() == key:
                return True
        return False

    def get_node_by_key(self, key) -> VocNode:
        for n in self.nodes:
            if n.get_key() == key:
                return n

    def sort(self):
        self.nodes.sort(key=operator.attrgetter('tag', 'key'))

    def simplify(self):
        self.nodes = [n for n in self.nodes if not n.tag == "O"]

    def get_synsets_by_tag(self):
        _a = []
        _n = []
        _v = []
        for node in self.nodes:
            if node.tag == 'A':
                _a.append(node)
            elif node.tag == 'N':
                _n.append(node)
            elif node.tag == 'V':
                _v.append(node)
        return [_a, _n, _v]


def build_vocabulary(text):
    voc = Voc()
    words = text.split()
    sent = 0
    for i in range(len(words)):
        if re.compile(r'[.!?]').search(words[i]):
            sent += 1
            continue
        if not voc.contains_key(words[i]):
            word = words[i]
            p = pymorphy2.MorphAnalyzer().parse(word)[0]
            tag = 'O'  # o - other
            if 'NOUN' in p.tag:
                tag = 'N'
            elif 'INFN' in p.tag:
                tag = 'V'
            elif 'ADJF' in p.tag:
                tag = 'A'
            voc.nodes.append(VocNode(words[i], tag, [[i - sent, sent]]))
        else:
            node = voc.get_node_by_key(words[i])
            node.pos.append([i - sent, sent])
    return voc


def print_vocabulary(_voc, _filename):
    with open(_filename, 'w') as out:
        for node in _voc.nodes:
            out.write(node.key + "," + node.tag + "=" + str(node.pos) + "&" + str(node.dist) + "\n")
    return

In [2]:
text = lemmatize()
voc = build_vocabulary(text)

  text = re.sub('[,:;%©*@#$^&()\d]|[+=]|[[]|[]]|[/]|"|\s{2,}', ' ', text)  # deleting symbols


In [3]:
print_vocabulary(voc, 'out.txt')
voc.sort()
print_vocabulary(voc, 'out_sort.txt')
voc.simplify()
print_vocabulary(voc, 'out_sort_simp.txt')

In [4]:
[a, n, v] = voc.get_synsets_by_tag()

#import xml.etree.ElementTree as etree
import lxml.etree as etree

poses = ['A', 'N', 'V']
synsets_dict = {'A' : dict(), 'N' : dict(), 'V' : dict()}
words_dict = {'A' : dict(), 'N' : dict(), 'V' : dict()}
for pos in poses:
    l = []
    if pos == 'A':
        l = a
    elif pos == 'N':
        l = n
    elif pos == 'V':
        l = v
    synset_str = 'rwn\\synsets.' + pos + '.xml'
    sense_str = 'rwn\\senses.' + pos + '.xml'
    tree = etree.parse(sense_str)
    root = tree.getroot()
    for node in l:
        entries = tree.xpath("//sense[@name='" + node.key.upper() + "']")
        for entry in entries:
            synset_id = entry.attrib['synset_id']
            word = entry.attrib['name']
            if not synset_id in synsets_dict[pos]:
                synsets_dict[pos][synset_id] = []
            synsets_dict[pos][synset_id].append(word)
            if not word in words_dict[pos]:
                words_dict[pos][word] = []
            words_dict[pos][word].append(synset_id)
            #print(word + '\t' + synset_id)

In [5]:
# однокоренные ищутся по derived_from
import time
import collections

sameroot_table = dict()
for n in voc.nodes:
    sameroot_table[n.key] = { i.key : 0 for i in voc.nodes }
start = time.time()
derived_str = 'rwn\\derived_from.xml'
tree = etree.parse(derived_str)
root = tree.getroot()
print(root)
for pos in poses:
    for node1 in voc.nodes:
        entries = tree.xpath("sense[@name='" + node1.key.upper() + "']/derived_from/*")
        entries = set(entries)
        if len(entries) == 0:
            continue
        # entries_without_duplicates = set()
        # remove repeated entries if id equals
        entries_without_duplicates = collections.OrderedDict()
        for obj in entries:
            # eliminate this check if you want the last item
            if obj.attrib['name'] not in entries_without_duplicates:
               entries_without_duplicates[obj.attrib['name']] = obj
        entries_without_duplicates = [*entries_without_duplicates.values()]
        #
        for entry in entries_without_duplicates:
            if entry.attrib['name'].lower() in sameroot_table[node1.key]:
                sameroot_table[node1.key][str(entry.attrib['name']).lower()] = 1
print("Прошло времени: " + str(time.time()-start))

<Element senses at 0x133e6c8>
Прошло времени: 51.21494793891907


In [6]:
i, j = 0, 0
sameroot_graph = dict()
for col in sameroot_table:
    j = 0
    k = [col]
    tmp = []
    for row in sameroot_table[col]:
        if j <= i: # slice top treugal matrix
            j += 1
            continue
        if sameroot_table[col][row] == 1:
            k.append(row)
            for p in voc.get_node_by_key(col).pos:
                tmp.append(p)
            for p in voc.get_node_by_key(row).pos:
                tmp.append(p)
        j += 1
    if len(k) > 1:
        sameroot_graph[tuple(k)] = tmp
    i += 1
    
for v in sameroot_graph:
    print(v)
    print(sameroot_graph[v])
    

('большой', 'небольшой')
[[46, 4], [11, 0], [149, 11]]
('любимый', 'полюбить')
[[5, 0], [54, 4]]
('медведь', 'медвежонок')
[[16, 1], [34, 3], [85, 7], [272, 20], [317, 22], [326, 23], [390, 26], [53, 4], [61, 5], [67, 6], [192, 15], [212, 16], [236, 18]]
('подрезать', 'порезать')
[[125, 9], [187, 14]]
('расставаться', 'стать')
[[26, 2], [43, 4], [366, 24]]


In [23]:
from termcolor import colored
colors = [
    'on_grey',
    'on_red',
    'on_green',
    'on_yellow',
    'on_blue',
    'on_magenta',
    'on_cyan'
]
word_color = dict()
i = 0
for t in sameroot_graph.keys():
    l = list(t)
    for el in l:
        word_color[el] = colors[i]
    i += 1
i = 0
from IPython.display import Markdown
display (Markdown('this is in <span style="color: #ff0000">red</span> color.'))

with open('D:\\Programms\\python programms\\diplom_lematizer_try1\\in.txt', 'rb') as file:
    for line in file:
        for word in line.decode(encoding='utf-8').split():
            word_regex = re.sub('[.?!,:;%©*@#$^&()\d]|[+=]|[[]|[]]|[/]|"|\s{2,}', '', word)
            if word_regex in word_color:
                print(colored(word, on_color=word_color[word_regex]), end=' ')
            else:
                print(word, end=' ')

this is in <span style="color: #ff0000">red</span> color.

(1)В детстве у меня была любимая мягкая игрушка размером примерно с небольшую диванную подушку. (2)Это был медведь. (3)Я таскал его повсюду и даже в кроватке не расставался с ним. (4)Из всех игрушек ясельного возраста медведь был забыт самым последним. (5)В общем, я вырос, стал дядькой с большой бородой и татухами и вместо плюшевых медвежат полюбил мотоциклы. (6)И вот однажды мне приснился медвежонок из детства. (7)Сон был неприятный: медвежонок стоял в центре пустой комнаты, в мерцающем свете лампочки, а за окном как будто бы собирался ураган. (8)Медведь в упор смотрел на меня и тянул ко мне лапу, как будто показывал на что-то у меня за спиной, как будто предупреждал о чём-то. (9)Я не придал значения сну. (10)Однако на следующий день я ехал в мотоклуб, и девятка подрезала меня так, что я перелетел через руль и приземлился на живую изгородь, посаженную вдоль дороги. (11)Именно она меня и спасла. (12)Я получил ушибы, небольшой вывих плеча, а мотоцикл серьёзно пострадал и требовал дорого

In [None]:
# synset_relations для синонимов (ищется по senses)
synsets_list = {
    'A' : [*synsets_dict['A']], 
    'N' : [*synsets_dict['N']], 
    'V' : [*synsets_dict['V']]
}
synsets_table = dict()
synsets_table['A'] = [[0 for x in range(len(synsets_list['A']))] for x in range(len(synsets_list['A']))] 
synsets_table['N'] = [[0 for x in range(len(synsets_list['N']))] for x in range(len(synsets_list['N']))] 
synsets_table['V'] = [[0 for x in range(len(synsets_list['V']))] for x in range(len(synsets_list['V']))] 
import time
start = time.time()
for pos in poses:
    synset_relat = 'rwn\\synset_relations.' + pos + '.xml'
    tree = etree.parse(synset_relat)
    root = tree.getroot()
    print(root)
    for i in range(len(synsets_list[pos])):
        for j in range(i, len(synsets_list[pos])):
            entries = tree.xpath("//relation[@parent_id='" + synsets_list[pos][i] + "'][@child_id='" + synsets_list[pos][j] + "']")
            if len(entries) == 0:
                continue
            if synsets_dict[pos][synsets_list[pos][i]] == synsets_dict[pos][synsets_list[pos][j]]:
                continue
            synsets_table[pos][i][j] = 1
print("Прошло времени: " + str(time.time()-start))

In [17]:
relation_nodes = []
count = 0
for pos in poses:
    name_list = synsets_list[pos]
    for i in range(len(synsets_list[pos])):
        relations_i = []
        synset_id_i = name_list[i]
        word_i = synsets_dict[pos][synset_id_i]
        for j in range(i, len(synsets_list[pos])):
            if (synsets_table[pos][i][j] != 0):
                synset_id_j = name_list[j]
                word_j = synsets_dict[pos][synset_id_j]
                if len(relations_i) == 0:
                    relations_i.append(word_i[0])
                if not word_j[0] in relations_i:
                    relations_i.append(word_j[0])
                count += 1
        if len(relations_i) != 0:
            relation_nodes.append(relations_i)
print(count)
print('A ' + str(len(synsets_list['A'])))
print('N ' + str(len(synsets_list['N'])))
print('V ' + str(len(synsets_list['V'])))
for node in relation_nodes:
    print(node)
    for s in node:
        node = voc.get_node_by_key(str(s).lower())
        print(node.key, node.pos, node.dist)
    print()

38
A 53
N 127
V 153
['БОЛЬШОЙ', 'ДАЛЬНИЙ']
большой [[46, 4]] []
дальний [[223, 17]] []

['НОВЫЙ', 'ПОСЛЕДНИЙ']
новый [[290, 21]] []
последний [[38, 3]] []

['ВОЗРАСТ', 'ДЕТСТВО']
возраст [[33, 3]] []
детство [[1, 0], [63, 5]] []

['ГОЛОВА', 'РАЗМЕР']
голова [[235, 18]] []
размер [[8, 0]] []

['ДЕНЬ', 'НЕДЕЛЯ']
день [[118, 9], [260, 19]] []
неделя [[161, 12]] []

['ДНО', 'МЕСТО']
дно [[219, 17]] []
место [[185, 14], [300, 21], [335, 23]] []

['ДЫРА', 'МЕСТО']
дыра [[248, 18]] []
место [[185, 14], [300, 21], [335, 23]] []

['МЕДВЕДЬ', 'МЕДВЕЖОНОК']
медведь [[16, 1], [34, 3], [85, 7], [272, 20], [317, 22], [326, 23], [390, 26]] []
медвежонок [[53, 4], [61, 5], [67, 6], [192, 15], [212, 16], [236, 18]] []

['МЕСТО', 'УГОЛ', 'ЦЕНТР']
место [[185, 14], [300, 21], [335, 23]] []
угол [[224, 17]] []
центр [[70, 6]] []

['ПЛЕЧО', 'ТЕЛО']
плечо [[151, 11]] []
тело [[242, 18]] []

['СПИНА', 'ТЕЛО']
спина [[104, 7]] []
тело [[242, 18]] []

['БЫТЬ', 'ВЫРАСТИ', 'СИДЕТЬ', 'СОБИРАТЬСЯ', 'СТОЯТЬ']
быть 