In [1]:
import subprocess
import os
import platform
import csv
from sklearn.pipeline import Pipeline
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction import DictVectorizer
from collections import defaultdict
import operator
import gensim
import numpy



In [2]:
# Для форматирования вывода
BOLD = '\033[1m'
END = '\033[0m'
UNDERLINE = '\033[4m'

In [3]:
w2v_fpath = "all.norm-sz100-w10-cb0-it1-min100.w2v"
w2v = gensim.models.KeyedVectors.load_word2vec_format(w2v_fpath, binary=True, unicode_errors='ignore')
w2v.init_sims(replace=True)

In [4]:
# Извлечение слова из строки вида 'word#X:Y'
def lexeme(str):
    """Возвращает word, если вид word#X
    Возвращает word, freq, если вид word#X:freq
    """
    if '#' in str:
        word, tail = str.split('#', 1)
    else:
        word, tail = str, None

    if tail:
        if ':' in tail:
            labels, tail = tail.split(':', 1)
        else:
            labels, tail = tail, None

    if tail:
        freq = float(tail)
    else:
        freq = 1
    
    return word, freq

In [5]:
synsets = {}  # Словарь {id -> список синсетов}
index = defaultdict(list)  # Словарь {слово -> номера синсетов с упоминаниями}
lexicon = set()  # Набор всех слов в базе

# Считываем файл
with open('watset-mcl-mcl-joint-exp-linked.tsv', 'r', encoding='utf-8') as f:
    reader = csv.reader(f, delimiter='\t', quoting=csv.QUOTE_NONE)  

    # Перебираем строки и заполняем переменные synsets и relations словами.
    # Ключи - номер строки (с единицы).
    # Значения - словари вида {слово -> частота}.
    for row in reader:
        synsets_dict = dict()
        for word in row[2].split(', '):
            if word:
                key, value = lexeme(word)
                synsets_dict[key] = value
                
        for word in row[4].split(', '):
            if word:
                key, value = lexeme(word)
                synsets_dict[key] = value
        synsets[int(row[0])] = synsets_dict
        
        # Закидываем номер строки в index для каждого слова.
        for word in synsets[int(row[0])]:
            index[word].append(int(row[0]))

        # Обновляем лексикон базы данных
        lexicon.update(synsets[int(row[0])])

In [6]:
def mystem_func(text):
    """Возвращает список, состоящий из списков вида [token, lemma, pos]"""
    
    coding = 'UTF-8'
    if (platform.system() == 'Windows'):
        coding = 'cp866'
    
    # Выполнение команды mystem
    #command = "echo '%s' | ./mystem -e %s -nidsc" % (text, coding)
    command = "echo '%s' | mystem -e %s -nidsc" % (text, coding)
    proc = subprocess.Popen(command, shell=True, stdout=subprocess.PIPE, )
    output = proc.communicate()[0] 
    
    # Обработка результата в считываемый вид (массив строк)
    string_output = str(output.decode(coding))
    
    #string_output = string_output[3:]  # В начале вывода стоит кавычка и перевод строки - не значащая информация
    string_output = string_output[:-2]  # В конце вывода стоит кавычка и перевод строки - не значащая информация
    
    string_output = string_output.replace("_", "")  # Убираем незначащий символ "_" в выводе 
    sentences = string_output.split('\s')  # Деление вывода на предложения
    
    # Обработка каждого предложения по очереди
    # Результат каждого предложения - элемент списка sentences_array
    sentences_array = list()
    for sentence in sentences:
        if (platform.system() == 'Windows'):
            words = sentence.split(os.linesep)  # Деление предложений на слова
        else:
            words = sentence.split('\n')  # Деление предложений на слова
        words = [x for x in words if x != '']  # В некоторых местах появляются пустые элементы списка - удаляем
        
    
        # Обработка каждой строки так, чтобы получить для слова его токен, лемму и часть речи.
        # Результат для каждого слова записывается в список из трех элементов.
        # Все списки хранятся в списке words_array
        words_array = list()
        for word_line in words:
            if (len(word_line) == 1):  #  Случай, если попался знак пунктуации
                token = word_line
                buf = [word_line, 'PUNC']
            
            else:  #  Случай, если попалось слово
                start_index = word_line.find('{',)
                end_index = len(word_line) - 1
                token = word_line[:start_index]  
                
                # Отбрасываем лишнюю информацию
                buf = word_line[start_index+1:end_index].split(',')
                buf = buf[0].split('=')
                if (len(buf) > 2):
                    del buf[2]
              
            # Оформляем результат в виде списка
            buf.insert(0, token)
            words_array.append(buf)
        
        sentences_array.append(words_array)
    return sentences_array

In [7]:
# Трансформируем слова в начальную форму для дальнейшего поиска по базе данных
def initial_form(sentences):
    """Возвращает список предложений со списками слов в начальной форме"""
    initial_text_list = list()
    for sentence in sentences:
        initial_sentence_list = list()
        for word_array in sentence:
            initial_sentence_list.append(word_array[1])
        initial_text_list.append(initial_sentence_list)
    return initial_text_list

In [8]:
# Расчет плотных векторов для всех синсетов
synset_vector_dict = dict()
for synset_id in synsets.keys():
    vector = numpy.zeros(w2v.vector_size)
    vector = vector.reshape(1, -1)
    word_count = 0
    for word in synsets[synset_id].keys():
        try:
            vector = vector + synsets[synset_id][word] * w2v[word].reshape(1, -1)
            word_count = word_count + 1
        except:
            continue
    if word_count > 0:
        synset_vector_dict[synset_id] = vector / word_count

In [9]:
punc = ['!','?', ',', '.', ';', '"', "'"]

# Поиск наилучшего синсета для каждого слова из предложения words_list с помощью векторов
def cos_similar(words_list):
    """Возвращает номер синсета для слова в предложении"""
    
    #words_list = [x for x in words_list if x not in punc] # Удаляем знаки пунктуации
    
    sentence_vector = numpy.zeros(w2v.vector_size)
    sentence_vector = sentence_vector.reshape(1, -1)
    word_count = 0
    sentence_result = list()
    
    # Расчет плотного вектора для предложения
    for word in words_list:
        try:
            sentence_vector = sentence_vector + w2v[word].reshape(1, -1)
            word_count = word_count + 1
        except:
            continue
    if word_count > 0:
        sentence_vector = sentence_vector / word_count
    
    # Поиск наилучшего синсета для каждого слова из предложения
    for word in words_list:
        if word not in punc:
            sim_max_result = 0
            answer = 0
            for synset_number in index[word]:
                synset = synsets[synset_number]
                sim = cosine_similarity(synset_vector_dict[synset_number], sentence_vector).item(0)
                if sim > sim_max_result:
                    sim_max_result = sim
                    answer = synset_number
            if answer != 0:
                sentence_result.append(answer)
            else:
                sentence_result.append(None)
        else:
            sentence_result.append(None)
            
    return sentence_result

In [10]:
# Формируем список синсетов
def text_of_synsets(initial_sentences):
    """Возвращает список предложений, каждое состоит из списка синсетов в соответствии со словом"""
    text_result = list()
    for sentence in initial_sentences:
        sentence_result = cos_similar(sentence)
        text_result.append(sentence_result)
    return text_result

In [11]:
# Вывод
def word_synset_pair(text_result, mystem_sentences):
    sentence_index = 0
    synset_text = list()
    for sentence_result in text_result:
        synset_sentence = list()
        word_index = 0
        for synset_number in sentence_result:
            initial_word = mystem_sentences[sentence_index][word_index][0]
            if (synset_number is not None):
                synset_word = (initial_word, synset_number)
            else:
                synset_word = (initial_word, None)
                
            synset_sentence.append(synset_word)
            word_index = word_index + 1
        
        synset_text.append(synset_sentence)
        sentence_index = sentence_index + 1
    return synset_text

In [12]:
text = (
    'Если подросток добрый, уступчивый и хороший, '
    + 'то это часто воспринимается окружающими как проявление слабости его характера, '
    + 'как неспособность чётко высказать свою позицию. '
    + 'Как поживаешь, друг?')

mystem_sentences = mystem_func(text)  # Cписок предложений, состоящий из списков [token, lemma, pos] для слов
initial_sentences = initial_form(mystem_sentences)  # Cписок предложений со списками слов в начальной форме
text_result = text_of_synsets(initial_sentences)  # Cписок предложений со списками синсетов слов
result = word_synset_pair(text_result, mystem_sentences) # Список предложений с парой слово-синсет

for sentence in result:
    for word in sentence:
        print(word)
    print()

("'", None)
('Если', 4976)
('подросток', 77)
('добрый', 583)
(',', None)
('уступчивый', 2)
('и', 810)
('хороший', 137)
(',', None)
('то', 35127)
('это', 3591)
('часто', 5195)
('воспринимается', 540)
('окружающими', None)
('как', 25276)
('проявление', 20433)
('слабости', 34341)
('его', None)
('характера', 3591)
(',', None)
('как', 25276)
('неспособность', 24799)
('чётко', None)
('высказать', 305)
('свою', 12978)
('позицию', 33156)
('.', None)

('Как', 2607)
('поживаешь', None)
(',', None)
('друг', 312)
('?', None)

