<a href="https://colab.research.google.com/github/ichekhovskikh/skip-thought-vectors/blob/master/skip_thoughts.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Подготовка

Установим флаг floatX=float32, чтобы избежать ошибок типа TypeError.

In [0]:
!echo -e "\n[global]\nfloatX=float32\n" >> ~/.theanorc

Необходимо подлючить Google Drive, где по пути skip-thoughts-master/training располагается библиотека для работы со Skip Throughts Vectors. Папку training можно скачать из репозитория https://github.com/ichekhovskikh/skip-thought-vectors

In [0]:
from google.colab import drive

drive.mount('/content/drive/', force_remount=True)

Сделать импорт библиотеки

In [0]:
import importlib.util
import sys

sys.path.append('/content/drive/My Drive/skip-thoughts-master/training')
import vocab
import train
import tools

In [0]:
!pip install pymorphy2[fast]

import gensim
from gensim.models import Word2Vec, KeyedVectors
import os
import collections
import smart_open
import random
import json
import urllib.request
import pymorphy2
import nltk

nltk.download('stopwords')

from nltk import tokenize
from nltk.corpus import stopwords
from pymystem3 import Mystem

#Начинаем
Для начала нам понадобится комплект документов для обучения нашей модели Skip Thought Vectors. Теоретически, документ может быть чем угодно: коротким твитом из 140 символов, отдельным абзацем, новостной статьей или книгой. В NLP комплект документов часто называют корпусом.

Будем тренировать нашу модель на собственном корпусе. Этот корпус содержит 500 научных статей на 5 различных тем.

Для тестирования будет использоваться тестовый корпус из 50 статей (10 статей на каждую тему).

Dataset состоит из трех строк: id (идентификатор строки), text (текст статьи), tag (идентификатор самой статьи, вектор которого будем обучать), class_name (класс текста, был размечен вручную, необходим только для тестирования)

In [0]:
#@title Введите путь к файлам исходной базы статей:
train_path = 'https://raw.githubusercontent.com/ichekhovskikh/cyberleninka-article-downloader/master/train_corpus.json' #@param {type: "string"}
test_path = 'https://raw.githubusercontent.com/ichekhovskikh/cyberleninka-article-downloader/master/test_corpus.json' #@param {type: "string"}

## Опредлим функцию для чтения и предварительной обработки текста
Ниже мы определяем функцию для открытия  train/test файла, предварительно обрабатываем каждый текст датасета, используя простой инструмент предварительной обработки gensim (то есть, разбиваем текст на отдельные слова, удалите знаки препинания, установите строчные буквы и т. д.), лемматизацию, удаление стоп слов и возвращаем список слов. Для обучения модели нам нужно будет связать тег с каждым документом учебного корпуса. В нашем случае тег - это идентификатор статьи.

In [0]:
morph = pymorphy2.MorphAnalyzer()

def lemmatize(words):
    for word in words:
        yield morph.parse(word)[0].normal_form

Удаление стоп слов:

In [0]:
russian_stopwords = stopwords.words("russian")

def remove_stopwords(words):
    return [word for word in words if word not in russian_stopwords]

Предобработка текста статьи:

In [0]:
def advanced_preprocess(text):
    normalized_text = gensim.utils.simple_preprocess(text)
    normalized_text = list(lemmatize(normalized_text))
    normalized_text = remove_stopwords(normalized_text)
    return normalized_text

Отрытие файла с корпусом статей:

In [0]:
def read_corpus(corpus_path):
    with urllib.request.urlopen(corpus_path) as corpus_url:
        corpus = json.loads(corpus_url.read().decode())
        for article in corpus:
            sentences = tokenize.sent_tokenize(article['text'], 'russian')
            normalized_sentences = []
            for sentence in sentences:
                normalized_sentences.append(' '.join(advanced_preprocess(sentence)))
            yield normalized_sentences

Получение исходного текста статьи по индексу:

In [0]:
def get_article_text_by_index(index, corpus_path):
    with urllib.request.urlopen(corpus_path) as corpus_url:
        corpus = json.loads(corpus_url.read().decode())
        return corpus[index]['text']

Получение категории статьи по индексу:

In [0]:
def get_article_class_by_index(index, corpus_path):
    with urllib.request.urlopen(corpus_path) as corpus_url:
        corpus = json.loads(corpus_url.read().decode())
        return corpus[index]['class_name']

Загружаем корпуса:

In [0]:
train_corpus = list(read_corpus(train_path))
test_corpus = list(read_corpus(test_path))

Давайте посмотрим на учебный и тестовый корпуса:

In [0]:
print(train_corpus[:2])

Корпус тестирования выглядит так:

In [0]:
print(test_corpus[:2])

Создайте три пустых файла в Google Drive для сохранения в них словаря, модели Word2Vec, модели Skip Throughts Vectors

In [0]:
path_to_dictionary = '/content/drive/My Drive/sample_data/vocab.pkl'
path_to_word2vec = '/content/drive/My Drive/sample_data/word2vec.bin'
path_to_model = '/content/drive/My Drive/sample_data/model.npz'

# Обучение модели
## Создание словаря
Состовим словарь из тренеровочного корпуса предложений и сохраним его по пути path_to_dictionary для дальнейшего использования

Объединение всех предложений в один список

In [0]:
def flatten(text):
    return [item for sublist in text for item in sublist]

Создание и сохранение словаря

In [0]:
sentenses = flatten(train_corpus)
worddict, wordcount = vocab.build_dictionary(sentenses)
vocab.save_dictionary(worddict, wordcount, path_to_dictionary)

 ## Создание модели Word2Vec
Составим модель Word2Vec из тренеровочного корпуса предложений и сохраним его по пути path_to_word2vec для дальнейшего использования

Разделить предложение на слова

In [0]:
def word_tokenize(text):
    flat_text = flatten(text)
    return [item.split(' ') for item in flat_text]

Создание и сохранение модели Word2Vec

In [0]:
#@title Укажите параметры обучения модели слов:
vector_size = 300 #@param
window =  5 #@param
epochs =  100 #@param
alpha = 0.001 #@param
learning_method = "skip-gram" #@param ["skip-gram", "CBOW"] {type:"raw"}

sg = 1
if (learning_method == "CBOW"):
    sg = 0

In [0]:
words = word_tokenize(train_corpus)
%time model = Word2Vec(sentences = words, size = vector_size, window = window, alpha = alpha, sg=sg, iter=epochs)

model.wv.save_word2vec_format(path_to_word2vec, binary=True)

# Создание модели Skip Throughts Vectors
Создадим модель Skip Throughts Vectors для преобрахования текстов в вектора.
Сохраним ее в Google Drive по пути path_to_model. Параметры обучения:
- dim_word: размерность вектора слов в RNN сети
- max_epochs: количество эпох обучения
- displayFreq: отображение прогресса после такого количества эпох
- learning_rate: коэффициент обучения
- n_words: размерность словаря
- maxlen_w: максимальное количество слов в предложении, если ниже заданной - игнорировать
- saveto: путь для сохранения модели
- dictionary: путь к словарю
- saveFreq: частота сохранения модели в эпохах

In [0]:
#@title Укажите параметры обучения модели предложений:
max_epochs = 100 #@param
neurons_count = 2400 #@param
learning_rate = 0.01 #@param

In [0]:
sentenses = flatten(train_corpus)
%time train.trainer(X = sentenses, n_words = len(worddict) + 2, dim=neurons_count, learning_rate=learning_rate, max_epochs=max_epochs, dictionary = path_to_dictionary, saveto = path_to_model, saveFreq = 1)

Загрузка обученной модели

In [0]:
model = tools.load_model(
    path_to_model = path_to_model,
    path_to_dictionary = path_to_dictionary,
    path_to_word2vec = path_to_word2vec)

# Поиск похожих текстов на основе обученной модели

Обратная сглаженная частота (вес слова), где
- a: гиперпараметр, который обычно равен 0.001 (конфигурация, внешняя по отношению к модели, значение которой невозможно оценить по данным):

In [0]:
a = 0.001

def sif(word, sentence):
    frequency = sentence.count(word) / len(sentence)
    return a / (a + frequency) 
    

Получить вектор текста:

In [0]:
def paragraph_vector(model, paragraph):
    sentence_vectors = tools.encode(model, paragraph)
    paragraph_vector = []
    vector_count = 0
    for sentence_vector in sentence_vectors:
        if not paragraph_vector:
            paragraph_vector = sentence_vector
        else: 
            paragraph_vector = [x + y for x, y in zip(paragraph_vector, sentence_vector)]
            vector_count += 1
    if vector_count != 0:
        paragraph_vector = [x / vector_count for x in paragraph_vector]
    return paragraph_vector

Вычислим вектора для всех статей исходной базы для ускорения работы:

In [0]:
paragraph_vectors = []
for text in train_corpus:
    text_vector = paragraph_vector(model, text)
    paragraph_vectors.append(text_vector)

Определение косинусной близости двух векторов:

In [0]:
def cosine_similarity(first_vector, second_vector):
    numerator = sum([x * y for x, y in zip(first_vector, second_vector)])
    first_norm = pow(sum([x * x for x in first_vector]), 0.5)
    second_norm = pow(sum([x * x for x in second_vector]), 0.5)
    return numerator / (first_norm * second_norm)

Поиск похожих текстов из корпуса

In [0]:
def sims(model, paragraph, count = 5):
    result = []
    compared_vector = paragraph_vector(model, paragraph)
    for index, text_vector in enumerate(paragraph_vectors):
        similarity = cosine_similarity(compared_vector, text_vector)
        result.append([index, similarity])
    return sorted(result,  key=lambda x: x[1], reverse=True)[:count]

# Оценочная модель
Чтобы оценить нашу новую модель, мы сначала выведем новые векторы для каждого документа тренировочного корпуса, сравним выведенные векторы с тренировочным корпусом.

Проверка выведенного вектора по обучающему вектору является своего рода «проверкой работоспособности» в отношении того, ведет ли модель себя адекватно, хотя и не является реальным значением «точности».

Можем взглянуть на пример:

In [0]:
doc_id = random.randint(0, len(train_corpus) - 1)
doc = train_corpus[doc_id]
sims = sims(model, doc)
print('ТЕКСТ ИСХДНОГО ДОКУМЕНТА ({}): «{}»\n'.format(doc_id, get_article_text_by_index(doc_id, train_path)))
num = 0
for index, similarity in sims:
    num += 1
    print(u'%s) %s: «%s»\n' % (num, similarity, get_article_text_by_index(index, train_path)))

# Тестирование модели
Используя тот же подход, что и выше, мы выведем вектор для случайно выбранного тестового документа и сравним документ с нашей моделью с помощью f1-меры.

In [0]:
from sklearn.metrics import f1_score

test_size = len(test_corpus)

predicted_classes = [] 
test_classes = []

for doc_index in range(test_size):
    doc = test_corpus[doc_index]
    similarities = sims(model, doc)
    
    test_article_class = get_article_class_by_index(doc_index, test_path)
    print('ТЕКСТ ИСХДНОГО ДОКУМЕНТА ({}) «{}»: «{}»\n'.format(doc_index, test_article_class, get_article_text_by_index(doc_index, test_path)))
    num = 0
    for index, similarity in similarities:
        num += 1
        predicted_article_class = get_article_class_by_index(index, train_path)
        print(u'%s) %s «%s»: «%s»\n' % (num, similarity, predicted_article_class, get_article_text_by_index(index, train_path)))
        predicted_classes.append(predicted_article_class)
        test_classes.append(test_article_class)
        
print('f1score: {}'.format(f1_score(test_classes, predicted_classes, average='macro')))

Тестирование на малых данных для выявления ошибок в ходе написания кода

In [0]:
text = ["первое предложение", "второе предложение", "третье предложение", "что-то еще предложение"]
text_split_on_words = [['первое', 'предложение'], ['второе', 'предложение'], ['третье', 'предложение'], ['что-то', 'еще', 'предложение']]

worddict, wordcount = vocab.build_dictionary(text)
vocab.save_dictionary(worddict, wordcount, path_to_dictionary)

model = Word2Vec(text_split_on_words, size=300, window=5, min_count=1, workers=4)
model.wv.save_word2vec_format(path_to_word2vec, binary=True)

train.trainer(
    text, 
    n_words=len(worddict) + 2,
    dictionary=path_to_dictionary,
    saveto=path_to_model,
    saveFreq=1)

model = tools.load_model(
    path_to_model = path_to_model,
    path_to_dictionary = path_to_dictionary',
    path_to_word2vec = path_to_word2vec)

vectors = tools.encode(model, text)
print(cosine_similarity(vectors[0], vectors[1]))

# Поиск похожих научных документов
Выполните поиск похожих научных статей

In [0]:
#@title Укажите путь к тексту статьи в формате *.txt или введите текст статьи:
article_text = '' #@param {type: "string"}
article_path = 'https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/PY0101EN/labs/example1.txt' #@param {type: "string"}

if (article_text == ''):
    with urllib.request.urlopen(article_path) as article_url:
      article_text = article_url.read().decode()


In [0]:
normalized_text = advanced_preprocess(article_text)
sims = sims(model, normalized_text)

print('ТЕКСТ ИСХДНОГО ДОКУМЕНТА «{}»\n'.format(article_text)
num = 0
for index, similarity in sims:
    num += 1
    print(u'%s) %s: «%s»\n' % (num, similarity, get_article_text_by_index(index, train_path)))