# Лабораторная работа 2. Модели представления текстов

In [64]:
import json, sys, time
import numpy as np

In [54]:
ENCODING_DEFAULT = 'utf-8'
TRAIN_FILE = 'train.json'
TEST_FILE = 'test.json'
PRECISION = 4 # the number of signs after the comma

ID = 'id'
TEXT = 'text'
SENTIMENT = 'sentiment'
SENTIMENTS = ['negative', 'positive', 'neutral']
POSITIVE = 0
NEGATIVE = 1
NEUTRAL = 2

### Задание 1. Подготовка текстового корпуса
- Прочитайте описание задачи Sentiment analysis: https://www.kaggle.com/c/sentiment-analysis-in-russian.
- Скачайте файлы `train.json` и `test.json`: https://www.kaggle.com/c/sentiment-analysis-in-russian/data.
- Загрузите в ноутбук скачанные файлы, выведите информацию по ним.

In [80]:
def sizeof(obj):
    size = sys.getsizeof(obj)
    if isinstance(obj, dict): return size + sum(map(sizeof, obj.keys())) + sum(map(sizeof, obj.values()))
    if isinstance(obj, (list, tuple, set, frozenset)): return size + sum(map(sizeof, obj))
    return size

In [73]:
def read_json(filename):
    start = time.perf_counter()
    with open(filename, 'r', encoding=ENCODING_DEFAULT) as file:
        data = json.load(file)
    print("[INFO]: read time: %0.4f sec" % (time.perf_counter() - start))
    return data

In [81]:
def print_file_description(data, train=False):
    '''размер файла, количество текстов, средняя/макс./мин. длина текста, распределение тональности для обучающей выборки'''
    text_lens = []
    if train:
        sentiments = dict.fromkeys(SENTIMENTS, 0)
    for news in data:
        if train:
            sentiments[news[SENTIMENT]] += 1
        text_lens.append(len(news[TEXT]))
    print("Размер(байты):", sizeof(data))
    print("Количество примеров:", len(data))
    print("Средняя длина текста:", np.mean(text_lens))
    print("Максимальная длина текста:", np.max(text_lens))
    print("Минимальная длина текста:", np.min(text_lens))
    if train:
        print("Распределение тональностей:")
        print("\tПозитивных:", sentiments[SENTIMENTS[POSITIVE]])
        print("\tНегативных:", sentiments[SENTIMENTS[NEGATIVE]])
        print("\tНейтральных:", sentiments[SENTIMENTS[NEUTRAL]])

In [82]:
train_json = read_json(TRAIN_FILE)
print_file_description(train_json, train=True)

[INFO]: read time: 0.3276 sec
Размер(байты): 69289937
Количество примеров: 8263
Средняя длина текста: 3911.85017548106
Максимальная длина текста: 381498
Минимальная длина текста: 28
Распределение тональностей:
	Позитивных: 1434
	Негативных: 2795
	Нейтральных: 4034


In [83]:
test_json = read_json(TEST_FILE)
print_file_description(test_json)

[INFO]: read time: 0.1227 sec
Размер(байты): 17802672
Количество примеров: 2056
Средняя длина текста: 4102.4143968871595
Максимальная длина текста: 320754
Минимальная длина текста: 35


### Задание 2. Булевская модель
Напишите функцию `get_bool_model()` на входе которой текстовый корпус, на выходе – булевская матрица термин-документ.

В функции должны осуществляться следующие действия:
- все слова преобразуются в нормальную форму;
- удаляются стоп-слова;
- удаляются (или оставляются) слова заданных частей речи (список частей речи должен передаваться в виде параметра);
- удаляются слова, частотность которых во всем корпусе ниже заданного порога (параметр);
- создается словарь корпуса.

Нельзя использовать библиотечные функции `scikit-learn`.  
Можно использовать функции, разработанные в этой и предыдущей лабораторных работах.

In [None]:
def get_bool_model():
    # Ваш код здесь
    return

Постройте матрицу термин-документ для текстовых корпусов из первого задания.

In [None]:
# Ваш код здесь

### Задание 3. Модель TF-IDF
Напишите функцию `get_tfidf_model()` на входе которой текстовый корпус, на выходе – матрица термин-документ c TF-IDF-весами.

В функции должны осуществляться следующие действия:
- все слова преобразуются в нормальную форму;
- удаляются стоп-слова;
- удаляются (или оставляются) слова заданных частей речи (список частей речи должен передаваться в виде параметра);
- удаляются слова, частотность которых во всем корпусе ниже заданного порога (параметр);
- создается словарь корпуса;
- вычисляются глобальные IDF-веса и сохраняются в словарь;
- слова для документов взвешиваются в соответствии со схемой TF-IDF.

Нельзя использовать библиотечные функции `scikit-learn`.  
Можно использовать функции, разработанные в предыдущей лабораторной работе.

In [None]:
def get_tfidf_model():
    # Ваш код здесь
    return

Постройте матрицу термин-документ для текстовых корпусов из первого задания.

In [None]:
# Ваш код здесь

Сравните результаты работы вашей функции (полученные веса) с результатами работы класса [TfidfVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) из `scikit-learn`.

In [None]:
# Ваш код здесь

### Задание 4. Модель word2vec
Напишите функцию `get_word2vec_model()` на входе которой текстовый корпус и модель `word2vec`, на выходе – матрица термин-документ c word2vec-весами.

В функции должны осуществляться следующие действия:
- все слова преобразуются в нормальную форму (при необходимости – в зависимости от используемой модели);
- удаляются стоп-слова;
- удаляются (или оставляются) слова заданных частей речи (список частей речи должен передаваться в виде параметра);
- удаляются слова, частотность которых во всем корпусе ниже заданного порога (параметр);
- создается словарь корпуса;
- вычисляются веса word2vec для заданной модели.


Можно использовать библиотечные функции и функции, разработанные в лабораторных работах.

In [None]:
def get_word2vec_model():
    # Ваш код здесь
    return

Постройте матрицу термин-документ для текстовых корпусов из первого задания.

In [None]:
# Ваш код здесь