# Лабораторная работа 2. Модели представления текстов

In [275]:
import json, time, os, string, re, copy
import numpy as np
import pandas as pd
import pymorphy2
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from collections import Counter

In [131]:
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\artem\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\artem\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [91]:
ENCODING_DEFAULT = 'utf-8'
TRAIN_FILE = 'train.json'
TEST_FILE = 'test.json'
PRECISION = 4 # the number of signs after the comma

ID = 'id'
TEXT = 'text'
SENTIMENT = 'sentiment'
SENTIMENTS = ['negative', 'positive', 'neutral']
POSITIVE = 0
NEGATIVE = 1
NEUTRAL = 2

ORIGIN_WORD = 'OriginWord'
NORMAL_FORM = 'NormalForm'
POS = 'POS'
CASE = 'Case'
GENDER = 'Gender'
DICT_EXIST = 'FromDict'
WORDS = "Words"
FREQ = "Freq"
UNIQ = "uniquies"
COUNT = "count"

In [None]:
gr = {
    "NOUN":"имя существительное",
    "ADJF": "имя прилагательное (полное)",
    "NOUN":"имя существительное",
    "ADJF":"имя прилагательное (полное)",
    "ADJS":"имя прилагательное (краткое)",
    "COMP":"компаратив",
    "VERB":"глагол (личная форма)",
    "INFN":"глагол (инфинитив)",
    "PRTF":"причастие (полное)",
    "PRTS":"причастие (краткое)",
    "GRND":"деепричастие",
    "NUMR":"числительное",
    "ADVB":"наречие",
    "NPRO":"местоимение-существительное",
    "PRED":"предикатив",
    "PREP":"предлог",
    "CONJ":"союз",
    "PRCL":"частица",
    "INTJ":"междометие",
    "nomn":"именительный",
    "gent":"родительный",
    "datv":"дательный",
    "accs":"винительный",
    "ablt":"творительный",
    "loct":"предложный",
    "voct":"звательный",
    "gen2":"второй родительный (частичный)",
    "acc2":"второй винительный",
    "loc2":"второй предложный (местный)",
    "masc":"мужской род",
    "femn":"женский род",
    "neut":"средний род",
    "LATN":"Токен состоит из латинских букв (например, “foo-bar” или “Maßstab”)",
    "PNCT":"Пунктуация (например, , или !? или …)",
    "NUMB":"Число (например, “204” или “3.14”)",
    "intg":"целое число (например, “204”)",
    "real":"вещественное число (например, “3.14”)",
    "ROMN":"Римское число (например, XI)",
    "UNKN":"Токен не удалось разобрать",
}

### Задание 1. Подготовка текстового корпуса
- Прочитайте описание задачи Sentiment analysis: https://www.kaggle.com/c/sentiment-analysis-in-russian.
- Скачайте файлы `train.json` и `test.json`: https://www.kaggle.com/c/sentiment-analysis-in-russian/data.
- Загрузите в ноутбук скачанные файлы, выведите информацию по ним.

In [73]:
def read_json(filename):
    start = time.perf_counter()
    with open(filename, 'r', encoding=ENCODING_DEFAULT) as file:
        data = json.load(file)
    print("[INFO]: read time: %0.4f sec" % (time.perf_counter() - start))
    return data

In [86]:
def print_file_description(data, train=False):
    '''размер файла, количество текстов, средняя/макс./мин. длина текста, распределение тональности для обучающей выборки'''
    text_lens = []
    if train:
        sentiments = dict.fromkeys(SENTIMENTS, 0)
    for news in data:
        if train:
            sentiments[news[SENTIMENT]] += 1
        text_lens.append(len(news[TEXT]))
    print("Размер(байты):", os.path.getsize(TRAIN_FILE if train else TEST_FILE))
    print("Количество примеров:", len(data))
    print("Средняя длина текста:", np.mean(text_lens))
    print("Максимальная длина текста:", np.max(text_lens))
    print("Минимальная длина текста:", np.min(text_lens))
    if train:
        print("Распределение тональностей:")
        print("\tПозитивных:", sentiments[SENTIMENTS[POSITIVE]])
        print("\tНегативных:", sentiments[SENTIMENTS[NEGATIVE]])
        print("\tНейтральных:", sentiments[SENTIMENTS[NEUTRAL]])

In [87]:
train_json = read_json(TRAIN_FILE)
print_file_description(train_json, train=True)

[INFO]: read time: 0.4423 sec
Размер(байты): 59298269
Количество примеров: 8263
Средняя длина текста: 3911.85017548106
Максимальная длина текста: 381498
Минимальная длина текста: 28
Распределение тональностей:
	Позитивных: 1434
	Негативных: 2795
	Нейтральных: 4034


In [88]:
test_json = read_json(TEST_FILE)
print_file_description(test_json)

[INFO]: read time: 0.1541 sec
Размер(байты): 15417058
Количество примеров: 2056
Средняя длина текста: 4102.4143968871595
Максимальная длина текста: 320754
Минимальная длина текста: 35


### Задание 2. Булевская модель
Напишите функцию `get_bool_model()` на входе которой текстовый корпус, на выходе – булевская матрица термин-документ.

В функции должны осуществляться следующие действия:
- все слова преобразуются в нормальную форму;
- удаляются стоп-слова;
- удаляются (или оставляются) слова заданных частей речи (список частей речи должен передаваться в виде параметра);
- удаляются слова, частотность которых во всем корпусе ниже заданного порога (параметр);
- создается словарь корпуса.

Нельзя использовать библиотечные функции `scikit-learn`.  
Можно использовать функции, разработанные в этой и предыдущей лабораторных работах.

In [132]:
morph = pymorphy2.MorphAnalyzer()
nlp = word_tokenize

In [309]:
class SetEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, set):
            return list(obj)
        return super().default(self, obj)

In [337]:
# tools
stopwords_dict = Counter(stopwords.words('russian')) # {"sw1" : 1, "sw2" : 1, ..., "swN" : 1}
re_numbers_pattern = re.compile(r"\d+([,\.]\d+){0,}") # https://regex101.com/r/1V0HDV/1
re_spaces_pattern = re.compile(r"\s{2,}") # two or more spaces
re_newline_pattern = re.compile(r"\n") # newline

def save_data(data, filename='tmp'):
    with open(f"{filename}.json", "w+", encoding='utf-8') as f:
        tojs = json.dumps(data, indent=4, ensure_ascii=False, cls=SetEncoder)
        f.write(tojs)

def get_data(t):
    return 'None' if t is None else t

def check_word(word):
    # token filter
    if word not in string.punctuation and \
        len(re.findall(re_numbers_pattern, word)) == 0:
        return True
    return False

def text_prepare(text):
    # replace '\n' on ' ', '<spaces>' on '<space>'
    text = re.sub(re_newline_pattern, ' ', text)
    text = re.sub(re_spaces_pattern, ' ', text)
    return text

def parse_text(text):
    ret = []
    tokens = nlp(text_prepare(text))
    for word in tokens:
        if check_word(word):
            parsed = morph.parse(word)[0]
            data = {
                ORIGIN_WORD : word,
                NORMAL_FORM : parsed.normal_form,
                POS         : parsed.tag.POS if parsed.tag.POS is not None else 'NOUN',
                CASE        : parsed.tag.case,
                GENDER      : parsed.tag.gender,
                DICT_EXIST  : parsed.is_known,
            }
            ret.append(data)              
    return ret

def get_dictionary(parsed):
    tmp = {}
    for value in parsed:
        if tmp.get(value[NORMAL_FORM]) is None:
            tmp.update({
            value[NORMAL_FORM] : { 
                POS   : value[POS], 
                WORDS : set(([value[ORIGIN_WORD]])),
                FREQ : 1,
            }})
        else:
            tmp[value[NORMAL_FORM]][WORDS].add(value[ORIGIN_WORD])
            tmp[value[NORMAL_FORM]][FREQ] += 1  
    return tmp

In [320]:
s = 'aaa ff v    ffg\nsdfsf fff \n   fsfsfsf fsd g 123 fsdf'
text_prepare(s)

'aaa ff v ffg sdfsf fff fsfsfsf fsd g 123 fsdf'

In [338]:
def clearing(data, freq_rm, pos_rm):
    tmp = {}
    print("[INFO]: lenght of corpus dictionary befor clearing:", len(data))
    for key, val in data.items():
        if not (val[POS] in pos_rm or val[FREQ] < freq_rm or key in stopwords_dict):
            tmp.update({key : val})
    print("[INFO]: lenght of corpus dictionary after clearing:", len(tmp))
    return tmp


def get_bool_model(corpus, freq_remove=0, pos_remove=[]):
    parsed_texts = [] # to store the parsed texts
    documents_dicts = [] # list of dicts of texts

    # loop by corpus elements
    for text in corpus:
        parsed = parse_text(text[TEXT]) # text morph analysis
        parsed_texts.extend(parsed) # adding to list of all parsed texts
        documents_dicts.append(get_dictionary(parsed)) # forming dictionary of text and adding to list
    corpus_dict = get_dictionary(parsed_texts)
    save_data(corpus_dict) #todo delete

    # clearing the text from stopwords, low-frequency and exclude some pos
    corpus_dict_cleared = clearing(corpus_dict, freq_remove, pos_remove)

    # forming term matrix
    term_matrix = []
    for word in corpus_dict_cleared:
        word_exist = []
        for doc_dict in documents_dicts:
            word_exist.append(True if word in doc_dict else False)
        term_matrix.append(word_exist)
        
    return term_matrix, corpus_dict_cleared

In [342]:
bool_model, dict_cleared = get_bool_model(train_json[:3], freq_remove=1, pos_remove=['NOUN'])
df = pd.DataFrame(bool_model, index=dict_cleared.keys())
df.to_csv("bool_model.csv")
print("\nМатрица термин-документ")
df

[INFO]: lenght of corpus dictionary befor clearing: 662
[INFO]: lenght of corpus dictionary after clearing: 294

Матрица термин-документ


Unnamed: 0,0,1,2
досудебный,True,True,False
начать,True,True,False
национальный,True,False,False
сообщить,True,True,False
финансовый,True,False,False
...,...,...,...
формировать,False,False,True
сохраниться,False,False,True
модельный,False,False,True
зависеть,False,False,True


### Задание 3. Модель TF-IDF
Напишите функцию `get_tfidf_model()` на входе которой текстовый корпус, на выходе – матрица термин-документ c TF-IDF-весами.

В функции должны осуществляться следующие действия:
- все слова преобразуются в нормальную форму;
- удаляются стоп-слова;
- удаляются (или оставляются) слова заданных частей речи (список частей речи должен передаваться в виде параметра);
- удаляются слова, частотность которых во всем корпусе ниже заданного порога (параметр);
- создается словарь корпуса;
- вычисляются глобальные IDF-веса и сохраняются в словарь;
- слова для документов взвешиваются в соответствии со схемой TF-IDF.

Нельзя использовать библиотечные функции `scikit-learn`.  
Можно использовать функции, разработанные в предыдущей лабораторной работе.

In [None]:
def get_tfidf_model():
    # Ваш код здесь
    return

Постройте матрицу термин-документ для текстовых корпусов из первого задания.

In [None]:
# Ваш код здесь

Сравните результаты работы вашей функции (полученные веса) с результатами работы класса [TfidfVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) из `scikit-learn`.

In [None]:
# Ваш код здесь

### Задание 4. Модель word2vec
Напишите функцию `get_word2vec_model()` на входе которой текстовый корпус и модель `word2vec`, на выходе – матрица термин-документ c word2vec-весами.

В функции должны осуществляться следующие действия:
- все слова преобразуются в нормальную форму (при необходимости – в зависимости от используемой модели);
- удаляются стоп-слова;
- удаляются (или оставляются) слова заданных частей речи (список частей речи должен передаваться в виде параметра);
- удаляются слова, частотность которых во всем корпусе ниже заданного порога (параметр);
- создается словарь корпуса;
- вычисляются веса word2vec для заданной модели.


Можно использовать библиотечные функции и функции, разработанные в лабораторных работах.

In [None]:
def get_word2vec_model():
    # Ваш код здесь
    return

Постройте матрицу термин-документ для текстовых корпусов из первого задания.

In [None]:
# Ваш код здесь