In [166]:
import numpy as np
import re
from tqdm import tqdm_notebook as tqdm
from sklearn import linear_model
from pymystem3 import Mystem
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

In [148]:
with open('texts_train.txt', 'r') as file_texts:
    texts = np.array(file_texts.read().strip("\n").split("\n"))
file_texts.close()

with open('scores_train.txt', 'r') as file_scores:
    scores_str = np.array(file_scores.read().strip("\n").split("\n"))
    scores = np.array([int(elem) for elem in scores_str if elem != ''])
file_scores.close()

In [13]:
print("Mean score is", scores.mean())

Mean score is 7.8584


In [240]:
with open('dataset_40757_1 (22).txt', 'r') as file_tests:
    texts_test = file_tests.read().strip("\n").split("\n")
file_tests.close()

In [108]:
def maybe_to_lower(text):
    match = re.search("\w+", text)
    if not match:
        return text
    if text.isupper():
        return text
    return text.lower()

def tokenize(text):
    res = []
    ind = 0
    cur_seq = ""
    if_word = True
    
    n = len(text)
    stop_signs = set(['.', ',', '-', ';'])
    
    while True:
        if ind >= n:
           break 
        
        match = re.search("\w", text[ind])
        
        if if_word:
            if match:
                cur_seq += text[ind]
                ind += 1
            else:
                cur_seq = cur_seq.replace(' ', '')
                if cur_seq != '' and cur_seq not in stop_signs:
                    res.append(maybe_to_lower(cur_seq))
                cur_seq = text[ind]
                if_word = False
                ind += 1
        else:
            if match:
                cur_seq = cur_seq.replace(' ', '')
                if cur_seq != '' and cur_seq not in stop_signs:
                    res.append(maybe_to_lower(cur_seq))
                cur_seq = text[ind]
                if_word = True
                ind += 1
            else:
                cur_seq += text[ind]
                ind += 1
            
    return res
            
        
tokenize(texts[0])

['сериал',
 'очень',
 'люблю',
 'но',
 'академия',
 'и',
 'земля',
 'вызывает',
 'у',
 'меня',
 'отторжение',
 'идеей',
 '...',
 'не',
 'люблю',
 'когда',
 'принижают',
 'ценность',
 'человека',
 'как',
 'личности',
 'даже',
 'не',
 'смотря',
 'на',
 'ошибки',
 'личности']

In [150]:
tokenized_texts = []

for text in tqdm(texts):
    tokenized_texts.append(tokenize(text))

HBox(children=(IntProgress(value=0, max=20000), HTML(value='')))




In [151]:
tokenized_texts[:10]

[['сериал',
  'очень',
  'люблю',
  'но',
  'академия',
  'и',
  'земля',
  'вызывает',
  'у',
  'меня',
  'отторжение',
  'идеей',
  '...',
  'не',
  'люблю',
  'когда',
  'принижают',
  'ценность',
  'человека',
  'как',
  'личности',
  'даже',
  'не',
  'смотря',
  'на',
  'ошибки',
  'личности'],
 ['думал',
  'что',
  'будет',
  'лучше',
  'идея',
  'очень',
  'интересна',
  'города',
  'иные',
  '..',
  'но',
  'в',
  'целом',
  'чуть',
  'выше',
  'чем'],
 ['с',
  'творчеством',
  'головачева',
  'я',
  'познакомился',
  'посредством',
  'этой',
  'книги',
  'понравилось',
  'дико',
  'и',
  'потом',
  'было',
  'жалко',
  'что',
  'остальные',
  'произведения',
  'подобного',
  'жанра',
  'ни',
  'по',
  'накалу',
  'страстей',
  'ни',
  'по',
  'сюжету',
  'даже',
  'блиско',
  'не',
  'подходили',
  'посланник',
  'мне',
  'вообще',
  'больше',
  'всех',
  'книг',
  'понравился',
  'у',
  'головачева'],
 ['то',
  'то',
  'я',
  'и',
  'в',
  'большое',
  'неудовольствие',
  'п

In [152]:
word2scores = {}

num_texts = len(texts)
num_scores = len(scores)

print(num_texts, num_scores)

for i in tqdm(range(num_texts)):
    tokenized = tokenized_texts[i]
    tokens_set = set(tokenized)
    score = scores[i]
    
    for token in tokens_set:
        if token not in word2scores:
            word2scores[token] = []
        word2scores[token].append(score)

20000 20000


HBox(children=(IntProgress(value=0, max=20000), HTML(value='')))




In [155]:
word2score = {elem : np.array(word2scores[elem]).mean() for elem in word2scores.keys()}

In [156]:
word2score[':(']

6.071428571428571

In [None]:
res_file = open("res.txt", "w")
res = ""

for text in texts_test:
    tokenized = tokenize(text)
    text_scores = np.array([word2score[elem] for elem in tokenized if elem in word2score])
    print(text_scores)
    if len(text_scores) == 0:
        res += "8\n"
    else:
        res += str(int(round(text_scores.mean()))) + "\n"
    
res_file.write(res)
res_file.close()

In [117]:
def tokenize_to_words(text):
    words = re.split("\W+", text)
    res = [elem.lower() for elem in words if elem != '']
    return res
        
tokenize_to_words(texts[0])

['сериал',
 'очень',
 'люблю',
 'но',
 'академия',
 'и',
 'земля',
 'вызывает',
 'у',
 'меня',
 'отторжение',
 'идеей',
 'не',
 'люблю',
 'когда',
 'принижают',
 'ценность',
 'человека',
 'как',
 'личности',
 'даже',
 'не',
 'смотря',
 'на',
 'ошибки',
 'личности']

In [118]:
word2scores = {}

num_texts = len(texts)
num_scores = len(scores)

print(num_texts, num_scores)

for i in tqdm(range(num_texts)):
    tokenized = tokenized_texts[i]
    tokens_set = set(tokenized)
    score = scores[i]
    
    for token in tokens_set:
        if token not in word2scores:
            word2scores[token] = []
        word2scores[token].append(score)
        
word2score = {elem : np.array(word2scores[elem]).mean() for elem in word2scores.keys()}

20000 20000


HBox(children=(IntProgress(value=0, max=20000), HTML(value='')))




In [None]:
res_file = open("res.txt", "w")
res = ""

for text in texts_test:
    tokenized = tokenize(text)
    text_scores = np.array([word2score[elem] for elem in tokenized if elem in word2score])
    print(text_scores)
    if len(text_scores) == 0:
        res += "8\n"
    else:
        res += str(int(round(text_scores.mean()))) + "\n"
    
res_file.write(res)
res_file.close()

In [157]:
mystem = Mystem()

In [158]:
tokenized_texts = []

for text in tqdm(texts):
    tokenized = tokenize(text)
    text_ = " ".join(tokenized)
    lemmatized = mystem.lemmatize(text_)
    res = [elem for elem in lemmatized if elem != ' ' and elem != '\n']
    tokenized_texts.append(res)

tokenized_texts[:10]

HBox(children=(IntProgress(value=0, max=20000), HTML(value='')))




[['сериал',
  'очень',
  'любить',
  'но',
  'академия',
  'и',
  'земля',
  'вызывать',
  'у',
  'я',
  'отторжение',
  'идея',
  '...',
  'не',
  'любить',
  'когда',
  'принижать',
  'ценность',
  'человек',
  'как',
  'личность',
  'даже',
  'не',
  'смотря',
  'на',
  'ошибка',
  'личность'],
 ['думать',
  'что',
  'быть',
  'хорошо',
  'идея',
  'очень',
  'интересный',
  'город',
  'иной',
  '..',
  'но',
  'в',
  'целое',
  'чуть',
  'высоко',
  'что'],
 ['с',
  'творчество',
  'головачев',
  'я',
  'познакомиться',
  'посредством',
  'этот',
  'книга',
  'понравиться',
  'дико',
  'и',
  'потом',
  'быть',
  'жалко',
  'что',
  'остальной',
  'произведение',
  'подобный',
  'жанр',
  'ни',
  'по',
  'накал',
  'страсть',
  'ни',
  'по',
  'сюжет',
  'даже',
  'блиско',
  'не',
  'подходить',
  'посланник',
  'я',
  'вообще',
  'много',
  'все',
  'книга',
  'понравиться',
  'у',
  'головачев'],
 ['то',
  'то',
  'я',
  'и',
  'в',
  'большой',
  'неудовольствие',
  'прочитыват

In [126]:
word2scores = {}

num_texts = len(texts)
num_scores = len(scores)

print(num_texts, num_scores)

for i in tqdm(range(num_texts)):
    tokenized = tokenized_texts[i]
    tokens_set = set(tokenized)
    score = scores[i]
    
    for token in tokens_set:
        if token not in word2scores:
            word2scores[token] = []
        word2scores[token].append(score)

20000 20000


HBox(children=(IntProgress(value=0, max=20000), HTML(value='')))




In [None]:
res_file = open("res.txt", "w")
res = ""

for text in texts_test:
    tokenized = tokenize(text)
    text_ = " ".join(tokenized)
    lemmatized = mystem.lemmatize(text_)
    result = [elem for elem in lemmatized if elem != ' ']
    
    text_scores = np.array([word2score[elem] for elem in result if elem in word2score])
    #print(text_scores)
    if len(text_scores) == 0:
        res += "8\n"
    else:
        res += str(int(round(text_scores.mean()))) + "\n"
    
print(res)
res_file.write(res)
res_file.close()

In [159]:
final_texts = [" ".join(elem) for elem in tokenized_texts]

In [160]:
final_texts[:10]

['сериал очень любить но академия и земля вызывать у я отторжение идея ... не любить когда принижать ценность человек как личность даже не смотря на ошибка личность',
 'думать что быть хорошо идея очень интересный город иной .. но в целое чуть высоко что',
 'с творчество головачев я познакомиться посредством этот книга понравиться дико и потом быть жалко что остальной произведение подобный жанр ни по накал страсть ни по сюжет даже блиско не подходить посланник я вообще много все книга понравиться у головачев',
 'то то я и в большой неудовольствие прочитывать  "  артур  " .. теперь понимать почему стиль на асприновский',
 'как я показываться место сильно смахивать на посланник но по общий впечатление не дотягивать концовка  (  последний треть книга  )  такой ощущение писаться второпях вобщий почитать можно только от нечего',
 'от первый часть книга просто отрываться не мочь уж больно захватывать быть похождение бывший афганец по древний русь от второй часть отрываться мочь но ненадолго'

In [162]:
test_dataset = []

for text in texts_test:
    tokenized = tokenize(text)
    text_ = " ".join(tokenized)
    lemmatized = mystem.lemmatize(text_)
    result = [elem for elem in lemmatized if elem != ' ']
    result = " ".join(result)
    test_dataset.append(result)

In [163]:
test_dataset[:10]

['(  29  /  12  /  07  )  легко и непринужденный правда признаваться книга я не читать .. я она слушать  ) . конец и правда разочаровывать но в общий очень понравиться ! не поклонник мурак но кой что из написать увлекать и подарить ощущение который на тот момент не находить у другой писатель хотя сейчас мочь выделять несколько ... читать переживать все в себя если книга действительно стоить внимание для конкретный личность то она и быть подобный переживать приключение если же нет книга просто не ваш \n',
 'потрясно !  я обожать этот книга \n',
 'да весь очень знакомый когда все раздражать хотеться близкий человек сделать назло больно это переходный возраст у ребенок а вот мать возможно действительно болезнь альцгеймер конец на мой взгляд немного недосказывать саундтрек просто супер \n',
 'созвучно \n',
 'книга о любовь реальный и виртуальный главный герой встречаться в аська страсть накаляться вот они уже собираться встречаться в реальный жизнь что же это заканчиваться ? ну без бурный 

In [None]:
vectorizer = CountVectorizer(binary=True, ngram_range=(2, 3))
train_dataset = vectorizer.fit_transform(final_texts)

model = linear_model.SGDClassifier().fit(train_dataset, scores)

res_file = open("res.txt", "w")
res = ""

for text in test_dataset:
    vectorized = vectorizer.transform([text])
    unclipped_res = int(round(model.predict(vectorized)[0]))
    
    res += str(np.clip(unclipped_res, 1, 10)) + "\n"

print(res)
res_file.write(res)
res_file.close()

In [None]:
vectorizer = CountVectorizer(binary=True, ngram_range=(1, 2))
train_dataset = vectorizer.fit_transform(final_texts)

model = linear_model.SGDRegressor().fit(train_dataset, scores)

res_file = open("res.txt", "w")
res = ""

for text in test_dataset:
    vectorized = vectorizer.transform([text])
    unclipped_res = int(round(model.predict(vectorized)[0]))
    
    res += str(np.clip(unclipped_res, 1, 10)) + "\n"

print(res)
res_file.write(res)
res_file.close()

In [None]:
vectorizer = TfidfVectorizer(ngram_range=(1, 3))
train_dataset = vectorizer.fit_transform(final_texts)

model = linear_model.PassiveAggressiveRegressor().fit(train_dataset, scores)

res_file = open("res.txt", "w")
res = ""

for text in test_dataset:
    vectorized = vectorizer.transform([text])
    unclipped_res = int(round(model.predict(vectorized)[0]))
    
    res += str(np.clip(unclipped_res, 1, 10)) + "\n"

print(res)
res_file.write(res)
res_file.close()

In [241]:
test_dataset = []

for text in texts_test:
    tokenized = tokenize(text)
    text_ = " ".join(tokenized)
    lemmatized = mystem.lemmatize(text_)
    result = [elem for elem in lemmatized if elem != ' ']
    result = " ".join(result)
    test_dataset.append(result)

In [None]:
vectorizer = TfidfVectorizer(ngram_range=(1, 3))
train_dataset = vectorizer.fit_transform(final_texts)

model = linear_model.SGDClassifier().fit(train_dataset, scores)

res_file = open("res.txt", "w")
res = ""

for text in test_dataset:
    vectorized = vectorizer.transform([text])
    unclipped_res = int(round(model.predict(vectorized)[0]))
    
    res += str(np.clip(unclipped_res, 1, 10)) + "\n"

print(res)
res_file.write(res)
res_file.close()

In [164]:
vectorizer = TfidfVectorizer(ngram_range=(1, 3))
train_dataset = vectorizer.fit_transform(final_texts)

model = linear_model.Ridge().fit(train_dataset, scores)

res_file = open("res.txt", "w")
res = ""

for text in test_dataset:
    vectorized = vectorizer.transform([text])
    unclipped_res = int(round(model.predict(vectorized)[0]))
    
    res += str(np.clip(unclipped_res, 1, 10)) + "\n"

print(res)
res_file.write(res)
res_file.close()