# Загрузка библиотек

In [88]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer

# Загрузка данных

In [89]:
reviews_train = []
for line in open('train_data.txt', 'r'):
    reviews_train.append(line.strip())
    
reviews_test = []
for line in open('test_data.txt', 'r'):
    reviews_test.append(line.strip())

In [90]:
# сразу сделаем предварительную очистку данных: избавимся от знаков и сделаем все буквы строчными

REPLACE_NO_SPACE = re.compile("[.;:!\'?,\"()\[\]]")
REPLACE_WITH_SPACE = re.compile("(<br\s*/><br\s*/>)|(\-)|(\/)")

def preprocess_reviews(reviews):
    reviews = [REPLACE_NO_SPACE.sub("", line.lower()) for line in reviews]
    reviews = [REPLACE_WITH_SPACE.sub(" ", line) for line in reviews]
    
    return reviews

reviews_train_clean = preprocess_reviews(reviews_train)
reviews_test_clean = preprocess_reviews(reviews_test)

# Целевые признаки

In [91]:
# Статус комменатрия: положительный/отрицательный
target = [1 if i < 12500 else 0 for i in range(25000)]

In [16]:
# Рейтинги
rating = []
for line in open('rating_train.txt', 'r'):
    rating.append(line.strip())
    
rating_test = []
for line in open('rating_test.txt', 'r'):
    rating_test.append(line.strip())

# Подготовка

Функция для обучения модели и вывода метрик

In [54]:
def model_fit_score(model):
    print(model)
    # обучение
    model.fit(X_train, y_train)
    print('точность на валидационных данных: ', accuracy_score(y_val, model.predict(X_val)))
    # обучим на всех данных
    model.fit(X, target)
    print('точность на тестовых данных :', accuracy_score(target, model.predict(X_test)))

Будем тестировать две модели:
- логистическую регрессию
- метод опорных векторов 

Обе эти модели хорошо работют с разрежеенными данными.

In [70]:
lr = LogisticRegression(solver = 'liblinear', random_state=10)
svc = LinearSVC()

# Поиск решения

## N-граммы

Попробуем вместо отдельных слов использовать n-граммы. А также исключим стоп-слова.

In [52]:
# вариант с ngram_range=(1, 2)
cv1 = CountVectorizer(binary=True, ngram_range=(1, 2), stop_words='english')
# обучаем на трейн-данных
cv1.fit(reviews_train_clean)
# векторизуем трейн и тест данные
X = cv1.transform(reviews_train_clean)
X_test = cv1.transform(reviews_test_clean)
# Разделение на трейн и валидацию
X_train, X_val, y_train, y_val = train_test_split(X, target, train_size = 0.75, random_state=10)

In [67]:
model_fit_score(lr)

LogisticRegression(random_state=10, solver='liblinear')
точность на валидационных данных:  0.89008
точность на тестовых данных : 0.87928


In [68]:
model_fit_score(svm)

LinearSVC()
точность на валидационных данных:  0.89696
точность на тестовых данных : 0.86704


In [71]:
# вариант с ngram_range=(1, 3)
cv2 = CountVectorizer(binary=True, ngram_range=(1, 3), stop_words='english')
# обучаем на трейн-данных
cv2.fit(reviews_train_clean)
# векторизуем трейн и тест данные
X = cv2.transform(reviews_train_clean)
X_test = cv2.transform(reviews_test_clean)
# Разделение на трейн и валидацию
X_train, X_val, y_train, y_val = train_test_split(X, target, train_size = 0.75, random_state=10)

In [72]:
model_fit_score(lr)

LogisticRegression(random_state=10, solver='liblinear')
точность на валидационных данных:  0.88656
точность на тестовых данных : 0.88372


In [73]:
model_fit_score(svc)

LinearSVC()




точность на валидационных данных:  0.88592
точность на тестовых данных : 0.8834


# TF-IDF 

Попробуем использовать TF-IDF статистику вместо слов/n-грамм.

In [74]:
tfidf_vectorizer1 = TfidfVectorizer()
# обучаем на трейн-данных
tfidf_vectorizer1.fit(reviews_train_clean)
# векторизуем трейн и тест данные
X = tfidf_vectorizer1.transform(reviews_train_clean)
X_test = tfidf_vectorizer1.transform(reviews_test_clean)
# Разделение на трейн и валидацию
X_train, X_val, y_train, y_val = train_test_split(X, target, train_size = 0.75, random_state=10)

In [75]:
model_fit_score(lr)

LogisticRegression(random_state=10, solver='liblinear')
точность на валидационных данных:  0.89008
точность на тестовых данных : 0.8824


In [76]:
model_fit_score(svc)

LinearSVC()
точность на валидационных данных:  0.89696
точность на тестовых данных : 0.8794


In [77]:
# вариант с удалением стоп-слов
tfidf_vectorizer2 = TfidfVectorizer(stop_words='english')
# обучаем на трейн-данных
tfidf_vectorizer2.fit(reviews_train_clean)
# векторизуем трейн и тест данные
X = tfidf_vectorizer2.transform(reviews_train_clean)
X_test = tfidf_vectorizer2.transform(reviews_test_clean)
X_train, X_val, y_train, y_val = train_test_split(X, target, train_size = 0.75, random_state=10)

In [78]:
model_fit_score(lr)

LogisticRegression(random_state=10, solver='liblinear')
точность на валидационных данных:  0.8912
точность на тестовых данных : 0.87928


In [79]:
model_fit_score(svc)

LinearSVC()
точность на валидационных данных:  0.89056
точность на тестовых данных : 0.86704


Наилучший результат на тестовых данных показала модель логистической регрессии на n-граммах (1,3). Попробуем подобрать к нему оптимальные гиперпараметры.

In [83]:
# вариант с ngram_range=(1, 3)
cv2 = CountVectorizer(binary=True, ngram_range=(1, 3), stop_words='english')
# обучаем на трейн-данных
cv2.fit(reviews_train_clean)
# векторизуем трейн и тест данные
X = cv2.transform(reviews_train_clean)
X_test = cv2.transform(reviews_test_clean)
# Разделение на трейн и валидацию
X_train, X_val, y_train, y_val = train_test_split(X, target, train_size = 0.75, random_state=10)

In [84]:
for c in [0.01, 0.05, 0.1, 0.25, 0.5, 1]:
    model_fit_score(LogisticRegression(solver = 'liblinear', random_state=10, C=c))
    print()

0.01
LogisticRegression(C=0.01, random_state=10, solver='liblinear')
точность на валидационных данных:  0.87536
точность на тестовых данных : 0.87404
0.05
LogisticRegression(C=0.05, random_state=10, solver='liblinear')
точность на валидационных данных:  0.88416
точность на тестовых данных : 0.88112
0.1
LogisticRegression(C=0.1, random_state=10, solver='liblinear')
точность на валидационных данных:  0.88496
точность на тестовых данных : 0.88264
0.25
LogisticRegression(C=0.25, random_state=10, solver='liblinear')
точность на валидационных данных:  0.88656
точность на тестовых данных : 0.88348
0.5
LogisticRegression(C=0.5, random_state=10, solver='liblinear')
точность на валидационных данных:  0.88576
точность на тестовых данных : 0.88376
1
LogisticRegression(C=1, random_state=10, solver='liblinear')
точность на валидационных данных:  0.88656
точность на тестовых данных : 0.88372


Наилучшее качество при С=0.5

# Финальная модель

In [86]:
final_model = LogisticRegression(C=0.5, random_state=10, solver='liblinear')
final_model.fit(X_train, y_train)
print('точность на валидационных данных: ', accuracy_score(y_val, final_model.predict(X_val)))
# обучим на всех данных
final_model.fit(X, target)
print('точность на тестовых данных :', accuracy_score(target, final_model.predict(X_test)))

точность на валидационных данных:  0.88576
точность на тестовых данных : 0.88376


In [87]:
final_model = LogisticRegression(C=0.5, random_state=10)
final_model.fit(X_train, y_train)
print('точность на валидационных данных: ', accuracy_score(y_val, final_model.predict(X_val)))
# обучим на всех данных
final_model.fit(X, target)
print('точность на тестовых данных :', accuracy_score(target, final_model.predict(X_test)))

точность на валидационных данных:  0.88608
точность на тестовых данных : 0.88364
