In [13]:
import pandas as pd
import numpy as np
import nltk

from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.model_selection import cross_val_score
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import accuracy_score

In [59]:
# Считываем тренировочные и тестовые данные
train_data = pd.read_csv('products_sentiment_train.tsv', sep='\t', header=None, names=['text', 'label'])
test_data = pd.read_csv('products_sentiment_test.tsv', sep='\t', header=0)

In [31]:
# составим пайплайн из CountVectorizer и Logistic Regression

pipeline = Pipeline([
    ('vect', CountVectorizer(ngram_range=(1,2))),
    ('clf', LogisticRegression()),
])

# проверим качество на кросс-валидации

np.mean(cross_val_score(pipeline, train_data.text, train_data.label, cv=5, scoring='accuracy'))



0.7705044437777736

In [58]:
# составим пайплайн из TfidfVectorizer и LinerSVC

pipeline1 = Pipeline([
    ('vect', TfidfVectorizer(ngram_range=(1,3))),
    ('clf', LinearSVC()),
])

# проверим качество на кросс-валидации

np.mean(cross_val_score(pipeline1, train_data.text, train_data.label, cv=5, scoring='accuracy'))

0.7904894936843354

In [62]:
# обучим лучшую модель

pipeline1.fit(train_data.text, train_data.label)

# сохраним в переменную предсказания модели для тестовых данных

pred = pipeline1.predict(test_data.text)

In [76]:
# запишем в DataFrame предсказания согласно шаблону

res = pd.DataFrame(pred, columns=['y'])
res['id'] = res.index
res = res[['id', 'y']]

# запишем полученый DataFrame в файл и считаем его, чтобы удостовериться в корректности записи

res.to_csv('pred.csv', index=None)
pd.read_csv('pred.csv')

Unnamed: 0,id,y
0,0,1
1,1,0
2,2,1
3,3,1
4,4,0
5,5,0
6,6,1
7,7,0
8,8,0
9,9,1
