Классификация тональности текста  
Для определения тональности применим величины TF-IDF как признаки.  
Анализ тональности текста, или сентимент-анализ (от англ. sentiment, «настроение»), выявляет эмоционально окрашенные слова. Этот инструмент помогает компаниям оценивать, например, реакцию на запуск нового продукта в интернете. На разбор тысячи отзывов человек потратит несколько часов, а компьютер — пару минут.  
Оценить тональность — значит отметить текст как позитивный или негативный. То есть мы решаем задачу классификации, где целевой признак равен «1» для положительного текста и «0» для отрицательного. Признаки — это слова из корпуса и их величины TF-IDF для каждого текста.

Задачи:  
1) Обучите логистическую регрессию так, чтобы она определяла тональность текста.  
2) Подсчитайте величину TF-IDF для текстов.  

Лемматизированные тексты твитов для обучения находятся в файле tweets_lemm_train.csv. Целевой признак вы найдёте в столбце positive.  
Обученной моделью классификации определите результаты предсказания для тестовой выборки твитов, которая лежит в файле tweets_lemm_test.csv. В этой выборке целевого признака нет.  
Создайте новую таблицу с одним единственным столбцом positive. В этот столбец сохраните предсказания модели для тестовой выборки. Таблицу с результатом сохраните как csv-файл с помощью метода to_csv() из pandas.  Но чтобы тренажёр принял файл, не указывайте расширение (например, назовите файл 'predictions'). Кроме того, в методе to_csv() нужно указать index=False, чтобы избежать записи индексов в файл.  
Если тренажер не принял ваш файл, откройте его с помощью любого текстового редактора и убедитесь, что в нем нет ничего, кроме одного столбца positive, состоящего только из нулей и единиц. Если это не так, значит была допущена какая-то ошибка при сохранении таблицы в csv-файл.  
Значение accuracy вашей модели должно быть не меньше 0.62 на тестовых данных. Чтобы узнать accuracy вашей модели на тестовых данных, необходимо загрузить файл с ее предсказаниями в тренажер.  

Файлы:  
tweets_lemm_train  
tweets_lemm_test.

In [None]:
# !pip install nltk -q

In [None]:
import pandas as pd
import nltk
from nltk.corpus import stopwords as nltk_stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score

In [10]:
data_train = pd.read_csv("./tweets_lemm_train.csv")
data_test = pd.read_csv("./tweets_lemm_test.csv")

In [11]:
nltk.download('stopwords')
russian_stopwords = nltk_stopwords.words('russian')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\DM\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [12]:
X = data_train['lemm_text'].values.astype('U')
y = data_train['positive']

In [13]:
pipe = Pipeline([
    ('tfidf', TfidfVectorizer(stop_words=russian_stopwords)),
    ('lr', LogisticRegression(max_iter=1000))
])

In [14]:
X_train, X_val, y_train, y_val = train_test_split(
    X, y, test_size=0.01, random_state=42, stratify=y
)

In [15]:
pipe.fit(X_train, y_train)

0,1,2
,steps,"[('tfidf', ...), ('lr', ...)]"
,transform_input,
,memory,
,verbose,False

0,1,2
,input,'content'
,encoding,'utf-8'
,decode_error,'strict'
,strip_accents,
,lowercase,True
,preprocessor,
,tokenizer,
,analyzer,'word'
,stop_words,"['и', 'в', ...]"
,token_pattern,'(?u)\\b\\w\\w+\\b'

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,
,solver,'lbfgs'
,max_iter,1000


In [16]:
y_val_pred = pipe.predict(X_val)
print("Accuracy:", accuracy_score(y_val, y_val_pred))

Accuracy: 0.66


In [17]:
X_test = data_test['lemm_text'].values.astype('U')
y_pred_result = pipe.predict(X_test)

In [18]:
result = pd.DataFrame({'positive': y_pred_result})
result.to_csv('predictions', index=False)