### Классификация тональности текста
Для определения тональности применим величины TF-IDF как признаки.<br>
Анализ тональности текста, или сентимент-анализ (от англ. sentiment, «настроение»), выявляет эмоционально окрашенные слова. <br><br>
Этот инструмент помогает компаниям оценивать, например, реакцию на запуск нового продукта в интернете. На разбор тысячи отзывов человек потратит несколько часов, а компьютер — пару минут.<br><br>
Оценить тональность — значит отметить текст как позитивный или негативный. То есть мы решаем задачу классификации, где целевой признак равен «1» для положительного текста и «0» для отрицательного.<br> <br>Признаки — это слова из корпуса и их величины TF-IDF для каждого текста.

### Обучите логистическую регрессию так, чтобы она определяла тональность текста.
Подсчитайте величину TF-IDF для текстов. Лемматизированные тексты твитов для обучения находятся в файле tweets_lemm_train.csv. Целевой признак вы найдёте в столбце positive.<Br><br>
Обученной моделью классификации определите результаты предсказания для тестовой выборки твитов, которая лежит в файле tweets_lemm_test.csv. В этой выборке целевого признака нет.<br><br> Сохраните предсказания в столбце positive. Таблицу с результатом сохраните как csv-файл, но чтобы тренажёр принял файл, не указывайте расширение (например, назовите файл 'predictions')<br><br>
Значение accuracy вашей модели должно быть не меньше 0.62.<br><br>
Файлы: tweets_lemm_train , tweets_lemm_test.<Br><bR><br>
    Для предсказания ответов повторно вычислите величину TF-IDF для вектора с тестовой выборкой. Примените метод transform() к объекту TfidfVectorizer.

In [112]:
import pandas as pd 
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
import nltk
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from nltk.corpus import stopwords as nltk_stopwords

test = pd.read_csv('tweets_lemm_test.csv')
train = pd.read_csv('tweets_lemm_train.csv')

X_train = train.drop(['positive'], axis=1)
y_train = train['positive']

corpus = X_train['lemm_text'].values.astype('U')
nltk.download('stopwords')
stopwords = set(nltk_stopwords.words('russian'))
count_tfidf = TfidfVectorizer(stop_words=stopwords) 
tfidf = count_tfidf.fit_transform(corpus)



model = LogisticRegression()
model.fit(tfidf, y_train)
y_pred = model.predict(tfidf)
print('accuracy train:', accuracy_score(y_train, y_pred))


corpus_test = test['lemm_text'].values.astype('U')


tfidf_test = count_tfidf.transform(corpus_test)

y_pred_test = model.predict(tfidf_test)


test['positive'] = pd.DataFrame(y_pred_test)
test = test[['text', 'positive', 'lemm_text']]
test.to_csv('predictions.csv', index=False)


final = pd.read_csv('predictions.csv')

final

[nltk_data] Downloading package stopwords to /home/jovyan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


accuracy train: 0.8984


Unnamed: 0,text,positive,lemm_text
0,RT @tiredfennel: если криса так интересуют дет...,1,если крис так интересовать ребёнок то либо они...
1,@xsealord по 200 руб. в месяц можно разместить...,0,по рубль в месяц можно разместить ссылка на те...
2,"@haosANDlaw @Etishkindyx учитывая, что сейчас ...",0,учитывать что сейчас преобладать один половина...
3,Товарищ :) Но я никак не могу отдельно не о...,0,товарищ но я никак не мочь отдельно не отметит...
4,RT @BodyaNick: Квн был отличный !) Оооочень по...,1,квн быть отличный оооочень понравиться женский...
...,...,...,...
2995,"жуйк, ачивки в контре — зло! мой младший брат ...",0,жуйк ачивка в контра зло мой младший брат втян...
2996,Не хочу идти на танцы :( http://t.co/5OdPjbYXOC,0,не хотеть идти на танец
2997,"На улице пусто!ни людей,ни машин,наверно холод...",0,на улица пусто ни человек ни машина наверно хо...
2998,По-моему мы и ходили за водкой в три часа за э...,0,по мой мы и ходить за водка в три час за это ч...


[nltk_data] Downloading package stopwords to /home/jovyan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


accuracy train: 0.8984


Unnamed: 0,text,positive,lemm_text
0,RT @tiredfennel: если криса так интересуют дет...,1,если крис так интересовать ребёнок то либо они...
1,@xsealord по 200 руб. в месяц можно разместить...,0,по рубль в месяц можно разместить ссылка на те...
2,"@haosANDlaw @Etishkindyx учитывая, что сейчас ...",0,учитывать что сейчас преобладать один половина...
3,Товарищ :) Но я никак не могу отдельно не о...,0,товарищ но я никак не мочь отдельно не отметит...
4,RT @BodyaNick: Квн был отличный !) Оооочень по...,1,квн быть отличный оооочень понравиться женский...
...,...,...,...
2995,"жуйк, ачивки в контре — зло! мой младший брат ...",0,жуйк ачивка в контра зло мой младший брат втян...
2996,Не хочу идти на танцы :( http://t.co/5OdPjbYXOC,0,не хотеть идти на танец
2997,"На улице пусто!ни людей,ни машин,наверно холод...",0,на улица пусто ни человек ни машина наверно хо...
2998,По-моему мы и ходили за водкой в три часа за э...,0,по мой мы и ходить за водка в три час за это ч...
