# Лабораторная работа по анализу Twitter

Целью лабораторной работы является научиться применять методы обучения с учителем (supervised learning) для задачи анализа тональностей, а также освоить специализированный инструментарий для компьютерной лингвистики и машинного обучения.

- Загрузить с использованием csv файлов твиты.
- Провести предобработку корпуса (удаление стоп-слов, и т.д.)
- Используя выбранную модель репрезентации получить матричное представление.
- Используя изученные классификаторы получить численные оценки точности, полноты и F-меры.
- Объяснить полученные результаты.

In [None]:
import os
import numpy as np
import pandas as pd

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

from sklearn.model_selection import train_test_split

from sklearn import metrics
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC

import preprocessor as p
p.set_options(p.OPT.URL, p.OPT.MENTION, p.OPT.RESERVED, p.OPT.EMOJI,p.OPT.SMILEY,p.OPT.NUMBER,p.OPT.HASHTAG)

import warnings
warnings.simplefilter('ignore')

## Загрузка и первичный анализ данных

* Выгрузим все данные, объединим их в один датафрейм и посмотрим на них.

In [None]:
positive = pd.read_csv("positive.csv", ";", header=None)
negative = pd.read_csv("negative.csv", ";", header=None)
result = pd.concat([positive, negative])

In [None]:
result.columns = ['id', 'tdate', 'tname', 'ttext', 'polarity', 'trep', 'trtw', 'tfav', 'tstcount', 'tfol', 'tfriends', 'listcount']

In [None]:
result = result.sample(frac=1).reset_index(drop=True)
result.head()

Теперь разобьем наш набор данных случайным образом на train и test выборки с отношением 80/20

In [None]:
train_data, test_data = train_test_split(result, test_size=0.2, random_state=42)

Для дальнейшего анализа нам нужны только текст каждого твита и его категория, поэтому удаляем все остальные колонки

In [None]:
train_data = train_data.drop(['id', 'tdate', 'tname', 'trep', 'trtw', 'tfav', 'tstcount', 'tfol', 'tfriends', 'listcount'], axis = 1)
test_data = test_data.drop(['id', 'tdate', 'tname', 'trep', 'trtw', 'tfav', 'tstcount', 'tfol', 'tfriends', 'listcount'], axis = 1)

In [None]:
train_data.head()

In [None]:
test_data.head()

- Теперь, когда данные приведены к единому виду, необходимо выполнить предобработку текста: привести текст к нижнему регистру, очистить его от всего лишнего - спец символов, чисел, ссылок и зарезервированных слов.

## Предобработка текста

* Возьмем твит из тренировочной выборки и посмотрим на него.

In [None]:
train_data['ttext'][7]

* Текст необходимо очистить. Для этого воспользуемся библиотекой для предобработки твитов - https://github.com/s/preprocessor  
Ее особенность в том, что она позволяет удалять ссылки, хэштеги, упоминания и т.д. 
Код применения ниже:

In [None]:
p.clean(train_data['ttext'][7].lower())

* Теперь воспользуемся токенайзером, который очистит текст от оставшихся ненужных символов и соединим получившиеся токены в предложения

In [None]:
' '.join(CountVectorizer().build_tokenizer()(p.clean(train_data['ttext'][7].lower())))

* Теперь сделаем то же самое со всеми данными

In [None]:
train_data['ttext'] = train_data['ttext'].apply(lambda t: ' '.join(CountVectorizer().build_tokenizer()(p.clean(t.lower()))))
test_data['ttext'] = test_data['ttext'].apply(lambda t: ' '.join(CountVectorizer().build_tokenizer()(p.clean(t.lower()))))

Теперь удалим стоп-слова из наших данных

In [None]:
stop_words = set(stopwords.words("russian"))  # load stopwords
train_data['ttext'] = train_data['ttext'].apply(lambda x: ' '.join([word for word in x.split() if word not in (stop_words)]))
test_data['ttext'] = test_data['ttext'].apply(lambda x: ' '.join([word for word in x.split() if word not in (stop_words)]))

In [None]:
train_data.head()

In [None]:
test_data.head()

## TF-IDF представление твитов

* Далее, представим твиты в виде TF-IDF. Для этого, воспользуемся TfidfVectorizer'ом.
* Установим значения min_df = 5, чтобы отбросить слова, которые появляются реже 5 раз.

In [None]:
TF_IDF = TfidfVectorizer()
TF_IDF.fit(list(train_data['ttext']) + list(test_data['ttext']))
X_train = TF_IDF.transform(list(train_data['ttext']))
X_test = TF_IDF.transform(list(test_data['ttext']))

y_train = list(train_data['polarity'])
y_test = list(test_data['polarity'])

### *Логистическая регрессия *

In [17]:
model = LogisticRegression()
model.fit(X_train, y_train)

prediction = model.predict(X_test)

In [18]:
print(metrics.classification_report(prediction,y_test,target_names=['-1', '1']))

             precision    recall  f1-score   support

         -1       0.69      0.75      0.72     20672
          1       0.77      0.72      0.75     24695

avg / total       0.74      0.73      0.73     45367



### *Наивный Байесовский классификатор*

In [19]:
model = MultinomialNB()
model.fit(X_train, y_train)

prediction = model.predict(X_test)

In [None]:
print(metrics.classification_report(prediction,y_test,target_names=['-1', '1']))

             precision    recall  f1-score   support

         -1       0.74      0.71      0.73     23159
          1       0.71      0.74      0.73     22208

avg / total       0.73      0.73      0.73     45367



### *Метод опорных векторов*

In [None]:
model = SVC(kernel = 'linear', C=0.8)
model.fit(X_train, y_train)

prediction = model.predict(X_test)

* *linear*

In [None]:
print(metrics.classification_report(prediction,y_test,target_names=['-1', '1']))

In [None]:
model = SVC(kernel = 'rbf')
model.fit(X_train, y_train)

prediction = model.predict(X_test)

* *rbf*

In [None]:
print(metrics.classification_report(prediction,y_test,target_names=['-1', '1']))