# Анализ тональности русскоязычных комментариев Stepik

## NLP

Обработка естественного языка (Natural Language Processing, NLP) - направление ИИ и мат. лингвистики для анализа и синтеза естественного языка.

Применяется для:
1. Информационный поиск 
1. Извлечение информации
1. Генерация текста (Чатботы, переводчики)
1. Распознования речи
1. Синтез речи

## Какую информацию можно извлечь из текста?

В общем смысле текст - это семантика и синтаксис.

Синтаксис - то из чего состоит текст:
1. Слова
1. Написание
1. Части речи
1. Предложения

Семантика - смысл в этом тексте:
1. Смысл слов
1. Распознование именнованых сущностей (NER) 
1. Извлечение связей
1. Определение темы текста
1. Анализ тональности 
1. И многое другое

Извлечение - это разделение и классификация всего текста или его частей.




## Анализ тональности

Анализ тональности (Sentiment analysis, Opinion mining) - это область NLP, которая занимается изучением мнений и эмоций.

Где применяется:
1. Маркетинг
2. Социологические исследования
3. Политика

Как это работает


![Image alt](images/sent_analyze1.jpg)

# Словарь слов

In [5]:
text_pos = "Котики — это не только мягкий мех, но и три — четыре килограмма фантастического позитива ^_^ :))))"
text_neg = "Это был ужасный фильм"

dictionary_pos = {  
    
    'Котики' : 0.5,
    'позитива' : 0.9,
    'мягкий' : 0.3
    
}

dictionary_neg = {  
    
    'ужасный' : -1.0,   
    
}


In [6]:
text_pos.split(' ')

['Котики',
 '—',
 'это',
 'не',
 'только',
 'мягкий',
 'мех,',
 'но',
 'и',
 'три',
 '—',
 'четыре',
 'килограмма',
 'фантастического',
 'позитива',
 '^_^',
 ':))))']

In [9]:
score = 0

for word in text_pos.split(' '):
    score += dictionary_neg.get(word, 0)
    score += dictionary_pos.get(word, 0)

if score > 0:
    print('pos')

pos


## NLTK

NLTK (Natural Language Toolkit) - пакет библиотек для обработки естественного языка, например для токенизации, стематизации, распозновании именованых сущностей и многого другого.

## Токенизация

In [12]:
from nltk.tokenize import TweetTokenizer

tokenizer = TweetTokenizer()

tokenizer.tokenize(text_pos)


['Котики',
 '—',
 'это',
 'не',
 'только',
 'мягкий',
 'мех',
 ',',
 'но',
 'и',
 'три',
 '—',
 'четыре',
 'килограмма',
 'фантастического',
 'позитива',
 '^',
 '_',
 '^',
 ':)',
 ')',
 ')']

## Стемматизация

In [33]:
from nltk.stem.snowball import RussianStemmer

stemer = RussianStemmer()

for token in tokenizer.tokenize(text_pos):
    print(stemer.stem(token))

котик
—
эт
не
тольк
мягк
мех
,
но
и
три
—
четыр
килограмм
фантастическ
позитив
^
_
^
:)
)
)


## Dataset

In [27]:
import pandas as pd

POSITIVE_COMMENTS_CSV = 'datasets/comment_neg.csv'
NEGATIVE_COMMENTS_CSV = 'datasets/comment_pos.csv'

negative_comments = pd.read_csv(
    POSITIVE_COMMENTS_CSV, dialect='excel-tab')['text']
positive_comments = pd.read_csv(
    NEGATIVE_COMMENTS_CSV, dialect='excel-tab')['text']

In [34]:
positive_comments[11]

'<p>АНДРЮХА РЕСПЕКТ !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

## Препроцессинг

In [40]:
import re
import nltk
nltk.download("stopwords")

from string import punctuation
from nltk.corpus import stopwords

russian_stopwords = stopwords.words("russian")

def preprocess_text(text):
    text = re.sub(r'@[a-zA-Zа-яА-Я]*[_[a-zA-Zа-яА-Я]*]*', '', text)    
    text = re.sub(r'[^а-яА-Я ]', '', text)
    text = re.sub(r'http\S+', '', text)
    text = re.sub(r'http', '', text)
    text = re.sub(r'@\S+', '', text)
    text = re.sub(r'(<(/?[^>]+)>)', '', text)
    text = re.sub(r'[-.?!)(,:]', '', text)
    
    tokens = tokenizer.tokenize(text.lower())
    tokens = [token for token in tokens if token not in russian_stopwords\
              and token != " " \
              and token.strip() not in punctuation]
    
    text = " ".join(tokens)
    
    return text

preprocess_text(positive_comments[11])

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Roman_Kalganov\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


'андрюха респект'

In [50]:
for index, row in positive_comments.items():
    positive_comments[index] = preprocess_text(row)
    
for index, row in negative_comments.items():
    negative_comments[index] = preprocess_text(row)

In [51]:
positive_comments

0        кстати благодаря этому начала активную экодеят...
1        приглашаем официальные лица готовим ролики заг...
2        запрос углубленное изучение технологий комьюни...
3        почемуто сразу ночлежка вспоминается любой про...
4        протяжении истории численность населения регул...
5        плюс сила положительного примера люди воспольз...
6        рр предназначен горячей воды числе пищевых про...
7        рекомендую алика главное отличие конкурентов б...
8        верифицируемостьто лгкая крайней мере абсолютн...
9        просто экологичны заставляют людей полюбить пр...
10       наверное стать экспертами создать имидж экспер...
11                                         андрюха респект
12       спасибо команде курса выкладку обобщенного ана...
13       организации взгляд команду несколько отличаетс...
14            пожалуйста лично рад помочь нуждается помощи
15       бизнеса получается привлекать небольшие суммы ...
16       очень интересно читать творческие задания итог.

## Формируем словарь

In [56]:
from collections import Counter
stem_count = Counter()

def count_unique_tokens_in_comments(comments):
    for _, row in comments.items():                
        for token in  tokenizer.tokenize(row):            
            stem_count[stemer.stem(token)] += 1


count_unique_tokens_in_comments(positive_comments)
count_unique_tokens_in_comments(negative_comments)



In [59]:
len(stem_count)


27509

In [60]:
VOCAB_SIZE = 5000

vocab = sorted(stem_count, key=stem_count.get, reverse=True)[:VOCAB_SIZE]

In [78]:
vocab[:100]

['эт',
 'котор',
 'курс',
 'задач',
 'нужн',
 'так',
 'прост',
 'решен',
 'ответ',
 'дан',
 'задан',
 'числ',
 'сам',
 'строк',
 'очен',
 'одн',
 'функц',
 'перв',
 'значен',
 'код',
 'работа',
 'друг',
 'получ',
 'вопрос',
 'сво',
 'пример',
 'тест',
 'поня',
 'перемен',
 'реш',
 'правильн',
 'услов',
 'сдела',
 'случа',
 'спасиб',
 'дела',
 'программ',
 'кажд',
 'ваш',
 'должн',
 'метод',
 'поч',
 'ошибк',
 'наш',
 'вывод',
 'написа',
 'комментар',
 'класс',
 'говор',
 'работ',
 'вариант',
 'возможн',
 'вс',
 'элемент',
 'те',
 'цикл',
 'тип',
 'например',
 'слов',
 'получа',
 'файл',
 'виде',
 'люд',
 'вообщ',
 'помощ',
 'использова',
 'част',
 'имен',
 'дел',
 'хот',
 'объект',
 'результат',
 'урок',
 'понима',
 'понятн',
 'проект',
 'нов',
 'след',
 'количеств',
 'люб',
 'вид',
 'втор',
 'язык',
 'как',
 'интересн',
 'чита',
 'врем',
 'цел',
 'реша',
 'ссылк',
 'больш',
 'равн',
 'поэт',
 'сложн',
 'команд',
 'счита',
 'явля',
 'дума',
 'начина',
 'сраз']

## Векторизуем

In [64]:
positive_comments[0]

'кстати благодаря этому начала активную экодеятельность году побывала риме жила местного сервис молодого человека раздельный сбор квартире приезду стала узнавать возможности спб'

In [71]:
def comment_to_feachures(comment):
    vector = []
    for token in tokenizer.tokenize(comment):
        stem = stemer.stem(token)        
        if stem:
            vector.append(stem)        
    return dict([(w, True) for w in vector])

comment_to_feachures(positive_comments[11])



{'андрюх': True, 'респект': True}

In [94]:
comments = []

neg_comments = []
pos_comments = []

for ii, (_, comment) in enumerate(negative_comments.items()):
    comments.append(comment)
    neg_comments.append((comment_to_feachures(comment), 'neg'))
for ii, (_, comment) in enumerate(positive_comments.items()):
    comments.append(comment)
    pos_comments.append((comment_to_feachures(comment), 'pos'))

Unknown token: ь
Unknown token: ь


## Тренируем классификатор

In [95]:
negcutoff = len(neg_comments) * 3 / 4
poscutoff = len(pos_comments) * 3 / 4

trainfeats = neg_comments[:int(negcutoff)] + pos_comments[:int(poscutoff)]
testfeats = neg_comments[int(negcutoff):] + pos_comments[int(poscutoff):]

print('train on %d instances, test on %d instances' % (len(trainfeats), len(testfeats)))

train on 15813 instances, test on 5272 instances


In [96]:
comments_classifier = NaiveBayesClassifier.train(trainfeats)

In [97]:
print('accuracy:', nltk.classify.util.accuracy(comments_classifier, testfeats))
comments_classifier.show_most_informative_features()

accuracy: 0.8710166919575114
Most Informative Features
            медиаграмотн = True              neg : pos    =     98.5 : 1.0
                  послан = True              neg : pos    =     76.6 : 1.0
             журналистик = True              neg : pos    =     76.6 : 1.0
                   вернм = True              neg : pos    =     76.6 : 1.0
                    нест = True              neg : pos    =     62.7 : 1.0
                     тих = True              neg : pos    =     47.9 : 1.0
                    фигн = True              neg : pos    =     38.6 : 1.0
                   мужик = True              neg : pos    =     33.5 : 1.0
                  диалог = True              neg : pos    =     30.0 : 1.0
                     мим = True              neg : pos    =     28.8 : 1.0


## SVM

In [102]:
from nltk.classify import SklearnClassifier
from sklearn.svm import SVC

svm_classifier = SklearnClassifier(SVC()).train(trainfeats)


print('accuracy:', nltk.classify.util.accuracy(svm_classifier, testfeats))

accuracy: 0.8810698027314112


## Классификатор на другом датасете

In [98]:
import pickle

saved_model = open('models/tweet_model.pickle', 'rb')

loaded_classifier = pickle.load(saved_model)

saved_model.close()

In [101]:
print('accuracy:', nltk.classify.util.accuracy(loaded_classifier, testfeats))
loaded_classifier.show_most_informative_features()

accuracy: 0.7092185128983308
Most Informative Features
                 царевич = True              pos : neg    =     78.9 : 1.0
                 шумахер = True              neg : pos    =     35.2 : 1.0
                калашник = True              neg : pos    =     28.4 : 1.0
                  погибл = True              neg : pos    =     28.4 : 1.0
                 позитив = True              pos : neg    =     26.8 : 1.0
            соболезнован = True              neg : pos    =     26.1 : 1.0
                  сконча = True              neg : pos    =     22.2 : 1.0
                  сметан = True              pos : neg    =     21.1 : 1.0
                 почемуу = True              neg : pos    =     19.5 : 1.0
                 пичальк = True              neg : pos    =     19.5 : 1.0
