

##Класификация на текст

Класификацията на текст е процес на присвояване на тагове или категории в текста според неговото съдържание. Това е една от основните задачи в обработката на естествени езици (NLP) с широки приложения като анализ на чувствата, определяне на теми, откриване на спам и откриване на намерения. Има много подходи за автоматична текстова класификация, които могат да бъдат групирани в три различни типа системи:

- Системи, основани на правила
- Системи, базирани на машинно обучение
- Хибридни системи

     
Подходите, __основани на правила__, класифицират текста в организирани групи, като използват набор от предварително изготвени езикови правила. Тези правила инструктират системата да използва семантично релевантни елементи от текста, за да идентифицира съответните категории въз основа на неговото съдържание. Всяко правило се състои от модел и прогнозна категория.

Системите, основани на правила, са разбираеми за хората и могат да бъдат подобрени с течение на времето. Но този подход има някои недостатъци. Като начало, тези системи изискват задълбочено познаване на темата на текста. Те също така отнемат много време, тъй като генерирането на правила е сложно може да бъде доста предизвикателно и обикновено изисква много анализи и тестове. Системите, основаващи се на правила са трудни за поддържане и не се оценяват добре, тъй като добавянето на нови правила може да повлияе на резултатите от съществуващите правила.

Текстовата __класификация с машинно обучение__ се учи да прави класификации не въз основа на правила, а въз основа на минали наблюдения. Чрез използване на предварително маркирани примери като обучителни данни, алгоритъмът за машинно обучение може да научи различните асоциации между думите в текста и очакваната категория за конкретен входящ текст.

Първата стъпка към обучението на класификатор с машинно обучение е извличането на характеристики: използва се метод числово представяне на текста под формата на вектор. Един от най-често използваните подходи е т. нар. торба с думи /bag of words/, където векторът представя честотата на дадена дума в предварително определен речник на думи.
След като е обучен с достатъчно обучителни мостри, моделът за машинно обучение може да започне да прави точни прогнози. Моделът се използва за трансформиране на невиждан текст в набори от функции, които могат да се въвеждат в класификационния модел, за да се получат прогнози за темата на текста. 
Текстовата класификация с машинно обучение обикновено е много по-точна от подходите базирани на предварително зададени правила, особено при сложни задачи за класификация. Също така, класификаторите с машинно обучение са по-лесни за поддръжка и винаги можете да маркирате нови примери, за да научите нови задачи.

__Хибридните системи__ комбинират основен класификатор, обучен с машинно обучение и система, основана на правила, която се използва за по-нататъшно подобряване на резултатите. Тези хибридни системи могат лесно да бъдат финно настроени чрез добавяне на специфични правила за проблемни теми, които не са правилно моделирани от базовия класификатор.

Текстовата класификация може да се използва в широк диапазон от задачи, като класифициране на кратки текстове (заглавия или кратки съобщения) или организиране на много по-големи документи (например отзиви на клиенти, статии в медиите или юридически договори). Някои от най-известните примери за текстова класификация включват анализ на чувствата или настроенията __/sentiment analysis/__, етикетиране на теми __/topic labeling/__, разпознаване на език __/language detection/__ и откриване на намерения __/intent detection/__.

Вероятно най-често срещаният пример за класификация на текста е __анализът на настроенията__: автоматизиран процес за определяне дали даден текст е положителен, отрицателен или неутрален. Компаниите използват класификатори на настроения за широк кръг от приложения, като например анализи на продукти, мониторинг на марката, поддръжка на клиенти, проучване на пазара, анализ на работната сила и много други.

##Анализ на настроенията

__Анализът на настроенията__, известен също като Opinion Mining, е поле в рамките на обработката на естествен език (NLP), който изгражда системи, които се опитват да идентифицират и извлекат мнения в текста. Обикновено, освен идентифициране на становището, тези системи извличат атрибути на израза например:

- Полярност: ако говорителят изразява положително или отрицателно мнение.
- Тема: предмета на обсъждане.
- Притежателя на мнение: идентификация на лицето, което изразява становището.

Анализът на настроенията е тема предмет на голям интерес и развитие, тъй като има много практически приложения. Тъй като публично и частно достъпна информация през интернет непрекъснато се увеличава, голям брой текстове, в които се изразяват мнения, са достъпни в сайтове за преглед, форуми, блогове и социални медии.

С помощта на системите за анализ на настроенията тази неструктурирана информация може автоматично да се трансформира в структурирани данни за общественото мнение, за продукти, услуги, търговски марки, политика или всяка тема, за която хората могат да изразят мнение. Тези данни могат да бъдат много полезни за търговски приложения като маркетингов анализ, връзки с обществеността, обратна връзка за продуктите и обслужване на клиенти.

##Видове анализ на настроенията

Съществуват много видове анализ на настроенията и инструментите на варират от системи, които се фокусират върху полярността (положителна, отрицателна, неутрална) към системи, които откриват чувства и емоции (ядосани, щастливи, тъжни и т.н.) или идентифицират намеренията (напр. заинтересован/незаинтересован). 

Анализ на настроенията в дълбочина

Понякога може да е необходимо по-точно определяне степента на полярност на мнението, така че вместо да говорите само за положителни, неутрални или отрицателни мнения, можете да се добавят и категории като силно положително или силно отрицателно.

Възможно е и идентифицирането дали позитивните или отрицателните настроения са свързани с определено чувство, като например гняв, тъга или притеснения (т.е. отрицателни чувства) или щастие, любов или ентусиазъм (т.е. положителни чувства).

Откриване на емоции

Откриването на емоции има за цел да открие емоции като щастие, чувство на неудовлетвореност, гняв, тъга и други подобни. Много системи за откриване на емоции прибягват до лексикони (т.е. списъци с думи и емоциите, които изразяват) или сложни алгоритми за машинно обучение.

Аспектно-базиран анализ на настроенията

Обикновено, когато анализирате настроенията в предмети, например продукти, може да се интересувате не само от това дали хората говорят с положителен, неутрален или отрицателен тон за продукта, но и кои конкретни аспекти или характеристики на продукта имат предвид. 

##Процес на анализ на настроенията

В __процеса на обучение__, моделът се научава да свързва определен вход (т.е. текст) със съответния изход (клас). Използват се извадка от предварително класифициран текст въз основа на която се обучава модел. От класифицирания текст се извеждат характеристики /feature extraction/ които служат за определяне на характерни черти на определения клас. На техническо ниво се създава числов вектор с думите срещани в обработвания документ, който модела може да обработи.

__Класификатора на текст__ трансформира текстът представяйки го числово, обикновено с вектор. Всеки компонент на вектора представлява честотата на дадена дума или израз в предварително дефиниран речник (например целия корпус на изследваните документи). Този процес е известен като извличане на характеристика или векторизиране на текст, най-често използвания подход е наречен bag of words /чанта с думи/.

В __процеса на прогнозиране__ екстракторът на характеристики се използва за трансформиране на нов текст във вектори на срещаните думи. Тези вектори се подават в модела /класификационен алгоритъм/, който генерира прогнозни класове (отново положителни, отрицателни или неутрални). Някой от __класификационените алгоритми__, които могат да се използват са:

- Наивeн Бeйс / Naïve Bayes/: семейство вероятностни алгоритми, които използват теоремата на Бейс, за да предскажат категорията на текста.

- Линейна регресия: много добре познат алгоритъм в статистиката, използван за прогнозиране на стойности от характеристики.

- Метод на опорните точки /Support Vector Machines/: не-вероятностен модел, който използва представяне на текстови примери като точки в многоизмерно пространство. Тези примери са картографирани така, че примерите на различните категории (чувства) принадлежат към отделни региони на това пространство. След това, новите текстове се картографират в същото пространство и се предсказват, че принадлежат към категория, въз основа на коя област попадат.

- Дълбоко обучение /Deep Learning/: разнообразен набор от алгоритми, които се опитват да имитират как работи човешкият мозък, използвайки изкуствени невронни мрежи за обработка на данни.    

Основни понятия при анализа на текст:

__regular expressions__ /регулярен израз/ - последователност от знаци, която дефинира шаблон за търсене. Обикновено този шаблон се използва от алгоритми за претърсване на низове за операции от типа „търсене“ или „търсене и заместване“ върху низове или за проверка на валидността на въведени данни.

__segmentation/tokenization__ /разделяне на текст/ - процес на разделяне на писмен текст на значими единици, като думи, изречения или теми.

__case folding__ - процесът на конвертиране на всички символи в документ в един и същи размер, или в главни или малки букви.

__lemmatization__ - процесът на групиране на различните форми на дадена дума, така че те да могат да бъдат анализирани като отделен елемент, идентифициран от корена на думата.

__stemmization__ - процесът на премахвана на приставки и наставки от думата. Крайния резултат може да не е дума със самостоятелно значение но все пак е полезна при анализа.

__Porter's algorithm__ - алгоритъмът на Портър е най-често използваният алгоритъм за премахвана на приставки и наставки от думата в английския език.
__corpus__ - голям и структуриран набор от текстове използва се за извършване на статистически анализи и тестване на хипотези, проверка на събития или утвърждаване на езикови правила.
__stop words__ - думи, които се филтрират преди или след обработка на текст. Обикновено се отнасят до най-често срещаните думи на даден език, които не носят значение.


#Предмет на курсовата работа

Предмет на настоящата курсова работа е анализ на настроенията с инструменти за анализ на текст. Като работна среда е използван езика Python. Основната библиотека използвана за обработка на текста е NLTK /Natural Language Toolkit/. Използвана е предварителна обработка на текста: сегментиране на отделните думи в текста, премахване на стоп думи, премахване на приставки и наставки с алгоритъма на Портър. Извличане на характеристики, чрез bag of words. Като класификационен алгритъм е използван Наивен Бейс. 

Данните предмет на анализа са извадка от филмови ревюта от сайта www.rottentomatoes.com. Данните са на английски. Съдържат извадка от 10 000 ревюта на филми. Половината от тях са положителни, а другата половина отрицателни. Данните са организирани в две колони "Freshness" съдържа оценката, а "Review" самото ревю.  За обозначаване на положителните ревюта е използвана категорията "fresh", а за отрицателните категорията "rotten". Няма липсващи стойности.

##Изпълнение

Започвам с импортиране на някой от необходимите библиотеки. Pandas за работа с данни в табличен вид. RE за работа с регулярни изрази.И части от NLTK  за специфични задачи word_tokenize, PorterStemmer, stopwords.

In [23]:
import pandas as pd
import re
import nltk
from nltk.tokenize import word_tokenize 
from nltk.stem.porter import PorterStemmer
from nltk.corpus import stopwords

In [24]:
md = pd.read_csv('rotten_tomatoes_reviews_sample.csv')
md.shape

(10000, 2)

In [5]:
md.head(10)

Unnamed: 0,Freshness,Review
0,rotten,The muddled mental states of the characters (...
1,fresh,The Big Wedding is an occasionally charming a...
2,fresh,While 'Captain Phillips' is certainly a thril...
3,rotten,A more mean-spirited and tongue-in-cheek B-mo...
4,fresh,It's easy to poke fun at some of the more far...
5,rotten,"This is a superficial film, a condensation of..."
6,rotten,About the only good call in The Girl on the T...
7,fresh,The Drop is the last film Gandolfini made bef...
8,fresh,"It's sweet and superficial, but the meanderin..."
9,fresh,"Technically, artistically and emotionally, th..."


В следващата клетка създавам функция за предварителна обработка на текста. Променливата stop_words съдържа всички стоп думи в английския език от библиотеката nltk.corpus, към тях добавям и пунктуационните знаци.
Функцията tokenize приема входящи данни и извършва поредица от действия обозначени с коментара в текста:
1. Премахва номера, пункуация и долна черта, замествайки ги с интервал. Командата е от библиотеката re.
2. Разделя текста на думи с nltk.tokenize.
3. Премахва стоп думите, чрез итерация.
4. Премахва приставките и наставките с алгоритъма на Портър от nltk.stem.porter, чрез итерация.
5. Обединява получения от предната стъпка списък /list/ в низ /sring/. Необходимо е защото следващата стъпка го изисква.

In [25]:
stop_words = set(stopwords.words('english')) 
stop_words.update(['.', ',', '"', "'", '?', '!', ':', ';', '(', ')', '[', ']', '{', '}']) 
stemmer = PorterStemmer()
def tokenize(text):
    text = re.sub(r'\W+|\d+|_', ' ', text)                       # 1
    tokens = nltk.word_tokenize(text)                            # 2
    tokens = [word for word in tokens if not word in stop_words] # 3
    tokens = [stemmer.stem(word) for word in tokens]             # 4
    tokens = " ".join(tokens)                                    # 5   
    return tokens


Добавям колона 't_Review', в която прилагам функцията tokenize върху всеки елемент от колоната 'Review'. Показвам отново размерана данните. Показвам сравнение между първото ревю преди и след прилагане на функцията.

In [26]:
md['t_Review'] = md['Review'].apply(tokenize)
print(md.shape)
print('\n before tokenize:\n',md.Review[0])
print('\n after tokenize:\n',md.t_Review[0])

(10000, 3)

 before tokenize:
  The muddled mental states of the characters (and that of the audience) are mirrored by the film's visual style, which oscillates between languorous dreamscapes and frenetic action sequences.

 after tokenize:
 the muddl mental state charact audienc mirror film visual style oscil languor dreamscap frenet action sequenc


Използвам CountVectorizer от sklearn.feature_extraction.text за да създам матрица която да предтави наличието на думите във всеко ревю. Резултата е матрица с размери 14 545 на 10 000, в която повечето стойности са 0. Запазвам я като датафрейм в променливата mv.

In [27]:
from sklearn.feature_extraction.text import CountVectorizer
countvec1 = CountVectorizer()
mv = pd.DataFrame(countvec1.fit_transform(md['t_Review']).toarray(), columns=countvec1.get_feature_names(), index=None)
mv['class'] = md['Freshness']
print(mv.shape)
mv.head()


(10000, 14545)


Unnamed: 0,aaliyah,aardman,aaron,aarp,ab,abair,abandon,abattoir,abbass,abbey,...,zwigoff,zzzzzzzzzzzzzz,élan,époqu,était,étude,évocateur,être,ótima,über
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Чрез train_test_split от sklearn.model_selection разделям датафрейм mv на две. Множество за обучение и за тест като данните за тестване са 20% от всички. Задавам random_state = 0 за да се възпроизвеждат еднакви резултати при всяко стартиране.

In [34]:
from sklearn.model_selection import train_test_split
mv_train, mv_test = train_test_split(mv, test_size=0.2, random_state = 0)
print(mv_train.shape)
print(mv_test.shape)

(8000, 14545)
(2000, 14545)


In [None]:
Създавам инстанция на MultinomialNB от sklearn.naive_bayes и прилагам модела върху данните.

In [35]:
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()
X_train= mv_train.drop(['class'], axis=1)

clf.fit(X_train, mv_train['class'])

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [None]:
Показаната стойност е средната точност при прогнозиране на данните.

In [36]:
X_test= mv_test.drop(['class'], axis=1)
clf.score(X_test,mv_test['class'])

0.7325

Извеждам и матрицата с грешни и правилно класифицирани наблюдение. По основния диагонал са правилно прогнозираните категории.

In [32]:
from sklearn.metrics import confusion_matrix
print(confusion_matrix(mv_test['class'], clf.predict(X_test)))

[[891 115]
 [126 868]]


In [None]:
И накрая извършвам реални прогнози въз основа на тестовото множество. 

In [33]:
pred_sentiment=clf.predict(mv_test.drop('class', axis=1))
print(pred_sentiment)

['rotten' 'fresh' 'fresh' ... 'fresh' 'fresh' 'rotten']


#Източници

##Литература:
1. https://www.ibm.com/support/knowledgecenter/en/SS3RA7_18.2.1/ta_guide_ddita/textmining/shared_entities/tm_intro_tm_defined.html
2. https://monkeylearn.com/
3. https://bg.wikipedia.org/wiki/%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B5%D0%BD_%D0%B8%D0%B7%D1%80%D0%B0%D0%B7
4. https://en.wikipedia.org/wiki/Text_segmentation#Word_segmentation
5. https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html
6. https://www.nltk.org/book/
7. Python Text Processing with NLTK 2.0 Cookbook, Jacob Perkins, Packt Publishing Ltd.

##Данни:
1. https://github.com/nicolas-gervais/6-607-Algorithms-for-Big-Data-Analysis/blob/master/rotten_tomatoes_reviews_sample.csv
2. Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. (2011). Learning Word Vectors for Sentiment Analysis. The 49th Annual Meeting of the Association for Computational Linguistics (ACL 2011).
3. https://www.rottentomatoes.com/

