# Angry Tweets

Celem zadania było odkrycie nastroju jaki panuje w małym poscie, zwanym 'tweetem'. Może on należeć do jednej z trzech klas: pozytywnej, neutralnej bądź negatywnej. W celu wykonania tego zadania posłużono się językiem Python oraz pakietem scikit-learn. 

Dane treningowe znajdują się w 'train.csv', który zawiera 5970 wierszy i trzy kolumny: 'Id', 'Category' oraz 'Tweet'. Plik z danymi testowymi posiada 4000 wierszy.


## Pobranie danych i ich przetwarzanie.

Pierwszy krok to wczytanie niezbędnych bibliotek

In [1]:
import pandas as pd
import numpy as np
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn import svm
from sklearn import tree
from sklearn.naive_bayes import BernoulliNB
from sklearn.metrics import classification_report

Dane są pobierane z pliku csv do zmiennej 'tweetSet'. W tym celu wykorzystywana jest funkcja read_csv z pakietu pandas. Przy pomocy np.rand, dane są dzielone na zbiór treningowy i testowy w odpowiednim stosunku 70/30. 

In [9]:
def splitData(dataSet, prop):
    r = np.random.rand(len(dataSet)) < prop
    return dataSet[r], dataSet[~r]     

tweetsSet= pd.read_csv("train.csv",sep=',', header = 1, names=['Id','Category','Tweet'])
tweetTrain, tweetTest = splitData(tweetsSet, 0.7)


W pętlach w funkcji prepareAndCleanData() usuwane są z tweeta słowa zaczynające się na @, ponieważ są one wskaźnikiem na innego użytkownika serwisu oraz wszystkie linki do innych stron. Dodatkowo zostały usunięte wszystkie emotiknony. Te wyrażenia nie oddają nam klasy postu. Na samym koncu pętli do zmiennych *data* oraz *label* dodajemy odpowiednio zmodyfikowaną zawartość tweeta oraz jego klasę.

In [10]:
def prepareAndCleanData(tweets):
    data = []
    label = []
    for index, tweet in tweets.iterrows():
        tweet['Tweet'] = re.sub(r'@\w+', '', tweet['Tweet'])
        tweet['Tweet'] = re.sub(r'(https|http)?:\/\/(\w|\.|\/|\?|\=|\&|\%)*\b', '', tweet['Tweet'])
        tweet['Tweet'] = re.sub("(:-?\))|(:p)|(:d+)|(:-?\()|(:/)|(;-?\))|(<3)|(=\))|(\)-?:)|(:'\()|(8\))", '', tweet['Tweet'])
        data.append(tweet['Tweet'])
        label.append(tweet['Category'])
    return data, label

tweetTrainData, tweetTrainLabel = prepareAndCleanData(tweetTrain)
tweetTestData, tweetTestLabel = prepareAndCleanData(tweetTest)

Przed klasyfikacja, treść tweetów została przekonwertowana do macierzy TF-IDF. W tym celu użyto funkcji TfidfVectorizer z pakietu **scikit-learn**. Przy pomocy poniższych parametrów została ona dostrojona:
- **min_df** - słowa występujące mniej niż 5 razy są odrzucone,
- **max_df** - termy ukazuące się w ponad 75% dokumnetów nie są brane pod uwagę,
- **sublinear_tf** - domyślnie wartość False, skaluje ona wartość *tf* na *1+log(tf)*
- **stop_words** - lista słów, która nie jest usuwana.

Następnie tworzona jest macierz słowo-dokument. Na samym końcu jest ona zamienia do interesującej nas postaci macierzy dokument-term.

In [11]:
def buildDocumentTermMatrix(trainData, testData):
    stopWords = ["a","able","about","across","after","all","almost","also","am","among","an","and","any","are","as","at","be","because","been","but","by","can","cannot","could","dear","did","do","does","either","else","ever","every","for","from","get","got","had","has","have","he","her","hers","him","his","how","however","i","if","in","into","is","it","its","just","least","let","like","likely","may","me","might","most","must","my","neither","no","nor","not","of","off","often","on","only","or","other","our","own","rather","said","say","says","she","should","since","so","some","than","that","the","their","them","then","there","these","they","this","tis","to","too","twas","us","wants","was","we","were","what","when","where","which","while","who","whom","why","will","with","would","yet","you","your","ain't","aren't","can't","could've","couldn't","didn't","doesn't","don't","hasn't","he'd","he'll","he's","how'd","how'll","how's","i'd","i'll","i'm","i've","isn't","it's","might've","mightn't","must've","mustn't","shan't","she'd","she'll","she's","should've","shouldn't","that'll","that's","there's","they'd","they'll","they're","they've","wasn't","we'd","we'll","we're","weren't","what'd","what's","when'd","when'll","when's","where'd","where'll","where's","who'd","who'll","who's","why'd","why'll","why's","won't","would've","wouldn't","you'd","you'll","you're","you've"]
    vector = TfidfVectorizer(min_df=5, max_df = 0.75, sublinear_tf=True, stop_words = stopWords)
    trainV = vector.fit_transform(trainData)
    testV = vector.transform(testData)
    return trainV, testV

trainVectors, testVectors = buildDocumentTermMatrix(tweetTrainData, tweetTestData)

## Budowa klasyfikatora.

Biblioteka scikit-learn udostępnia wiele algorytmów do budowania klasyfikatorów. 
Kod poniżej przedstawia użycie niektórych z nich.

In [12]:
rfc = RandomForestClassifier()
classifierRfc = rfc.fit(trainVectors, tweetTrainLabel)
predictionRfc = rfc.predict(testVectors)

print("Wyniki dla RandomForest")
print(classification_report(tweetTestLabel, predictionRfc))

svc = svm.SVC()
classifierSvc = svc.fit(trainVectors, tweetTrainLabel)
predictionSvc = classifierSvc.predict(testVectors)

print("Wyniki dla SVC")
print(classification_report(tweetTestLabel, predictionSvc))

svcLinear = svm.SVC(kernel='linear')
classifierSvcLinear = svcLinear.fit(trainVectors, tweetTrainLabel)
predictionSvcLinear = classifierSvcLinear.predict(testVectors)

print("Wynik dla LinearSVC()")
print(classification_report(tweetTestLabel, predictionSvcLinear))

gnb = BernoulliNB()
classifierGnb = gnb.fit(trainVectors, tweetTrainLabel)
predictionGnb = classifierGnb.predict(testVectors)

print("Wyniki dla BernoulliNB")
print(classification_report(tweetTestLabel, predictionGnb))

Wyniki dla RandomForest
             precision    recall  f1-score   support

   negative       0.45      0.25      0.32       296
    neutral       0.47      0.42      0.45       611
   positive       0.61      0.75      0.68       837

avg / total       0.54      0.55      0.54      1744

Wyniki dla SVC
             precision    recall  f1-score   support

   negative       0.00      0.00      0.00       296
    neutral       0.00      0.00      0.00       611
   positive       0.48      1.00      0.65       837

avg / total       0.23      0.48      0.31      1744

Wynik dla LinearSVC()
             precision    recall  f1-score   support

   negative       0.52      0.21      0.30       296
    neutral       0.48      0.45      0.46       611
   positive       0.63      0.79      0.70       837

avg / total       0.56      0.57      0.55      1744

Wyniki dla BernoulliNB
             precision    recall  f1-score   support

   negative       0.45      0.30      0.36       296
    n

Najlepszy wyniki osiągnął algorytm naiwnego Bayesa (BernoulliNB) i to on został wykorzystany do zbudowania ostatecznego klasyfikatora.

## Podsumowanie

Na sam koniec jako dane treningowe wczytano cały zbiór danych z pliku 'train.csv'. Został on przetworzony w taki sam sposób jak w powyższych krokach. Później używając algorytmu naiwnego Bayesa zbudowano model i dokonano predykcji atrybutu 'Category' dla danyh testowych pochodzących z pliku 'test.csv'. Rezultat został zapisany do pliku 'wynik.csv'. 

In [13]:
def prepareAndCleanTestData(tweets):
    data = []
    idArray = []
    for index, tweet in tweets.iterrows():
        tweet['Tweet'] = re.sub(r'@\w+', '', tweet['Tweet'])
        tweet['Tweet'] = re.sub(r'(https|http)?:\/\/(\w|\.|\/|\?|\=|\&|\%)*\b', '', tweet['Tweet'])
        tweet['Tweet'] = re.sub("(:-?\))|(:p)|(:d+)|(:-?\()|(:/)|(;-?\))|(<3)|(=\))|(\)-?:)|(:'\()|(8\))", '', tweet['Tweet'])
        data.append(tweet['Tweet'])
        idArray.append(tweet['Id'])
    return data, idArray

tweetTrain = pd.read_csv("train.csv",sep=',', header = 1, names=['Id','Category','Tweet'])
tweetTest = pd.read_csv("test.csv",sep=',', header = 0, names=['Id','Tweet'])

tweetTrainData, tweetTrainLabel = prepareAndCleanData(tweetTrain) 
tweetTestData, tweetTestId = prepareAndCleanTestData(tweetTest)

trainVectors, testVectors = buildDocumentTermMatrix(tweetTrainData, tweetTestData)

gnb = BernoulliNB()
classifierGnb = gnb.fit(trainVectors, tweetTrainLabel)
predictionGnb = classifierGnb.predict(testVectors)

data_temp = {'Id' : tweetTestId, 'Category' : predictionGnb }
output = pd.DataFrame(data=data_temp)
output.to_csv('wynik.csv',sep=',', index=False, columns=['Id','Category'])