# Projekt ZED - analiza tweetów

### Przemysław Rosowski, 110289

Celem tego projektu jest przeanalizowanie danych zgromadzonych z portalu Twitter oraz klasyfikacja tweetów do klas: pozytywna, negatywna, neutralna.


#### 1. Zaimportowane biblioteki

Do wykonania projektu zostały wykorzystane poniższe biblioteki.

In [96]:
import pandas as pd
import re
import numpy as np
import nltk
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.cross_validation import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn import svm
from sklearn.metrics import classification_report
from nltk.stem.porter import *
from nltk.corpus import stopwords


#### 1. Dane

Dane treningowe pobrane z pliku train.csv, a testowe w pliku test.csv. W celu sprawdzenia precyzji klasyfikatorów podzielono zbiór danych traningowych na dwa zbiory - jeden uczący i jeden treningowy.

Kod, który odpowiada za generowanie wyników z danych testowych umieszczonych w pliku test.csv jest zawarty w pliku ZED-submission.ipynb.

Jedynym właściwie większym problemem na tym poziomie jest pojawienie się Tweetów z zawartością: "Not available". Niestety są one przyporządkowane do różnych klas. Postowiono zostawić takie Tweety.


In [73]:
data = pd.read_csv("train.csv", sep=",")
train, test = train_test_split(data, test_size=0.3, random_state=32)
train.head()

Unnamed: 0,Id,Category,Tweet
3802,641435745627033600,positive,What's weird is Serena and Venus are a train r...
2440,641489626184728580,positive,Been rewatching 3rd Rock from the Sun on Netfl...
1002,637305548279533568,positive,@Bielsa_1899 @DiMarzio i think it's impossible...
3028,638760832822734848,negative,Prolifers held a large rally in Petoskey on Sa...
4657,640774685743955968,neutral,@totallymorgan you mean no Teen Wolf tomorrow?...


#### 2. Przetworzenie tekstu.

Jedną z ważniejszych rzeczy jest przetworzenie tekstu. Zdefiniowano listę emotikon, które wykorzystane zostaną do ich zamiany na odpowiednie słowa. Do usuwania zbędnych słow została wykorzystana biblioteka nltk.

In [97]:
stopwords = set(stopwords.words('english'))
happy = set([
    u':-)', u':)', u';)', u':o)', u':]', u':3', u':c)', u':>', u'=]', u'8)', u'=)', u':}',
    u':^)', u':-D', u':D', u'8-D', u'8D', u'x-D', u'xD', u'X-D', u'XD', u'=-D', u'=D',
    u'=-3', u'=3', u':-))', u":'-)", u":')", u':*', u':^*', u'>:P', u':-P', u':P', u'X-P',
    u'x-p', u'xp', u'XP', u':-p', u':p', u'=p', u':-b', u':b', u'>:)', u'>;)', u'>:-)',
    u'<3', u'8-)'
    ])

sad = set([
    u':L', u':-/', u'>:/', u':S', u'>:[', u':@', u':-(', u':[', u':-||', u'=L', u':<',
    u':-[', u':-<', u'=\\', u'=/', u'>:(', u':(', u'>.<', u":'-(", u":'(", u':\\', u':-c',
    u':c', u':{', u'>:\\', u';('
    ])

Poniżej zdefiniowana jest funkcja tokenize odpowiedzialna za wstępną obróbkę tekstu. W pierwszej fazie rozdzialamy 
pojedynczego tweeta na słowa. Następnie w pętli wyszukiwane są zbędne słowa. 

Następnie dla każdego słowa:
    wyszukiwane są emotikony i w zależności czy jest ona negatywna czy pozytywna zastępowane są odpowiednimi słowami,
    wyszukiwane są zawarte w tewwtach linki i usuwane,
    zawarte w tweecie odwołania do innych użytkowników są usuwane,
    usuwane są słowa zawierające liczby.
    
Potem wykonywany jest proces stemmingu, ucinane są końcówki słow. W ten sposób zminiejszamy liczbę słów w wynikowym słowniku. 
Po całej operacji pojedyncze słowa są łączone do postaci pojedynczego tweeta.

In [98]:
def tokenize( raw_tweet ):
    words = raw_tweet.lower().split()   
    words = [w for w in words if not w in stopwords]
    for one_sentence in words:    
        if one_sentence in sad:
            words[words.index(one_sentence)] = 'bad fuck sad'
        elif one_sentence in happy:
            words[words.index(one_sentence)] = 'happi great happy'
        elif re.match(r'^https?:\/\/.*[\r\n]*',one_sentence):
            words[words.index(one_sentence)] = re.sub(r'^https?:\/\/.*[\r\n]*', '', one_sentence, flags=re.MULTILINE)
        elif re.match(r'(?:@[\w_]+)',one_sentence):
            words[words.index(one_sentence)] = re.sub(r'(?:@[\w_]+)', '', one_sentence)
        elif re.match(r'\d+', one_sentence):
            words[words.index(one_sentence)]  = ''
        else:
            words[words.index(one_sentence)] = re.sub(r'[^\w\s]','',one_sentence)
        
    stemmer = PorterStemmer()
    words = [stemmer.stem(word) for word in words]

    return( " ".join( words ))

#### 3. Reprezentacja danych

Ostanim krokiem przed klasyfikacją tweetów jest ich transformacja do postaci numerycznej.
Wykorzystane zostało podejście Bag of Words, który "uczy się" słow z ze wszystkich tweetów, 
a następnie modeluje każdego tweeta poprzez zliczanie powtórzeń słów.

Jednym ze sposobów zaimplementowania Bag of Words jest wykorzystanie bibliotek scikit-learn.
Zaincjowano obiekt "CountVectorizer" zdodatkowymi parametrami wyłączającymi pewne funkcjonalności ( preprocessing, 
tokenizowanie i usuwanie zędnych słów zostało wykonane wcześniej). Odrzucono słowa występujące w mniej niż 10 tweetach oraz
słowa, które występują w ponad 80% dokumentów.


Funkcja fit_transform najpierw słownik a później wytwarza wektory w postaci słowo-waga.
Następnie transform najpierw transformuje dane do odpowiadającej postaci.



In [99]:
clean_train_tweets = []

for index, data in train.iterrows():
    clean_train_tweets.append(tokenize(data['Tweet']))
    
vectorizer = CountVectorizer(analyzer = "word",   \
                             tokenizer = None,    \
                             preprocessor = None, \
                             stop_words = None,   \
                             max_features = 5000,min_df = 10,max_df = 0.80) 
    
 
train_features = vectorizer.fit_transform(clean_train_tweets)
train_features = train_features.toarray()

clean_test_tweets = [] 

for index, data in test.iterrows():
    clean_test_tweets.append(tokenize(data['Tweet']))


test_features = vectorizer.transform(clean_test_tweets)
test_features = test_features.toarray()

#### 4. Klasyfikacja

Do procesu klasyfikacji zostały użyte 3 klasyfikatory : Regresja Logistyczna, Linear Support Vector Classification oraz Random Tree Classifier.

In [100]:
log_classifier = LogisticRegression(penalty='l1')
log_classifier.fit(train_features, train["Category"])
predictionLog = log_classifier.predict(test_features)

LSVC_classifier = svm.LinearSVC()
LSVC_classifier.fit(train_features, train["Category"])
predictionLSVC = LSVC_classifier.predict(test_features)

forest = RandomForestClassifier(n_estimators = 100) 
forest = forest.fit( train_features, train["Category"] )
forest = forest.predict(test_features)


print("Wynik klasyfikacji metodą LogisticRegression")
print(classification_report(test['Category'], predictionLog))

print("Wynik klasyfikacji metodą SVC()")
print(classification_report(test['Category'], predictionLSVC))

print("Wynik klasyfikacji metodą RandomTreeForest")
print(classification_report(test['Category'], forest))


Wynik klasyfikacji metodą LogisticRegression
             precision    recall  f1-score   support

   negative       0.41      0.27      0.33       277
    neutral       0.45      0.37      0.41       641
   positive       0.62      0.77      0.69       873

avg / total       0.53      0.55      0.53      1791

Wynik klasyfikacji metodą SVC()
             precision    recall  f1-score   support

   negative       0.39      0.36      0.37       277
    neutral       0.46      0.38      0.42       641
   positive       0.63      0.73      0.68       873

avg / total       0.53      0.55      0.54      1791

Wynik klasyfikacji metodą RandomTreeForest
             precision    recall  f1-score   support

   negative       0.43      0.20      0.28       277
    neutral       0.47      0.42      0.44       641
   positive       0.63      0.78      0.69       873

avg / total       0.54      0.56      0.54      1791



Do ostatecznego wyznaczania kategorii tweetów został wybrany klasyfikator Randon Forest. 

Tweety ze względu na swój charakter są trudne do analizowania. Zastosowano najpopularniejsze metody przetwarzania tekstu. Przyniosły one umiarkowanie dobre rezultaty. Część tweetów zawierała wartości "Not Available", język tych tweetów nie był oficjalny ( sporo uproszczeń, skrótów ). To spowodowało, że trafność klasyfikacji nie jest do końca zadowalająca.

Kod generujący submission.csv zawarty jest a pliku ZED_submission.jpynb