In [1]:
# Imports
import matplotlib
matplotlib.use('agg')
import matplotlib.pyplot as plt

from a_prep_data import prep_data
from b_tokstemlemm_data import token_stem_lemm
from c_analysis import analysis
from d_bow import bow
from e_tfidf import tfidf
from f_emb import emb
from g_extrafeatures import extrafeat
from h_merge_embextra import merge_embextra
from i_svm_class import svm
from j_knn_class import knn
from k_rr_class import rr
from k_rr_probs_class import rr_probs
from l_results import results

import warnings
warnings.filterwarnings("ignore")

from aux import *

In [2]:
# Perform auxiliary actions
## Create the files' output directory if it doesn't exist
## Create a file with the classification (numeric representation {-1: negative, 0: neutral, 1: positive}) 
## of the training data
## Create files with the indices of the training data per class
## Create a file with the correct classification (numeric representation {-1: negative, 0: neutral, 1: positive}) 
## of the training data
## Create a file with the hashtags only, removing the duplicates per tweet
aux()


# A: Pre-processing of the training & testing data
## lowercase
## rm unicode characters
## rm mentions, hashtags, links
## rm emoticons
## rm numbers, punctuation, symbols
## rm stop-words,
## extra stop-words: days (also their short forms), months (also their short forms), rt
## rm multiple consecutive spaces, stripping
prep_data()


# B: Tokenization, stemming and lemmatization of the training & testing data
## nltk Porter stemmer
## nltk WordNetLemmatizer
token_stem_lemm()


# D: Bag-of-words
## sklearn CountVectorizer
## Parameters: max_features=50, max_df=0.5, min_df=1
bow()


# E: TF-IDF
## sklearn TfidfVectorizer
## Parameters: max_features=50, max_df=0.5, min_df=1
tfidf()   


# F: Word embedding
## gensim Word2Vec
## Parameters: size=50 (200-300 made the process very slow), window=10, min_count=2, sg=0 & 1, epochs=10
## The random mean vectors for tweets with no words belonging to the vocabulary
## were generated with sampling the vocabulary 100 times with replacement
## * 'GoogleNews-vectors-negative300.bin' and 'freebase-vectors-skipgram1000-en.bin' 
##    resulted in memory error so they were not used
emb(w2v_sg=0)
emb(w2v_sg=1)


# G: Extra features
## Features: mean / min. / max. valence per tweet per dictionary, length of the tweet, 
## no. words / emoticons / exclamation marks / mentions / hashtags / URLs / vowels of the tweet,
## count of hashtags among the top 20 per class
## Dictionaries: affin, generic
## (the rest of the dictionaries took much time to load and the process was slow so they were omitted)
## The random vectors for tweets with no words belonging to the dictionary
## were generated with sampling the vocabulary 100 times with replacement
extrafeat()


# H: Merge the word embedding results with the extra features
merge_embextra()


# C: Analysis of the training data
## Pie-chart: classes
## Wordcloud (per class, total): all words (pre-processed data), top 20 hashtags
## Histogram (per class, total, combined): per extra feature
## No. tweets (per class, total): top 15 hashtags
analysis()

<!-- C: Analysis images -->

## Pie-chart
<table>
    <tr><td><img style="float: left;" src="gendata/img/pie_class.png" /></td></tr>
</table>

## Wordclouds: words
<table>
    <tr><td><img style="float: left;" src="gendata/img/wordcloud_lemm_total.png" /></td>
        <td><img style="float: left;" src="gendata/img/wordcloud_lemm_pos.png" /></td></tr>
    <tr><td><img style="float: left;" src="gendata/img/wordcloud_lemm_neu.png" /></td>
        <td><img style="float: left;" src="gendata/img/wordcloud_lemm_neg.png" /></td></tr>
</table>

<table>
    <tr><td><img style="float: left;" src="gendata/img/wordcloud_stemm_total.png" /></td>
        <td><img style="float: left;" src="gendata/img/wordcloud_stemm_pos.png" /></td></tr>
    <tr><td><img style="float: left;" src="gendata/img/wordcloud_stemm_neu.png" /></td>
        <td><img style="float: left;" src="gendata/img/wordcloud_stemm_neg.png" /></td></tr>
</table>

## Wordclouds: hashtags 
<table>
    <tr><td><img style="float: left;" src="gendata/img/wordcloud_hashtags_total.png" /></td>
        <td><img style="float: left;" src="gendata/img/wordcloud_hashtags_pos.png" /></td></tr>
    <tr><td><img style="float: left;" src="gendata/img/wordcloud_hashtags_neu.png" /></td>
        <td><img style="float: left;" src="gendata/img/wordcloud_hashtags_neg.png" /></td></tr>
</table>

## No. words 
<table>
    <tr><td><img style="float: left;" src="gendata/img/hist_words_total.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_words_pos.png" /></td></tr>
    <tr><td><img style="float: left;" src="gendata/img/hist_words_neu.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_words_neg.png" /></td></tr>
</table>

## No. vowels 
<table>
    <tr><td><img style="float: left;" src="gendata/img/hist_vowels_total.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_vowels_pos.png" /></td></tr>
    <tr><td><img style="float: left;" src="gendata/img/hist_vowels_neu.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_vowels_neg.png" /></td></tr>
</table>

## No. characters 
<table>
    <tr><td><img style="float: left;" src="gendata/img/hist_len_total.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_len_pos.png" /></td></tr>
    <tr><td><img style="float: left;" src="gendata/img/hist_len_neu.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_len_neg.png" /></td></tr>
</table>

## No. emoticons 
<table>
    <tr><td><img style="float: left;" src="gendata/img/hist_emoticons_total.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_emoticons_pos.png" /></td></tr>
    <tr><td><img style="float: left;" src="gendata/img/hist_emoticons_neu.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_emoticons_neg.png" /></td></tr>
</table>

## No. hashtags 
<table>
    <tr><td><img style="float: left;" src="gendata/img/hist_hashtags_total.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_hashtags_pos.png" /></td></tr>
    <tr><td><img style="float: left;" src="gendata/img/hist_hashtags_neu.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_hashtags_neg.png" /></td></tr>
</table>

## No. URLs 
<table>
    <tr><td><img style="float: left;" src="gendata/img/hist_urls_total.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_urls_pos.png" /></td></tr>
    <tr><td><img style="float: left;" src="gendata/img/hist_urls_neu.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_urls_neg.png" /></td></tr>
</table>

## No. mentions
<table>
    <tr><td><img style="float: left;" src="gendata/img/hist_mentions_total.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_mentions_pos.png" /></td></tr>
    <tr><td><img style="float: left;" src="gendata/img/hist_mentions_neu.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_mentions_neg.png" /></td></tr>
</table>

## No. exclamation marks
<table>
    <tr><td><img style="float: left;" src="gendata/img/hist_excl_total.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_excl_pos.png" /></td></tr>
    <tr><td><img style="float: left;" src="gendata/img/hist_excl_neu.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_excl_neg.png" /></td></tr>
</table>

## Mean, min., max. valence per dictionary
### affin
<table>
    <tr><td><img style="float: left;" src="gendata/img/hist_mean_lex1_total.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_mean_lex1_pos.png" /></td></tr>
    <tr><td><img style="float: left;" src="gendata/img/hist_mean_lex1_neu.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_mean_lex1_neg.png" /></td></tr>
</table>

<table>
    <tr><td><img style="float: left;" src="gendata/img/hist_min_lex1_total.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_min_lex1_pos.png" /></td></tr>
    <tr><td><img style="float: left;" src="gendata/img/hist_min_lex1_neu.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_min_lex1_neg.png" /></td></tr>
</table>

<table>
    <tr><td><img style="float: left;" src="gendata/img/hist_max_lex1_total.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_max_lex1_pos.png" /></td></tr>
    <tr><td><img style="float: left;" src="gendata/img/hist_max_lex1_neu.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_max_lex1_neg.png" /></td></tr>
</table>

### generic
<table>
    <tr><td><img style="float: left;" src="gendata/img/hist_mean_lex2_total.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_mean_lex2_pos.png" /></td></tr>
    <tr><td><img style="float: left;" src="gendata/img/hist_mean_lex2_neu.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_mean_lex2_neg.png" /></td></tr>
</table>

<table>
    <tr><td><img style="float: left;" src="gendata/img/hist_min_lex2_total.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_min_lex2_pos.png" /></td></tr>
    <tr><td><img style="float: left;" src="gendata/img/hist_min_lex2_neu.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_min_lex2_neg.png" /></td></tr>
</table>

<table>
    <tr><td><img style="float: left;" src="gendata/img/hist_max_lex2_total.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_max_lex2_pos.png" /></td></tr>
    <tr><td><img style="float: left;" src="gendata/img/hist_max_lex2_neu.png" /></td>
        <td><img style="float: left;" src="gendata/img/hist_max_lex2_neg.png" /></td></tr>
</table>



In [3]:
# I: SVM classification
## linear, poly-2nd, poly-3rd, sigmoid, rbf
svm(svm_kernel='linear')
svm(svm_kernel='poly', svm_degree=2)
svm(svm_kernel='poly', svm_degree=3)
svm(svm_kernel='sigmoid')
svm(svm_kernel='rbf')


# J: kNN classification
## (1, 3)
knn(knn_n=1)
knn(knn_n=3)


# K: Round-robin classification
## (1, 3) x (class, probs)
rr(knn_n=1)
rr(knn_n=3)

rr_probs(knn_n=1)
rr_probs(knn_n=3)


# L: Results
## classifiers x input types
results()

k-NN
Round-robin


<!-- L: Results images -->

<table align="left">
    <tr><td><img style="float: left;" src="gendata/img/fscore.png" /></td></tr>
    <tr><td><p style="align:justify"&nbsp;</p></td></tr>
</table>


<table align="left">
    <tr><td><img style="float: left;" src="gendata/img/classratio.png" /></td></tr>
    <tr><td>
        
<div style="text-align:justify; align:justify">

<strong>SVM_linear:</strong> SVM classifier, linear kernel<br />
<strong>SVM_poly_2nd:</strong> SVM classifier, 2nd degree polynomial kernel<br />
<strong>SVM_poly_3rd:</strong> SVM classifier, 3rd degree polynomial kernel<br />
<strong>SVM_rbf:</strong> SVM classifier, RBF kernel<br />
<strong>SVM_sigmoid:</strong> SVM classifier, sigmoid kernel<br />
<strong>kNN_1:</strong> 1 Nearest Neighbor classifier<br />
<strong>kNN_3:</strong> 3 Nearest Neighbors classifier<br />
<strong>RR_1_class:</strong> Round-robin classification using 1-NN and predict<br />
<strong>RR_3_class:</strong></strong> Round-robin classification using 3-NN and predict<br />
<strong>RR_1_probs:</strong> Round-robin classification using 1-NN and predict_proba<br />
<strong>RR_3_probs:</strong> Round-robin classification using 3-NN and predict_proba<br />
<br />

<strong>BOW:</strong> Bag-of-words<br />
<strong>TF-IDF:</strong> Term frequency, inverse document frequency<br />
<strong>WE-CBOW:</strong> Word2Vec, CBOW training algorithm<br />
<strong>WE-SG:</strong> Word2Vec, skip-gram training algorithm<br />
<strong>Extra feat.:</strong> Extra features only<br /><br />


<p style="text-align:justify; align:justify">Παρατηρείται ότι καλύτερα αποτελέσματα προκύπτουν με τη χρήση του ταξινομητή k πλησιέστερων γειτόνων (kNN_1, kNN_3, RR_1_class, RR_3_class, RR_1_probs, RR_3_probs), με συγκρίσιμες - σχεδόν ίδιες τιμές F-score για όλες τις περιπτώσεις, με όλα δεδομένα εισσόδου εκτός των BOW και TF-IDF. Με τα δεδομένα BOW και TF-IDF, φαίνεται η τάση μείωσης του F-score. Η πολύ μικρή τιμή (0.08) στην περίπτωση που RR_1_class με TF-IDF, μπορεί να οφείλεται σε τυχαία γεγονότα, όπως η αρχικοποίηση των ταξινομητών 1-NN, και θα έπρεπε να επαναληφθεί η διαδικασία πολλές φορές ώστε η μέση τιμή του F-score να επιβεβαιώσει αν αυτό ισχύει.</p>

<p style="text-align:justify; align:justify">Επίσης, στο σύνολο των ταξινομητών, είναι συγκριτικά καλύτερα τα αποτελέσματα όταν τα δεδομένα εισόδου περιλαμβάνουν τα "Extra feat.". Πιθανώς η χρήση προ-εκπαιδευμένου μοντέλου των διανυσμάτων των λέξεων ("GoogleNews-vectors-negative300.bin", "freebase-vectors-skipgram1000-en.bin") να οδηγούσε σε καλύτερα αποτελέσματα. Περιορίζοντας τον αριθμό των λέξεων του μοντέλου "GoogleNew-vectors-negative300", στο 1000000, η τιμή του F-score, χρησιμοποιώντας τον ταξινομητή SVM, με πυρήνα RBF, ήταν 0.23 από 0.08, ενώ χρησιμοποιώντας τον ταξινομητή 3-NN, παρέμεινε αμετάβλητη. Ακόμη, μπορεί η διαδικασία να επηρεάζεται κι από την επιλογή παραγωγής τυχαίων μέσων τιμών, στη περίπτωση των διανσμάτων, μόνο όταν καμία λέξη του tweet δεν υπάρχει στο λεξικό του μοντέλου Word2Vec. Έτσι, κάποια tweets μπορεί να επηρεάζονται πολύ από μία μόνο λέξη.</p>

<p style="text-align:justify; align:justify">Επίσης, πριν την τελική διαμόρφωση των βημάτων, ελέγχθηκαν οι συνδυασμοί των παρακάτω:

<ul><li>Χρήση των αποτελεσμάτων Ανάλυσης Κύριων Συνιστωσών - 3 διαστάσεις, 10 διαστάσεις (~20% εξηγούμενη διακύμανση των δεδομένων εκπαίδευσης), για μείωση της διαστατικότητας, αυξάνοντας τις διαστάσεις των δεδομένων στα οποία εφαρμόζεται, χωρίς να επιβραδύνεται πολύ η διαδικασία</li></ul>

<ul><li>Διατήρηση των tweets με τη μορφή που παίρνουν μετά από τη λημματοποίηση ή την περιστολή, για την περίπτωση που μπορούσε να αυξηθεί η "ομοιότητα" αυτών με το ίδιο συναίσθημα και λέξεις με ίδια ρίζα και διαφορετική μορφή γραφής</li></ul>

<ul><li>Μετασχηματισμός των δεδομένων με χρήση του RobustScaler, για να μη κυριαρχούν χαρακτηριστικά με υψηλότερες τιμές λόγω διαφορετικού εύρους τιμών (όπως ισχύει στα λεξικά) ή ακραίων παρατηρήσεων</li></ul>

Τα αποτελέσματα δεν ήταν καλύτερα με κάποιον από τους παραπάνω συνδυασμούς.
</p>

<p style="text-align:justify; align:justify">
Επιπλεόν, βλεποντας τους λόγους ορθής ανά κλάση, στη δεύτερη εικόνα, φαίνεται πως οι ταξινομητές k-NN, έχουν συγκρίσιμες τιμές και στις 3 κλάσεις, σε αντίθεση με τους υπόλοιπους, που ταξινομούν πολύ καλύτερα 1 ή 2 κλάσεις και με εξαιρετικά χαμηλή επιτυχία τις υπόλοιπες 2 ή 1, ώστε να είναι μικρότερος ο λόγος κι από την περίπτωση τυχαίας ταξινόμησης.
</p>

</div>


</div>

        
</td></tr>
</table>
