# <center>Ανάλυση Συναισθημάτων σε Tweets - Τεχνικές Εξόρυξης Δεδομένων Εαρινό Εξάμηνο 2019</center>
### <center>Δήμητρα Μαυροφοράκη 1115201400104 - Ιωάννης Χαραμής 1115201400220</center>


## Εισαγωγή
Η άσκηση αφορά τη διαδικασία κατηγοριοποίησης tweets, σε τρεις κατηγορίες συναισθημάτων (θετικό, ουδέτερο, αρνητικό).

Το πρώτο βήμα της διαδικασίας είναι η "εκκαθάριση" των δεδομένων, τόσο στο train set, όσο και στο test set.

Στη συνέχεια, προχωράμε στο vectorization των tweets, ώστε να τα ταξινομήσουμε σύμφωνα με το συναίσθημα που προκαλούν.

## Strip tweets
Για το καθαρισμό των δεδομένων, χρησιμοποιούμε τη συνάρτηση clean_corpus(), η οποία αφαιρεί τα links, τα σύμβολα, όπως σημεία στίξης, '@' και '#', και μετατρέπει σε πεζούς όλους τους χαρακτήρες.

In [13]:
from utils import clean_corpus
import pandas as pd

#READ TRAINING SET
df = pd.read_csv("train2017.tsv", sep='\t', header=None)
train_corpus = df[3].tolist()

#READ TEST SET
df = pd.read_csv("test2017.tsv", sep='\t', header=None)
test_corpus = df[3].tolist()

clean_train_corpus = clean_corpus(train_corpus)
clean_test_corpus = clean_corpus(test_corpus)

## Tokenization - Lemmatization
Με τη χρήση της tokenize() χωρίζουμε τα tweets σε tokens και ύστερα με τη lemmatize(), για κάθε token/λέξη, βρίσκουμε την αντίστοιχη ρίζα της. 

In [None]:
from utils import tokenize, lemmatize

train_tokens = tokenize(clean_train_corpus)
test_tokens = tokenize(clean_test_corpus)

train_tweets = lemmatize(train_tokens)
test_tweets = lemmatize(test_tokens)

final_train_corpus = [" ".join(str(word) for word in tweet) for tweet in train_tweets]
final_test_corpus = [" ".join(str(word) for word in tweet) for tweet in test_tweets]

## WordCloud
Οι συνηθέστερες λέξεις στα "θετικά" tweets, είναι λέξεις κυρίως συναισθηματικά ουδέτερες όπως "tomorrow", "day", "get", αλλά και λέξεις σαφώς θετικά φορτισμένες όπως "love", "happy", "excite", "birthday", "hope" και "good".

Αντίστοιχα, στα "αρνητικά" tweets υπερτερούν συναισθηματικά ουδέτερες λέξεις, όμως συναντάμε λέξεις με αρνητική υπόσταση, μεταξύ άλλων οι "don't", "can't", "fuck", "shit", "sad", "hate", "bad" και "lose".

Στα "ουδέτερα" tweets συναντούμε αποκλειστικά λέξεις με ουδέτερο συναισθηματικό φορτίο.

Συνεπώς, οι συνηθέστερες λέξεις σε ολόκληρο το σύνολο των δεδομένων προκύπτουν από τις δημοφιλέστερες λέξεις των υποσυνόλων. Όπως αναφέραμε, επικρατέστερες είναι οι ουδέτερες λέξεις για παράδειγμα "tommorow", "go", "day", "night", "may", "come", "get". 

Η πλειοψηφία των ουδέτερων λέξεων είναι λογική, όπως και η ύπαρξή τους σε κάθε υπόσυνολο/wordcloud. Αυτό οφείλεται στο ότι στην καθημερινότητά και στο λόγο μας χρησιμοποιούμε πολλές λέξεις για να περιγράψουμε καταστάσεις και όχι συναίσθημα.

In [None]:
from collections import Counter
from nltk.corpus import stopwords
from wordcloud import WordCloud
from utils import clean_tweets

filtered_positive = []
filtered_neutral = []
filtered_negative = []

df_train = pd.read_csv("train2017.tsv", sep='\t', header=None)

pos_train = clean_tweets(df_train.loc[(df_train[2] == "positive")].copy()[3].tolist())
neg_train = clean_tweets(df_train.loc[ (df_train[2] == "negative")].copy()[3].tolist())
neu_train = clean_tweets(df_train.loc[(df_train[2] == "neutral")].copy()[3].tolist())

for tweet in pos_train:
    filtered_positive += [word for word in tweet.split() if word not in stopwords.words('english')]
for tweet in neg_train:
    filtered_negative += [word for word in tweet.split() if word not in stopwords.words('english')]
for tweet in neu_train:
    filtered_neutral += [word for word in tweet.split() if word not in stopwords.words('english')]

total_text = filtered_positive + filtered_neutral + filtered_negative

positive_count = Counter(filtered_positive)
neutral_count = Counter(filtered_neutral)
negative_count = Counter(filtered_negative)    
total_count = Counter(total_text)

wordcloud = WordCloud(background_color="white").generate_from_frequencies(dict(positive_count))
image = wordcloud.to_image()
display(image)

wordcloud = WordCloud(background_color="white").generate_from_frequencies(dict(neutral_count))
image = wordcloud.to_image()
display(image)

wordcloud = WordCloud(background_color="white").generate_from_frequencies(dict(negative_count))
image = wordcloud.to_image()
display(image)

wordcloud = WordCloud(background_color="white").generate_from_frequencies(dict(total_count))
image = wordcloud.to_image()
display(image)

## Vectorization
Για να δημιουργήσουμε τα διανύσματα χαρακτηριστικών για κάθε tweet χρησιμοποιούμε 4 vectorizers. Επιπλέον, εμπλουτίζουμε τα παραχθέντα διανύσματα με επιπλέον χαρακτηριστικά, με τη χρήση λεξικών.

### Bag of words

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from utils import save_to_pickle

vectorizer = CountVectorizer()

X_BOW_train = vectorizer.fit_transform(final_train_corpus)
save_to_pickle('X_BOW_train',X_BOW_train)

X_BOW_test = vectorizer.transform(final_test_corpus)
save_to_pickle('X_BOW_test',X_BOW_test)

### TF-IDF

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from utils import save_to_pickle

vectorizer = TfidfVectorizer(min_df=30)

X_TFIDF_train = vectorizer.fit_transform(final_train_corpus)
save_to_pickle('X_TFIDF_train',X_TFIDF_train)

X_TFIDF_test = vectorizer.transform(final_test_corpus)
save_to_pickle('X_TFIDF_test',X_TFIDF_test)

### Embeddings using Word2Vec

In [None]:
from gensim.models import Word2Vec
from utils import create_word_embeddings, save_to_pickle

#train_tweets
model_train = Word2Vec(train_tweets, size=200, window=5, min_count=1, workers=4) # size of vector is 200
model_train.train(train_tweets, total_examples=model_train.corpus_count, epochs=model_train.epochs)  # train word vectors

X_W2V_embeddings_train = create_word_embeddings(train_tweets, model_train)
save_to_pickle('X_W2V_embeddings_train',X_W2V_embeddings_train)

#test_tweets
model_test = Word2Vec(test_tweets, size=200, window=5, min_count=1, workers=4) # size of vector is 200
model_test.train(test_tweets, total_examples=model_test.corpus_count,epochs=model_test.epochs)  # train word vectors

X_W2V_embeddings_test = create_word_embeddings(test_tweets, model_test)
save_to_pickle('X_W2V_embeddings_test',X_W2V_embeddings_test)

### Embeddings using Doc2Vec

Η βιβλιοθήκη Doc2Vec είναι ισοδύναμη με την Word2Vec αλλά είναι πιο κατάλληλη για το vectorization φράσεων αντί για μεμονωμένες λέξεις. Για πάραδειγμα:
* Manos leaves the office every day at 18:00 to catch his train.
* This season is called Fall, because leaves fall from the trees.

Μέσω των Doc2Vec διανυσμάτων είναι εμφανής η διαφορά στη χρήση της ίδιας λέξης σε διαφορετικό περιεχόμενο. Στις παραπάνω προτάσεις η λέξη "leaves" έχει άλλη διανυσματική απεικόνιση.

In [None]:
from utils import create_doc_embeddings, save_to_pickle

X_embeddings_array_train = create_doc_embeddings(final_train_corpus)
X_embeddings_array_test = create_doc_embeddings(final_test_corpus)

X_D2V_embeddings_train = [X_embeddings_array_train[i].tolist() for i in range(len(X_embeddings_array_train))]
save_to_pickle('X_D2V_embeddings_train',X_D2V_embeddings_train)

X_D2V_embeddings_test = [X_embeddings_array_test[i].tolist() for i in range(len(X_embeddings_array_test))]
save_to_pickle('X_D2V_embeddings_test',X_D2V_embeddings_test)

### Προσθήκη χαρακτηριστικών
Εμπλουτίζουμε τα διανύσματα που έχουν δημιουργηθεί από τους έτοιμους vectorizers με επιπλεόν στοιχεία όπως το πλήθος των λέξεων κάθε tweet, το μέσο όρο του valence κάθε tweet, το μέγιστο και το ελάχιστο valence και τα average valences που προκύπτουν αν διασπαστεί το tweet στη μέση.

In [None]:
from utils import save_to_pickle, load_from_pickle, add_characteristics

import pandas as pd
import numpy as np
import csv

lexica_df = [pd.read_csv("lexica/affin/affin.txt", sep='\t', header=None),
              pd.read_csv("lexica/emotweet/valence_tweet.txt", sep='\t', header=None),
              pd.read_csv("lexica/generic/generic.txt", sep='\t', engine="python" ,quoting=csv.QUOTE_NONE,header=None),
              pd.read_csv("lexica/nrc/val.txt", sep='\t', engine="python",quoting=csv.QUOTE_NONE, header=None),
              pd.read_csv("lexica/nrctag/val.txt", sep='\t', header=None)]
lexica = [df.set_index(0).T.to_dict('list') for df in lexica_df]

characteristics_train = add_characteristics(lexica,train_tweets)
characteristics_test = add_characteristics(lexica,test_tweets) 

X_W2V_embeddings_train = load_from_pickle('X_W2V_embeddings_train')
X_W2Vplus_embeddings_train = np.concatenate((X_W2V_embeddings_train,characteristics_train), axis=1)
save_to_pickle('X_W2Vplus_embeddings_train',X_W2Vplus_embeddings_train)

X_W2V_embeddings_test = load_from_pickle('X_W2V_embeddings_test')
X_W2Vplus_embeddings_test = np.concatenate((X_W2V_embeddings_test,characteristics_test), axis=1)
save_to_pickle('X_W2Vplus_embeddings_test',X_W2Vplus_embeddings_test)

X_D2V_embeddings_train = load_from_pickle('X_D2V_embeddings_train')
X_D2Vplus_embeddings_train = np.concatenate((X_D2V_embeddings_train,characteristics_train), axis=1)
save_to_pickle('X_D2Vplus_embeddings_train',X_D2Vplus_embeddings_train)

X_D2V_embeddings_test = load_from_pickle('X_D2V_embeddings_test')
X_D2Vplus_embeddings_test = np.concatenate((X_D2V_embeddings_test,characteristics_test), axis=1)
save_to_pickle('X_D2Vplus_embeddings_test',X_D2Vplus_embeddings_test)

## Δημιουργία label συνόλων

In [None]:
import pandas as pd
from utils import save_to_pickle

sent_map = {"positive":2, "neutral":1, "negative":0}

df = pd.read_csv("train2017.tsv", sep='\t', header=None)
y_train_labels = [sent_map[sentiment] for sentiment in df[2].tolist()] #sentiments
save_to_pickle('y_train_labels',y_train_labels)

df = pd.read_csv("SemEval2017_task4_subtaskA_test_english_gold.tsv", sep='\t', header=None)
y_test_labels = [sent_map[sentiment] for sentiment in df[1].tolist()] #sentiments
save_to_pickle('y_test_labels',y_test_labels)

## Classification
Για να ταξινομήσουμε τα tweets ως προς το συναίσθημα χρησιμοποιούμε 3 ταξινομητές.

### Bag of Words KNN-SVM

In [None]:
from utils import load_from_pickle, knn_classification, svm_classification

X_train = load_from_pickle('X_BOW_train')
X_test = load_from_pickle('X_BOW_test')
y_train_labels = load_from_pickle('y_train_labels')
y_test_labels = load_from_pickle('y_test_labels')

#BOW - KNN CLASSIFICATION
scoreBOW_KNN = knn_classification(X_train, X_test, y_train_labels, y_test_labels)
#BOW - SVM CLASSIFICATION
scoreBOW_SVM = svm_classification(X_train, X_test, y_train_labels, y_test_labels)

### TF-IDF KNN-SVM

In [None]:
from utils import load_from_pickle, knn_classification, svm_classification

X_train = load_from_pickle('X_TFIDF_train')
X_test = load_from_pickle('X_TFIDF_test')
y_train_labels = load_from_pickle('y_train_labels')
y_test_labels = load_from_pickle('y_test_labels')

#TFIDF - KNN CLASSIFICATION
scoreTFIDF_KNN = knn_classification(X_TFIDF_train, X_TFIDF_test, y_train_labels, y_test_labels)
#TFIDF - SVM CLASSIFICATION
scoreTFIDF_SVM = svm_classification(X_TFIDF_train, X_TFIDF_test, y_train_labels, y_test_labels)

### Doc2Vec KNN-SVM

In [None]:
from utils import load_from_pickle, knn_classification, svm_classification

X_train = load_from_pickle('X_D2V_embeddings_train')
X_test = load_from_pickle('X_D2V_embeddings_test')
y_train_labels = load_from_pickle('y_train_labels')
y_test_labels = load_from_pickle('y_test_labels')

#DOC2VEC - KNN CLASSIFICATION
scoreD2V_KNN = knn_classification(X_train, X_test, y_train_labels, y_test_labels)
#DOC2VEC - SVM CLASSIFICATION
scoreD2V_SVM = svm_classification(X_train, X_test, y_train_labels, y_test_labels)

### Doc2Vec KNN-SVM (with added characteristics)

In [None]:
from utils import load_from_pickle, knn_classification, svm_classification

X_train = load_from_pickle('X_D2Vplus_embeddings_train')
X_test = load_from_pickle('X_D2Vplus_embeddings_test')
y_train_labels = load_from_pickle('y_train_labels')
y_test_labels = load_from_pickle('y_test_labels')

#DOC2VEC+features - KNN CLASSIFICATION
scoreD2Vplus_KNN = knn_classification(X_train, X_test, y_train_labels, y_test_labels)
#DOC2VEC+features - SVM CLASSIFICATION
scoreD2Vplus_SVM = svm_classification(X_train, X_test, y_train_labels, y_test_labels)

### Word2Vec KNN-SVM

In [None]:
from utils import load_from_pickle, knn_classification, svm_classification

X_train = load_from_pickle('X_W2V_embeddings_train')
X_test = load_from_pickle('X_W2V_embeddings_test')
y_train_labels = load_from_pickle('y_train_labels')
y_test_labels = load_from_pickle('y_test_labels')

#WORD2VEC - KNN CLASSIFICATION
scoreW2V_KNN = knn_classification(X_train, X_test, y_train_labels, y_test_labels)
#WORD2VEC - SVM CLASSIFICATION
scoreW2V_SVM = svm_classification(X_train, X_test, y_train_labels, y_test_labels)

### Word2Vec KNN-SVM (with added characteristics)

In [None]:
from utils import load_from_pickle, knn_classification, svm_classification

X_train = load_from_pickle('X_W2Vplus_embeddings_train')
X_test = load_from_pickle('X_W2Vplus_embeddings_test')
y_train_labels = load_from_pickle('y_train_labels')
y_test_labels = load_from_pickle('y_test_labels')

#WORD2VEC+features - KNN CLASSIFICATION
scoreW2Vplus_KNN = knn_classification(X_train, X_test, y_train_labels, y_test_labels)
#WORD2VEC+features - SVM CLASSIFICATION
scoreW2Vplus_SVM = svm_classification(X_train, X_test, y_train_labels, y_test_labels)

### Round Robin

Αρχικά, διαχωρίζουμε το trainset σε 3 ξεχωριστά υποσύνολα (positive/negative, positive/neutral, negative/neutral).
Με τα σύνολα αυτά εκπαιδεύουμε τους Nearest Neighbor Classifiers.

Στη συνέχεια, εξάγουμε τα posteriors των trainset & testset, τα οποία εισάγουμε στον KNN Classifier ως train και test data αντίστοιχα, για να αξιολογήσουμε τη μέθοδο.

In [None]:
from utils import create_posteriors, knn_classification

import pandas as pd
import numpy as np

df_train = pd.read_csv("train2017.tsv", sep='\t', header=None)
train_tweets = df_train[3].tolist()
df_test = pd.read_csv("test2017.tsv", sep='\t', header=None)
test_tweets = df_test[3].tolist()

sent_map = {"positive":2, "neutral":1, "negative":0}

pos_neg_train = df_train.loc[(df_train[2] == "positive") | (df_train[2] == "negative")].copy()
pos_neg_labels = [sent_map[sentiment] for sentiment in pos_neg_train[2].tolist()] #sentiments
pos_neg_posteriors = create_posteriors(pos_neg_train[3].tolist(),train_tweets,test_tweets,pos_neg_labels,1)
save_to_pickle('pos_neg_posteriors',pos_neg_posteriors)

pos_neu_train = df_train.loc[(df_train[2] == "positive") | (df_train[2] == "neutral")].copy()
pos_neu_labels = [sent_map[sentiment] for sentiment in pos_neu_train[2].tolist()]
pos_neu_posteriors = create_posteriors(pos_neu_train[3].tolist(),train_tweets,test_tweets,pos_neu_labels,1)
save_to_pickle('pos_neu_posteriors',pos_neu_posteriors)

neg_neu_train = df_train.loc[(df_train[2] == "negative") | (df_train[2] == "neutral")].copy()
neg_neu_labels = [sent_map[sentiment] for sentiment in neg_neu_train[2].tolist()]
neg_neu_posteriors = create_posteriors(neg_neu_train[3].tolist(),train_tweets,test_tweets,neg_neu_labels,1)
save_to_pickle('neg_neu_posteriors',neg_neu_posteriors)

In [None]:
from utils import knn_classification

y_train_labels = load_from_pickle('y_train_labels')
y_test_labels = load_from_pickle('y_test_labels')
pos_neg_posteriors = load_from_pickle('pos_neg_posteriors')
pos_neu_posteriors = load_from_pickle('pos_neu_posteriors')
neg_neu_posteriors = load_from_pickle('neg_neu_posteriors')

test_data = [[pos_neg_posteriors['test'][i][0], pos_neg_posteriors['test'][i][1], pos_neu_posteriors['test'][i][0], pos_neu_posteriors['test'][i][1], neg_neu_posteriors['test'][i][0], neg_neu_posteriors['test'][i][1]] for i in range(len(pos_neg_posteriors['test']))]
train_data = [[pos_neg_posteriors['train'][i][0], pos_neg_posteriors['train'][i][1], pos_neu_posteriors['train'][i][0], pos_neu_posteriors['train'][i][1], neg_neu_posteriors['train'][i][0], neg_neu_posteriors['train'][i][1]] for i in range(len(pos_neg_posteriors['train']))]

scoreRR_KNN = knn_classification(train_data, test_data, y_train_labels, y_test_labels)

## Ακρίβεια αλγορίθμων ταξινόμησης
Παρακάτω παραθέτουμε το accuracy score του κάθε classifier που χρησιμοποιήσαμε, συναρτήσει των vectorizers:

In [None]:
df_results = pd.DataFrame([('{:.1%}'.format(scoreBOW_KNN), '{:.1%}'.format(scoreTFIDF_KNN), '{:.1%}'.format(scoreW2V_KNN), '{:.1%}'.format(scoreW2Vplus_KNN), '{:.1%}'.format(scoreD2V_KNN), '{:.1%}'.format(scoreD2Vplus_KNN)),('{:.1%}'.format(scoreBOW_SVM), '{:.1%}'.format(scoreTFIDF_SVM), '{:.1%}'.format(scoreW2V_SVM), '{:.1%}'.format(scoreW2Vplus_SVM), '{:.1%}'.format(scoreD2V_SVM), '{:.1%}'.format(scoreD2Vplus_SVM)),('{:.1%}'.format(scoreRR_KNN),'','','','','')],
                         index=['KNN', 'SVM', 'RR'], columns=['BOW', 'TFIDF', 'W2V', 'W2V+', 'D2V', 'D2V+'])
df_results

## Συμπεράσματα
Προκειμένου να εξασφαλίσουμε ότι δε συμβαίνει overfitting στους classifiers, συγκρίναμε την ακρίβεια του ταξινομητή με είσοδο το train set και το test set αντίστοιχα. Παρατηρήσαμε ότι σε κάθε περίπτωση η διαφορά της ακρίβειας των αλγορίθμων για κάθε set, δεν υπερβαίνει τις 11 μονάδες.

<img src="accuracy_table.png" style = "margin-bottom:50px">


* Ο SVM είναι πιο ακριβής από τον KNN, ανεξαρτήτως του αριθμού των γειτόνων (για τον KNN) και του vectorizer.
* Ο SVM είναι γρηγορότερος από τον KNN.
* Ο KNN με περισσότερους γείτονες(>10) είναι αποδοτικότερος απ' ότι με λιγότερους. Όσο αυξάνουμε τον αριθμό των γειτόνων, τόσο αυξάνεται και ο χρόνος εκτέλεσης του αλγορίθμου. Ωστόσο, δεν είναι ωφέλιμο να αυξήσουμε τον αριθμό των γειτόνων αρκετά, καθώς η ακρίβεια παραμένει σταθερή ή μειώνεται, ενώ ο αλγόριθμος εκτελείται για περισσότερο χρόνο.
* Ο αλγόριθμος TF-IDF είναι πιο αποδοτικός από τον Bag of words καθώς τα διανύσματα που δημιουργεί αποτελούνται από δεκαδικά ψηφία και είναι πιο custom, ωστόσο απαιτεί περισσότερο χρόνο εκτέλεσης. 
* Ο εμπλουτισμός των embeddings με custom χαρακτηριστικά βελτιώνει σημαντικα την ακρίβεια των ταξινομητών (περίπου κατά 12%).
* Δεν παρατηρήσαμε αισθητή διαφορά μεταξύ των vectorizers Word2Vec και Doc2Vec. Συγκεκριμένα, η ακρίβεια του Word2Vec στον KNN υπερτερεί ελάχιστα από αυτή του Doc2Vec, ενώ στον SVM συμβαίνει το αντίθετο. Πιστεύουμε ότι από το συγκεκριμένο dataset δεν μπορεί να βγει γενικό συμπέρασμα για το ποιος vectorizer είναι "καλύτερος".
* Ακριβώς το ίδιο αποτέλεσμα παρατηρούμε και με τη χρήση των εμπλουτισμένων Word2Vec και Doc2Vec vectorizers, δίχως να καταλήγουμε σε σαφή συμπεράσματα.
