In [None]:
# to print all output for a cell instead of only last one 
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

import sys
sys.path.insert(0, "..")

In [None]:
import utils_analytics as ut
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 
import seaborn as sns
import os 


# Introduction

Bla bla bla

### Dataset

In [None]:
tweets_df, account_df = ut.loadData()
tweets_df.head()

### Preprocessing text

Esempio testo tweet originale:

In [None]:
print(tweets_df.loc[9,'tweet'])

Come è possibile vedere, i tweet presentano solitamente hashtag, menzioni, url ecc.. che però difficilmente si riescono ad encodare come informazioni utili da passare in input ad una LSTM. Pertanto uno step di preprocessing è sicuramente necessario per ridurre il numero di OOV words mantenendo intatte il più possibile le informazioni che questi dati possiedono.

Step di preprocessing per ogni singolo tweet:
- 'RT' -> ' retweet '
- '\n' -> ' '
- '$apple' -> ' stock '
- '@' -> ' email '
- '1,2,3..' -> ' number '
- '$,£..' -> ' money '
- '#' -> ' hashtag '
- '@pontifex' -> ' username '

- 'http,https..' -> 'url'
- 'ahah, haha, ajaj, jaja' -> 'ahah'
- '-' -> ' '
- "'" -> " '"
- Remove tweets too shorts (minimum 3 tokens required)

Perchè lo facciamo così:
- cashtag, money, emoji:
- esclusione tweet corti: abbiamo deciso di eliminare i tweet che dopo il preprocessing possedevano un numero di token inferiore a 3. Questo ha permesso di 'pulire' il dataset da tweet poco esplicativi (anche per un umano) che avrebbero costituito degli outlier e che avrebbero peggiorato le performance
- inglese vs altre lingue: 
- FastText vs Glove:

Testo pulito:

Stampare esempi testo pulito

In [None]:
dataset_df = pd.read_pickle(ut.DATA_FOLDER / 'processed_dataset_v1.pkl')
dataset_df.head()

In [None]:
print(dataset_df.loc[9,'processed_tweet'])

### Text of single tweet
- architettura modello
- da testo a embedding 
- tuning hyperparametri 
- motivare : dropout, weight decay, class imbalance  
- risultati

### Text of single tweet + text features 
- Perchè utilizziamo delle feature ( la LSTM non considera troppo elementi statistici del testo come RT, hashtag, numeri di cose, ecc..)
- Come le passiamo: struttura modello + zscore 
- Feature utilizzate:
    - Is retweet? Yes/No
    - N° of URLs, tags, hashtags, cashtag, currency simbols, emails, numbers, emoticons, emojis, stopwords, punctuation
- Perchè queste feature? rilevanza, analisi di correlazione
- Esempi di tweet che mostrano la rilevanza delle feature (i bot tendono a avere più citazioni, hashtag, boh ) risultati 


In [None]:
text_features_df = pd.read_pickle(ut.DATA_FOLDER / 'processed_dataset_v2.pkl')
text_features_df.head()

In [None]:
plt.figure(figsize=(20,10))
cor = text_features_df.corr()
sns.heatmap(cor, annot=True, cmap=plt.cm.Reds)
plt.show()

In [None]:
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif

# feature selection
def select_features(X_train, y_train, X_test):
	# configure to select all features
	fs = SelectKBest(score_func=f_classif, k='all')
	# learn relationship from training data
	fs.fit(X_train, y_train)
	# transform train input data
	X_train_fs = fs.transform(X_train)
	# transform test input data
	X_test_fs = fs.transform(X_test)
	return X_train_fs, X_test_fs, fs

In [None]:
feature_columns = ['is_rt','url_c','tag_c','hashtag_c','cashtag_c','money_c','email_c','number_c','emoji_c','emoticon_c','len_tweet','stopwords_c','punct_c']
train_ds = text_features_df[text_features_df['split'] == 'train'].reset_index(drop=True)
val_ds = text_features_df[text_features_df['split'] == 'val'].reset_index(drop=True)
test_ds = text_features_df[text_features_df['split'] == 'test'].reset_index(drop=True)

X_train = train_ds[feature_columns]
y_train = train_ds['label']

X_test = val_ds[feature_columns]
y_test = val_ds['label']

# feature selection
X_train_fs, X_test_fs, fs = select_features(X_train, y_train, X_test)
# what are scores for the features
for i in range(len(fs.scores_)):
	print(f'{i} -> {feature_columns[i]}: {fs.scores_[i]/sum(fs.scores_)*100:.3f}%')
# plot the scores

plt.figure(figsize=(30,10))
plt.bar([i for i in range(len(fs.scores_))], fs.scores_)
plt.show()

Come è possibile vedere, la feature 'is_rt' (Is retweet? Yes/No) sia molto correlata al valore della label (Bot/Human). Andiamo pertanto ad analizzare le percentuali che caratterizzano la differenza tra tweet prodotti da bot che sono retweet o post 'nuovi'.

In [None]:
num_rt_bot = text_features_df[(text_features_df['is_rt'] == 1.0) & (text_features_df['label'] == 1.0)].shape[0]
num_nort_bot = text_features_df[(text_features_df['is_rt'] == 0.0) & (text_features_df['label'] == 1.0)].shape[0]
num_tweets = text_features_df.shape[0]
print(f'Number of tweets from bots which are retweet: {num_rt_bot} - ({num_rt_bot/num_tweets*100:.1f}%)')
print(f'Number of tweets from bots which are not retweet: {num_nort_bot} - ({num_nort_bot/num_tweets*100:.1f}%)\n')

num_rt_human = text_features_df[(text_features_df['is_rt'] == 1.0) & (text_features_df['label'] == 0.0)].shape[0]
num_nort_human = text_features_df[(text_features_df['is_rt'] == 0.0) & (text_features_df['label'] == 0.0)].shape[0]
print(f'Number of tweets from humans which are retweet: {num_rt_human} - ({num_rt_human/num_tweets*100:.1f}%)')
print(f'Number of tweets from humans which are not retweet: {num_nort_human} - ({num_nort_human/num_tweets*100:.1f}%)\n')

print(f"Pearson Correlation:\n{text_features_df[['is_rt','label']].corr()}")

Quindi c'è una probabilità doppia che se il tweet è un retweet l'utente sia in realtà un bot.

Andiamo ora invece ad effettuare lo stesso studio sulla feature 'cashtag_c', che mostra il numero di cashtag all'interno di ogni singolo tweet e che appare molto poco correlata alla label finale.

In [None]:
print(f"Pearson Correlation:\n{text_features_df[['cashtag_c','label']].corr()}")

Infine andiamo a comparare la media di url utilizzati per singolo tweet da bot e umani con la corrispondente media di hashtag.

In [None]:
mean_url_bot = text_features_df[text_features_df['label'] == 1.0]['url_c'].mean()
mean_url_nobot = text_features_df[text_features_df['label'] == 0.0]['url_c'].mean()
print(f"Average z-score of URLs per single tweet by bot user: {mean_url_bot:.3f}")
print(f"Average z-score of URLs per single tweet by human user: {mean_url_nobot:.3f}")
print(f"Difference: {abs(mean_url_bot - mean_url_nobot):.3f}")

In [None]:
mean_hashtag_bot = text_features_df[text_features_df['label'] == 1.0]['hashtag_c'].mean()
mean_hashtag_nobot = text_features_df[text_features_df['label'] == 0.0]['hashtag_c'].mean()
print(f"Average z-score of hashtags per single tweet by bot user: {mean_hashtag_bot:.3f}")
print(f"Average z-score of hashtags per single tweet by human user: {mean_hashtag_nobot:.3f}")
print(f"Difference: {abs(mean_hashtag_bot - mean_hashtag_nobot):.3f}")

Il margine è nettamente più ampio (più del doppio)