In [1]:
!pip install -r requirements.txt

Collecting editdistance (from -r requirements.txt (line 1))
  Obtaining dependency information for editdistance from https://files.pythonhosted.org/packages/52/a1/778af8590b8b12f03f62eacc3c8744407ade9e3d69be6dabe38d0afbf2dd/editdistance-0.8.1-cp311-cp311-win_amd64.whl.metadata
  Downloading editdistance-0.8.1-cp311-cp311-win_amd64.whl.metadata (3.9 kB)
Downloading editdistance-0.8.1-cp311-cp311-win_amd64.whl (79 kB)
   ---------------------------------------- 0.0/79.7 kB ? eta -:--:--
   ----- ---------------------------------- 10.2/79.7 kB ? eta -:--:--
   ----------------------------------- ---- 71.7/79.7 kB 975.2 kB/s eta 0:00:01
   ---------------------------------------- 79.7/79.7 kB 637.2 kB/s eta 0:00:00
Installing collected packages: editdistance
Successfully installed editdistance-0.8.1



[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [15]:
import json
import pickle
from collections import Counter
import os
import editdistance
import pandas as pd
from datetime import datetime
import numpy as np

from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler, MinMaxScaler, PowerTransformer
from sklearn.model_selection import train_test_split, cross_val_score, cross_val_predict
from sklearn.metrics import f1_score, precision_score, recall_score, accuracy_score, confusion_matrix, precision_recall_curve, roc_curve, roc_auc_score
from sklearn.datasets import make_classification
from sklearn import set_config

set_config(display="diagram")

# Supervised Learning
![](slides/superL_3.png)
![](slides/superL_4.png)
![](slides/superL_5.png)

Prima di applicare i diversi algoritmi di apprendimento finora introdotti ci concentriamo su una questione fondamentale nell'ambito dell'apprendimento supervisionato. Infatti, nella maggior parte dei casi, abbiamo a nostra disposizione solo un singolo insieme di dati $\mathcal{D}$ che possiamo utilizzare per addestrare il nostro modello mediante un algoritmo di apprendimento. Tuttavia, se addestriamo il modello sull'intero dataset, non siamo in grado di valutare la capacità di generalizzazione del modello e le sue prestazioni su dati non visti.

Per riprodurre una situazione più realistica basandoci solo sui dati che abbiamo, **dividiamo il dataset in due insiemi disgiunti**:
- **training set** - insieme di addestramento
- **test o validation set** - insieme di test

![](slides/superL_6.png)
![](slides/superL_7.png)

Appliciamo il precedente metodo ad un dataset sintetico generato mediante la funzione `datasets.make_classification`.

In [16]:
X_synth, y_synth = make_classification(n_samples = 1000, weights=[.1, .9])
X_train, X_test, y_train, y_test = train_test_split(X_synth,y_synth, stratify = y_synth, test_size=0.2)

**Importante**. E' buona prassi applicare un partizionamento tra training e test set in modo da mantenere la **stratificazione** delle classi in entrambi gli insiemi. Ciò significa che sia nel training set sia nel test set il rapporto tra istanze positive ed instanze negative è lo stesso.

Possiamo valutare se questa proprietà vale anche nel nostro caso.

In [17]:
np.sum(y_train == 0) / np.sum(y_train == 1), np.sum(y_test == 0) / np.sum(y_test == 1)

(0.12201963534361851, 0.12359550561797752)

# Identificazione di bot in Twitter mediante classificazione binaria

In questa esperienza di laboratorio affronteremo il **problema dell'identificazione automatica di bot in un social media** - nello specifico Twitter - mediante un approccio basato sulla **classificazione binaria**. Abbiamo quindi a disposizione un insieme di dati che ci fornisce un'etichetta **bot/non-bot** per ogni account, istanza del nostro problema. 

In questa situazione le entità da classificare sono gli account su Twitter, che verranno trasformate in un vettore di caratteristiche - feature -  derivate sia dalle informazioni associate al profilo dell'account sia dalle informazioni derivate dai contenuti prodotti e consumati (ritwittati).

Una volta descritta l'entità account mediante un vettore, procederemo ad addestrare un **classificatore binario**, utilizzando come dataset di training un insieme di **account etichettati** come *human* o *bot*.

Il dataset e le relative etichette sono contenute nella cartella *data*:
- `cresci-rtbust-2019.tsv` contiene le etichette
- `cresci-rtbust-2019_tweets.json` contiene le informazioni associate ai profili degli account.


## Creazione del dataset di training

In [18]:
accounts = json.load(open('data/cresci-rtbust-2019_tweets.json'))
accountsID = [a['user']['id_str'] for a in accounts]
account2profile ={a['user']['id_str']:a['user'] for a in accounts}
account2label = {}
with open('data/cresci-rtbust-2019.tsv') as f:
    for line in f:
        ID, label = line.strip().split('\t')
        if ID in accountsID:
            account2label[ID] = 0 if label == 'human' else 1

**Task**: Contare il numero di account disponibili e descrivere la struttura del dictionary `account2profile`.

In [19]:
len(account2profile)

693

In [20]:
ID_account_test = '734396807745286145'

In [21]:
#TODO come è strutturato l'oggetto associato alla variabile account2label ?
account2label[ID_account_test]

0

## Integrazione con contenuti testuali prodotti e consumati

Prima di procedere alla fase di estrazione delle feature, dovremmo ottenere dal social media da cui stiamo prelevando i dati necessari all'addestramento i contenuti testuali originali e/o condivisi (tweet e retweet nel nostro caso). Possiamo associare ad ogni account un vettore che descrive il profilo semantico dell'utente. Questo vettore integra le caratteristiche che possiamo estrarre dal profilo dell'account.

Per ogni account, ottieniamo i primi 100 tweet/retweet mediante Twitter API.

In [22]:
account2timeline = {}
for i, a in enumerate(accountsID):
    data_timeline = twitter.get_users_tweets(id = a,
        max_results=100,
        exclude='replies', 
        tweet_fields='entities'
    )
    if not data_timeline.errors:
        account2timeline[a] = [t.data for t in data_timeline.data]
    print(i, end=' ')

NameError: name 'twitter' is not defined

Le timeline degli account sono state salvate nel file pickle *data/account_timeline.pkl*.

In [None]:
pickle.dump(account2timeline,open('data/account_timeline.pkl','wb'))

**Task**: I dati relativi alla timeline di ogni account in Twitter sono stati salvato nel file `data/account_timeline.pkl`. Caricare i dati utilizzando il modulo `pickle` e associarli all'identificatore `account2timeline`.

In [None]:
account2timeline = pickle.load(open('data/account_timeline.pkl','rb'))

Vediamo come è strutturato l'informazione associata ad ogni account da analizzare.

In [None]:
account2timeline['825436422609969152'][0]

{'text': 'Quanto dobbiamo ancora attendere ? @Valerio_Scanu  #SCANUALLEIENE',
 'entities': {'hashtags': [{'start': 51, 'end': 65, 'tag': 'SCANUALLEIENE'}],
  'mentions': [{'start': 35,
    'end': 49,
    'username': 'Valerio_Scanu',
    'id': '196985837'}]},
 'id': '1496602774808809483'}

Valutiamo la porzione di account per i quali abbiamo a disposizione del contenuto testuale. In alcuni casi gli account potrebbero essere stati sospesi oppure non hanno eseguito alcuna attività legata alla produzione o al consumo dei tweet.

In [None]:
len([k for k, v in account2timeline.items() if len(v) > 0])

## Feature dal profilo dell'account

Procediamo nella trasformazione dei dati grezzi associati agli account. Per ogni account creiamo un vettore di proprietà numeriche a partire dalle informazioni associate all'account.

Inizialmente definiamo un `DataFrame` vuoto che raccoglierà le rappresentazioni numeriche dei diversi account da classificare.

In [9]:
accounts_matrix = pd.DataFrame()

Dal dict che modella uno `User` contenuto in `account2profile` deriviamo una serie di proprietà:
- lunghezza dello username e del name dell'account
- distanza tra username e name mediante la **distanza di Levenshtein**, la quale restituisce il numero di operazione di aggiunta/rimozione caratterre per ottenere lo username partendo dallo screen name. **Suggerimento**: Per calcolare la distanza di Levenshtein utilizzare il codice `editdistance.eval(string1,string2)`
- verifichiamo la presenza della descrizione del profilo - campo intero 0 o 1
- verifichiamo la presenza della location del profilo - campo intero 0 o 1
- l'età del profilo rispetto alla data di collezione dei dati (2019)
- il numero di follower e friends
- il rapporto tra il numero di follower e il numero di friend
- il numero medio di like all'anno
- il numero medio di tweet creati all'anno

**Suggerimento**: Per calcolare l'età del profilo è possibile utilizzare il codice `2019 - datetime.strptime(<account_dict>['created_at'],'%a %b %d %H:%M:%S %z %Y').year`

Tutte queste feature sono di tipo **numerico**.

**Task**: Completare le feature non definite

In [None]:
[account2profile[a]['statuses_count']/(2019 - datetime.strptime(account2profile[a]['created_at'],'%a %b %d %H:%M:%S %z %Y').year) for a in accountsID][:3]

In [None]:
accounts_matrix['name_length'] = [len(account2profile[a]['name']) for a in accountsID]
accounts_matrix['screen_name_length'] = [len(account2profile[a]['screen_name']) for a in accountsID]
accounts_matrix['distance_name_screename'] = [editdistance.eval(account2profile[a]['name'],account2profile[a]['screen_name']) for a in accountsID]
accounts_matrix['has_location'] = [1 if len(account2profile[a]['location']) > 0 else 0 for a in accountsID]
accounts_matrix['has_description'] = [1 if account2profile[a]['description'] else 0 for a in accountsID]
accounts_matrix['age'] = [2019 - datetime.strptime(account2profile[a]['created_at'],'%a %b %d %H:%M:%S %z %Y').year for a in accountsID]
accounts_matrix['#_follow'] = [account2profile[a]['followers_count'] for a in accountsID]
accounts_matrix['#_friend'] = [account2profile[a]['friends_count'] for a in accountsID]
accounts_matrix['ratio_follow_friend'] = [account2profile[a]['followers_count']/(account2profile[a]['friends_count']+1) for a in accountsID]
accounts_matrix['freq_favorite'] = [account2profile[a]['favourites_count']/(2019 - datetime.strptime(account2profile[a]['created_at'],'%a %b %d %H:%M:%S %z %Y').year) for a in accountsID]
accounts_matrix['freq_production'] = [account2profile[a]['statuses_count']/(2019 - datetime.strptime(account2profile[a]['created_at'],'%a %b %d %H:%M:%S %z %Y').year) for a in accountsID]

In [14]:
accounts_matrix

### Feature dalla timeline dell'account

Creazione delle feature sfruttando i contenuti consumati e prodotti.

In particolare vediamo come inizialmente aggiungere al DataFrame una colonna di tipo non numerico che contiene una stringa:
- per ogni account abbiamo estratto una lista di oggetti Tweet con le relative **entities**;
- da ogni tweet estraiamo gli hashtag utilizzati - gli hashtag sono un caso specifico di **entity**.
- per ogni utente creiamo una stringa concatenando tutti gli hashtag utilizzati - separati da whitespace.

Nel caso di account senza tweet o di account sospeso, restituiremo una stringa vuota.

In [None]:
'-'.join(['ciao','bello','come','stai'])

In [None]:
def doc_from_content(tweets):
    hashtags = []
    for tweet in tweets:
        for hashtag_obj in tweet.get('entities',{}).get('hashtags',[]):
            hashtags.append(hashtag_obj['tag'])
    return ' '.join(hashtags)

IndentationError: expected an indented block (2016181290.py, line 6)

In [None]:
doc_from_content(account2timeline[ID_account_test])

In [None]:
accounts_matrix['doc'] = [doc_from_content(account2timeline[a]) if a in account2timeline else '' for a in accountsID]

Infine inseriamo una colonna delle etichette.

In [None]:
accounts_matrix['label'] = [account2label[a] for a in accountsID]

In [None]:
accounts_matrix

Dimensione della feature matrix originale.

In [None]:
accounts_matrix.shape

(693, 11)

Dobbiamo, però eliminare le righe corrispondenti ad account caratterizzati dal campo 'doc' vuoto.

In questo caso selezioniamo le righe che hanno il campo 'doc' diverso dalla stringa vuota.

In [None]:
accounts_matrix = accounts_matrix[accounts_matrix['doc'] != '']

In [None]:
accounts_matrix.shape

(584, 13)

Infine, prima di eseguire la fase di classificazione, estraiamo la colonna delle etichette e rimuoviamo la colonna dal dataframe che utilizzeremo per addestrare il classificatore.

In [None]:
labels = accounts_matrix['label']
accounts_matrix.drop('label', axis=1, inplace=True)

In [None]:
labels.shape, accounts_matrix.shape

((693,), (693, 11))

## Pre-processing per la classificazione


Riportando il problema della bot detection in una problema di classificazione binaria, stiamo cercando di apprendere una funzione $f:\mathcal{R}^n \rightarrow [0,1]$ tale per cui se un account è un bot viene restituito 1, altrimenti 0.

Prima di procedere alla fase di training, dobbiamo applicare una serie di trasformazioni alle colonne del DataFrame in modo da 'facilitare' il processo di training da un lato, e trasformare le informazioni non numeriche - colonna 'doc' - in informazioni numeriche, dall'altro lato. 

Per raggiungere questo obiettivo, utilizziamo un oggetto di tipo **ColumnTransformer**. Questo oggetto permette di descrivere le trasformazioni che devono essere applicate a ciascuna colonna, mediante una sintassi dichiarativa.

Per ragioni prettamente dimostrative applichiamo alle feature numeriche due tipi diversi di standardizzazione, mentre per la colonna testuale, applichiamo una pipeline di trasformazioni in modo da ottenere una descrizione vettoriale dell'insieme dei documenti derivati dai tweet.

In [None]:
dataframe_tf = ColumnTransformer([
        ('numerical_minmax', MinMaxScaler(), ['age','distance_name_screename']),
        ('numerical_standard', StandardScaler(), ['name_length','screen_name_length','ratio_follow_friend']),
        ('numerical_change_distro', PowerTransformer(), ['freq_favorite','freq_production','#_follow','#_friend'])
    ],
    remainder='passthrough'
)

Di seguito possiamo vedere la struttura dell'intera fase di pre-processing.

In [None]:
dataframe_tf

In [None]:
dataframe_tf.fit_transform(accounts_matrix).shape

(693, 11)

## Classificazione

Possiamo procedere ora con la fase di training, introducendo un ulteriore elemento dato dall'oggetto **Pipeline** che ci permette di integrare la fase di training insieme alla fase di pre-processing, in modo tale da avere un unico oggetto che descrive l'intero processo utilizzato per apprendere la funzione $f$ partendo dalla matrice delle feature originale.

Definiamo per prima cosa sempre il training e test set, ponendo nel test set circa il 20% delle istanze.

In [None]:
X_train,X_test,y_train,y_test = # TODO

Notiamo come in questo caso, `X_train` e `X_test` siano `DataFrame`.

Mediante l'oggetto Pipeline possiamo mettere in sequenza la fase di pre-processing e il training del classificatore. Anche in questo caso viene utilizzato una sintassi dichiarativa in cui si specificano il nome della fase e l'oggetto che è destinato a gestire la fase.

In [None]:
bot_detector = Pipeline([
    ('preprocessing', dataframe_tf),
    ('classifier', LogisticRegression(penalty='none'))
])

In [None]:
bot_detector

Possiamo quindi procedere alla fase di "fitting" che prevede sia il processo di fit e trasform di ogni *Transformer* all'interno del ColumnTransformer di preprocessing, sia la fase di training applicata alla matrice di training preprocessata. 

Tutti i fitting vengono eseguiti una volta invocato il metodo **fit**.

In [None]:
bot_detector.fit(X_train, y_train)

Una volta addestrato il classificatore e stimati i parametri dei vari transformer possiamo invocare il metodo `predict` sul test set per valutare poi le performance della pipeline. 

Va notato come il test originale venga automaticamente trasformato dall'oggetto deputato al pre-processing con i parametri stimati nella fase di fitting.

In [None]:
y_predicted = bot_detector.predict(X_test)

In [None]:
y_predicted[:10]

array([0, 0, 0, 1, 1, 0, 0, 0, 1, 1])

## Valutazione delle performance del classificatore appreso

Una volta che un modello o alcuni modelli sono stati addestrati, come possiamo valutarne le prestazioni? Introduciamo alcune misure di performance, valutando quanto sia buono il nostro modello nel risolvere il compito.

![](slides/perf_1.png)
![](slides/perf_2.png)
![](slides/perf_3.png)
![](slides/perf_4.png)
![](slides/perf_5.png)
![](slides/perf_6.png)
![](slides/perf_7.png)

### Confusion matrix

In [None]:
conf_matrix = confusion_matrix(y_train, y_train_predicted)
ConfusionMatrixDisplay.from_predictions(y_train, y_train_predicted, cmap=plt.cm.Blues)

### Accuracy

In [None]:
accuracy_score(y_test, y_predicted), recall_score(y_test, y_predicted), precision_score(y_test, y_predicted), f1_score(y_test, y_predicted)

(0.7913669064748201,
 0.7123287671232876,
 0.8666666666666667,
 0.7819548872180451)

### Recall

### Precision

### F1-score

### Trade-off Precision/Recall
In gran parte degli algoritmi di apprendimento per compiti di classificazione, lo step di predizione si ottiene applicando una funzione di soglia o **decision function** a valori continui - allo **score**. Pertanto, se lo score è maggiore di una soglia,si assegna l'istanza alla classe positiva, viceversa se è al di sotto della soglia l'istanza viene assegnata alla classe negativa.

![](slides/perf_8.png)

Ora, anziché chiamare il solito metodo `predict`, vorremmo accedere allo score. In SKLearn, il punteggio viene restituito dal metodo `decision_function`. Accedere allo score è l'unico modo in SKLearn per giocare con la soglia, poiché la sua impostazione non è consentita.

Possiamo ottenere tutti gli score delle istanze del training set

In [None]:
# TODO

Dati gli score, possiamo cambiare la soglia e ottenere diverse previsioni rispetto al comportamento predefinito in SKLearn.

Ad esempio, spostiamo la soglia da 0 a 3 e verifichiamo quante istanze positive vengono restituite dopo averla cambiata.

Per decidere quale soglia utilizzare, otteniamo gli score e utilizziamo la funzione `precision_recall_curve` per calcolare la precision e la recall per tutte le soglie possibili. Il metodo calcola automaticamente la precision e la recall variando il valore della soglia. Per ciascun valore della soglia, restituisce la sua precision e recall. La funzione **richiede le etichette** e **gli score** per calcolare la matrice di confusione per ciascun valore della soglia.

Ora possiamo visualizzare il grafico delle due misure in funzione della soglia.

In [None]:
fig = plt.figure(figsize=(10, 4))
ax = fig.add_subplot()
ax.plot(thresholds, precisions[:-1], "b--", label="Precision", lw=2)
ax.plot(thresholds, recalls[:-1], "g-", label="Recall", lw=2)
ax.vlines(threshold, 0, 1.0, "k", "dotted", label="threshold")

idx = (thresholds >= threshold).argmax()  # first index ≥ threshold
plt.plot(thresholds[idx], precisions[idx], "bo")
plt.plot(thresholds[idx], recalls[idx], "go")
plt.grid()
ax.set_xlabel("Threshold")
ax.set_xlim((-30,15))
plt.legend(loc="center right")
plt.show()

Un altro modo per selezionare un buon compromesso tra precisione e richiamo è tracciare direttamente la precisione rispetto al richiamo.

In pratica, abbiamo tutti gli elementi per tracciare questo grafico.

In [None]:
fig = plt.figure(figsize=(6, 6))
ax = fig.add_subplot()
ax.plot(recalls, precisions, lw=2, label="Precision/Recall curve")
# Print the precision,recall point corresponding to the threshold we selected
ax.plot([recalls[idx], recalls[idx]], [0., precisions[idx]], "k:")
ax.plot([0.0, recalls[idx]], [precisions[idx], precisions[idx]], "k:")
ax.plot([recalls[idx]], [precisions[idx]], "ko",
         label="Point at threshold 3")
ax.set_xlabel("Recall")
ax.set_ylabel("Precision")
ax.axis([0, 1, 0, 1])
ax.legend(loc="lower left")

Possiamo sfruttare la curva precision/recall per cercare il valore più basso della soglia che garantisce una precisione uguale a un valore obiettivo.

Proviamo con una precision pari a 0,9.

### ROC - receiver operating curve - e AuC - area under the ROC

**ROC** (Receiver Operating Characteristic) è uno strumento comune per la classificazione binaria. Traccia la recall in funzione del tasso di falsi positivi **FPR** - false positive rate.

In SKLearn ottenere la ROC è semplice poiché abbiamo la funzione `roc_curve`, che agisce in modo simile alla funzione `precision_recall_curve`.

Come fatto in precedenza possiamo generare il grafico relativo dove la recall è funzione di FPR.

In [None]:
fig = plt.figure(figsize=(6, 5))  # extra code – not needed, just formatting
ax = fig.add_subplot()
ax.plot(fprs, recalls, linewidth=2, label="ROC curve")
ax.plot([0, 1], [0, 1], 'k:', label="Random classifier's ROC curve")
ax.set_xlabel('False Positive Rate - FPR')
ax.set_ylabel('Recall')
ax.axis([0, 1, 0, 1])
ax.legend(loc="lower right", fontsize=13)

Possiamo sfruttare ulteriormente le misure precedenti. Infatti, un classificatore perfetto è caratterizzato da una curva ROC simile a una funzione a gradino vicino all'angolo in alto a sinistra. L'area sotto questa specifica curva è 1. Al contrario, come mostrato nella figura, un classificatore casuale è caratterizzato da una curva ROC simile a una linea retta da (0,0) a (1,1), la cui area è 0.5. Questo suggerisce che l'area della regione sotto la curva ROC possa riassumere la bontà di un classificatore.

Questo è ciò che misura l'**area sotto la curva ROC** - **AuC**. Quindi i valori prossimi a 1 indicano prestazioni eccellenti, mentre i valori al di sotto di 0.5 indicano delle pessime performance in classificazione.

In SKLearn l'AuC è calcolata dal metodo `roc_auc_score` nel modulo `sklearn.metric`.

In questo caso siamo in presenza di overfitting, infatti il classificatore mostra alcuni problemi di generalizzabilità del modello appreso. Nel caso del training set, il modello è perfetto in quanto in grado di discriminare perfettamente tra bot e human account, mentre applicando lo stesso modello al test set otteniamo delle performance decisamente inferiori.

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=620f7614-b68e-4f43-81d6-031f9c883b1e' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>