In [1]:
from datetime import datetime
from collections import Counter

# Data management
import pandas as pd

# Data preprocessing and trasformation (ETL)
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import SimpleImputer, IterativeImputer
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler, MaxAbsScaler, FunctionTransformer, Binarizer, OneHotEncoder, OrdinalEncoder
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.datasets import fetch_openml, load_iris, make_moons, make_classification


# Math and Stat modules
import numpy as np
from scipy.stats import sem
from random import choice

# Supervised Learning
from sklearn.model_selection import train_test_split, cross_val_score, cross_val_predict, KFold, StratifiedKFold, RepeatedKFold, ShuffleSplit, StratifiedShuffleSplit, learning_curve, validation_curve
from sklearn.linear_model import Perceptron, LogisticRegression
from sklearn.base import BaseEstimator
from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score, precision_recall_curve, roc_curve, accuracy_score
from sklearn.dummy import DummyClassifier
from sklearn.multiclass import OneVsOneClassifier, OneVsRestClassifier
from sklearn.ensemble import RandomForestClassifier

# Unsupervised Learning

# Visualization
import matplotlib.pyplot as plt
import matplotlib as mpl
%matplotlib inline

# Network
import networkx as nx

# Link Prediction nelle Online Social Networks
Le Online Social Networks - OSN - sono reti dinamiche dal momento che archi (relazione di amicizia o di follow) e nodi (account) vengono continuamente aggiunti e/o rimossi. 

In questo contesto vogliano predirre la probabilita' di una futura formazione di un link tra due nodi dato che al momento della predizione i due nodi non sono connessi = **Problema di link prediction**. Affronteremo questo problema modellandolo come un problema di classificazione e di consequenza applicheremo alcuni algoritmi di apprendimento automatico tipici del machine learning.

**Definizione**:
Dato una rete social $G=(V,E)$ a cui associo un timestamp ad ogni arco $e$, si definisce il sottografo $G[t,t']$ formato dagli archi il cui timestamp e' compreso tra $t$ e $t'$. Dato $G[t_0,t'_0]$ il task di link prediction prevede che venga restituito un insieme di archi non presenti in $G[t_0,t'_0]$ ma che potrebbero essere presenti in $G[t_1,t'_1]$ dove $t'_0 < t_1$.

Il problema puo' essere modellato come un problema di classificazione supervisionata dove ogni punto corrisponde ad una coppia di nodi presenti nella rete sociale. Essendo una problema di classificazione supervisionata, dobbiamo definire un insieme su cui apprendere una funzione guidati dalle etichette associate a vettori - training set - ed un insieme su cui valutare l'efficacia della funzione appressa - test set.

Nel caso di link prediction, il processo di training avviene sui link e sulle informazioni estratti dal grafo $G[t_0,t'_0]$, mentre il processo di testing avviene sul grafo $G[t_1,t'_1]$. In questo scenario, assumendo $u,v \in V$, definiamo la funzione di labelling:

![](label_function.png)

Il modello di classificazione deve assegnare un'eticetta ad una coppia proposta $(u',v')$, la quale indica se la coppia sara' connessa nel grafo $G[t_1,t'_1]$ oppure no.

## Caricamento rete
Un primo problema da affrontare è avere a disposizione una rete **annotata temporalmente**, cioè una rete a cui è associato un istante temporale ad ogni arco.

In questo notebook utilizziamo una sottorete di Facebook del 2009 annotata temporalmente. 

Nello specifico assegnamo ad ogni arco una proprietà chiamata **time**, a cui associamo il momento - timestamp - in cui è stato creato l'arco.

In [2]:
facebook_temporal = nx.Graph()

In [6]:
with open('data/fb-wosn-friends.edges') as f:
        f.readline()
        f.readline()
        for row in f:
            u,v,_,ts = [int(e) for e in row.strip().split()]
            if ts != 0:
                obj_ts = datetime.fromtimestamp(ts)
            else:
                obj_ts = datetime.fromtimestamp(1129788114)
            facebook_temporal.add_edge(u,v, time = obj_ts)
print(facebook_temporal)

Graph with 63731 nodes and 817090 edges


In [7]:
facebook_temporal.order(), facebook_temporal.size()

(63731, 817090)

Solitamente il processo di creazione degli archi non è stabile e può subire delle manifeste fluttuazioni nel tempo. 

Per questo motivo, calcoliamo per ogni anno quante relazioni sono state create.

In [10]:
Counter([info['time'].year for u,v,info in facebook_temporal.edges(data=True)])

Counter({2008: 443792, 2005: 202293, 2007: 139859, 2006: 27222, 2009: 3924})

Identificiamo una data che corrisponde a $t_1$, in modo da avere un discreto numero di archi nel grafo di training. Inoltre definiamo una seconda data che corrisponde a $t'_1$ che non sia troppo distante dalla prima data, in modo tale da ridurre l'impatto della creazione di nuovi nodi nel grafo di testing, non presenti nel grafo di training. 

Uno degli assunti alla base di molti algoritmi di ML è quello che il processo che genera il training set sia lo stesso di quello che genera il test set. Tuttavia, nel nostro caso, durante il periodo considerato per la costruzione del test, vengono inseriti nuovi nodi che si possono comportare diversamente rispetto ai nodi del periodo precedente. Riducendo il periodo di testing dovremmo ridurre l'effetto di questi nodi sul processo di creazione dei link (si spera :-) ).

In [11]:
data_soglia, data_soglia_finale = datetime(2008,6,1), datetime(2008,10,1)

## Sottografo di training, sottografo di testing
Costruiamo i due grafi di training $G_0$ e di testing $G_1$. Nello specifico:
- $t_0$: prima data disponibile del 2004
- $t_0'$: 01/06/2008
- $t_1$: 01/06/2008
- $t_1'$: 01/10/2008

In [13]:
facebook_training, facebook_testing = nx.Graph(), nx.Graph()

for u,v,info in facebook_temporal.edges(data=True):
    if info['time'] < data_soglia:
        facebook_training.add_edge(u,v)
    elif info['time'] < data_soglia_finale:
        facebook_testing.add_edge(u,v)        

In [14]:
facebook_testing.size(), facebook_training.size()

(158361, 475483)

# Costruzione datapoint
Al fine di riportarci in un setting di classificazione supervisionata binaria, identifichiamo quali sono i nostri datapoint da cui estrarremo della  feature o caratteristiche.

In effetti, il framework classico prevede che ogni istanze/record/entità che vogliamo classificare sia rappresentato da un vettore di dimensione $k$, dove $k_i$ indica il valore della proprietà/feature $i$-esima che caratterizza l'oggetto associato al vettore. 

Nel nostro caso, le istanze oggetto della classificazione sono le coppie di nodi $u,v\in G_0$. A queste coppie associamo l'etichetta 0 se in $G_1$ non si è formata una relazione tra loro, mentre nel caso si sia formata una relazione in $G_1$, assegnamo l'etichetta 1. 

In [15]:
list_edges = np.array([{u,v} for u,v in facebook_testing.edges()])

### Costruzione dei data point positivi - label 1

Prima estraiamo della coppie di nodi connesse in $G_1$, i cui estremi siano presenti in $G_0$. Queste coppie rappresentano i datapoint a cui assegneremo un'etichetta positiva (1). Per costruzione siamo sicuri che in $G_0$ gli elementi della coppia connessa non erano connessi, altrimenti l'arco sarebbe stato inserito in $G_0$ e non in $G_1$.

In [21]:
positive_datapoints = np.random.choice(list_edges, replace=False, size=12000)
positive_datapoints

array([{24394, 28300}, {32904, 36098}, {437, 7510}, ..., {7674, 8892},
       {10913, 11028}, {18178, 14138}], dtype=object)

In [22]:
positive_datapoints = [(u,v) for u,v in positive_datapoints if facebook_training.has_node(u) and facebook_training.has_node(v)]

Otteniamo

In [24]:
len(positive_datapoints)

10702

oggetti classificati con etichetta 1.

### Costruzione dei data point negativi - label 0
Per ottenere un numero uguale di oggetti con etichetta 0, estraiamo delle coppie non connesse in $G_1$ che non erano connesse neanche in $G_0$. Queste coppie rappresentano i datapoint negativi, a cui assegniamo etichetta '0'. Identifichiamo, quindi, quelle coppie che non generano link/collegamenti.

In [25]:
negative_datapoints = []
nodes_set = list(facebook_testing.nodes())
count = 0

while count < len(positive_datapoints):    #cosi, alla fine, il numero di istanze positive sarà uguale a quello delle istanze negative
    if count % 1000 == 0:
        print(count)
    u,v = np.random.choice(nodes_set, replace = False, size = 2)
    if(not facebook_testing.has_edge(u,v) and facebook_training.has_node(u) and facebook_training.has_node(v)):
        negative_datapoints.append((u,v))
        count += 1

0
1000
2000
3000
4000
5000
6000
7000
8000
8000
9000
10000
10000
10000


In [26]:
len(negative_datapoints)

10702

Il processo finora svolta si può visualizzare ed esemplificare nel seguente modo:

![](img/pair_classification.png)

Per "riempire" la tabella dobbiamo trasformare ogni coppia in un vettore, in particolare per ogni coppia calcoliamo una serie di proprietà nominate con $P_i$ utili alla soluzione del task.

Per calcolare tali proprietà sfruttiamo il modulo di **link prediction** di NetworkX. 

Operativamente utilizzeremo il modulo pandas, che vi permette di creare una tabella simile a quella mostrata nell'esempio precedente. La tabella viene modellata dall'oggetto **DataFrame**.

In [27]:
dataset_link_prediction = pd.DataFrame() # una tabella vuota

In [28]:
datapoints = positive_datapoints + negative_datapoints # insieme degli oggetti di cui necessito calcolare delle proprietà

In [30]:
datapoints[:10]

[(32904, 36098),
 (437, 7510),
 (28234, 47789),
 (48971, 6983),
 (8761, 2982),
 (12674, 6709),
 (33981, 35215),
 (21162, 957),
 (14355, 14363),
 (28414, 37406)]

Data una coppia (u,v) ne calcoliamo il Jaccard Coefficient utilizzando il grafo $G_0$.

In [18]:
dataset_link_prediction['jaccard'] = [

In [19]:
dataset_link_prediction

Unnamed: 0,jaccard
0,0.000000
1,0.000000
2,0.080357
3,0.018868
4,0.000000
...,...
21465,0.000000
21466,0.000000
21467,0.000000
21468,0.000000


Data una coppia (u,v) ne calcoliamo il *Resource Allocation Index*, definito come:

$\sum_{w\in\Gamma(u)\cap\Gamma(v)}\frac{1}{|\Gamma(w)|}$

In [20]:
dataset_link_prediction['rai'] = 

Data una coppia (u,v) ne calcoliamo l'*Adamic-Adar Index*, definito come:

$\sum_{w\in\Gamma(u)\cap\Gamma(v)}\frac{1}{log|\Gamma(w)|}$

In [21]:
dataset_link_prediction['aai'] = 

Data una coppia (u,v) ne calcoliamo il *Preferential Attachment Index*, definito come:

$|\Gamma(u)||\Gamma(v)|$

In [22]:
dataset_link_prediction['pref'] = 

Infine inseriamo la colonna delle etichette.

In [27]:
dataset_link_prediction['label'] = [1 for _ in range(len(positive_datapoints))] + [0 for _ in range(len(positive_datapoints))]

In [28]:
dataset_link_prediction

Unnamed: 0,jaccard,rai,aai,pref,label
0,0.000000,0.000000,0.000000,339,1
1,0.000000,0.000000,0.000000,40,1
2,0.080357,0.197731,2.310264,3504,1
3,0.018868,0.008929,0.211932,504,1
4,0.000000,0.000000,0.000000,50,1
...,...,...,...,...,...
21465,0.000000,0.000000,0.000000,13,0
21466,0.000000,0.000000,0.000000,10,0
21467,0.000000,0.000000,0.000000,258,0
21468,0.000000,0.000000,0.000000,9,0


In [None]:
DeepnoteChart(dataset_link_prediction, """{"data":{"name":"placeholder"},"mark":{"type":"point","tooltip":true},"height":220,"$schema":"https://vega.github.io/schema/vega-lite/v4.json","autosize":{"type":"fit"},"encoding":{"x":{"sort":null,"type":"quantitative","field":"jaccard","scale":{"type":"linear","zero":false}},"y":{"sort":null,"type":"quantitative","field":"pref","scale":{"type":"linear","zero":false}},"color":{"sort":null,"type":"quantitative","field":"label","scale":{"type":"linear","zero":false}}}}""")

## Apprendimento supervisionato
Definita la matrice precedente possiamo quasi completamente dimenticarci che i nostri dati provengono da una rete sociale e applicare una classica pipeline di classificazione binaria mediante alcuni algoritmi di ML.

Il nostro obiettivo è, data una matrice in cui ogni riga descrive un oggetto da classificare e data un'etichetta binaria associata ad ogni oggetto, imparare una funzione che assegni ad un oggetto non ancora etichettato, un'etichetta, possibilmente corretta.

Nel resto del notebook utilizzeremo la libreria Scikit-Learn (https://scikit-learn.org) - SKL - in quanto libreria di riferimento per il ML in Python. Oltre ad una vasta gamma di algoritmi di apprendimento, la libreria mette a disposizione molti strumenti di supporto alla creazione di una pipeline completa di ML.

Come primo passo, quando siano in un contesto di apprendimento supervisionato, separiamo la matrice delle feature dal vettore delle etichette.

In [29]:
X = dataset_link_prediction[['jaccard','rai','aai','pref']] #feature matrix
y = dataset_link_prediction['label'] # label

In [30]:
X.shape, y.shape

((21470, 4), (21470,))

### Divisione training and test
Come secondo passo costruiamo un dataset di training e un dataset di test. 

**Il dataset di test NON deve essere utilizzato nella fase di apprendimento.** 

In SKL, il metodo per eseguire la divisione in training and test set e' **train_test_split**. Il metodo ci permette di specificare la percentuale di oggetti da inserire nel test set, mediante il parametro **test_size**.

In [33]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, shuffle=True, random_state=42)

In [34]:
X_train.shape

(15029, 4)

### Feature Scaling
Alcuni algoritmi di apprendimento non gestiscono correttamente feature che hanno range di variazione differenti tra loro. Per questo motivo e' sempre consigliato eseguire uno scaling, in modo da riportare tutte le feature in un range di variazione ridotto. Solitamente i range più utilizzati sono [0,1] oppure centrati attorno allo zero mediante standardizzazione.

In questo caso riportiamo tutte le feature nel range [0,1] mediante min-max scaling.

In [35]:
ct = ColumnTransformer([
    ('minmax',MinMaxScaler(),['jaccard','rai','aai','pref'])
]
)

In [38]:
link_predictor = Pipeline([
    ('preprocessing',ct),
    ('classifier',LogisticRegression(penalty='none'))
]
)

In [None]:
X_train_minmax.shape

(14959, 4)

In [None]:
X_train_minmax

array([[0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 1.85748857e-02],
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 1.18311374e-04],
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 1.15084700e-03],
       ...,
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 8.06668459e-04],
       [4.70852018e-02, 3.92645873e-01, 4.18456624e-01, 1.05286367e-01],
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 2.47378328e-04]])

### Classificazione mediante Logistic Regression

Possiamo ora applicare un algoritmo di apprendimento classico per problemi di classificazione binaria: **Logistic Regression**. L'algoritmo viene implementato in SKL dalla classe *LogisticRegression* del modulo linear_model. 

In SKL tutti i classificatori fanno parte della famiglia dei **Predictor**, ossia oggetti che implementano i metodi **fit** e **predict**. Mediante il primo metodo, il predictor impara la funzione - nel caso di log reg vengono aggiornati i pesi - mentre il secondo metodo assegna le etichette a nuovi oggetti, secondo la funzione imparata durante la fase di **fit**.

Creiamo quindi un oggetto della classe LogisticRegression utilizzando i parametri di default.

In [39]:
link_predictor = Pipeline([
    ('preprocessing',ct),
    ('classifier',LogisticRegression(penalty='none'))
]
)

Procediamo con la fase di apprendimento, utilizzando la matrice delle feature standardizzate.

Ed infine emettiamo le etichette utilizzando come insieme dei nuovi oggetti il test set.

In [40]:
link_predictor.fit(X_train, y_train)

In [42]:
y_predicted = link_predictor.predict(X_test)

In [65]:
accuracy_score(y_test, y_predicted)

0.8290638099673964

In [66]:
f1_score(y_test, y_predicted), recall_score(y_test, y_predicted), precision_score(y_test, y_predicted)

(0.8019427954668105, 0.68711467324291, 0.9628509719222462)

In [55]:
confusion_matrix(y_predicted, y_test)

array([[3111, 1018],
       [  86, 2226]])

#### Il ruolo delle feature

Utilizzando Logistic Regression possiamo accedere ai parametri appresi, in particolare accediamo ai pesi associati alle feature. Mediante l'ispezione dei pesi possiamo "spiegare" quali caratteristiche sono state più utili per migliorare la predizione. 

In sostanza, mediante l'attributo **coef_** otteniamo i pesi e possiamo ordinarli secondo il valore in modo decrescente. Pesi maggiori indicano che le feature associate sono molto importanti durante la predizione, mentre pesi prossimi allo 0 indicano che le feature sonon ininfluenti, ed eventualmente possono essere scartate.

In [50]:
link_predictor['classifier'].coef_

array([[121.51804038,  -0.274651  ,  39.46080493,   2.28227126]])

In questo caso l'indice $i$-esimo corrisponde alla colonna $i$-esima della matrice delle feature.

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=d22b96af-f0d4-4367-9670-c1a9e5dd6f19' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>