In [1]:
import httpx
import networkx as nx
import time
import sqlite3
import pandas as pd
import persistqueue
import json
import time

# Collezionare e costruire una rete di relazioni

In questo notebook definiremo una procedura per il data gathering da un servizio "social" che espone una RESTful API in modo da esplorare la rete della relazioni tra gli elementi della piattaforma, e nello stesso tempo costruire la stessa rete in locale. 

La piattaforma in questione è [OpenAlex](https://docs.openalex.org/) e fornisce un insieme di endpoint che restituiscono gli elementi coinvolti nella pubblicazione di articoli di ricerca. **OpenAlex** è un catalogo globale open access delle pubblicazioni academiche.

Anche in questo caso possiamo evitare l'utilizzo di OAuth2.0 per l'autorizzazione all'accesso alle risorse dal momento che la rete delle relazioni è costruita integrando diversi fonti di dati, non coinvolgendo il proprietario delle risorse.

### Descrizione delle relazioni tra entità in OpenAlex
Le relazioni tra gli elementi supportati dalle API sono visualizzate in figura:

![](entity.png)

Un articolo (`Works`) è prodotto da un insieme di autori (`Author`) ed ogni autore è affiliato, al momento della pubblicazione dell'articolo, ad un'istituzione academica (`Institution`). Un articolo viene pubblicato in giornali, conferenze o altri strumenti di pubblicazione (`Source`). Ogni sorgente di pubblicazione è edita da un editore (`Publisher`).

In questo contesto, il nostro obiettivo è costruitre una rete di almeno 100 nodi/elementi. Ogni nodo corrisponde ad un autore, mentre esiste una connessione tra due nodi autori `A` e `B` se `A` e `B` hanno scritto insieme almeno un articolo, cioè hanno collaborato almeno una volta. Costruiremo, quindi, una rete di collaborazioni: tipo di rete che non riguarda solo l'ambito academico, ma anche il mondo musicale - collaborazione tra artisti nella creazioni di un'opera.

Guidati dal nostro obiettivo identifichiamo gli elementi necessari alla costruzione del grafo. 

- **Author**: La documentazione dell'oggetto `Author` è disponibile [qui](https://docs.openalex.org/api-entities/authors/author-object). Se analizziamo la documentazione non abbiamo accesso diretto alla lista degli autori con coi un singolo autore ha collaborato. Tuttavia, possiamo accedere alla lista dei lavori pubblicati da un autore. Nello specifico, il campo `**works_api_url**` restituisce quale richiesta inviare alle API per ottenere la lista degli articolo pubblicati da un autore.
- **Works**: La documentazione dell'oggetto `Work` è disponibile [qui](https://docs.openalex.org/api-entities/works/work-object). Se analizziamo la documentazione, la risposta delle API restitusice un JSON object. In tale oggetto alla chiave **authorships** è associato una lista di oggetti `Author` da cui è possibile estrarre gli identificativi degli autori.

Esistono delle librerie in Python per interagire con le API di OpenAlex, tuttavia per fini didattici effettueremo le richieste necessarie evitando l'uso di tali librerie, mentre inviaremo le richieste mediante la libreria `httpx`. 

### Ottenere i vicini di un nodo mediante l'esplorazione delle relazioni

Il primo passo da affrontare è la definizione di alcune funzioni accessorie per eseguire le prime richieste alle API ed ottenere le entità coinvolte nelle relazioni.

Nello specifico il nostro primo obiettivo è implementare la funzione `**get_collaborators**` che restituisce gli autori con cui l'autore passato come argomento ha collaborato. La funzione riceve l'`ID` - stringa - dell'autore e restituisce una lista di `ID` corrispondenti ad altri autori.

Il codice della funzione deve contenere la richiesta HTTP verso l'endpoint corretto; si deve quindi **identificare l'endpoint corretto** e i **parametri richiesti per ottenere la risposta attesa**. Poi si deve estrarre dalla risposta l'informazione richiesta, ossia l'`ID` di ogni collaboratore.

<span style="color:red;font-weight:bold;">Suggerimento</span>: per selezionare l'endpoint corretto concentratevi sulla risorsa [`Works`](https://docs.openalex.org/api-entities/works).

<span style="color:red;font-weight:bold;">Suggerimento 2</span>: nel definire la soluzione completa procedete step-by-step, ossia prima effettuare la richiesta e visualizzare la risposta. Poi, in base al formato della risposta, definire come accedere all'`ID` del collaboratore.

In [2]:
seed_author_id = 'A5035471624' # autore esempio

In [3]:
def get_collaborators(id_author):
    url = f'https://api.openalex.org/works?filter=author.id:{id_author}'
    api_result = httpx.get(url).json()
    collaborators = set()
    for work in api_result.get('results', []):
        for authorship in work['authorships']:
            collaborators.add(authorship['author']['id'].split('/')[-1])
    return collaborators

In [4]:
co_authors = list(get_collaborators(seed_author_id))
co_authors[:5]

['A5002691060', 'A5072973405', 'A5018462865', 'A5022672030', 'A5049635189']

### Esplorare la rete delle relazioni

A questo punto, dato un autore possiamo identificare facilmente i suoi collaboratori, ed in generale **dato un nodo sappiamo identificare i suoi vicini**. 

Il prossimo passo è implementare una **visita** della rete di collaborazione tra autori. In particolare effettueremo una **visita in ampiezza** della rete. Tale visita viene solitamente implementata per effettuare quello che viene definito come **snowball sampling** - campionamento a fiocco di neve - ed è descritta dal seguente pseudo-codice.
```python
# Input: nodo R o insieme di nodi
coda = [R]
while coda: # finchè la coda non è vuota
    vertice = coda.pop(0) # operazione di dequeue
    vertice.visitato = True # etichetto come `visitato` il nodo selezionato
    for adiacente in vertice.adiacenti: # esploro i vicini del nodo
        if not adiacente.visitato: 
            coda.append(adiacente)
```

La seguente figura descrive il processo di visita, che corrisponde lo stesso processo implementato da un crawler minimale. Rispetto allo pseudo-codice nella coda vengono inserite delle coppie `(nodo, distanza dal seed)` che permettono di troncare la visita in ampiezza ad una specifica distanza dai nodi seed. Inoltre, non essendo possibile etichettare i nodi di una piattaforma social con l'etichetta `visitato`, dobbiamo utilizzare un set per indicare quali nodi siano stati visitati.
![](surf_1.png)
![](surf_2.png)

#### Object Oriented Programming - OOP - in Python

Il concetto di classe in Python è fondamentale per la programmazione orientata agli oggetti (OOP). Una classe funge da modello per la creazione di oggetti (istanze), che possono avere proprietà - **attributi** - e comportamenti - **metodi**. 

Ecco una breve introduzione su come definire una classe in Python e i suoi elementi principali:

##### Definizione di una Classe

In Python, una classe viene definita utilizzando la parola chiave `class`, seguita dal nome della classe e due punti. Il nome della classe solitamente inizia con una lettera maiuscola per convenzione.

```python
class <nome_classe>:
    # corpo della classe
```

##### Attributi
Gli attributi sono variabili associate a una classe. Possono essere definiti a livello di classe (attributi di classe) o a livello di istanza (attributi di istanza).

- **Attributi di Classe**: attributi *condivisi* tra tutte le istanze della classe.
- **Attributi di Istanza**: attributi *unici* per ogni istanza della classe.

``` python
class Auto:
    ruote = 4  # Attributo di classe

    def __init__(self, marca, modello):
        self.marca = marca  # Attributo di istanza
        self.modello = modello  # Attributo di istanza
```
In questo caso abbiamo definito una classe `Auto`. Ogni auto, per definizione ha 4 ruote, quindi il numero di ruote è un attributo condiviso o di classe, mentre ogni istanza di `Auto`, nella realtà ogni auto prodotta, è caratterizzata da una specifica marca e da un modello.

In Python, il costruttore di un oggetto viene definito utilizzando il metodo speciale `__init__`. Questo metodo viene chiamato automaticamente quando si crea una nuova istanza di una classe. Il suo scopo principale è inizializzare gli attributi dell'oggetto con valori specificati al momento della creazione dell'istanza. Nel nostro caso creiamo un oggetto `Auto` con marca e modello specificato al momento della costruzione.

##### Metodi
I metodi sono funzioni definite all'interno di una classe. Possono operare sugli attributi degli oggetti. Il primo parametro di un metodo è `self`, che rappresenta l'istanza dell'oggetto che utilizzerà il metodo.

```python
class Auto:
    def __init__(self, marca, modello):
        self.marca = marca
        self.modello = modello
    
    def visualizza_info(self):  # Metodo
        return f"Marca: {self.marca}, Modello: {self.modello}"
```

Ogni istanza di `Auto` può restituire una sua descrizione in formato stringa mediante il metodo `visualizza_info`.

In [5]:
class Auto:
    ruote = 4
    
    def __init__(self,marca, modello):
        self.marca = marca
        self.modello = modello
        
    def visualizza_auto(self):
        return f'Marca: {self.marca} - Modello: {self.modello} - Numero di ruote: {self.__class__.ruote}'

Nella definizione del metodo `visualizza_auto` per poter accedere all'informazione associata all'attributo di classe `ruote` ho applicato la seconda delle strategie per accedere agli attributi di classe:

- `<nome_classe>.<nome_attributo>`:
  ``` python
  Auto.ruote 
  ```
- accedere all'attributo `__class__` che ogni oggetto creato possiede e che fa riferimento alla classe che lo ha generato ed accedere successivamente all'attributo `ruote`
  ``` python
  self.__clas__.ruote
  ```

In [6]:
mia_auto = Auto('Opel','GranlandX')
mia_auto.visualizza_auto()

'Marca: Opel - Modello: GranlandX - Numero di ruote: 4'

Quando invochiamo il metodo non è necessario definire il parametro `self` visto che esso corrisponde all'oggetto che sta invocando il metodo. Possiamo pensare che venga assegnato l'oggetto referenziato dalla variabile `mia_auto` al parametro `self`.

Questa breve introduzione dovrebbe darti un'idea di base su come definire e utilizzare classi in Python. Con le classi, puoi organizzare il tuo codice in modo più modulare e riutilizzabile, sfruttando i principi della programmazione orientata agli oggetti.

#### Implementare il crawler in OOP

Utilizzando i concetti appena introdotti circa la programmazione ad oggetti in Python, ora implementeremo un semplice crawler basato sulla visita in ampiezza precedentemente definita. Il crawler è specifico per le API di OpenAlex ma può essere facilmente adattato per altre API.

##### Definire il costruttore del crawler
Solitamente nel metodo di inizializzazione di un oggetto vengono definiti degli attributi essenziali per caratterizzare un oggetto. Nel caso del crawler questi attributi sono:
- **queue**: la coda che contiene inizialmente il nodo di partenza `seed` (<img src="sid.jpeg" width="75" height="auto">)
- **visited**: un `set` - insieme - che contiente i nodi visitati dal crawler. Inizialmente vuoto.
- **threshold**: un intero che definisce quanto mi devo espandere dal/i nodo/i iniziale/i, ossia a che distanza dal nodo devo fermare la mia visita
- **base_url**: un URL - stringa - che definisce il percorso delle API della piattaforma che fornisce le API. Questo è un **attributo di classe**.

I parametri richiesti dal costruttore sono:
- una stringa corrispondente all'`ID` del nodo `seed` in OpenAlex - un autore di partenza
- il valore di soglia per troncare la visita in ampiezza.

Nello specifico `queue` - la coda - è una lista che inizialmente contiene la tupla `(seed,0)`, mentre `visited` è un set che contiene solo il nodo `seed`.

Date queste informazioni definiamo classe `OpenAlexSurfer` e il costruttore `__init__`.

In [15]:
class OpenAlexSurfer():
    base_url = 'https://api.openalex.org'  #così ho una soluzione sufficientemente generale
    
    def __init__(self, seed, threshold = 2):
        self.queue = {(seed,0)}
        self.visited = {seed}
        self.threshold = threshold

    def _get_collaborators(self, id_author):
        url = self.__class__.base_url + f'/works?filter=author.id:{id_author}'
        api_result = httpx.get(url)
        time.sleep(0.5)
        collaborators = set()
        try:
            api_response = api_result.json()
            for work in api_result.get('results', []):
                for authorship in work['authorships']:
                    collaborators.add(authorship['author']['id'].split('/')[-1])
            collaborators.remove(id_author)
        except:
            print(api_result.text)
        return collaborators
    
    def _visit(self):
        while self.queue:
            n,l = self.queue.pop()
            if l+1 <= self.threshold:
                for vicino in self._get_collaborators(n): 
                    if vicino not in self.visited:
                        self.visited.add(vicino)
                        self.queue.append({vicino,l+1})
                    yield (n,vicino)                
        #print(self.visited)

In [11]:
surfer = OpenAlexSurfer(seed_author_id)
surfer._get_collaborators(seed_author_id)

<generator object OpenAlexSurfer._visit at 0x000002947B578A40>

##### Metodo di supporto per ottenere i collaboratori
Introduciamo il primo metodo nella classe `OpenAlexSurfer`: `_get_collaborators`. L'implementazione del metodo è sostanzialmente la stessa della funzione **get_collaborators** che abbiamo implementato in precedenza. Dobbiamo però renderla un metodo di un oggetto e non più una funzione a se stante.

Le principali modifiche riguardano:
- la creazione dell'url per la richiesta alle API
- l'introduzione di una breve pausa in modo da non sovracaricare il server delle API, e.g.
  ``` python
  time.sleep(0.5)
  ```
- la gestione di possibili errori di rete o di accesso alle informazioni mancanti, e.g. alcuni campi/chiavi potrebbero non esistere.

Per affrontare l'ultimo punto è utile sapere che Python ha un costrutto specifico per la gestione degli errori/eccezioni molto simile a Java:
``` python
try:
    <blocco di codice generante eccezioni>
except:
    <codice di gestione delle eccezioni>
```

Il template precedente è la maniera più dozzinale per gestire le eccezioni, ma è sufficiente la precedente struttura per evitare terminazione del codice a causa di eccezioni.

Implementiamo il metodo `_get_collaborators` tenendo in considerazione le precedenti indicazioni. Si deve modificare la cella di codice precedente visto che il metodo deve essere inserito nel blocco di codice della classe relativa.

##### Implementazione della visita
Come ultimo metodo da implementare ci rimane solo la codifica della visita in ampiezza. Il metodo che implementa la visita lo nominiamo `visit`. Sostanzialmente è la traduzione in Python dello pseudo-codice della visita in ampiezza con l'aggiunta del controllo della distanza del nodo prelevato dalla coda dalla sorgente. Se la distanza è maggiore della soglia allora non procedo con l'ispezione del vicinato del nodo.

Nella prima versione dell'implementazione il metodo `visit` restituisce una lista di archi rappresentati come tuple `(id_nodo_sorgente, id_nodo_destinazione)`. Poi vedremo che non farci restituire una lista ma **emettere** un arco non appena lo visitiamo.

<span style="color:red;font-weight:bold;">Suggerimento</span>: la parte di pseudocodice `vertice.adiacenti` va sostituita con il metodo che restituisce i collaboratori di un nodo-autore.

#### Costruzione della rete delle collaborazione mediante il crawler implementato

Una volta definita la classe `OpenAlexSurfer`, ed in generale la classe che implementa il crawler della piattaforma da cui ho la necessità di costruire una rete di relazioni, è sufficiente costruire l'oggetto ed eseguire il metodo `visit`.

Eseguire la visita della rete di collaborazioni, utilizzando il nodo `seed_author_id` come seed e un valore di soglia pari a `2`. Una volta terminata la visita, possiamo costruire il grafo utilizzando `networkx`, eliminare i nodi con grado pari a 1 ed esportare la rete ottenuta nel formato GEXF per una visualizzazione migliore.

In [17]:
surfer2 = OpenAlexSurfer(seed_author_id)
g = nx.Graph()
for source, destination in surfer2._visit():
    g.add_edge(source, destination)
print(g.order(), g.size())


0 0


### Persistenza dello stato della visita 
**Importante per il progetto ma opzionale per il laboratorio**

La soluzione implementata non garantisce la persistenza delle informazioni/relazioni ottenute mediante il processo di visita. Banalmente, se durante il processo avviene un errore/evento che determina l'interruzione del codice, tutte le informazioni o parte di esse vengono perse, ed è necessario ripetere la visita dall'inizio (perdita di tempo e risorse). 

Per ovviare a questo problema, di seguito mostreremo una seconda soluzione che impiega un database relazionale SQL al fine di garantire la persistenza dei dati associati al processo di visita. 

In Python possiamo utilizzare nativamente `SQLite`, un semplice DB relazionale che è utilizzabile nativamente, senza richiedere ulteriori installazioni o DB terzi. L'interazione con questo DB è supportata dal modulo `sqlite3` - default nella distribuzione Python, non necessita di essere installato.

Mediante il modulo possiamo aprire una connessione ad un DB relazionale e utilizzare il linguaggio SQL per creare ed interrogare le tabelle che verranno utilizzate per supportare:
- l'insieme dei nodi visitati
- la coda dei nodi da esplorare

Una rappresentazione grafica del contesto e della soluzione è presentata nella seguente figura.

![](persistency.jpg)

Sfruttando il paradigma OOP, non è necessario conoscere SQL per interagire con gli oggetti che garantiscono la persistenza dei dati, bensi è utile sapere solo i metodi che mettono a disposizione gli oggetti `SQLiteSet` - un insieme implementato mediante una tabella di un DB relazionale - e `SQLiteQueue` - una coda implementata mediante un DB relazionale.

Nel secondo caso possiamo utilizzare la classe `persistqueue.SQLiteQueue` rilasciata nella libreria `persistqueue` che dobbiamo installare mediante
``` bash
pip install persist-queue
```
mentre per la classe `SQLiteSet` utilizzeremo la seguente implementazione.

In [None]:
class SQLiteSet(object):
    _TABLE_NAME = 'member'
    _SQL_CREATE = (
        'CREATE TABLE IF NOT EXISTS {table_name} ('
        'element TEXT PRIMARY KEY)'
    )
    # SQL to insert a record
    _SQL_INSERT = 'INSERT INTO {table_name} (element) VALUES (?)'
    # SQL to select a record
    _SQL_SELECT_ID = (
        'SELECT element FROM {table_name} WHERE'
        ' element = "{node_id}"'
    )
    _SQL_DELETE = 'DELETE FROM {table_name}'
    def __init__(self,path):
        self.db_connect = sqlite3.connect(path) 
        self.db_connect.execute(self._SQL_CREATE.format(table_name = self._TABLE_NAME))

    def clear(self):
        with self.db_connect:
            self.db_connect.execute(self._SQL_DELETE.format(table_name = self._TABLE_NAME))

    def add(self, node_id):
        with self.db_connect:
            try:
                self.db_connect.execute(self._SQL_INSERT.format(table_name = self._TABLE_NAME),(node_id,))
            except:
                return None

    def contains(self,node_id):
        with self.db_connect:
            res = list(self.db_connect.execute(self._SQL_SELECT_ID.format(table_name = self._TABLE_NAME, node_id = node_id)))
            return len(res) > 0


Notiamo che i metodi delle precedenti classi sono molto simili ai metodi di data-type che abbiamo utilizzato nell'implementazione non persistente:
- `queue.pop` <--> `SQLiteQueue.get`
- `queue.append` <--> `SQLiteQueue.put`
- `visited.add` <--> `SQLiteSet.add`

Mentre dovremo modificare in modo più evidente l'inizializzazione della classe. 

Di seguito trovate l'implementazione del crawler per OpenAlex che utilizza strutture dati persistenti. Questa funzionalità ci permette di interrompere il processo di visita e riprenderlo in seguito partendo dallo stato della visita al momento dell'interruzione. 

In [None]:
class OpenAlexSurferPersistent():

    base_url = 'https://api.openalex.org/'
    
    def __init__(self, seed, threshold = 2, reset=True):
        self.queue = persistqueue.SQLiteQueue('.', auto_commit=True, db_file_name='surfer.db')
        self.visited = SQLiteSet('surfer.db')
        if reset:
            self.visited.clear()
            self.empty_queue()
            self.queue.put((seed,0))
        self.threshold = threshold
        self.base_url = '

    def empty_queue(self):
        while not self.queue.empty():
            self.queue.get()

    def _get_collaborators(self,author_id):
        url = self.base_url + f'works?filter=author.id:{author_id}'
        api_response = requests.get(url)
        time.sleep(0.5)
        try:
            api_response = api_response.json()
            collaborators = set()
            for pub in api_response.get('results',[]):
                for author in pub['authorships']:
                    collaborators.add(author['author']['id'].split('/')[-1])
            return collaborators
        except:
            print(api_response.text)
            return []

    def visit(self):
        while self.queue:
            n, l = self.queue.get()
            if l + 1 <= self.threshold:
                for neigh in self._get_collaborators(n):
                    if not self.visited.contains(neigh):
                        self.visited.add(neigh)
                        self.queue.put((neigh,l+1))
                    yield (n,neigh)

In [None]:
con = sqlite3.connect('surfer.db')
df = pd.read_sql_query("SELECT * FROM member", con)
df

In [None]:
surfer = OpenAlexSurferPersistent(seed_author_id)
g = nx.Graph()
for a,b in surfer.visit():
    g.add_edge(a,b)

In [None]:
g.order(), g.size()

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=d10d146a-731d-4690-9842-1c8eb3a54533' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>