In [1]:
import json
import httpx

# YouTube Data API v3 in Python

## Progetto di Social Media Mining

![](fasi_smm_project.png)


Per quanto concerne il punto **1a** - Identificazione del problema - gli approcci che possiamo adottare sono due:

- definizione di un obiettivo ben specifico e definito;
- approccio naive in cui inizio a collezionare un insieme di dati senza un obiettivo specifico e lascio che siano le caratteristiche dei dati collezionati a "suggerire" quale sia l'obiettivo (pesca a strascico).

In entrambi i casi questo punto è strettamente connesso con il punto **3c**, in quanto l'obiettivo determina quali algoritmi utilizzare e viceversa, la mancanza di algoritmi specifici per un determinato problema possono limitare o precludere il raggiungimento dell'obiettivo preposto. 

Per quanto riguarda i **2a** e **3a** cercheremo di compilare un documento che ci permette di specificare tutti gli elementi necessari all'identificazione dei dati utili per l'obiettivo e necessari alla fase di estrazione dei dati stessi secondo i protocolli di accesso al dato previsti dalla/e piattaforma/e utilizzate come fonti di dati.

[**presentazione del template per la redazione del report del lavoro di gruppo**]

## YouTube API

In questo notebook interagiamo con un primo esempio di Social Media API che rappresentano un'eccezione per quanto riguarda i processi di autorizzazione all'accesso alle risorse. Le API utilizzate sono le [**YouTube Data V3 API**](https://developers.google.com/youtube/v3?hl=it).

Molte delle parti descrittive delle API sono una riproduzione della documentazione originale in italiano che possiamo leggere [qui](https://developers.google.com/youtube/v3/getting-started?hl=it) e che consulteremo spesso durante questa esperienza.

## Panoramica dell'API di dati di YouTube 

### Introduzione
Questo documento è destinato agli sviluppatori che desiderano scrivere applicazioni che interagiscano con YouTube e spiega i concetti di base delle YouTube Data API v3. Offre inoltre una panoramica delle diverse funzioni supportate dall'API.

Prima di iniziare si deve:
- disporre di un **Account Google** per accedere alla console API di Google, richiedere una chiave API e registrare la tua applicazione.
- creare un progetto in [**Google Developers Console**](https://console.cloud.google.com/apis/dashboard?hl=it). In questo caso consiglio di chiamare il progetto *Social Media Mining*
- abilitare le **YouTube Data API v3** mediante il menu `API e servizi abilitati`
- ottenere le credenziali di autorizzazione in modo che la tua applicazione possa inviare richieste alle API. Non è necessario utilizzare il flusso OAuth2.0 bensì si deve selezionare l'attivazione di una chiave o `API Key` per poter accedere ai dati pubblici delle API

Salvare la API Key in un file

### Client Python
Le librerie client delle API di Google, disponibili per molti linguaggi di programmazione, possono semplificare notevolmente l'implementazione dell'API di YouTube.

Nel caso del linguaggio Python viene fornita la libreria `google-api-python-client`, che può essere installata mediante pip

In [2]:
!pip install google-api-python-client




[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


Dal modulo `google-api-python-client.discovery` importiamo la funzione `build` che ci permetter di definire il punto di accesso da cui invocare i diversi endpoint delle YouTube API.

In [3]:
from googleapiclient.discovery import build

La funzione `build` necessita di alcuni parametri per costruire un oggetto che riproduce un client che interagisce con le YouTube API:
- il nome del servizio
- la versione delle API
- la chiave API KEY che abbiamo creato e salvato in un file in precedenza

In [4]:
DEVELOPER_KEY = json.load(open('../DS03-YoutubeDataAPI-Duplicate/youtube_api.json'))['key']
#DEVELOPER_KEY = "AIzaSyCTzTnolKycy4TtQsXIuzloVCcJDhzxmmQ"
YOUTUBE_API_SERVICE_NAME = "youtube"
YOUTUBE_API_VERSION = "v3"
#DEVELOPER_KEY

Costruiamo ora un oggetto della classe `Resource`mediante il quale possiamo interagire con il servizio di YouTube API. Per la costruzione dobbiamo utilizzare la funzione `build` che richiede il nome del servizio, la versione delle API e un parametro `developerKey` tramite il quale passare la chiave di sviluppo.

In [5]:
youtube = build(YOUTUBE_API_SERVICE_NAME, YOUTUBE_API_VERSION, developerKey=DEVELOPER_KEY)

Abbiamo quindi terminato la fase di setting per effettuare delle richieste autorizzate alle API di Youtube, e possiamo iniziare a affrontare il problema.

## Identificare i commentatori di un canale YouTube

Il problema che andiamo ad affrontare è l'identificazione dell'insieme degli account di YouTube che hanno interagito mediante commenti con i video creati e pubblicati da un canale YouTube.

Per poter affrontare il problema utilizzeremo frequentemente la [documentazione delle API](https://developers.google.com/youtube/v3/docs?hl=it). 

La pagina principale della documentazione riporta tutte le entità che possono essere reperite ed utilizzate mediante le API e una breve descrizione del significato di ogni entità.

### Channel - Canale
La prima risorsa necessaria è la risorsa `**Channel**` che contiene informazioni su un canale YouTube.

La risorsa `Channel` espone due endpoint, detti **metodi**:
- `list`: `GET /channels` che restituisce una raccolta di zero o più risorse channel che corrispondono ai criteri della richiesta.
- `update`: `PUT /chanels` che consente di aggiornare i metadati di un canale.

Per ulteriori informazioni su questa risorsa, si consiglia di consultare la relativa [rappresentazione](https://developers.google.com/youtube/v3/docs/channels?hl=it#resource) e l'[elenco delle proprietà](https://developers.google.com/youtube/v3/docs/channels?hl=it#properties).

La **rappresentazione** ci permette di comprendere il formato della risposta: quali chiavi sono presenti, come sono strutturati i valori, etc. . **Il formato della risposta è JSON**, ma la libreria, come vedremo, effettua la conversiona della risposta in modo automatico e restituisce direttamente un dict di risposta.

L'**elenco della proprietà** riporta tutti le proprietà dell'oggetto `Channel` espresse come chiavi.

#### Metodi
Il metodo utilizzato principalmente per un progetto di social media analysis e mining è **`list`** dal momento che facilita la lettura delle informazioni delle varie entità coinvolte.

La documentazione del metodo `list` - vale per ogni risorsa che vedremo - riporta diversi parametri per definire dei filtri sui risultati. Nel caso di `Channel` possiamo definire i seguenti [parametri](https://developers-dot-devsite-v2-prod.appspot.com/youtube/v3/docs/channels/list#parameters).

La documentazione di ogni metodo poi riporta:
- i casi d'uso più comuni
- il processo di autorizzazione richiesto per l'utilizzo dell'endpoint
- i parametri della richiesta
- il formato della risposta

La documentazione fornisce un'ulteriore funzionalità che permette di ottenere il codice Python da utilizzare per effettuare la richiesta alle API.

<img src="YT_trycode1.png" alt="image" style="width:auto;height:auto;">

<img src="YT_trycode2.png" alt="image" style="width:300px;height:auto;">

<img src="YT_trycode3.png" alt="image" style="width:auto;height:auto;">

In questo modo è sufficiente copiare il codice evidenziato in viola per poter effettuare molto probabilmente una richiesta corretta. Va sottolineato che lo snippet di codice assume l'utilizzo del libreria consigliata - come stiamo facendo

#### Problema: cercare channelID di un canale

Il canale oggetto della nostra analisi è [**Tintoria Podcast**](https://www.youtube.com/@tintoriapodcast).

Il primo problema che si pone è dato dal fatto che non abbiamo a disposizione - in modo immediato - il `channelID` del canale.

Per risolvere il problema possiamo utilizzare l'entità [`**Search**`](https://developers-dot-devsite-v2-prod.appspot.com/youtube/v3/docs/search?hl=it). Un risultato di ricerca contiene informazioni su un video, un canale o una playlist di YouTube che corrispondono ai parametri di ricerca specificati in una richiesta API.

L'API supporta i seguenti metodi di ricerca:
- [`list`](https://developers-dot-devsite-v2-prod.appspot.com/youtube/v3/docs/search/list?hl=it)

Definiamo una ricerca utilizzando come keyword `tintoria` e specificando che i risultati devono contenere solo canali. Si utilizzi la documentazione relativa ai [parametri di ricerca](https://developers-dot-devsite-v2-prod.appspot.com/youtube/v3/docs/search/list?hl=it).

Tra i risultati della ricerca, associati alla chiave `items`, estriamo il channelID del canale da analizzare.

In [6]:
request = youtube.search().list(
        part="snippet",
        maxResults=5,
        q="tintoria",
        type="channel"
    )
channelIDTintoria = response = request.execute()['items'][0]['id']['channelId']
channelIDTintoria

'UCvbLX67F72gQBrqE4IX5yGA'

#### Una volta identificato il `channelID`, si deve identificare la risorsa che corrisponde alla lista dei video caricati. Tale risorsa è contenuta nelle informazioni associate alla risorsa [`Channel`](https://developers-dot-devsite-v2-prod.appspot.com/youtube/v3/docs/channels?hl=it#resource-representation). In particolare `contentDetails.relatedPlaylists.uploads`. Il campo contiene un `ID` che referenzia una playlist del canale che contiene tutti i video caricati.

Definiamo una richiesta per ottenere l'`ID` della playlist dei video caricati.

In [7]:
request = youtube.channels().list(
    part="snippet,contentDetails",
    id= channelIDTintoria
    )
response = request.execute()
uploaded_playlist = response['items'][0]['contentDetails']['relatedPlaylists']['uploads']
uploaded_playlist

'UUvbLX67F72gQBrqE4IX5yGA'

Il prossimo passo verso la risoluzione del task è ottenere tutti gli identificativi dei video contenuti in una playlist. Utilizziamo quindi i metodi della risorsa [`PlaylistItems`](https://developers-dot-devsite-v2-prod.appspot.com/youtube/v3/docs/playlistItems?hl=it) che mediante il metodo `list` restituisce una raccolta di elementi di playlist che corrispondono ai parametri della richiesta API. Puoi recuperare tutti gli elementi della playlist di una playlist specificata o una o più playlist in base all'ID univoco della playlist.

Assumiamo che il processo di esplorazione della documentazione sia ormai assodato. 

Definiamo una richiesta che ci resituisce gli ultimi 50 video caricati.

In [8]:
request = youtube.playlistItems().list(
        part="snippet,contentDetails",
        maxResults=50,
        playlistId=uploaded_playlist
)
response = request.execute()

In [9]:
def getVideos(playlist):
    videoIDs =[]
    for video_obj in playlist:
        videoIDs.append(video_obj['contentDetails']['videoId'])
    return videoIDs

In [10]:
#print(json.dumps(response['items'],indent=2))

In [11]:
first_videos = getVideos(response['items'])

In [12]:
getVideos(response['items'])

['0UgwRzU-xFo',
 'ySlbapYozkw',
 '8WEQh7GfM1I',
 'iFX5wAlahsE',
 'nEnrP3EuPeY',
 'ZPRu6ePrQO0',
 '6jV3WdPQtaA',
 '-rEwqsKiObg',
 'JRNxbapMeVs',
 'pi7ZykHXPGc',
 '33lk79EZGGk',
 'dmYZyyDa3KY',
 'neF8DEJwLxc',
 'Td6srHm53wI',
 'M8IfAyT6JXg',
 'Ai9QITmKoXA',
 'mqA7IW5U47c',
 '8QYTjcLadQU',
 'guXgWXERVok',
 'rvvUMt1dKUg',
 'zalh6xpm6Ig',
 'JdGAY6FzZhg',
 '_1-T8WNmqfw',
 'VygK1i_WTR8',
 'BInQLT7gP_c',
 'IgwWpFCERQw',
 'nA4GjX2EVYo',
 'BntppbB5U78',
 'WNhl56KOwXQ',
 'bm-Jo2A1wA0',
 'gCjCXgh1-Bs',
 'zWRDabjZ9sc',
 'edVgrQYOTzg',
 '2f2cY7ty71g',
 'jJdBMmxciQw',
 'RT8A2wJyewk',
 'iJsbqcjnKxw',
 'eXwHGvuRo-w',
 'mFmffJAcpDU',
 'EBkruHSe5Wk',
 'uo4mq-e3vEI',
 'RZmLLyqA_a8',
 'MlUJPT1TibU',
 'l6sch6P1voA',
 'TsdQVPF7koc',
 'g_TEV8VCZwg',
 'JySI92NLXsc',
 'z1MtwWkVheI',
 'cf4kNF6MjN4',
 'QFB4rV6nmFQ']

Il canale contiene più di 50 video ma una singola richiesta può restituire al massimo 50 video.

Per poter ottenere tutti i video possiamo sfruttare il meccanismo di paginazione fornito dalle API. 

Una risposta segue il seguente formato:
``` json
{
  "kind": "youtube#...",
  "etag": etag,
  "nextPageToken": string_token,
  "prevPageToken": string,
  "pageInfo": {
    "totalResults": integer,
    "resultsPerPage": integer
  },
  "items": [
    playlistItem Resource
  ]
}
```
dove il valore associato al campo `nextPageToken` deve essere estratto e inserito in un eventuale prossima richiesta per ottenere i prossimi 50 risultati assegnandolo al parametro `pageToken`
``` python
request = youtube.playlistItems().list(
        maxResults=50,
        pageToken=string_token,
        playlistId="dklsòadlk"
    )
response = request.execute()
```

Utilizzanod la paginazione, scriviamo un blocco di codice per ottenere tutti gli ID dei video nella playlist che andranno inseriti in una lista.

In [13]:
channelVideos = []
string_token = ""
request = youtube.playlistItems().list(
        part="snippet,contentDetails",
        maxResults=50,
        playlistId=uploaded_playlist
    )
response = request.execute()
string_token = response['nextPageToken']
channelVideos.extend(getVideos(response['items']))

while string_token != "":
    request = youtube.playlistItems().list(
        part="snippet,contentDetails",
        maxResults=50,
        pageToken=string_token,
        playlistId=uploaded_playlist
    )
    response = request.execute()
    string_token = response.get('nextPageToken', "")
    channelVideos.extend(getVideos(response['items']))
channelVideos[:10]

['0UgwRzU-xFo',
 'ySlbapYozkw',
 '8WEQh7GfM1I',
 'iFX5wAlahsE',
 'nEnrP3EuPeY',
 'ZPRu6ePrQO0',
 '6jV3WdPQtaA',
 '-rEwqsKiObg',
 'JRNxbapMeVs',
 'pi7ZykHXPGc']

Come ultimo step per arrivare alla soluzione del problema originale, si devono ottenere i commenti associati ad ogni video per poi estrarre l'`ID` dell'account che ha creato il commento.

La risorsa per ottenere i commenti associati ad un video o canale è [`CommentThreads`](https://developers-dot-devsite-v2-prod.appspot.com/youtube/v3/docs/commentThreads?hl=it). 

In [22]:
import time
comments =[]
for vId in channelVideos[:10]:
    resource = youtube.commentThreads().list(
        part="snippet",
        maxResults=25,
        videoId = vId
    )
    response = resource.execute()
    comments.append(response['items'][0]['snippet']['topLevelComment']['snippet']['authorDisplayName'])
    #time.sleep(1)
comments

['@drop438',
 '@ivanm.m.6117',
 '@marcovillari8364',
 '@Cinti_',
 '@Yhj-bp6jt',
 '@locosystem',
 '@gabrielevaccaro8269',
 '@user-bo5oj5jt4q',
 '@ViolinVarnishItaly',
 '@fabiovisentin4499']

## La rete dei video

Le risorse precedentemente utilizzate possono essere utilizzate per costruire una rete di relazioni tra alcune entità di Youtube. Nello specifico costruiremo una rete i cui nodi sono i video pubblicati dal canale che stiamo analizzando e una relazione tra il video V1 e il video V2 indica quanti account hanno commentato sia il video V1 sia il video V2.

Per costruire questo tipo di rete abbiamo la necessità di creare una struttura dati che ad ogni video del canale associ una lista di commentatori dello specifico video.

Possiamo graficamente rappresentare lo scenario nel seguente modo:

Nella prima parte della figura vediamo che ad ogni video $V_i$ abbiamo associato una lista di account. Mentre nella seconda parte della figura, abbiamo una rappresentazione diversa delle stesse informazioni. La rappresentazione è quello di un grafo bipartito in cui un insieme di nodi è costituito dai video e un secondo insieme di nodi, disgiunto rispetto al primo, è costituito dagli account commentatori.

La costruzione del grafo dei video può essere ottenuta definendo un grafo bipartito e proiettando sull'insieme dei video. In questa esperienza utilizzeremo un approccio meno legato alle funzionalità specifiche rilasciate dalla libreria `networkx`.

## La lista di video

Per ogni video pubblicato dal canale estraggo i primo 50 commentatori. Il risultato - lista - viene inserito in un `dict` le cui chiavi sono gli `ID` dei video.

In [26]:
def getCommenter(commentThread):
    return commentThread['snippet']['topLevelComment']['snippet']['authorDisplayName']

In [37]:
videoToCommenters = dict()
for vId in channelVideos:
    request = youtube.commentThreads().list(
        part="snippet",
        maxResults=25,
        videoId = vId
    )
    response = request.execute()
    all_commenters_video = []
    for commentThread in response['items']:
        all_commenters_video.append(getCommenter(commentThread)) #estraggo e aggiungo il commentatore
        videoToCommenters[vId] = all_commenters_video
len(videoToCommenters)

342

In [38]:
json.dump(videoToCommenters, open('tintoria_parziale.json', 'w'))

## Costruzione della rete

Prima di definire la procedura per la costruzione della rete tra i video dobbiamo installare e/o importare networkx

In [39]:
import networkx as nx

La procedura per la costruzione della rete è la seguente:

**Per ogni** coppia $(w,v)$ di video ottenibile dalla collezione dei video:<br>
&ensp;&thinsp;Calcolare il numero di commentantori in comune tra $w$ e $v$<br>
&ensp;&thinsp;Inserire nella rete un arco tra $w$ e $v$ il cui peso è il numero di co-commentatori

Dato un insieme/sequenza di elementi in Python possiamo agilmente farci restituire tutte le possibili coppie che posso comporre con gli elementi della sequenza utilizzando la funzione `combinations` del modulo `itertools`.

Importiamo quindi la funzione, la cui documentazione è disponibile [qui](https://docs.python.org/3/library/itertools.html#itertools.combinations).

In [59]:
from itertools import combinations

In [45]:
#ESEMPIO D'USO
list(combinations(['Juve','Inter','Milan','Napoli','Atalanta'],2))   #2 = coppie di elementi

[('Juve', 'Inter'),
 ('Juve', 'Milan'),
 ('Juve', 'Napoli'),
 ('Juve', 'Atalanta'),
 ('Inter', 'Milan'),
 ('Inter', 'Napoli'),
 ('Inter', 'Atalanta'),
 ('Milan', 'Napoli'),
 ('Milan', 'Atalanta'),
 ('Napoli', 'Atalanta')]

In [46]:
#INTERSEZIONI TRA INSIEMI
insieme1 = set(['A','B','C'])
insieme2 = set(['B','C','D'])
insieme1.intersection(insieme2)

{'B', 'C'}

Generiamo quindi le possibili coppie di video ed implementiamo la precedente procedura. Prima di implementare la procedura si costruisce un grafo vuoto, in questo caso non orientato.

In [61]:
video_net = nx.Graph()
for coppia in combinations(videoToCommenters.keys(),2):
    video1, video2 = coppia[0], coppia[1]
    peso = len(set(videoToCommenters[video1]).intersection(set(videoToCommenters[video2])))
    if peso > 0:
        video_net.add_edge(video1, video2, weight = peso)
video_net.size(), video_net.order()

(8860, 342)

In [63]:
nx.write_gexf(video_net, 'tintoria_graph.gexf')

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=1b5a57e9-9bdb-4a37-87b7-a4b3449efd49' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>