**Twitter** è essenziale un servizio di microblogging real-time che permette agli utenti di pubblicare brevi aggiornamenti di stato, **tweet**. Nel limite di 140 caratterri, un tweet può contenere vari elementi (entità), come luoghi, utenti, hashtag, etc..

Dal punto di vista delle network, Twitter permette la creazione di link direzionati attraverso il modello del **following**, Ciò permette ad un utente A  di seguire un B, senza la necessità che B confermi la richiesta di essere seguito. Per questo motivo Twitter viene categorizzato come **interest graph**.

### Tweets
Un tweet è un oggetto complesso dal momento che non solo contiene il testo dello stato ma metadati quali entità e luoghi. Esempi di entità sono _user mentions_, _hashtag_, _URLs_, media associati al tweet e luoghi (dove è stato creato o riferimenti a luogi nel testo).

Ogni tweet è identificato da un identificatore univoco intero.

I tweet possono essere collezionati in liste ordinate cronologicamente, i.e. **timeline**. Le timeline più utilizzate sono la *home timeline* che raccoglie i tweet degli account che l'utente loggato segue, e la *user_timeline*, la collezione di tweet prodotti da un determinato utente.

La velocità di aggiornamento delle collezioni precedenti è relativamente bassa rispetto al tasso di produzione di tweet. Gli **stream** rappresentano collezioni con un elevato tasso di produzione in quanto restituiscono un campione dell'attività di Twitter in real-time.

## Creazione di un'applicazione Twitter
Per poter analizzare i dati di Twitter attraverso le API rilasciate è consigliato creare un'applicazione. 

Prima di procedere alla creazione di un'applicazione è necessario creare un account Twitter al link https://twitter.com/signup.

Una volta registrati e loggati possiamo creare la nostra applicazione:
1. Aprire la pagina https://apps.twitter.com/
<img src='figures/PrimaApp.png'>
2. Compilare i campi obbligatori, specificando il nome dell'applicazione, la descrizione e l'URL
<img src='figures/FormApp.png'>
3. Cliccare sul tab 'Keys and Access Tokens' e salvare nel file 'credentials.txt' i valori associati alle chiavi **Consumer Key (API Key)** e **Consumer Secret (API Secret)**
<img src='figures/KeysApp.png'>

Le chiavi salvate ci permettono di poter utilizzare le API di Twitter nella nostra applicazione. Le API di Twitter rappresentano uno dei 'prodotti' che Twitter mette a disposizione degli sviluppatori per poter utilizzare i servizi e i dati che la piattaforma offre. Alla pagina https://dev.twitter.com/ potete trovare i diversi servizi che Twitter offre. In queste lezioni utilizzeremo le APIs disponibili e documentate qui (https://dev.twitter.com/overview/api).

Le API sono principalmente basate sul paradigma RESTful e sul protocollo OAuth 1.0 (autenticazione e autorizzazione).

### Things Every Developer Should Know

Prima di approfondire le API è utile riportare le 'Things Every Developer Should Know':
1. Utilizzare il campo *id_str* anzichè *id*. L'intero *id* potrebbe superare il massimo valore rappresentabile dal linguaggio di programmazione utilizzato
2. L'uso delle API è soggetto a **limitazioni** circa il tasso di richieste
3. Le API pubbliche di Twitter consistono di una REST API e una _Streaming API_
4. Twitter API (ad eccezione delle Streaming) tendono ad essere conformi con il paradigma REST. Per questo motivo una richiesta HTTP con metodo GET viene usata per ottenere dati dalle API, mentre il metodo POST crea, cambia o distrugge lo stato del dato.
5. Le risposte seguendo il formato JSON
6. Alcuni metodi richiedono parametri obbligatori. I valori dei parametri devono essere convertiti in UTF-8 e URL codificati.
7. **Ci sono librerie per tutti i maggiori linguaggi di programmazione**

## OAuth
Finora abbiamo creato un'applicazione che può solo accedere ai dati dell'account che l'ha creata. Perchè non passare le credenziali di accesso a Twitter? Supponiamo che altri utenti Twitter vogliano utilizzare la nostra web application. Fornire le credenziali di Twitter all'applicazioni non è la scelta migliore in quanto dato riservati vengono comunicati a terze parti (la nostra web application). Per ovviare a questo problema Twitter utilizza il protocollo OAuth1.0A per permettere agli utenti di autorizzare applicazioni terze all'accesso i dati associati ai loro account Twitter senza condivider informazioni sensibili.

OAuth è l'acronimo di **open authorization**. Nonostante sia un protocollo utilizzato da molte online social platform, OAuth può essere applicato in qualsiasi situazione in cui l'utente vuole autorizzare un'applicazione ad agire per suo conto. L'utente può controllare i _permessi_ assegnati ad un'applicazione e revocarli in qualsiasi momento.

In questa lezione utilizzeremo due flussi (_flow_ or _OAuth Dance_) previsti dal protocollo, che corrispondono ai due principali flussi di autorizzazione implementati da Twitter. Nella descrizione dei flussi avremo tre attori principali:
* __client__: applicazione che richiede l'accesso ai dati
* __server__o **service_provider**: servizio che ospita i dati dell'utente
* __resource_owner__: utente che rilascia l'autorizzazione al client affinchè possa accedere ai dati ospitati dal service provider.

I flussi di autenticazione/autorizzazione implementati da Twitter sono:
1.**User Authentication**
2.**Application-only authentication**
In entrambi i casi il fine ultimo è ottenere un **access token** (stringa) che contiene i permessi rilasciati dall'utente. In Twitter l'access token ha durata illimitata; tuttavia può essere annullato se l'utente nega i permessi o l'applicazione viene sospesa dal Twitter admin. Per questo motivo ogni applicazione deve tener conto della possibilità di un token non valido.

### Application-only authentication
Twitter offre alle applicaziono la possibilità di inviare richiesta autenticate per conto dell'applicazione. Dal nostro punto di vista, questo flow rappresenta un vantaggio in quanto non necessitiamo del permesso degli utenti per poter acquisire un token valido. Ovviamente dal momento che il resource owner è escluso dal flusso non possiamo postare un tweet o intraprendere altre azioni che coinvolgono i permessi di scrittura degli utenti. 

Attraverso questo flusso di autenticazione la nostra applicazione può:
* ottenere la timeline di un utente
* accedere ai followers e amici di un account
* accedere alla lista delle risorse
* effettuare ricerche
* ottenere le informazioni di un utente

Il flusso di autenticazione richiede i seguenti passi:
1. L'applicazione codifica consumer key e consumer secret in un insieme di credenziali
2. L'applicazione esegue una richiesta HTTP POST alla risorsa **oauth/token** inviando l'insieme di credenziali. La risposta contiene un **bearer token**
3. Il bearer token viene utilizzato per inviare richieste autenticate alle API REST

Come mostrato in Figura il flusso 'application-only authentication' è molto semplice:
<img src='figures/apponly-oauth.png'>

Consumer key, consumer secret e bearer token sono informazioni sensibili. Per questo motivo non dovrebbero essere distribuite a terzi.

Si raccomanda di utilizzare HTTPS

Dal momento che il flusso è semplice, vediamo in dettaglio i 3 passi della procedura di autenticazione
#### Step 1: Codifica consumer key e secret key
La procedura è la seguente:
1. Codifica consumer key e consumer secret secondo RFC 1738 (in Python si può utilizzare il metodo **quote** del modulo **urllib**)
2. Concatena le stringhe codificate separandole con il carattere ':'
3. Codifica in Base64 la stringa resultante

In [1]:
consumer_key = 'Qlzz9gbRRvWNCqxaMe1a5FJ1I'
consumer_secret = 'WyRwz63vvbI1DLyD6S8FPPsAaMBjtHR1lHi7aOs2gzGMVSWBsS'

In [2]:
import urllib.parse
import base64

In [3]:
consumer_concatenata = '{}:{}'.format(urllib.parse.quote(consumer_key),urllib.parse.quote(consumer_secret))
print(consumer_concatenata)

Qlzz9gbRRvWNCqxaMe1a5FJ1I:WyRwz63vvbI1DLyD6S8FPPsAaMBjtHR1lHi7aOs2gzGMVSWBsS


In [4]:
consumer_base64 = base64.b64encode(consumer_concatenata.encode('utf-8'))
print(consumer_base64)
print('Authorization: Basic {}'.format(consumer_base64.decode('utf-8')))

b'UWx6ejlnYlJSdldOQ3F4YU1lMWE1RkoxSTpXeVJ3ejYzdnZiSTFETHlENlM4RlBQc0FhTUJqdEhSMWxIaTdhT3MyZ3pHTVZTV0JzUw=='
Authorization: Basic UWx6ejlnYlJSdldOQ3F4YU1lMWE1RkoxSTpXeVJ3ejYzdnZiSTFETHlENlM4RlBQc0FhTUJqdEhSMWxIaTdhT3MyZ3pHTVZTV0JzUw==


#### Step 2: Ottenere un bearer token
La stringa creata deve essere inviata all'endpoint **oauth2/token** attraverso il metodo POST. La richiesta deve includere il campo **Authorization** nell'header, con valore **Basic** stringa creata. Il campo Content-Type deve assumere valore application/x-www-form-urlencoded;charset=UTF-8.  Mentre il corpo della richiesta è grant_type=client_credentials

In [5]:
headers = {'Authorization': 'Basic {}'.format(consumer_base64.decode('utf-8')),
          'Content-Type': 'application/x-www-form-urlencoded;charset=UTF-8'}

In [6]:
import requests

In [7]:
response = requests.post('https://api.twitter.com/oauth2/token',headers=headers,data={'grant_type':'client_credentials'})

Analizziamo la richiesta

In [8]:
print('{} {} {}'.format(response.request.method,response.request.path_url,'HTTP/1.1'))
for k,v in response.request.headers.items():
    print('{}: {}'.format(k,v))
print()
print(response.request.body)
print(response.json())

POST /oauth2/token HTTP/1.1
User-Agent: python-requests/2.18.4
Accept-Encoding: gzip, deflate
Accept: */*
Connection: keep-alive
Authorization: Basic UWx6ejlnYlJSdldOQ3F4YU1lMWE1RkoxSTpXeVJ3ejYzdnZiSTFETHlENlM4RlBQc0FhTUJqdEhSMWxIaTdhT3MyZ3pHTVZTV0JzUw==
Content-Type: application/x-www-form-urlencoded;charset=UTF-8
Content-Length: 29

grant_type=client_credentials
{'token_type': 'bearer', 'access_token': 'AAAAAAAAAAAAAAAAAAAAAMn5zgAAAAAANawovwyCNQI8PA%2BlXpDh4a3mhZI%3DQqTdCevt6NlT98zrJKlz9XZYI311d2GvJjlHNl4PrGoMBZ1Hs3'}


Se la richiesta è corretta, il server restituisce un risposta JSON. Il bearer token è associato alla chiave **access_token**.

#### Step 3: Autenticare una richiesta con il bearer token
Per inviare una richiesta ad un endpoint delle API che supporta application-only authorization, si costruisce una richiesta HTTPS che include il campo Authorization con valore 'Bearer bearer_token_ottenuto'

In [9]:
bearer_token = response.json()['access_token']
header = {'Authorization':'Bearer {}'.format(bearer_token),
         'User-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}

In [10]:
response_from_api = requests.get('https://api.twitter.com/1.1/statuses/user_timeline.json?count=100&screen_name=twitterapi',headers=header)

In [11]:
print('{} {} {}'.format(response_from_api.request.method,response_from_api.request.path_url,'HTTP/1.1'))
for k,v in response_from_api.request.headers.items():
    print('{}: {}'.format(k,v))

GET /1.1/statuses/user_timeline.json?count=100&screen_name=twitterapi HTTP/1.1
User-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36
Accept-Encoding: gzip, deflate
Accept: */*
Connection: keep-alive
Authorization: Bearer AAAAAAAAAAAAAAAAAAAAAMn5zgAAAAAANawovwyCNQI8PA%2BlXpDh4a3mhZI%3DQqTdCevt6NlT98zrJKlz9XZYI311d2GvJjlHNl4PrGoMBZ1Hs3


In [12]:
data = response_from_api.json()

In [13]:
data[0:2]

[{'contributors': None,
  'coordinates': None,
  'created_at': 'Fri Mar 01 18:01:42 +0000 2019',
  'entities': {'hashtags': [],
   'symbols': [],
   'urls': [],
   'user_mentions': [{'id': 1225933934,
     'id_str': '1225933934',
     'indices': [3, 10],
     'name': 'Twitter Ads API',
     'screen_name': 'AdsAPI'}]},
  'favorite_count': 0,
  'favorited': False,
  'geo': None,
  'id': 1101543043893813248,
  'id_str': '1101543043893813248',
  'in_reply_to_screen_name': None,
  'in_reply_to_status_id': None,
  'in_reply_to_status_id_str': None,
  'in_reply_to_user_id': None,
  'in_reply_to_user_id_str': None,
  'is_quote_status': False,
  'lang': 'en',
  'place': None,
  'retweet_count': 36,
  'retweeted': False,
  'retweeted_status': {'contributors': None,
   'coordinates': None,
   'created_at': 'Thu Feb 28 22:54:04 +0000 2019',
   'entities': {'hashtags': [],
    'symbols': [],
    'urls': [],
    'user_mentions': []},
   'favorite_count': 113,
   'favorited': False,
   'geo': None,
 

## Modulo twitter
I vari flussi di OAuth supportati da Twitter sono stati implementati in numerosi moduli. Tra questi scegliamo il modulo **twitter**. Utilizzando il modulo twitter non dobbiamo implementare da zero il flusso di autenticazione.

In [15]:
import twitter

Il flusso di autenticazione implementato in precedenza diviene ...

In [16]:
bearer_token = twitter.oauth2_dance(consumer_key=consumer_key,consumer_secret=consumer_secret)
print(bearer_token)

AAAAAAAAAAAAAAAAAAAAAMn5zgAAAAAANawovwyCNQI8PA%2BlXpDh4a3mhZI%3DQqTdCevt6NlT98zrJKlz9XZYI311d2GvJjlHNl4PrGoMBZ1Hs3


Una volta ottenuto il bearer token, creiamo un oggetto Twitter. L'oggetto Twitter sarà la nostra interfaccia per le Twitter API

In [17]:
twitter_api_client = twitter.Twitter(auth=twitter.OAuth2(bearer_token=bearer_token))

__N.B.__ : la seguente esperienza di laboratorio segue il capitolo 1 del libro **Mining the Social Web**.

## Trending Topics
Come primo approccio ci soffermiamo sui trending topics. I trending topics rappresentano le entità maggiormente citate in un periodo di tempo. I trending topics sono real-time, di conseguenza rappresentano lo stato attuale delle conversazioni e delle attività in Twitter.

La risorsa che ci interessa è **GET trends/place** (https://developer.twitter.com/en/docs/trends/trends-for-location/api-reference/get-trends-place), che restituisce i 50 trending topic per una determinata nazione. La risposta è un'array di oggetti _trend_. I trending topics sono mantenuti in cache per 5 minuti. Per specificare la nazione sfrutto il parametro **id** che identifica un WOEID = Where On Earth ID. (Per maggiori informazioni si può visitare il sito https://developer.yahoo.com/geo/geoplanet/).

Nel nostro caso collezioneremo i trending topics a Milano e li confronteremo con quelli di Madrid e Roma

In [18]:
milan_woeid = 718345
madrid_woeid = 766273
rome_woeid = 721943

In [19]:
milan_tt = twitter_api_client.trends.place(_id=milan_woeid)
madrid_tt = twitter_api_client.trends.place(_id=madrid_woeid)
rome_tt = twitter_api_client.trends.place(_id=rome_woeid)

In [20]:
print(milan_tt)

[{'trends': [{'name': '#MilanInter', 'url': 'http://twitter.com/search?q=%23MilanInter', 'promoted_content': None, 'query': '%23MilanInter', 'tweet_volume': 21107}, {'name': '#upas', 'url': 'http://twitter.com/search?q=%23upas', 'promoted_content': None, 'query': '%23upas', 'tweet_volume': None}, {'name': '#viteallimite', 'url': 'http://twitter.com/search?q=%23viteallimite', 'promoted_content': None, 'query': '%23viteallimite', 'tweet_volume': None}, {'name': '#Sallusti', 'url': 'http://twitter.com/search?q=%23Sallusti', 'promoted_content': None, 'query': '%23Sallusti', 'tweet_volume': None}, {'name': '#quartarepubblica', 'url': 'http://twitter.com/search?q=%23quartarepubblica', 'promoted_content': None, 'query': '%23quartarepubblica', 'tweet_volume': None}, {'name': 'Adso', 'url': 'http://twitter.com/search?q=Adso', 'promoted_content': None, 'query': 'Adso', 'tweet_volume': None}, {'name': 'Manlio', 'url': 'http://twitter.com/search?q=Manlio', 'promoted_content': None, 'query': 'Manli

Anche se poco leggibile, il metodo restituisce una lista che contiene un dictionary. I trending topics sono associati al campo **trends**, il quale contiene una lista di oggetti trend.

Dal punto di vista del codice, il metodo utilizzato crea una richiesta HTTP alla risorsa https://api.twitter.com/1.1/trends/place.json?id=718345 usando il metodo GET.

### Rate Limits
Twitter impone un vincolo al numero di richieste che posso essere effettuate attraverso un'applicazione. I limiti sono ben documentati per ogni risorsa. Per esempio se consideriamo la precedente risorsa https://dev.twitter.com/rest/reference/get/trends/place, il limite è fissato a 75 richieste ogni 15 minuti.

Come primo passo risolviamo il problema della visualizzazione della risposta utilizzando il modulo json. Tale modulo mette a disposizione il metodo **dumps**  il quale trasforma un dictionary in una stringa. Tramite il parametro **indent** possiamo formattare la nostra stringa aumentando la leggibilità.

In [22]:
import json

In [23]:
print(json.dumps(milan_tt,indent=1))

[
 {
  "trends": [
   {
    "name": "#MilanInter",
    "url": "http://twitter.com/search?q=%23MilanInter",
    "promoted_content": null,
    "query": "%23MilanInter",
    "tweet_volume": 21107
   },
   {
    "name": "#upas",
    "url": "http://twitter.com/search?q=%23upas",
    "promoted_content": null,
    "query": "%23upas",
    "tweet_volume": null
   },
   {
    "name": "#viteallimite",
    "url": "http://twitter.com/search?q=%23viteallimite",
    "promoted_content": null,
    "query": "%23viteallimite",
    "tweet_volume": null
   },
   {
    "name": "#Sallusti",
    "url": "http://twitter.com/search?q=%23Sallusti",
    "promoted_content": null,
    "query": "%23Sallusti",
    "tweet_volume": null
   },
   {
    "name": "#quartarepubblica",
    "url": "http://twitter.com/search?q=%23quartarepubblica",
    "promoted_content": null,
    "query": "%23quartarepubblica",
    "tweet_volume": null
   },
   {
    "name": "Adso",
    "url": "http://twitter.com/search?q=Adso",
    "promoted

Supponiamo di rispondere alla domanda: "Quali sono i trending topics comuni nelle due città?".

Per rispondere a questa domanda useremo una struttura dati built-in detta **set** che modella un insieme di oggetti = collezione non ordinata di oggetti unici. L'oggetto set mette a disposizione tutti i metodi tipici degli insiemi, quali intersezione, unione, differenza, etc..

Procediamo trasformando i trending topic in un insieme...

In [25]:
milan_tt_set = set()
for trend in milan_tt[0]['trends']:
    milan_tt_set.add(trend['name'])

In [26]:
rome_tt_set = set()
for trend in rome_tt[0]['trends']:
    rome_tt_set.add(trend['name'])
madrid_tt_set = set()
for trend in madrid_tt[0]['trends']:
    madrid_tt_set.add(trend['name'])

In [28]:
trend_comuni = rome_tt_set.intersection(milan_tt_set)
for t in trend_comuni:
    print(t)

#SMAU
Fani
#CoppieBartali
#RenSA18
Maroni
#AusGP
#Zucca
#David2018
#Sampaoli
#LinoBanfi
Circonvallazione Appia
#dallavostraparte
#TVOI
#InterWall
#Piazzapulita
#upas
#CelebrityMasterChefIt
#Romani
#sehotantipensieri
#SamsungPay
#QuintaColonna
#UnaNuovaItalia
#AmazonPrime
#DonMatteo11
#Ibrahimovic
#FosseArdeatine
#22marzo
#GoogleHome
#Napolitano
#tuttoIntorno
#InMyBlood
#Riverdale
#primavera
#Zuckerberg
#WorldWaterDay
#QCDTG
#Milano2018
#GF15


In [29]:
print(len(trend_comuni), len(milan_tt_set))
print(milan_tt_set.intersection(madrid_tt_set))
print(len(milan_tt_set.intersection(madrid_tt_set)))

38 40
set()
0


## Ricerca di tweet
Supponiamo di voler cercare alcuni tweets che si riferiscono ad uno dei trending topic nell'intersezione tra Milano e Roma. 

https://dev.twitter.com/rest/reference/get/search/tweets **GET search/tweets** restituisce una collezione di tweet conformi ai criteri di ricerca specificati.
La risorsa richiede i seguenti parametri:

<h2>Parametri<a class="headerlink" href="#parameters" title="Permalink to this headline"></a></h2>
<table border="1" class="docutils">
<colgroup>
<col width="20%" />
<col width="20%" />
<col width="20%" />
<col width="20%" />
<col width="20%" />
</colgroup>
<tbody valign="top">
<tr class="row-odd"><td>Name</td>
<td>Required</td>
<td>Description</td>
<td>Default Value</td>
<td>Example</td>
</tr>
<tr class="row-even"><td>q</td>
<td><strong>required</strong></td>
<td>A UTF-8, URL-encoded search query of 500 characters maximum, including
operators. Queries may additionally be limited by complexity.</td>
<td>&nbsp;</td>
<td><em>&#64;noradio</em></td>
</tr>
<tr class="row-odd"><td>geocode</td>
<td>optional</td>
<td>Returns tweets by users located within a given radius of the given
latitude/longitude. The location is preferentially taking from the Geotagging
API, but will fall back to their Twitter profile. The parameter value is
specified by &#8221; <em>latitude,longitude,radius</em> &#8221;, where radius units must be
specified as either &#8221; <em>mi</em> &#8221; (miles) or &#8221; <em>km</em> &#8221; (kilometers). Note that you
cannot use the near operator via the API to geocode arbitrary locations; however
you can use this <em>geocode</em> parameter to search near geocodes directly. A maximum
of 1,000 distinct &#8220;sub-regions&#8221; will be considered when using the radius
modifier.</td>
<td>&nbsp;</td>
<td><em>37.781157 -122.398720 1mi</em></td>
</tr>
<tr class="row-even"><td>lang</td>
<td>optional</td>
<td>Restricts tweets to the given language, given by an <a class="reference external" href="http://en.wikipedia.org/wiki/List_of_ISO_639-1_codes">ISO
639-1</a> code. Language
detection is best-effort.</td>
<td>&nbsp;</td>
<td><em>eu</em></td>
</tr>
<tr class="row-odd"><td>locale</td>
<td>optional</td>
<td>Specify the language of the query you are sending (only <em>ja</em> is currently
effective). This is intended for language-specific consumers and the default
should work in the majority of cases.</td>
<td>&nbsp;</td>
<td><em>ja</em></td>
</tr>
<tr class="row-even"><td>result_type</td>
<td>optional</td>
<td><p class="first">Optional. Specifies what type of search results you would prefer to receive. The
current default is &#8220;mixed.&#8221; Valid values include:</p>
<p>* <em>mixed</em> : Include both popular and real time results in the response.</p>
<p>* <em>recent</em> : return only the most recent results in the response</p>
<p class="last">* <em>popular</em> : return only the most popular results in the response.</p>
</td>
<td>&nbsp;</td>
<td><em>mixed</em> <em>recent</em> <em>popular</em></td>
</tr>
<tr class="row-odd"><td>count</td>
<td>optional</td>
<td>The number of tweets to return per page, up to a maximum of 100. Defaults to 15.
This was formerly the &#8220;rpp&#8221; parameter in the old Search API.</td>
<td>&nbsp;</td>
<td><em>100</em></td>
</tr>
<tr class="row-even"><td>until</td>
<td>optional</td>
<td>Returns tweets created before the given date. Date should be formatted as
YYYY-MM-DD. Keep in mind that the <strong>search index has a 7-day limit</strong>. In other
words, no tweets will be found for a date older than one week.</td>
<td>&nbsp;</td>
<td><em>2015-07-19</em></td>
</tr>
<tr class="row-odd"><td>since_id</td>
<td>optional</td>
<td>Returns results with an ID greater than (that is, more recent than) the
specified ID. There are limits to the number of Tweets which can be accessed
through the API. If the limit of Tweets has occured since the since_id, the
since_id will be forced to the oldest ID available.</td>
<td>&nbsp;</td>
<td><em>12345</em></td>
</tr>
<tr class="row-even"><td>max_id</td>
<td>optional</td>
<td>Returns results with an ID less than (that is, older than) or equal to the
specified ID.</td>
<td>&nbsp;</td>
<td><em>54321</em></td>
</tr>
<tr class="row-odd"><td>include_entities</td>
<td>optional</td>
<td>The <em>entities</em> node will not be included when set to <em>false</em>.</td>
<td>&nbsp;</td>
<td><em>false</em></td>
</tr>
</tbody>
</table>

L'unico parametro obbligatorio è q, che indica la query di ricerca.

### Come costruire una query
Il modo migliore per costruire e testare un query è eseguirla usando la ricerca di Twitter https://twitter.com/search. Se i risultati sono corretti, l'URL mostrato dal browser contiene la sintassi corretta da passare all'argomento q. L'unica differenza concerne il vincolo temporale dei 7 giorni. La ricerca tramite Twitter Search può restituite tweets più vecchi di 7 giorni.

Nella costruzione della query posso applicare i seguenti operatori:

<table border="1" class="docutils">
<colgroup>
<col width="27%" />
<col width="73%" />
</colgroup>
<thead valign="bottom">
<tr class="row-odd"><th class="head">Operator</th>
<th class="head">Finds Tweets...</th>
</tr>
</thead>
<tbody valign="top">
<tr class="row-even"><td>watching now</td>
<td>containing both &#8220;watching&#8221; and &#8220;now&#8221;. This is the default operator.</td>
</tr>
<tr class="row-odd"><td>&#8220;happy hour&#8221;</td>
<td>containing the exact phrase &#8220;happy hour&#8221;.</td>
</tr>
<tr class="row-even"><td>love OR hate</td>
<td>containing either &#8220;love&#8221; or &#8220;hate&#8221; (or both).</td>
</tr>
<tr class="row-odd"><td>beer -root</td>
<td>containing &#8220;beer&#8221; but not &#8220;root&#8221;.</td>
</tr>
<tr class="row-even"><td>#haiku</td>
<td>containing the hashtag &#8220;haiku&#8221;.</td>
</tr>
<tr class="row-odd"><td>from:interior</td>
<td>sent from Twitter account &#8220;interior&#8221;.</td>
</tr>
<tr class="row-even"><td>list:NASA/astronauts-in-space-now</td>
<td>sent from a Twitter account in the NASA list astronauts-in-space-now</td>
</tr>
<tr class="row-odd"><td>to:NASA</td>
<td>a Tweet authored in reply to Twitter account &#8220;NASA&#8221;.</td>
</tr>
<tr class="row-even"><td>&#64;NASA</td>
<td>mentioning Twitter account &#8220;NASA&#8221;.</td>
</tr>
<tr class="row-odd"><td>politics filter:safe</td>
<td>containing &#8220;politics&#8221; with Tweets marked as potentially sensitive removed.</td>
</tr>
<tr class="row-even"><td>puppy filter:media</td>
<td>containing &#8220;puppy&#8221; and an image or video.</td>
</tr>
<tr class="row-odd"><td>puppy filter:native_video</td>
<td>containing &#8220;puppy&#8221; and an uploaded video, Amplify video, Periscope, or Vine.</td>
</tr>
<tr class="row-even"><td>puppy filter:periscope</td>
<td>containing &#8220;puppy&#8221; and a Periscope video URL.</td>
</tr>
<tr class="row-odd"><td>puppy filter:vine</td>
<td>containing &#8220;puppy&#8221; and a Vine.</td>
</tr>
<tr class="row-even"><td>puppy filter:images</td>
<td>containing &#8220;puppy&#8221; and links identified as photos, including third parties such as Instagram.</td>
</tr>
<tr class="row-odd"><td>puppy filter:twimg</td>
<td>containing &#8220;puppy&#8221; and a pic.twitter.com link representing one or more photos.</td>
</tr>
<tr class="row-even"><td>hilarious filter:links</td>
<td>containing &#8220;hilarious&#8221; and linking to URL.</td>
</tr>
<tr class="row-odd"><td>puppy url:amazon</td>
<td>containing “puppy” and a URL with the word “amazon” anywhere within it.</td>
</tr>
<tr class="row-even"><td>superhero since:2015-12-21</td>
<td>containing &#8220;superhero&#8221; and sent since date &#8220;2015-12-21&#8221; (year-month-day).</td>
</tr>
<tr class="row-odd"><td>puppy until:2015-12-21</td>
<td>containing &#8220;puppy&#8221; and sent before the date &#8220;2015-12-21&#8221;.</td>
</tr>
<tr class="row-even"><td>movie -scary :)</td>
<td>containing &#8220;movie&#8221;, but not &#8220;scary&#8221;, and with a positive attitude.</td>
</tr>
<tr class="row-odd"><td>flight :(</td>
<td>containing &#8220;flight&#8221; and with a negative attitude.</td>
</tr>
<tr class="row-even"><td>traffic ?</td>
<td>containing &#8220;traffic&#8221; and asking a question.</td>
</tr>
</tbody>
</table>

Ora possiamo cerca un trending topic scelto a caso tra quelli contenuti nell'intersezione...

In [45]:
import random

In [46]:
query = random.choice(list(trend_comuni))
print(query)

#Romani


In [47]:
risultati_ricerca = twitter_api_client.search.tweets(q=query,count=100)

La collezione dei tweets è associata alla chiave **statuses**

In [48]:
tweets = risultati_ricerca['statuses']

Per ora abbiamo ottenuto solo 100 tweets. Come possiamo estendere la nostra ricerca includendo più tweets ?

Il dictionary restituito contiene un ulteriore campo **search_metadata**...

In [49]:
print(json.dumps(risultati_ricerca['search_metadata'],indent=1))

{
 "completed_in": 0.196,
 "max_id": 976929839654555648,
 "max_id_str": "976929839654555648",
 "next_results": "?max_id=976925391142170625&q=%23Romani&count=100&include_entities=1",
 "query": "%23Romani",
 "refresh_url": "?since_id=976929839654555648&q=%23Romani&include_entities=1",
 "count": 100,
 "since_id": 0,
 "since_id_str": "0"
}


Il valore che ci interessa è quello associato a **refresh_url**. Esso indica quali parametri devo inserire nella richiesta successiva.

In [37]:
from urllib.parse import urlparse

In [50]:
risultati_ricerca = twitter_api_client.search.tweets(q=query,count=100)
tweets = risultati_ricerca['statuses']
for _ in range(5):
    try:
        next_results = risultati_ricerca['search_metadata']['next_results']
        print(next_results)
    except KeyError:
        break
    kwargs = dict([tuple(k.split('=')) for k in next_results[1:].split('&')])
    kwargs['q'] = query
    risultati_ricerca = twitter_api_client.search.tweets(**kwargs)
    tweets.extend(risultati_ricerca['statuses'])

?max_id=976925415234260997&q=%23Romani&count=100&include_entities=1
?max_id=976920635581632512&q=%23Romani&count=100&include_entities=1
?max_id=976915867752689665&q=%23Romani&count=100&include_entities=1
?max_id=976911098480865279&q=%23Romani&count=100&include_entities=1
?max_id=976905687774228479&q=%23Romani&count=100&include_entities=1


In [51]:
results_pretty = json.dumps(tweets[0],indent=1)
len(tweets)

600

Se apriamo il file <a href='tweet.json'>tweet.json</a> possiamo osservato che le informazioni associate ad un tweet sono molteplici

## Analisi del testo di un tweet
La documentazione completa per l'oggetto _Tweet_ è disponibile al seguente URL: https://dev.twitter.com/overview/api/tweets.

* il testo di un tweet è associato alla chiave _text_

In [52]:
t = tweets[1]
print(t['text'])

RT @antonio_bordin: #PD verso l’astensione in soccorso di #Romani in cambio di poltrone e servizi segreti.
Anche dopo il #4marzo, il #Nazar…


In [53]:
t['text']
print(json.dumps(t,indent=1))

{
 "created_at": "Thu Mar 22 21:13:18 +0000 2018",
 "id": 976929839654555648,
 "id_str": "976929839654555648",
 "text": "RT @antonio_bordin: #PD verso l\u2019astensione in soccorso di #Romani in cambio di poltrone e servizi segreti.\nAnche dopo il #4marzo, il #Nazar\u2026",
 "truncated": false,
 "entities": {
  "hashtags": [
   {
    "text": "PD",
    "indices": [
     20,
     23
    ]
   },
   {
    "text": "Romani",
    "indices": [
     58,
     65
    ]
   },
   {
    "text": "4marzo",
    "indices": [
     121,
     128
    ]
   }
  ],
  "symbols": [],
  "user_mentions": [
   {
    "screen_name": "antonio_bordin",
    "name": "Antonio Bordin",
    "id": 438849246,
    "id_str": "438849246",
    "indices": [
     3,
     18
    ]
   }
  ],
  "urls": []
 },
 "metadata": {
  "iso_language_code": "it",
  "result_type": "recent"
 },
 "source": "<a href=\"http://twitter.com/download/android\" rel=\"nofollow\">Twitter for Android</a>",
 "in_reply_to_status_id": null,
 "in_reply_to_statu

* le entità nel testo sono associate alla chiave _entities_

In [54]:
t['entities']

{'hashtags': [{'indices': [20, 23], 'text': 'PD'},
  {'indices': [58, 65], 'text': 'Romani'},
  {'indices': [121, 128], 'text': '4marzo'}],
 'symbols': [],
 'urls': [],
 'user_mentions': [{'id': 438849246,
   'id_str': '438849246',
   'indices': [3, 18],
   'name': 'Antonio Bordin',
   'screen_name': 'antonio_bordin'}]}

* l'interesse di un tweet è misurabile attraverso il numero di like (favorite) e retweet. Le proprietà associate sono associate ai campi *favorite_count* e *retweet_count*

In [55]:
print(t['favorite_count'],t['retweet_count'])

0 92


* Se un tweet è frutto di un'azione di retweet, il tweet originale è disponibile attraverso la proprietà *retweeted_status*. Il testo del retweeted può essere diverso dal testo del tweet originale.

In [56]:
t['retweeted_status']['text']

'#PD verso l’astensione in soccorso di #Romani in cambio di poltrone e servizi segreti.\nAnche dopo il #4marzo, il… https://t.co/TRU7Aj9NA4'

### Estrarre le entità
Dalla collezione di tweet estraiamo il testo e le relative entità memorizzandole in opportune strutture.

In [57]:
tweets_text = [t['text'] for t in tweets]
#tweets_text = []
#for t in tweets:
#    tweets_text.append(t['text'])
screen_names = [u['screen_name'] for t in tweets for u in t['entities']['user_mentions']]
hashtags = [h['text'] for t in tweets for h in t['entities']['hashtags']]
hashtags = []
for t in tweets:
    for h in t['entities']['hashtags']:
        hashtags.append(h['text'])
words = [w for text in tweets_text for w in text.split()]

### Conteggio delle entità
Nella scorsa lezione abbiamo imparato a contare le occorrenze degli elementi dato una lista di numeri attraverso il metodo histogram. Lo stesso metodo non è più valido se vogliano contare le parole in un testo. Per poter contare questo tipo di dati utilizziamo la classe **Counter** del modulo **collections**.

Come primo passo calcoliamo la frequenza delle parole contenute nelle 3 liste.

In [58]:
from collections import Counter

In [59]:
for e in [words,hashtags,screen_names]:
    c = Counter(e)
    print(c.most_common()[:10])
    print()

[('RT', 514), ('di', 388), ('il', 344), ('#Romani', 298), ('non', 268), ('per', 187), ('la', 167), ('e', 155), ('che', 153), ('è', 151)]

[('Romani', 473), ('Berlusconi', 64), ('M5S', 56), ('centrodestra', 51), ('Fico', 49), ('PD', 46), ('M5s', 45), ('4marzo', 37), ('romani', 37), ('Mentana', 34)]

[('paolocristallo', 66), ('GhitaIacono', 43), ('antonio_bordin', 37), ('TgLa7', 36), ('spinax64', 35), ('pdnetwork', 28), ('PossidonioGiord', 26), ('fattoquotidiano', 26), ('AnnaxNar', 18), ('serebellardinel', 16)]



Il risultato del metodo most_common è un dictionary le cui chiavi sono le parole e i cui valori sono il conteggio di quei valori nella lista passata come argomento all'oggetto Counter.

Possiamo visualizzare i dati restituiti come una tabella utilizzando il modulo **prettytable**

In [61]:
from prettytable import PrettyTable

In [62]:
for nome, data in (('Word',words),('Hashtag',hashtags),('Screen Name',screen_names)):
    pt = PrettyTable(field_names=[nome,'Conteggio'])
    c = Counter(data)
    for kv in c.most_common()[:10]:
        pt.add_row(kv)
    pt.align[nome], pt.align['Count'] = 'l','r'
    print(pt)

+---------+-----------+
| Word    | Conteggio |
+---------+-----------+
| RT      |    514    |
| di      |    388    |
| il      |    344    |
| #Romani |    298    |
| non     |    268    |
| per     |    187    |
| la      |    167    |
| e       |    155    |
| che     |    153    |
| è       |    151    |
+---------+-----------+
+--------------+-----------+
| Hashtag      | Conteggio |
+--------------+-----------+
| Romani       |    473    |
| Berlusconi   |     64    |
| M5S          |     56    |
| centrodestra |     51    |
| Fico         |     49    |
| PD           |     46    |
| M5s          |     45    |
| 4marzo       |     37    |
| romani       |     37    |
| Mentana      |     34    |
+--------------+-----------+
+-----------------+-----------+
| Screen Name     | Conteggio |
+-----------------+-----------+
| paolocristallo  |     66    |
| GhitaIacono     |     43    |
| antonio_bordin  |     37    |
| TgLa7           |     36    |
| spinax64        |     35    |
| 

### Analisi dei retweet
L'azione del retweet è molto importante in Twitter in quanto permette di diffondere un contenuto. Nella nostra collezione di tweet valuteremo quanti tweets sono frutto di un retweet e quali sono i tweet originali.

Il primo passo consiste nell'individuare i retweet

In [64]:
retweets = set([(t['retweet_count'],t['retweeted_status']['user']['screen_name'],t['text']) for t in tweets if 'retweeted_status' in t])

Ogni elemento della lista retweets è costituito dal testo del retweet compreso di RT @username, il numero di retweet e l'utente creatore del tweet originale

In [65]:
pt = PrettyTable(field_names=['Count','Screen Name','Text'])
[pt.add_row(riga) for riga in sorted(retweets,reverse=True)[:5]]
pt.max_width['Text'] = 50
pt.align = 'l'
print(pt)

+-------+-----------------+----------------------------------------------------+
| Count | Screen Name     | Text                                               |
+-------+-----------------+----------------------------------------------------+
| 200   | fattoquotidiano | RT @fattoquotidiano: LA PRIMA PAGINA DI OGGI       |
|       |                 | Senato: B. non riesce a trovare uno di Forza       |
|       |                 | Italia incensurato                                 |
|       |                 | https://t.co/WScu2YDEbu                            |
|       |                 | #Fatt…                                             |
| 156   | PossidonioGiord | RT @PossidonioGiord: #Romani non è indagato, ma    |
|       |                 | #condannato in via definitiva.                     |
|       |                 | Tecnicamente è un pregiudicato, a prescindere      |
|       |                 | dalla #presunt…                                    |
| 140   | paolocristallo  | 

### Utenti che hanno retweetato un tweet
La risorsa https://dev.twitter.com/rest/reference/get/statuses/retweeters/ids ** statuses/retweeters/ids** restituisce gli utenti (ID) che hanno retweetato un tweet. Nello specifico la risorsa gli utenti che hanno retweetato usando le API native di Twitter. In effetti è possibile retweetare copiando il test del tweet e anteponendo la stringa 'RT @username'. Questa pratica permette di aggiungere un breve commento al tweet originale mantenendo la volontà di retweetare.

In [66]:
twitter_api_client.statuses.retweeters.ids(_id=844557350228955137)['ids']

[34653414,
 1962699368,
 15300423,
 227270794,
 69646396,
 320308247,
 4856786657,
 849489168958976000,
 2968266731,
 1949966430,
 732084666803617792,
 1961016907,
 1316984629]

### Ottenere le informazioni del profile dell'utente
La risorsa https://dev.twitter.com/rest/reference/get/users/lookup **users/lookup** permette di ottenere le informazioni riguardanti il profilo di uno o più utenti(id o screen_name)

In [67]:
def get_user_profile(twitter_api,screen_names=None,user_ids=None):
    items = screen_names or user_ids
    items_to_info = {}
    while len(items)>0:
        items_str = ','.join([str(item) for item in items[:100]])
        items = items[100:]
        if screen_names:
            response = twitter_api.users.lookup(screen_name=items_str)
        else: 
            response = twitter_api.users.lookup(user_id=items_str)
    for user_info in response:
        if screen_names:
            items_to_info[user_info['screen_name']] = user_info
        else:
            items_to_info[user_info['id']] = user_info
    return items_to_info

In [69]:
for k,v in get_user_profile(twitter_api_client,user_ids=[2968266731, 1949966430, 732084666803617792, 1961016907, 1316984629]).items():
    print(k, v['screen_name'])

2968266731 leclercq_ub
1949966430 jusaragiotto
732084666803617792 Xaaraaaa
1961016907 FreebornGroup
1316984629 marco_java


### Estrarre followers e friends
La risorsa https://dev.twitter.com/rest/reference/get/followers/ids **followers/ids** restituisce una collezione di user ID che seguono l'utente specifico. I risultati sono ordinati cronologicamente in gruppi di al più 5000 elementi. 

La risorsa https://dev.twitter.com/rest/reference/get/friends/ids restituisce una collezione di utenti che l'utente segue.

**Esercizio**: Ottenere i follower e i followee dell'account con screen_name 'complex_nets'

In [None]:
# print dei risultati

Una prima analisi dell'insieme dei followers e friend consiste nel valutare l'intersezione = link reciproci

**Esercizio**: calcolare il numero di link reciproci

## Esercizio: ottenere i follower di un hub-user
Ottenere i follower dell' account con screen_name **beppesevergnini**

L'account indicato ha più di 1 milione di follower, ma la richiesta mi restituisce al massimo 5000 follower. Come posso ottenere altri follower?

Quali sono le chiavi dell'oggetto JSON restituito dalla risorsa?

## Cursoring

Le Twitter API utilizzano la tecnica del **cursoring** suddividere un grande insieme di risulati. Il meccanismo del cursoring prevede la separazione dei risultati in pagine la cui dimensione dipende dal parametro **count** passato nella richiesta e la possibilità di muoversi avanti e indietro nelle pagine.

La risposta di una risorsa che implementa il cursoring contiene i campi  **previous_cursor**, **next_cursor**, **previous_cursor_str** e **next_cursor_str**; come abbiamo visto nella soluzione dell'esercizio precedente.
Il valore associato a **next_cursor** deve essere inviato all'endpoint in modo tale da ricevere la prossima pagina di risultati. Il parametro che viene passato all'endpoint è **cursor**. Quando **next_cursor=0**, non ci sono più pagine da richiedere.

Di seguit lo pseudo-codice per ottenere tutti i risultati restituiti da endpoint che supportano il cursoring
```
cursor = -1

do {
    url_with_cursor = twitter_client_api.endpoint(cursor=cursor)
    response_dictionary = perform_http_get_request_for_url( url_with_cursor )
    cursor = response_dictionary[ 'next_cursor' ]
}
while ( cursor != 0 )
```



## Integrare Twitter API in una web application

In questa sezione implementeremo una web application che integra il meccanismo di autenticazione/autorizzazione di Twitter, e conseguentemente le Twitter API.

Per lo sviluppo della web application utilizziamo il micro framework **Flask**.

Una delle funzionalità implementate dalla nostra web app è la possibilità di pubblicare un tweet una volta ottenuta l'autorizzazione dell'utente. In questo caso dobbiamo utilizzare il secondo flow di autorizzazione implementato da Twitter: **3-legged authorization**

### 3-legged authorization
Questo flusso permette alla nostra applicazione Twitter di ottenere un access token redirigendo  l'utente verso Twitter per ottenere la sua autorizzazione.
#### Passo 1: Ottenere un request token
L'applicazione deve ottenere un request token mandando una richiesta POST a **oauth/request_token**. L'unica parametro della richiesta è **oauth_callback** che corrisponde all'URL a cui redirigere l'utente dopo il passo 2.
<img src='3leg_step1.png'>
Il corpo della risposta contiene **oauth_token**, **oauth_token_secret**, e **oauth_callback_confirmed**. L'applicazione deve verificare che  oauth_callback_confirmed è true e deve memorizzare i rimanenti parametri.
#### Passo 2: Redirezione dell'utente
L'utente viene rediretto alla risorsa GET **oauth/authorize** con parametro della query **oauth_token** uguale al valore precedentemente memorizzato. 
<img src='3leg_step2.png'>
In caso di autorizzazione positiva viene richieste URL di callback dell'applicazione, a cui vengono inviati i parametri **oauth_token** e **oauth_verifier**
#### Passo 3: Conversione del request token in un access token
L'applicazione deve inviare una richiesta a POST **oauth/access_token** contenente il valore di **oauth_verifier**
<img src='3leg_step3.png'>
Una risposta positiva conterrà i parametri **oauth_token** e **oauth_token_secret**

In [74]:
a = twitter_api_client.followers.ids(screen_name='beppesevergnini')

In [75]:
a.keys()

dict_keys(['ids', 'next_cursor', 'next_cursor_str', 'previous_cursor', 'previous_cursor_str'])

In [76]:
a['next_cursor']

1594103735786885506