# Student Tutorial - Twitter
<i>Marco Cavalli - X81000445</i>

---

## Introduzione
<hr>
Twitter è un ottimo strumento nelle mani dei data scientist. Questo perchè, tra tutti quanti, è uno dei social media che condivide i propri dati a terzi attraverso le sue API.

L'interesse di questo Student Tutorial è approfondire la conoscenza delle API di Twitter, spiegando passo passo come poterle usare per acquisire dati analizzabili. Per utilizzarle useremo la libreria **python-twitter** che è una delle librerie/wrapper delle API di Twitter più complete per il linguaggio Python.

Successivamente porteremo degli esempi di tecniche di analisi che possiamo applicare sui dati che avremo acquisito.

## Passi preliminari

<hr>

Prima di entrare nel vivo del tutorial e considerare le nozioni del tutorial è bene affrontare due argomenti preliminari:
1. Avere accesso alle API di Twitter
- Installare i pacchetti fondamentali per eseguire il codice di questo tutorial

## 1) Avere accesso alle API di Twitter
---

Per poter accedere alle API di Twitter avremo bisogno di 4 codici (due chiavi utente e due password temporanee) che Twitter stesso fornisce agli sviluppatori che richiedono l'accesso alle API.

Il primo passo è collegarsi all'indirizzo https://developer.twitter.com/ ed effettuare il login/registrazione.

Si clicca sul prioprio nickname (in alto a destra, accanto la foto profilo) e successivamente in **Apps**.

![001.png](attachment:001.png)

Nella schermata che si apre si clicca su **Create an app**.

![002.PNG](attachment:002.PNG)

Si aprirà la pagina di configurazione iniziale di una nuova app. Si dovrà indicare i diversi dati dell'app (il nome, lo scopo dell'app etc). E' importante essere specifici perchè ridurrà sensibilmente i tempi di accesso alle API (Twitter infatti valuterà se l'app è idonea in base a cosa viene dichiarato). Nel nostro caso basterà dire che l'app userà i dati per scopi universitari, quali studio o simili.

Una volta confermata e creata l'app, Twitter contatterà via email dopo qualche ora/giorno dicendo se l'app è stata confermata e accettata. Se non dovesse essere accettata (potrebbe capitare se non si è specificato chiaramente cosa fa l'app o se l'app fa cose che loro non vogliono concedere) si verrà ugualmente contattati da Twitter per riferire che si dovrà modificare l'app/fornire informazioni aggiuntive.

![003.PNG](attachment:003.PNG)


Una volta creata l'app e ottenuta l'autorizzazione da Twitter, si potrà tornare alla sezione **Apps** dove apparirà adesso una nuova app. 
Per i nostri scopi, modificheremo i permessi dell'app cliccando su **Permissions**.

![011.PNG](attachment:011.PNG)

Normalmente le nuove app hanno solo i permessi di **scrittura e lettura**. Si può decidere arbitrariamente di aggiungere o rimuovere i permessi in un secondo momento (per motivi di sicurezza o per aggiungere funzionalità). Per questo tutorial consigliamo di aggiungere anche il permesso dei Direct Message. Si può decidere di non farlo se non si è interessati ad implementare i metodi sui Direct Message.

*N.B. Ricordiamo che Twitter segue una politica molto severa su chi trasgredisce alle regole di utilizzo delle API. In particolare,  consigliamo di fare molta attenzione all'uso che si farà della propria app al riguardo del postare tweet e messaggi diretti perchè SPAM, linguaggio aggressivo o altri comportamenti scorretti possono portare al **ban** dell'account.*

Per modificare i permessi si deve cliccare su **Edit**.

![012.PNG](attachment:012.PNG)



Terminati tutti questi passaggi, possiamo accedere ai token e alle chiavi. Per farlo clicchiamo su **Details**.

![004.PNG](attachment:004.PNG)

Cliccando sulla sezione **Keys and tokens** avremo accesso alle chiavi. Le prime due in alto sono due chiavi identificative, le due in basso sono due password temporanee che vanno rigenerate periodicamente per permettere l'accesso alle API.

**N.B.** E' fondamentale ricordarsi come arrivare a questa pagina, perchè ci **serviranno queste quattro chiavi** per poter usare le API.

# 2) Installare i pacchetti fondamentali per eseguire il codice di questo tutorial
---

Una volta ottenuto i quattro token necessari per accedere alle API, concentriamoci su cosa installare per poter avviare il codice presente in questo tutorial.

Il codice presentato richiede python version 3.0 (o superiore) per poter funzionare correttamente.

Gran parte dei moduli necessari (i principali come pandas, numpy, IPython etc) saranno già sicuramente installati presenti nel sistema in quanto necessari per avviare Jupyter Notebook.

Alcuni moduli però sono fondamentali e dovranno essere installati a parte. Per installare un nuovo modulo si può usare uno dei seguenti comandi:
1. pip install <nome-modulo>
- conda install -c conda-forge <nome-modulo>
    
Per sistemi linux/MAC OS si potranno usare questi comandi in un qualunque **terminale**. Su Windows invece dipende dal tipo di ambiente che si usa per lavorare con python. Per esempio, nel caso di Anaconda basterà aprire un **Anaconda prompt**. In altri casi, rimandiamo alla **documentazione** dell'ambiente di sviluppo utilizzato.
    
Detto questo, indichiamo adesso la lista dei moduli da installare:
1. python-twitter
- nltk (per VADER)

## Ultimo promemoria
---

Twitter prevede dei limiti di utilizzo per le API. Se non rispettati, Twitter potrebbe decidere di limitare in maniera più netta un utente (nel qual caso l'utilizzatore dell'app).

Sebbene non dovrebbero esserci problemi legati al raggiungimento dei limiti durante l'utilizzo di questo tutorial, si consiglia di dare una lettura al regolamento di Twitter al riguardo per evitare inconvenienze.

Maggiori informazioni a questo link: https://developer.twitter.com/en/docs/basics/rate-limiting

# Tutorial API: Panoramica sui comandi possibili
---

Il modulo che verrà approfondito principalmente in questo tutorial è ovviamente **python-twitter**. Questo modulo ci permette di avere un accesso diretto alle API di Twitter, fungendo da adapter per le applicazioni in Python.

La lista dei comandi che vedremo brevemente in questo tutorial sono i seguenti:
1. PostUpdates(status)
- PostRetweet(status_id)
- GetUser(user)
- GetUserTimeline(user)
- GetHomeTimeline()
- GetStatus(status_id)
- GetStatuses(status_ids)
- GetReplies()
- DestroyStatus(status_id)
- GetFriends(user)
- GetFollowers()
- GetDirectMessages()
- GetSentDirectMessages()
- PostDirectMessage(user, text)
- DestroyDirectMessage(message_id)
- CreateFriendship(user)
- LookupFriendship(user)
- DestroyFriendship(user)
- GetSearch(query)

Ovviamente le API non si limitano solo a questi comandi: vi sono decine di comandi diversi. Lo scopo di questo tutorial però è quello di avviare il lettore all'uso delle API e dare alcuni cenni sui comandi principali che si possono fare per interagire con Twitter (postare tweet, retweettare, mandare messaggi personali, seguire profili di altri utenti...). Successiva a questa panoramica dei comandi principali verranno dati degli spunti su come usare alcuni dei comandi suddetti per analisi di dati presi da Twitter.

Prima di tutto però, vediamo come ottenere accesso alle api.

In [1]:
import twitter

In [2]:
#Accedere alle api di TWITTER
api = twitter.Api()

Il comando **Api()** ritorna un'istanza della classe Api di Twitter. Su quest'istanza chiameremo tutti i metodi.

Proviamo a portare un esempio di utilizzo dell'istanza.

In [3]:
#Indica un nome utente
user = "realDonaldTrump"

#Stampiamo i suoi stati pubblici
statuses = api.GetUserTimeline(screen_name=user)
print([s.text for s in statuses])

TwitterError: The twitter.Api instance must be authenticated.

Oops! Che è successo?

Ci siamo dimenticati di autenticare la nostra connessione alle API!

In effetti non si può accedere ad alcun metodo di python-twitter senza aver effettuato l'autenticazione.

Dovremo infatti fornire le quattro chiavi di accesso alle API.

In [4]:
#Chiavi di accesso
ck = input("API key: ") #API key
cs = input("API secret key: ") #API secret key
atk = input("Access token: ") #Access token
ats = input("Access token secret: ") #Access token secret

twitter_keys = {
        'consumer_key':        ck,
        'consumer_secret':     cs,
        'access_token_key':    atk,
        'access_token_secret': ats
    }

In [5]:
#Instanziamo nuovamente le api con le nostre chiavi
api = twitter.Api(
            consumer_key         =   twitter_keys['consumer_key'],
            consumer_secret      =   twitter_keys['consumer_secret'],
            access_token_key     =   twitter_keys['access_token_key'],
            access_token_secret  =   twitter_keys['access_token_secret'],
            tweet_mode = 'extended'
        )

Riproviamo il comando precedente.

In [6]:
#Indica un nome utente
user = "realDonaldTrump"

#Stampiamo i suoi stati pubblici
statuses = api.GetUserTimeline(screen_name=user)
print([s.full_text for s in statuses])

['With approximately 100,000 CoronaVirus cases worldwide, and 3,280 deaths, the United States, because of quick action on closing our borders, has, as of now, only 129 cases (40 Americans brought in) and 11 deaths. We are working very hard to keep these numbers as low as possible!']


**Ora funziona!**

E' importante non dimenticarsi di aggiornare periodicamente le chiavi, perchè hanno dei tempi di estinzione.

Iniziamo a vedere come usare i vari comandi indicati nella lista.

**1) PostUpdate(text)**

>PostUpdate(status, media=None, media_additional_owners=None, media_category=None, in_reply_to_status_id=None, auto_populate_reply_metadata=False, exclude_reply_user_ids=None, latitude=None, longitude=None, place_id=None, display_coordinates=False, trim_user=False, verify_status_length=True, attachment_url=None)

Permette di postare uno stato pubblico per l'utente che ha effettuato l'autenticazione alle API.

Richiede uno **status** (il messaggio). Si può eventualmente aggiungere un **media** che può essere indicato nella forma di un URL o un oggetto di python (che usa il comando read() per essere caricato).
Se si vuole invece scrivere un post in risposta ad un altro, basta indicare l'ID numerico del post per il parametro **in_reply_to_status_id**.

In caso il messaggio sia più lungo del limite di CHARACTER_LIMIT, il tweet verrà scritto in parte.

In [7]:
s = 'Quanto è bello scriver su Twitter!'
status = api.PostUpdate(s).AsDict()
status_id = status['id']
print(status)

{'created_at': 'Thu Mar 05 17:14:17 +0000 2020', 'hashtags': [], 'id': 1235614622457245696, 'id_str': '1235614622457245696', 'lang': 'it', 'source': '<a href="https://twitter.com/Mirkesx" rel="nofollow">tutorial-SMM</a>', 'text': 'Quanto è bello scriver su Twitter!', 'urls': [], 'user': {'created_at': 'Wed Apr 06 12:15:52 +0000 2016', 'default_profile': True, 'favourites_count': 3, 'followers_count': 12, 'friends_count': 141, 'id': 717687265812721667, 'id_str': '717687265812721667', 'name': 'Marco Cavalli', 'profile_background_color': 'F5F8FA', 'profile_image_url': 'http://pbs.twimg.com/profile_images/717687735625101317/-mnC_qoH_normal.jpg', 'profile_image_url_https': 'https://pbs.twimg.com/profile_images/717687735625101317/-mnC_qoH_normal.jpg', 'profile_link_color': '1DA1F2', 'profile_sidebar_border_color': 'C0DEED', 'profile_sidebar_fill_color': 'DDEEF6', 'profile_text_color': '333333', 'profile_use_background_image': True, 'screen_name': 'Mirkesx', 'statuses_count': 46}, 'user_menti

Abbiamo così creato un post.

![006.PNG](attachment:006.PNG)

Proviamo a scrivere un post in risposta al precedente. Per poter avere l'ID basta cliccare sul nuovo post che abbiamo creato e copiare il numero alla fine dell'URL.

In [8]:
s = 'Quanto è bello risponder su Twitter!'
api.PostUpdate(s, in_reply_to_status_id=status_id)

Status(ID=1235614639741861890, ScreenName=Mirkesx, Created=Thu Mar 05 17:14:21 +0000 2020, Text='Quanto è bello risponder su Twitter!')

Avremo così creato un Tweet di risposta.

![007.PNG](attachment:007.PNG)

---

Vi è anche un metodo simile chiamato **PostUpdates(text)** che ha il semplice scopo di dividere lo status in più tweet se questo supera il limite di caratteri per uno stato pubblico di Twitter.

**2) PostRetweet(status_id)**

> PostRetweet(status_id, trim_user=False)

Permette di retweettare un tweet indicando l'ID del tweet.

In [9]:
s = 'Quanto è bello risponder su Twitter!'
status_id2 = api.PostRetweet(status_id).AsDict()['id']
print(status)

{'created_at': 'Thu Mar 05 17:14:17 +0000 2020', 'hashtags': [], 'id': 1235614622457245696, 'id_str': '1235614622457245696', 'lang': 'it', 'source': '<a href="https://twitter.com/Mirkesx" rel="nofollow">tutorial-SMM</a>', 'text': 'Quanto è bello scriver su Twitter!', 'urls': [], 'user': {'created_at': 'Wed Apr 06 12:15:52 +0000 2016', 'default_profile': True, 'favourites_count': 3, 'followers_count': 12, 'friends_count': 141, 'id': 717687265812721667, 'id_str': '717687265812721667', 'name': 'Marco Cavalli', 'profile_background_color': 'F5F8FA', 'profile_image_url': 'http://pbs.twimg.com/profile_images/717687735625101317/-mnC_qoH_normal.jpg', 'profile_image_url_https': 'https://pbs.twimg.com/profile_images/717687735625101317/-mnC_qoH_normal.jpg', 'profile_link_color': '1DA1F2', 'profile_sidebar_border_color': 'C0DEED', 'profile_sidebar_fill_color': 'DDEEF6', 'profile_text_color': '333333', 'profile_use_background_image': True, 'screen_name': 'Mirkesx', 'statuses_count': 46}, 'user_menti

Come controprova visualizziamo il retweet.

![008.PNG](attachment:008.PNG)

**3) GetUser(user_id)**

> GetUser(user_id=None, screen_name=None, include_entities=True, return_json=False)

Ritorna a l'utente indicato nel parametro **user_id** o nel parametro **screen_name** (il nickname dopo la @).

Eventualmente possiamo ritornare i dati in formato JSON se settiamo il parametro **return_json=True**.

In [10]:
user = 'realDonaldTrump'
api.GetUser(screen_name=user)

User(ID=25073877, ScreenName=realDonaldTrump)

**4) GetUserTimeline(user)**

> GetUserTimeline(user_id=None, screen_name=None, since_id=None, max_id=None, count=None, include_rts=True, trim_user=False, exclude_replies=False)

Ritorna un insieme di stati pubblici dell'utente selezionato (user_id o screen_name).

Si possono indicare di ricevere i retweet o meno (**include_rts**) e le risposte a tweet pubblici o meno (**exclude_replies**).

Possiamo stabilire il numero di Tweet da scaricare indicando un valore in **count**. Il valore massimo è di 200.

Eventualmente si può indicare di prelevare tweet precedenti o successivi un particolare tweet indicando il tweet ID nei parametri **max_id** e **since_id**.

Preleviamo adesso 10 tweet di Trump.

In [11]:
user = 'realDonaldTrump'
tweets = api.GetUserTimeline(screen_name=user, count=10)
tweets = [_.AsDict() for _ in tweets] #Trasforiamo i tweet in dizionari per 
                                      #accedervi più agevolmente
display(tweets)

[{'created_at': 'Thu Mar 05 16:34:21 +0000 2020',
  'favorite_count': 31780,
  'full_text': 'With approximately 100,000 CoronaVirus cases worldwide, and 3,280 deaths, the United States, because of quick action on closing our borders, has, as of now, only 129 cases (40 Americans brought in) and 11 deaths. We are working very hard to keep these numbers as low as possible!',
  'hashtags': [],
  'id': 1235604572850343937,
  'id_str': '1235604572850343937',
  'lang': 'en',
  'retweet_count': 6994,
  'source': '<a href="http://twitter.com/download/iphone" rel="nofollow">Twitter for iPhone</a>',
  'urls': [],
  'user': {'created_at': 'Wed Mar 18 13:46:38 +0000 2009',
   'description': '45th President of the United States of America🇺🇸',
   'favourites_count': 7,
   'followers_count': 73421285,
   'friends_count': 47,
   'geo_enabled': True,
   'id': 25073877,
   'id_str': '25073877',
   'listed_count': 115596,
   'location': 'Washington, DC',
   'name': 'Donald J. Trump',
   'profile_backgroun

**5) GetHomeTimeline()**

> GetHomeTimeline(count=None, since_id=None, max_id=None, trim_user=False, exclude_replies=False, contributor_details=False, include_entities=True)

Come GetUserTimeline, ma con la differenza che i tweet non vengono prelevati da un singolo utente: i tweet vengono prelevati dalla Home dell'utente autenticato e vengono considerati anche i tweet e retweet dei profili seguiti.

Valgono le stesse considerazioni sui parametri di GetUserTimeline.

In [12]:
tweets = api.GetHomeTimeline(count=10)
tweets = [_.AsDict() for _ in tweets] #Trasforiamo i tweet in dizionari per 
                                      #accedervi più agevolmente
print(tweets)

[{'created_at': 'Thu Mar 05 17:14:21 +0000 2020', 'full_text': 'Quanto è bello risponder su Twitter!', 'hashtags': [], 'id': 1235614639741861890, 'id_str': '1235614639741861890', 'in_reply_to_screen_name': 'Mirkesx', 'in_reply_to_status_id': 1235614622457245696, 'in_reply_to_user_id': 717687265812721667, 'lang': 'it', 'source': '<a href="https://twitter.com/Mirkesx" rel="nofollow">tutorial-SMM</a>', 'urls': [], 'user': {'created_at': 'Wed Apr 06 12:15:52 +0000 2016', 'default_profile': True, 'favourites_count': 3, 'followers_count': 12, 'friends_count': 141, 'id': 717687265812721667, 'id_str': '717687265812721667', 'name': 'Marco Cavalli', 'profile_background_color': 'F5F8FA', 'profile_image_url': 'http://pbs.twimg.com/profile_images/717687735625101317/-mnC_qoH_normal.jpg', 'profile_image_url_https': 'https://pbs.twimg.com/profile_images/717687735625101317/-mnC_qoH_normal.jpg', 'profile_link_color': '1DA1F2', 'profile_sidebar_border_color': 'C0DEED', 'profile_sidebar_fill_color': 'DDEE

**6) GetStatus(status_id)**

> GetStatus(status_id, trim_user=False, include_my_retweet=True, include_entities=True, include_ext_alt_text=True)

Ritorna un singolo stato pubblico, specificato dal parametro **status_id**.

In [13]:
ID = status_id
api.GetStatus(ID)

Status(ID=1235614622457245696, ScreenName=Mirkesx, Created=Thu Mar 05 17:14:17 +0000 2020, Text='Quanto è bello scriver su Twitter!')

**7) GetStatuses(status_ids)**

> GetStatus(status_id, trim_user=False, include_my_retweet=True, include_entities=True, include_ext_alt_text=True)

Ritorna una lista di stati pubblici, specificati dal parametro **status_ids** (che deve necessariamente essere una lista di ID).

In [15]:
IDs = [status_id, status_id2]
api.GetStatuses(IDs)

[Status(ID=1235614622457245696, ScreenName=Mirkesx, Created=Thu Mar 05 17:14:17 +0000 2020, Text='Quanto è bello scriver su Twitter!'),
 Status(ID=1235614651397754880, ScreenName=Mirkesx, Created=Thu Mar 05 17:14:24 +0000 2020, Text='RT @Mirkesx: Quanto è bello scriver su Twitter!')]

**8) GetReplies()**

> GetReplies(since_id=None, count=None, max_id=None, trim_user=False)

Ritorna 20 o un certo numero (in base al parametro count) di risposte ricevute dall'utente autenticato.

Condivide diversi parametri di GetUserTimeline (count, since_id, max_id) e quindi rimandiamo a quella sezione del tutorial per maggiori informazioni.

In [16]:
api.GetReplies(count=10)

[Status(ID=1235614639741861890, ScreenName=Mirkesx, Created=Thu Mar 05 17:14:21 +0000 2020, Text='Quanto è bello risponder su Twitter!'),
 Status(ID=1235614622457245696, ScreenName=Mirkesx, Created=Thu Mar 05 17:14:17 +0000 2020, Text='Quanto è bello scriver su Twitter!'),
 Status(ID=1235542565992247296, ScreenName=Mirkesx, Created=Thu Mar 05 12:27:57 +0000 2020, Text='@RaiUno Vi alternate con la diretta della coppa italia?'),
 Status(ID=1177274748373491713, ScreenName=Mirkesx, Created=Thu Sep 26 17:32:27 +0000 2019, Text="@BungieHelp I can't login on your website into my account. When i try to login (wanted to link my Steam account) it opens me a window where it says i got an error (ErrorHttpHandler) and won't let me in. I can't even type on the forum cuz of this problem .-."),
 Status(ID=1160907396933410821, ScreenName=Mirkesx, Created=Mon Aug 12 13:34:26 +0000 2019, Text="Resident Evil 4: un giocatore ha sconfitto l'uomo con la motosega usando solo una porta! - News - SpazioGames ht

**9) DestroyStatus(status_id)**

> DestroyStatus(status_id, trim_user=False)

Elimina lo stato indicato dell'utente autenticato.

In [17]:
s = 'Quanto è bello scriverere su Twitter!'
status = api.PostUpdate(s)
status = status.AsDict()

print(status)
api.DestroyStatus(status['id'])
print()
try:
    print(api.GetStatus(status['id']))
except Exception as e: #Non lo troverà ed alzerà un'eccezione
    print(e)
    print("Lo stato è stato cancellato!")

{'created_at': 'Thu Mar 05 17:14:58 +0000 2020', 'hashtags': [], 'id': 1235614794893361152, 'id_str': '1235614794893361152', 'lang': 'it', 'source': '<a href="https://twitter.com/Mirkesx" rel="nofollow">tutorial-SMM</a>', 'text': 'Quanto è bello scriverere su Twitter!', 'urls': [], 'user': {'created_at': 'Wed Apr 06 12:15:52 +0000 2016', 'default_profile': True, 'favourites_count': 3, 'followers_count': 12, 'friends_count': 141, 'id': 717687265812721667, 'id_str': '717687265812721667', 'name': 'Marco Cavalli', 'profile_background_color': 'F5F8FA', 'profile_image_url': 'http://pbs.twimg.com/profile_images/717687735625101317/-mnC_qoH_normal.jpg', 'profile_image_url_https': 'https://pbs.twimg.com/profile_images/717687735625101317/-mnC_qoH_normal.jpg', 'profile_link_color': '1DA1F2', 'profile_sidebar_border_color': 'C0DEED', 'profile_sidebar_fill_color': 'DDEEF6', 'profile_text_color': '333333', 'profile_use_background_image': True, 'screen_name': 'Mirkesx', 'statuses_count': 49}, 'user_me

**10) GetFriends(user)**

> GetFriends(user_id=None, screen_name=None, cursor=None, count=None, total_count=None, skip_status=False, include_user_entities=True)

Ritorna la lista degli amici dell'utente indicato. 

**total_count** viene usato per indicare quanti amici scaricare (se None tutti). Torna un massimo di 200 utenti per pagina/richiesta (o un numero definito in count).

Limitiamo a 10 il numero di amici visualizzati (non vorremo mica che Twitter ci limiti vero?).

In [18]:
username = 'realDonaldTrump'
api.GetFriends(screen_name=username, total_count = 10)

[User(ID=29458079, ScreenName=JudgeJeanine),
 User(ID=18166778, ScreenName=Jim_Jordan),
 User(ID=208155240, ScreenName=MariaBartiromo),
 User(ID=818910970567344128, ScreenName=VP),
 User(ID=2353605901, ScreenName=GOPChairwoman),
 User(ID=17685258, ScreenName=parscale),
 User(ID=818927131883356161, ScreenName=PressSec),
 User(ID=22703645, ScreenName=TuckerCarlson),
 User(ID=56561449, ScreenName=JesseBWatters),
 User(ID=822215673812119553, ScreenName=WhiteHouse)]

**11) GetFollowers(user)**

> GetFollowers(user_id=None, screen_name=None, cursor=None, count=None, total_count=None, skip_status=False, include_user_entities=True)

Ritorna la lista dei followers dell'utente indicato. 

Ha gli stessi parametri di GetFriends().

In [19]:
username = 'realDonaldTrump'
api.GetFollowers(screen_name=username, total_count = 10)

[User(ID=1235614389513924609, ScreenName=AbrarSa70184365),
 User(ID=1068887157761286146, ScreenName=Xavierritchie15),
 User(ID=1235610289380438018, ScreenName=NtambaP),
 User(ID=1188128464144097280, ScreenName=VANESA22832759),
 User(ID=596892017, ScreenName=PiruSonia),
 User(ID=522406746, ScreenName=JimmyFlyerVogel),
 User(ID=1087121088381894656, ScreenName=veritascuratou1),
 User(ID=1235613396676087808, ScreenName=Salman50693197),
 User(ID=1225787793210793985, ScreenName=DeadRatsSociety),
 User(ID=1235614482648481794, ScreenName=hon_thedy)]

**12) GetDirectMessages()**

> GetDirectMessages(since_id=None, max_id=None, count=None, include_entities=True, skip_status=False, full_text=False, page=None, return_json=False)

Torna una lista di messaggi diretti ricevuti dall'utente autenticato negli ultimi 30 giorni.

Possiamo gestire il numero di messaggi ricevuti per richiesta (count) e la temporalità dei messaggi (since_id/max_id) come nel caso di GetUserTimeline().

Il parametro **page** permette di modificare il comportamento di questo metodo e tornare una lista di 20 messaggi diretti alla volta per ogni iterazione del comando finchè non preleva tutti i messaggi. Count non viene considerato se si usa questo meccanismo.

**13) GetSentDirectMessages()**

> GetSentDirectMessages(since_id=None, max_id=None, count=None, page=None, include_entities=True, return_json=False)

Torna una lista di messaggi diretti inviati dall'utente autenticato negli ultimi 30 giorni.

Valgono le considerazioni per GetDirectMessages().

**N.B.** *Non daremo un'implementazione di questo comando perchè, allo stato attuale, GetDirectMessages() permette di prelevare i messaggi ricevuti e quelli inviati. Nulla toglie che le cose possano cambiare in futuro e che quindi sia sempre educativo sapere dell'esistenza di questo comando.*

**14) PostDirectMessage(user, text)**

> PostDirectMessage(text, user_id=None, media_file_path=None, media_type=None, screen_name=None, return_json=False)

Invia un messaggio diretto ad un amico/follower.

Il parametro **text** è una stringa che conterrà il messaggio da inviare.

Il parametro **user_id** è l'ID dell'utente che riceverà il messaggio. Eventualmente possiamo usare il parametro **screen_name** per indicare l'utente.

**N.B.** *Non è possibile inviare messaggi ad utenti che hanno bloccato, che non seguono o che non sono amici dell'utente autenticato.*

**15) DestroyDirectMessage(message_id)**

> DestroyDirectMessage(message_id, include_entities=True, return_json=False)

Elimina un messaggio diretto.

Il parametro **message_id** si riferisce all'ID del messaggio da eliminare. Non può essere omesso.

**N.B.** *Momentaneamente questo metodo non è utilizzabile. Le API di Twitter lo permetterebbero, ma l'accesso che python-twitter usa è deprecato e per sistemarlo non basta modificare una riga di codice.*

## *N.B.*

Il lettore avrà notato che manca il codice per i comandi 11 e 13. Purtroppo tutti i comandi fanno uso di un accesso alle API ormai **deprecato** e sembrerebbe che i gestori di **python-twitter** non siano intenzionati (almeno momentaneamente) a ovviare al problema.

In ogni caso un utente di GitHub ha postato un quick fix per questi comandi. Per maggiori informazioni al riguardo, suggeriamo di prendere nota della discussione su GitHub con la guida (in inglese) che descrive il fix. In ogni caso spiegheremo brevemente come effettuare il fix.

Eventualmente, si può passare al comando 15 se non interessati.

## Quick-Fix DirectMessages API

Specifichiamo fin da subito che l'operazione **è reversibile**: basterà disinstallare python-twitter (con i comandi pip uninstall/conda uninstall) e reinstallarlo per ritornare alla versione ufficiale o semplicemente ti basterà rimodificare i file che verranno "aggiornati". Inoltre la modifica non condiziona il funzionamento degli altri metodi in quanto solo questi comandi (e qualche altro che non abbiamo trattato) usano questa classe.

Il link alla discussione per il quick-fix è questo: https://github.com/bear/python-twitter/issues/603#issuecomment-463030438

In poche parole, si deve modificare ed aggiornare (manualmente) il file **api.py** dentro il modulo di **twitter**.

Si dovrà localizzare la cartella dove vengono salvati i moduli di python nel tuo sistema operativo. Se usi conda si troverà dentro una delle sottocartelle di conda. 

Il modo semplice per trovare la cartella è usare il comando **pip show python-twitter** su shell/terminale (LINUX/MAC OS) o su conda prompt (WINDOWS).


---
Segue una breve guida per i casi in cui il comando appena descritto non sia utilizzabile.

Su un sistema LINUX/MAC OS si può tranquillamente usare il comando **find** per localizzare il modulo twitter.

Su un sistema Windows basterà cercare nella cartella d'installazione di conda (in genere viene installato in C:\>Programmi\Conda o path simili). Nel caso in cui non si riesca a localizzare la cartella, consigliamo di provare ad usare la barra di ricerca di Esplora Risorse.

Se si sta usando l'environment di base (ovvero non si ha esplicitamente mai creato un nuovo environment con il comando **conda create --name (nome_env)** o dalla GUI grafica di conda) i moduli vengono installati in una cartella dentro **pkgs** chiamata **python-###** dove gli asterischi indicano la versione di python in uso. All'interno si dovrà andare nella cartella **./Lib/site-packages** dove sono immagazzinate tutte le cartelle dei moduli installati (compreso python-twitter). Nel caso in cui si dovesse aver creato un nuovo environment, vi si può accedere andando nella cartella **envs**. Questa cartella contiene tutti gli environment creati sottoforma di cartelle aventi come nome il nome dell'environment. Al suo interno basta seguire il percorso **./Lib/site-packages** e trovare così tutte le cartelle dei moduli installati.

---

## Modificare api.py di twitter

Una volta localizzato la cartella di twitter si dovrà modificare il file **api.py** (un qualunque editor di testo andrà più che bene).

*Si potrebbe valutare di non cancellare alcun valore, ma semplicemente commentarlo con un # per poter annullare in un secondo momento queste modifiche.*

Nella riga 2922 si deve modificare il valore dell'assegnazione di **url** con *'%s/direct_messages/events/list.json' % self.base_url*.

Nella riga 2979 si deve modificare il valore dell'assegnazione di **url** con *'%s/direct_messages/events/list.json' % self.base_url*.

---

Ultima informazione prima di usare i comandi. Per poter utilizzare correttamente questi comandi dovremo trasformare i dati in formato json. Per farlo dovremo chiamare il metodo passando il valore **True** al parametro **return_json**, altrimenti avremo un errore a runtime.

## Sorgenti per i comandi 11, 13

Seguono i sorgenti dei comandi sui Messaggi Diretti. Ci teniamo a ricordare che un uso improprio (SPAM, linguaggio aggressivo etc) di questi comandi può portare a comportamenti disciplinari da parte di Twitter verso l'app e il possessore dell'account (compreso il ban).

E' importante tenere a mete inoltre, dei limiti che impone Twitter nel numero di richieste: si potrebbe infatti incappare in uno di questi limiti eccedendo nell'accesso a questi comandi delle API.

In [20]:
#GetDirectMessages(since_id=None, max_id=None, count=None, include_entities=True, skip_status=False, full_text=False, page=None, return_json=False)

messages = api.GetDirectMessages(return_json=True)['events']
display(messages)

[{'type': 'message_create',
  'id': '1235612895771230214',
  'created_timestamp': '1583428045586',
  'message_create': {'target': {'recipient_id': '717353026277752832'},
   'sender_id': '717687265812721667',
   'source_app_id': '17518914',
   'message_data': {'text': 'Ciao! Ti sto scrivendo su Twitter!',
    'entities': {'hashtags': [],
     'symbols': [],
     'user_mentions': [],
     'urls': []}}}},
 {'type': 'message_create',
  'id': '1234422783481913348',
  'created_timestamp': '1583144300705',
  'message_create': {'target': {'recipient_id': '717687265812721667'},
   'sender_id': '717353026277752832',
   'message_data': {'text': 'chi boi',
    'entities': {'hashtags': [],
     'symbols': [],
     'user_mentions': [],
     'urls': []}}}},
 {'type': 'message_create',
  'id': '1234422739135541252',
  'created_timestamp': '1583144290132',
  'message_create': {'target': {'recipient_id': '717353026277752832'},
   'sender_id': '717687265812721667',
   'source_app_id': '17518914',
   'mes

In [22]:
#PostDirectMessage(text, user_id=None, media_file_path=None, media_type=None, screen_name=None, return_json=False)

mess='Ciao! Ti sto scrivendo su Twitter!'
username=input("Inserisci l'utente a cui mandare un direct message: ")

uid = api.GetUser(screen_name=username, return_json=True)['id']
try:
    print(api.PostDirectMessage(mess, user_id=uid, return_json=True))
except:
    print("Non puoi inviare un messaggio all'utente indicato!")

Inserisci l'utente a cui mandare un direct message: Gioxer95
{'event': {'type': 'message_create', 'id': '1235614976829767689', 'created_timestamp': '1583428541749', 'message_create': {'target': {'recipient_id': '717353026277752832'}, 'sender_id': '717687265812721667', 'message_data': {'text': 'Ciao! Ti sto scrivendo su Twitter!', 'entities': {'hashtags': [], 'symbols': [], 'user_mentions': [], 'urls': []}}}}}


Questo comando crea un nuovo messaggio se l'utente scelto può ricevere i messaggi, altrimenti torna un errore.

![013.PNG](attachment:013.PNG)

**16) CreateFriendship(user)**

> CreateFriendship(user_id=None, screen_name=None, follow=True, retweets=True, **kwargs)

Aggiunge un utente come amico.

Bisognerà indicare l'utente da aggiungere con i parametri user_id/screen_name.

Il parametro **follow** permette di indicare se si intende seguire o meno l'utente indicato.

Il parametro **retweets** permette di indicare se si vuole permettere all'utente di retweettare i tweet dell'utente autenticato.

In [23]:
username='realDonaldTrump'
api.CreateFriendship(screen_name=username)

User(ID=25073877, ScreenName=realDonaldTrump)

Cosi avremo fatto amicizia con Trump.

![009.PNG](attachment:009.PNG)

**17) LookupFriendship(user)**

> LookupFriendship(user_id=None, screen_name=None, return_json=False)

Ritorna tutte le informazioni dello stato dell'amicizia tra l'utente autenticato e l'utente indicato o la lista di utenti indicata.

Bisognerà indicare l'utente con i parametri user_id/screen_name. Eventualmente si possono indicare liste di user_id o di screen_name per ricevere informazioni sullo stato di più amicizie strette con altri utenti.

In [24]:
api.LookupFriendship(screen_name=username)

[UserStatus(ID=25073877, ScreenName=realDonaldTrump, Connections=[following])]

**18) DestroyFriendship(user)**

> DestroyFriendship(user_id=None, screen_name=None)

Rimuove un utente dalla lista degli amici.

Bisognerà indicare l'utente con i parametri user_id/screen_name.

In [25]:
api.DestroyFriendship(screen_name=username)

User(ID=25073877, ScreenName=realDonaldTrump)

L'effetto sarà che non saremo più amici di Trump (banalmente).

![010.PNG](attachment:010.PNG)

**19) GetSearch(query)**

> GetSearch(term=None, raw_query=None, geocode=None, since_id=None, max_id=None, until=None, since=None, count=15, lang=None, locale=None, result_type='mixed', include_entities=None, return_json=False)

Ritorna il risultato di una query attraverso la funzione "Cerca su Twitter" di Twitter.

La ricerca viene fatta tenendo conto di uno di questi parametri:
- **term** Stringa di un termine da cercare. Opzionale se si usa **geocode**
- **raw_query** Stringa di una query di Twitter. In termini semplici, consiste in tutto quello che si trova dopo il "?" dell'url di Twitter. Se viene inizializzata, rende opzionali tutti gli altri parametri di questa lista.
- **geocode** stringa, tupla, lista di coordinate geografiche.

**Since_id** e **max_id** hanno la stessa funzione che in altri comandi simili.

**Until** e **since** richiedono una data in formato YYYY-MM-DD e ritornano rispettivamente:
- Tutti i tweet precedenti alla data indicata
- Tutti i tweet successivi alla data indicata

**Count** indica il numero di elementi da tornare nella rispota (max 100).

**Lang** indica se limitare la ricerca ad una lingua sola (default None, ovvero tutte le lingue).

**Result_type** permette di specificare che tipo di tweet cercare. Ha tre possibili valori:
- mixed (default)
- recent
- popolar

In [26]:
#Usando term
api.GetSearch(term='Donald Trump', count=5)

[Status(ID=1235224092439187460, ScreenName=MikeBloomberg, Created=Wed Mar 04 15:22:27 +0000 2020, Text="Three months ago, I entered the race to defeat Donald Trump. Today, I'm leaving for the same reason. Defeating Trump starts with uniting behind the candidate with the best shot to do it. It's clear that is my friend and a great American, @JoeBiden. https://t.co/cNJDIQHS75"),
 Status(ID=1235235070040059904, ScreenName=realDonaldTrump, Created=Wed Mar 04 16:06:04 +0000 2020, Text='Mini Mike, “Three months ago I entered the race for President to defeat Donald Trump, (and I failed miserably!).'),
 Status(ID=1235416071265374208, ScreenName=charliekirk11, Created=Thu Mar 05 04:05:18 +0000 2020, Text='Let me get this straight:\n\nDonald Trump gets impeached for allegedly pressuring the Ukrainian president into doing what he wants\n\nBut Chuck Schumer gets away with ACTUALLY threatening two Supreme Court Justices should they not vote the way he wants?\n\n🤔'),
 Status(ID=1235615030026088448, 

In [27]:
#Usando raw_query
api.GetSearch(raw_query='q=Donald%20Trump', count=5)

[Status(ID=1235615033570103301, ScreenName=selfhelp5, Created=Thu Mar 05 17:15:55 +0000 2020, Text='RT @thedailybeast: WATCH: Fox &amp; Friends co-host Brian Kilmeade grew incredibly defensive when former Obama campaign manager David Plouffe n…'),
 Status(ID=1235615033054228480, ScreenName=thedickwitch, Created=Thu Mar 05 17:15:55 +0000 2020, Text='RT @BernieSanders: I have every reason to believe that we’re going to win this primary and that we are the campaign to defeat Donald Trump.'),
 Status(ID=1235615030026088448, ScreenName=lucerogorostiza, Created=Thu Mar 05 17:15:54 +0000 2020, Text='RT @BernieSanders: I have every reason to believe that we’re going to win this primary and that we are the campaign to defeat Donald Trump.'),
 Status(ID=1235615029778468864, ScreenName=hippiexprincess, Created=Thu Mar 05 17:15:54 +0000 2020, Text='RT @BernieSanders: I have every reason to believe that we’re going to win this primary and that we are the campaign to defeat Donald Trump.'),
 Status(

In [28]:
#Usando geocode
api.GetSearch(geocode=[37.781157, -122.398720, "1mi"], count=5)
# identico api.GetSearch(geocode="37.781157,-122.398720,1mi", count=5)
# identico api.GetSearch(geocode=(37.781157, -122.398720, "1mi"), count=5)

[Status(ID=1232312727571296256, ScreenName=abc7newsbayarea, Created=Tue Feb 25 14:33:44 +0000 2020, Text='6:30 am: We encounter our first BART fare inspectors. No problems on this Pleasanton-bound train. Everyone paid their fare. \nFollow our day on @SFBART https://t.co/0aIuK1NpGG https://t.co/d0tmSUyEPB'),
 Status(ID=1235614056804843522, ScreenName=PoopScoopSF, Created=Thu Mar 05 17:12:02 +0000 2020, Text='"Urine and human feces" (SOMA, D6) https://t.co/DmsmiFjaEC https://t.co/2JS7VmcCXY')]

# Analisi dei dati
---
In questa sezione del tutorial ci concentreremo su come fare analisi dei dati prelevati da Twitter.

In particolare vedremo come:
1. Creare un dataset di Tweet per algoritmi di classificazione
- Dato un tweet, scaricare i commenti al tweet e valutare la percentuale di commenti positivi e negativi

## Creare un dataset di tweet
---

Per poter fare questo avremo bisogno del comando *GetUserTimeline()*. Inoltre dovremo conoscere i nomi degli utenti (gli screen_name, ovvero i nickname dopo la @) da cui prelevare i dati.

GetUserTimeline() è un metodo molto comodo, ma ha due limiti:
1. Scarica al massimo 200 tweet
- Senza influenze esterne, scarica sempre a partire dal tweet più recente

200 tweet non sono sufficienti per creare dataset validi.

Fortunatamente possiamo creare un metodo che permette di sfruttare i parametri di GetUserTimeline() e scaricare grandi quantità di tweet.

> TweetMiner(api, user='', max_tweets=1500, num_tweets=200, tries=20, include_retweets=True, no_replies=False)

Questo metodo usa iterativamente GetUserTimeline() e ritorna un dataframe di tweets.

**api** è l'istanza delle API di Twitter. Deve essere un'istanza di un utente autenticata.

**user** è una stringa che indica il nickname dell'utente da cui prelevare i tweet. Il valore di default è '', comporta il download dei tweet dell'utente autenticato.

**max_tweets** indica il numero di tweet che scaricheremo. Imponiamo come valore di default 1500, ma eventualmente possiamo alzarlo (facendo attenzione ai limiti).

**num_tweets** indica quanti tweet scaricare ad ogni ciclo. 200 è il massimo consentito.

**tries** indica il numero di tentativi massimi. Potrebbe capitare che l'utente da noi scelto abbia meno tweets di quanti vogliamo scaricare. Questo parametro evita di entrare in un loop infinito.

**include_retweets** booleano che indica se vogliamo scaricare i retweets.

**no_replies** booleano che indica se vogliamo escludere le risposte a tweets dell'utente scelto.

---

Nel nostro esempio creeremo un dataframe con i seguenti campi: **tweet_id, handle, retweet_count, text, create_at**. Nessuno ci vieta di estrapolare altri dati (come hashtags, url dei media e cosi via) studiando come vengono salvati in formato json i singoli tweet e manipolando opportunamente i dizionari che questa funzione crea.

Interessante inoltre la maniera mediante la quale viene gestita la creazione della lista "statuses". Il costrutto if permette di stabilire se non è stato ancora prelevato alcun tweet (last_tweet_id == 0) e in caso effettua una chiamata a GetUserTimeline() senza indicare alcun valore per il parametro **max_id**: in questa maniera vengono scaricati i tweet a partire dal più recente. Una volta che avrà scaricato almeno un tweet, last_tweet_id verrà modificato e conterrà l'id del tweet più vecchio. Nel successivo ciclo verrà chiamato nuovamente il metodo GetUserTimeline, ma questa volta last_tweet_id sarà maggiore di 0 e verrà quindi utilizzato il parametro **max_id** per scaricare tutti i tweet antecedenti all'ultimo tweet scaricato.

In questa maniera possiamo essere certi che il metodo TweetMiner scarichi in successione tutti i Tweet di un utente fino alla quota massima da noi indicata (o finchè non si raggiunge il numero di tentativi massimi).

In [29]:
import pandas as pd

def TweetMiner(api, user='', max_tweets=1500, num_tweets=200, tries=20, include_retweets=True, no_replies=False):
    
    if num_tweets > 200:
        num_tweets = 200
    
    n_try = 0
    tweets = []
    last_tweet_id = 0
    
    while n_try < tries and len(tweets) < max_tweets:
        
        if max_tweets - len(tweets) < num_tweets:
            num_tweets = max_tweets - len(tweets)
            
        if last_tweet_id > 0: 
            statuses = api.GetUserTimeline(screen_name=user, count=num_tweets, max_id=last_tweet_id - 1, include_rts=include_retweets, exclude_replies=no_replies)
        else:
            statuses = api.GetUserTimeline(screen_name=user, count=num_tweets, include_rts=include_retweets, exclude_replies=no_replies)
        
        statuses = [s.AsDict() for s in statuses]
            
        for item in statuses:
            try:
                mined = {
                    'tweet_id':        item['id'],
                    'handle':          item['user']['screen_name'],
                    'retweet_count':   item['retweet_count'],
                    'text':            item['full_text'],
                    'created_at':      item['created_at'],
                }

            except:
                mined = {
                    'tweet_id':        item['id'],
                    'handle':          item['user']['screen_name'],
                    'retweet_count':   0,
                    'text':            item['full_text'],
                    'created_at':      item['created_at'],
                }
                
            last_tweet_id = item['id']
            tweets.append(mined)
        
        n_try += 1
    
    return pd.DataFrame(tweets)

In [30]:
#Forniamo un utente. Per esempio Matteo Salvini
username='matteosalvinimi'
tweets = TweetMiner(api,user=username,max_tweets=250)

In [31]:
display(tweets)

Unnamed: 0,tweet_id,handle,retweet_count,text,created_at
0,1235599522535034880,matteosalvinimi,182,Qualcuno usa l'emergenza sanitaria per boicott...,Thu Mar 05 16:14:17 +0000 2020
1,1235565775051726848,matteosalvinimi,123,"Meraviglioso, un bacio a nonna Armanda!\nOnore...",Thu Mar 05 14:00:11 +0000 2020
2,1235545374946807808,matteosalvinimi,125,Al lavoro su proposte concrete per affrontare ...,Thu Mar 05 12:39:07 +0000 2020
3,1235538363681251330,matteosalvinimi,245,Domani il centrodestra presenterà un progetto ...,Thu Mar 05 12:11:15 +0000 2020
4,1235508276038639616,matteosalvinimi,170,Al lavoro con sindaci e governatori per garant...,Thu Mar 05 10:11:42 +0000 2020
...,...,...,...,...,...
245,1231969914321350656,matteosalvinimi,486,"Capuozzo: ""Conte? Bel discorso ma avrebbe dovu...",Mon Feb 24 15:51:31 +0000 2020
246,1231959052684537857,matteosalvinimi,334,"Ordinanze fatte ma subito ritirate, con la con...",Mon Feb 24 15:08:21 +0000 2020
247,1231942665438212096,matteosalvinimi,119,Domani mattina annunceremo le nostre proposte ...,Mon Feb 24 14:03:14 +0000 2020
248,1231942664184107008,matteosalvinimi,116,siamo nel pieno di un’emergenza sanitaria ed e...,Mon Feb 24 14:03:14 +0000 2020


Possiamo rendere la cosa più automatica chiamando il metodo iterativamente usando una lista di utenti.

In [32]:
list_usr = ['matteosalvinimi','luigidimaio']
dataset = pd.DataFrame()


for u in list_usr:
    dataset = pd.concat([dataset,TweetMiner(api,user=u,max_tweets=250)])

dataset.reset_index(drop=True)

Unnamed: 0,tweet_id,handle,retweet_count,text,created_at
0,1235599522535034880,matteosalvinimi,182,Qualcuno usa l'emergenza sanitaria per boicott...,Thu Mar 05 16:14:17 +0000 2020
1,1235565775051726848,matteosalvinimi,123,"Meraviglioso, un bacio a nonna Armanda!\nOnore...",Thu Mar 05 14:00:11 +0000 2020
2,1235545374946807808,matteosalvinimi,125,Al lavoro su proposte concrete per affrontare ...,Thu Mar 05 12:39:07 +0000 2020
3,1235538363681251330,matteosalvinimi,245,Domani il centrodestra presenterà un progetto ...,Thu Mar 05 12:11:15 +0000 2020
4,1235508276038639616,matteosalvinimi,170,Al lavoro con sindaci e governatori per garant...,Thu Mar 05 10:11:42 +0000 2020
...,...,...,...,...,...
495,1112439150874120192,luigidimaio,621,La mia più sentita vicinanza e quella del gove...,Sun Mar 31 19:38:56 +0000 2019
496,1111639240125935617,luigidimaio,344,A noi non importa avere la paternità di questo...,Fri Mar 29 14:40:22 +0000 2019
497,1111588463709773824,luigidimaio,944,Poco fa il presidente della Repubblica ha prom...,Fri Mar 29 11:18:36 +0000 2019
498,1111334632136556547,luigidimaio,756,RT @AmbJohnBolton: Met Italy’s Deputy PM Di Ma...,Thu Mar 28 18:29:58 +0000 2019


Da questo punto in poi è possibile effettuare un'analisi più approfondita dei dati utilizzando i vari campi dal dataset ottenuto. Possiamo per esempio usare il campo **text** e il campo **handle** per effettuare classificazione sui tweet (e creare un applicativo che può riconoscere lo scrittore di un tweet dati un numero di handle) oppure possiamo utilizzare i **tweet_id** per fare altri tipi di controlli (scaricare informazioni aggiuntive dei singoli tweet che parlano di un certo argomento, scaricare particolari tweet che sono stati creati in una certa data etc).

## Usare Vader sui Tweet
---

Il secondo metodo di analisi che valuteremo riguarda ad una tecnica di sentiment analysis basata su VADER.

Vedremo due esempi di utilizzo per l'analisi dei dati. Prima di tutto scarichiamo il lexicon di VADER.

In [33]:
import nltk
nltk.download('vader_lexicon')

[nltk_data] Downloading package vader_lexicon to C:\Users\Marco
[nltk_data]     Cavalli\AppData\Roaming\nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!


True

## Sentiment Analysis in un dataset di Tweet
---

Utilizzando il dataset che ci siamo creati, vediamo quanti messaggi positivi, negativi e neutrali ha scritto ogni utente presente in un datset di tweet.

Prima di tutto creiamo il dataset.

In [34]:
list_usr = ['realDonaldTrump','HillaryClinton','BarackObama','SpeakerRyan']
dataset = pd.DataFrame()


for u in list_usr:
    dataset = pd.concat([dataset,TweetMiner(api,user=u,max_tweets=500)])

dataset.reset_index(drop=True)

Unnamed: 0,tweet_id,handle,retweet_count,text,created_at
0,1235604572850343937,realDonaldTrump,7198,"With approximately 100,000 CoronaVirus cases w...",Thu Mar 05 16:34:21 +0000 2020
1,1235601483367923718,realDonaldTrump,4658,“Joe Biden represents the past. President Trum...,Thu Mar 05 16:22:04 +0000 2020
2,1235598653114511360,realDonaldTrump,9522,"Elizabeth “Pocahontas” Warren, who was going n...",Thu Mar 05 16:10:49 +0000 2020
3,1235596612099084288,realDonaldTrump,5651,.@GOPLeader Kevin McCarthy informed me that I ...,Thu Mar 05 16:02:43 +0000 2020
4,1235594306297253889,realDonaldTrump,5657,“I want to commend the President for how he ha...,Thu Mar 05 15:53:33 +0000 2020
...,...,...,...,...,...
1995,1016694681709744128,SpeakerRyan,145,Great news→ New hires are at a 17-year high! T...,Tue Jul 10 14:44:36 +0000 2018
1996,1016492207535161345,SpeakerRyan,374,Judge Brett Kavanaugh is an excellent choice f...,Tue Jul 10 01:20:02 +0000 2018
1997,1016366664420651009,SpeakerRyan,150,Opportunity zones are a component of our pover...,Mon Jul 09 17:01:10 +0000 2018
1998,1016080865074532362,SpeakerRyan,278,The best way to fight poverty is to get our so...,Sun Jul 08 22:05:30 +0000 2018


Ora possiamo utilizzare i moduli di nltk legati a VADER. Un esempio di analisi potrebbe essere applicare la sentiment anlysis in generale e per singolo utente.

In [35]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer
sid = SentimentIntensityAnalyzer()

dataset_p = dataset

dataset_p['polarity'] = [sid.polarity_scores(x)['compound'] for x in dataset_p['text']]

In [36]:
users = list(dataset_p['handle'].value_counts().index)

In [37]:
results = []
positive = len(dataset_p[dataset_p['polarity'] > 0.05])/len(dataset_p)*100
negative = len(dataset_p[dataset_p['polarity'] < -0.05])/len(dataset_p)*100
neutral = 100-positive-negative
total = len(dataset_p)

results.append(['General',positive,neutral,negative,total])

for x in users:
    dataset_x = dataset_p[dataset_p['handle'] == x]
    positive = len(dataset_x[dataset_x['polarity'] > 0.05])/len(dataset_x)*100
    negative = len(dataset_x[dataset_x['polarity'] < -0.05])/len(dataset_x)*100
    neutral = 100-positive-negative
    total = len(dataset_x)
    user = x
    results.append([user,positive,neutral,negative,total])

results_pd = pd.DataFrame(results, columns=['user','Positive','Neutral','Negative','Total tweets'])

In [38]:
results_pd

Unnamed: 0,user,Positive,Neutral,Negative,Total tweets
0,General,63.8,17.75,18.45,2000
1,realDonaldTrump,53.2,21.0,25.8,500
2,SpeakerRyan,68.6,16.6,14.8,500
3,HillaryClinton,58.2,19.6,22.2,500
4,BarackObama,75.2,13.8,11.0,500


E avremo così ottenuto un prospetto che ci permette di capire quanto gli utenti del nostro dataset siamo "polemici" o "amichevoli" in funzione dei tweet che scrivono.

## Studiare le reazioni ai tweet di un utente con  VADER
---

Un altro tipo di analisi che possiamo attuare, usando sempre VADER, è quella di controllare il sentiment analysis delle iterazioni degli utenti (risposte, retweet) verso un utente partendo a ritroso da un suo tweet.

Cominciamo scaricando un tweet su cui effettuare lo studio. Noi useremo un Tweet di Trump come esempio. Puoi sempre utilizzare il metodo accennato prima (durante la creazione del dataset) per prelevare l'id dei tweet se non vuoi farlo manualmente.

Preleviamo il tweet più recente di Trump per studiare l'andamento "recente" delle reazioni ai tweet di Trump della sua community.

In [39]:
#Scegliamo un utente
username='realDonaldTrump'
raw_tweet = api.GetUserTimeline(screen_name='realDonaldTrump', count=1)[0]
tweet_dict = raw_tweet.AsDict()
tweet = {"id" : tweet_dict['id'], "user" : {"screen_name" : tweet_dict['user']['screen_name']} }

Ora introdurremo il funzionamento dei metodi che useremo per ricavare le risposte ai tweet di un particolare utente.

Il codice che proporremo è preso da una repository di GitHub dell'utente **edsu**. Il link è il seguente: https://gist.github.com/edsu/54e6f7d63df3866a87a15aed17b51eaf

Useremo parte di questo codice che fa uso del comando GetSearch() per trovare tutte le risposte ad un post. Noi lo modificheremo un pochino giusto per tornare le ultime 800 risposte ai tweet di Trump.

Il codice prende in input uno status (il nostro **tweet**) e, usando il metodo GetSearch(), torna un dataframe contenente tutte le risposte e gli autori delle risposte ai tweet di Trump. Il codice proposto è ricorsivo: quindi andrebbe a prelevare anche le risposte delle risposte. Se non ci dovesse interessare questa opzione basterà imposta a False il valore di **enable_replies_of_reply**.

Per i nostri casi lo porremo a **False**.

In [40]:
import json
import time
import urllib.parse
import pandas as pd

enable_replies_of_reply = False
raw_replies = []
max_id = None
n_search = 800

def get_tweets(t):
    yield twitter.Status.NewFromJsonDict(json.loads(t))

def get_replies(tweet):
    global max_id
    user = tweet.user.screen_name
    tweet_id = tweet.id
    max_id = None
    while True:
        q = urllib.parse.urlencode({"q": "to:%s" % user})
        try:
            replies = api.GetSearch(raw_query=q, since_id=tweet_id, max_id=max_id, count=100)
        except twitter.error.TwitterError as e:
            time.sleep(60)
            continue
        for reply in replies:
            yield reply
            # recursive magic to also get the replies to this reply
            if enable_replies_of_reply:
                for reply_to_reply in get_replies(reply):
                    yield reply_to_reply
            max_id = reply.id
        if len(replies) != 100:
            break
            
tweet_str = str(tweet)
tweet_str = tweet_str.replace("'",'"')

for t in get_tweets(tweet_str):
    while len(raw_replies) < n_search:
        for reply in get_replies(t):
            raw_replies.append(reply.AsDict())

In [41]:
list_replies = []
for s in raw_replies:
    mess = s['full_text']
    user = s['user']['screen_name']
    reply_to = s.get('in_reply_to_screen_name', "Retweet")
    id_reply_to = s.get('in_reply_to_status_id', 0)
    list_replies.append([user,mess,reply_to,id_reply_to])

dataset = pd.DataFrame(list_replies, columns=['user','reply','original_post_owner','id_original_post'])

In [42]:
dataset

Unnamed: 0,user,reply,original_post_owner,id_original_post
0,LogsdonPj,@realDonaldTrump answer one simple question......,realDonaldTrump,0
1,lillybird50,@realDonaldTrump Lies,realDonaldTrump,1235604572850343937
2,GailHorn,RT @TalbertSwan: @realDonaldTrump @LisaMarieBo...,Retweet,0
3,McWafflesPK,RT @BikiniBodhi: @realDonaldTrump Hey Trump pl...,Retweet,0
4,greengremlin66,"RT @itsJeffTiedrich: @realDonaldTrump ""and aga...",Retweet,0
...,...,...,...,...
805,thehamerguy,"@realDonaldTrump Blame, blame, blame. I can't ...",realDonaldTrump,1235573492004904961
806,buck_shirley,@realDonaldTrump @DonaldJTrumpJr\n@EricTrump @...,realDonaldTrump,0
807,avl1899,"RT @littledeekay: @realDonaldTrump People, inc...",Retweet,0
808,zp5036,@realDonaldTrump resign,realDonaldTrump,1235568602696355840


Abbiamo così creato il dataset di tweet/retweet di risposta ai tweet di Trump.

Possiamo ora applicare VADER per vedere la percentuale di commenti positivi e negativi su ciò che dice Trump.

In [43]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer
sid = SentimentIntensityAnalyzer()

dataset_p = dataset

dataset_p['polarity'] = [sid.polarity_scores(x)['compound'] for x in dataset_p['reply']]

In [44]:
dataset_p

Unnamed: 0,user,reply,original_post_owner,id_original_post,polarity
0,LogsdonPj,@realDonaldTrump answer one simple question......,realDonaldTrump,0,0.0000
1,lillybird50,@realDonaldTrump Lies,realDonaldTrump,1235604572850343937,-0.4215
2,GailHorn,RT @TalbertSwan: @realDonaldTrump @LisaMarieBo...,Retweet,0,0.1280
3,McWafflesPK,RT @BikiniBodhi: @realDonaldTrump Hey Trump pl...,Retweet,0,0.6124
4,greengremlin66,"RT @itsJeffTiedrich: @realDonaldTrump ""and aga...",Retweet,0,0.0000
...,...,...,...,...,...
805,thehamerguy,"@realDonaldTrump Blame, blame, blame. I can't ...",realDonaldTrump,1235573492004904961,-0.7351
806,buck_shirley,@realDonaldTrump @DonaldJTrumpJr\n@EricTrump @...,realDonaldTrump,0,-0.9468
807,avl1899,"RT @littledeekay: @realDonaldTrump People, inc...",Retweet,0,0.0000
808,zp5036,@realDonaldTrump resign,realDonaldTrump,1235568602696355840,-0.3400


In [45]:
id_msgs = list(dataset_p['id_original_post'].value_counts().index)

Possiamo ora calcolare le percentuali totali e parziali in funzione dei post.

In [46]:
results = []
positive = len(dataset_p[dataset_p['polarity'] > 0.05])/len(dataset_p)*100
negative = len(dataset_p[dataset_p['polarity'] < -0.05])/len(dataset_p)*100
neutral = 100-positive-negative
total = len(dataset_p)

results.append(['General','General',positive,neutral,negative,total])

for x in id_msgs:
    dataset_x = dataset_p[dataset_p['id_original_post'] == x]
    positive = len(dataset_x[dataset_x['polarity'] > 0.05])/len(dataset_x)*100
    negative = len(dataset_x[dataset_x['polarity'] < -0.05])/len(dataset_x)*100
    neutral = 100-positive-negative
    total = len(dataset_x)
    text = api.GetStatus(x).full_text if x != 0 else 'Retweet'
    id_msg = x if x != 0 else 'Retweet'
    results.append([id_msg,text,positive,neutral,negative,total])

results_pd = pd.DataFrame(results, columns=['id_tweet','text','Positive','Neutral','Negative','Total Iterations'])

In [47]:
results_pd

Unnamed: 0,id_tweet,text,Positive,Neutral,Negative,Total Iterations
0,General,General,26.666667,40.0,33.333333,810
1,Retweet,Retweet,30.0,50.0,20.0,540
2,1235568602696355840,"As per recent Federal Court ruling, the Federa...",50.0,0.0,50.0,108
3,1235604572850343937,"With approximately 100,000 CoronaVirus cases w...",0.0,0.0,100.0,54
4,1235573492004904961,I NEVER said people that are feeling sick shou...,0.0,0.0,100.0,54
5,1235598653114511360,"Elizabeth “Pocahontas” Warren, who was going n...",0.0,100.0,0.0,54


Il risultato della computazione è quindi una tabella che ci può far capire quanto l'utente preso sotto analisi sia "amato" o "odiato". Inoltre ci permette di vedere l'andamento delle reazioni per i singoli tweet presi in analisi.

Eventualmente si potrebbe automatizzare il processo e lanciarlo su una lista di utenti per poter valutare quale sia il più "amato" o il più "odiato" in assoluto tra gli utenti proposti.