# 17 • Consulta de tweets

En este notebook se revisará cómo consultar tweets usando Python.

## Contenido
1. Intro  
   1.1. Twitter API   
   1.2. Librería `GetOldTweets3`  
   1.3. Librería `snscrape`  
2. Referencias  

In [2]:
# Import basic libraries
import pandas as pd
import numpy as np
import altair as alt

## 1. Intro
Existen distintas librerías para consultar tweets y cada una de ellas tiene sus ventajas y desventajas. La manera oficial es hacerlo a través de la aplicación oficial de Twitter obteniendo acceso como desarrollador (`Twitter API`) para la cual se requiere solicitar una cuenta. Existen algunas alternativas que en lo personal he utilizado, aunque para usarlas hay que familiarizarse con ellas, como `GetOldTweets3` y `snscrape` pues no están tan bien documentadas.

Es importante mencionar que las consultas de twitter usualmente arrojan información en formato `json`, los cuales siguen una estructura parecida a los diccionarios de Python y, en caso de guardar estos archivos, se recomienda guardarlos en formato `.json` en el lugar de convertirlos a `.xls`, `.csv`, `.txt` o `npy` para no perder información.

### 1.1 Twitter API
Esta cuenta no tiene costo, aunque sí existe limitación en número de tweets consultados por día. El primer paso es [solicitar una cuenta de desarrollador](https://developer.twitter.com/en/portal/dashboard). Para quien esté interesado en obtener una cuenta les comparto un par de links que les podrían ser útiles

- [Twitter API Data Collection](https://www.youtube.com/watch?v=Jl-_dDqSaUQ&t=59s) por Stevesie Data, ver del minuto 0:59 al 1:44.
- [Developer account support](https://developer.twitter.com/en/support/twitter-api/developer-account) por Twitter.

Una vez que hayan obtenido su solicitud para abrir cuenta de desarrollador haya sido aceptada, podrán encontrar su llave de autenticación en este [link](https://developer.twitter.com/en/portal/projects-and-apps): `API key`, `API secret key`, `Access token` y `Access token secret`, y con ellas podrán tener acceso con distintos programas, entre ellos con Python.

La API de Twitter algunas limitaciones para consultar tweets descritas en este [link](https://developer.twitter.com/en/docs/tweets/search/api-reference/get-search-tweets).

⚠️ __Desventajas__, el obtener una cuenta de desarrollador en Twitter puede tardar tiempo y además de tener restricciones como un tiempo máximo de días previos de consulta (e.g. no se puede consultar tweets de principios de año), además de un número de existir un máximo número de tweets.

### 1.2 Librería `GetOldTweets3`
Esta es una librería está relativamente bien documentada donde se pueden conusltar tweets relativamente antiguos. Para más información pueden consultar la [descripción del paquete](https://pypi.org/project/GetOldTweets3/) con las indicaciones para su instalación y la [página del paquete en GitHub](https://github.com/Mottl/GetOldTweets3).

Es importante mencionar que actualmente este paquete no funciona.

In [3]:
## librerías
# !pip install GetOldTweets3 #<- installa la librería
import GetOldTweets3 as got

In [4]:
# Partámetros para consulta
tweetCriteria = got.manager.TweetCriteria().setUsername("JustinTrudeau")\
                                           .setTopTweets(True)\
                                           .setMaxTweets(10)

In [5]:
# esto se almacena en un objeto
tweetCriteria

<GetOldTweets3.manager.TweetCriteria.TweetCriteria at 0x1157b2470>

In [6]:
# # Al realizar la consulta arroja error
# tweet = got.manager.TweetManager.getTweets(tweetCriteria)[0]
# print(tweet.text)

⚠️ __Desventajas__, actualmente este paquete no funciona de forma correcta. En la siguiente liga se comparte el error, el cual ha sido persistente desde septiembre 2020 https://github.com/Mottl/GetOldTweets3/issues/98

### 1.3 Librería `snscrape`
Esta librería es la mejor alternativa que he utilizado para bajar tweets, aunque aún falta mejorar la documentación. Además, esta librería tiene módulos específicos que sirven para consultar información de otras redes sociales entre las que se encuentran Facebook, Instagram y Telegram.

#### Ejemplo: Obtener tweets relacionados con el **COVID** realizados desde las cuentas de los dirigentes de México, USA y Canadá

In [7]:
# librerías
import snscrape.modules.twitter as sntwitter

In [8]:
# parametros
maxTweets = 2_000
date_initial = "2020-01-01"
date_final = "2022-10-31"

# twitter's accounts
cuentas=['JustinTrudeau', 'JoeBiden', 'lopezobrador_']

In [9]:
%%time
# Parámetros

# Creating list to append tweet data to
tweets_list = []

# Using TwitterSearchScraper to scrape data and append tweets to list
print("\n--- START: TwitterSearchScraper por cuenta de Twitter ---\n")
for a in cuentas:
    for i,tweet in enumerate(sntwitter.TwitterSearchScraper('"covid" since:'+date_initial+' until:'+date_final+' from:'+a).get_items()):
        if i>maxTweets-1:
            break
        tweets_list.append([tweet.user.username, tweet.date, tweet.id, tweet.content, tweet.url, tweet.lang,
                    tweet.hashtags, tweet.likeCount, tweet.replyCount, tweet.retweetCount, tweet.quoteCount])
        # Otra info que puede sernos útil: tweet.media,  tweet.url
    print("Se identificaron {0} tweets de la cuenta {1} con los parametros dados.".format(i, a))
print("\n--- END: TwitterSearchScraper ---\n\nTIMING")


--- START: TwitterSearchScraper por cuenta de Twitter ---

Se identificaron 1231 tweets de la cuenta JustinTrudeau con los parametros dados.
Se identificaron 254 tweets de la cuenta JoeBiden con los parametros dados.
Se identificaron 2 tweets de la cuenta lopezobrador_ con los parametros dados.

--- END: TwitterSearchScraper ---

TIMING
CPU times: user 859 ms, sys: 90.4 ms, total: 950 ms
Wall time: 41.4 s


In [10]:
# Pandas dataframe con tweets de los tres presidentes relacionados con el Covid-19
column_names = ("username","date","id","content","url","language","hashtags",
                "likes_count","reply_count","retweet_count","quote_count")
df = pd.DataFrame(tweets_list, columns=column_names)
df

Unnamed: 0,username,date,id,content,url,language,hashtags,likes_count,reply_count,retweet_count,quote_count
0,JustinTrudeau,2022-10-21 18:16:58+00:00,1583522748642435072,And to Premier @JJHorgan: Thank you for your s...,https://twitter.com/JustinTrudeau/status/15835...,en,,271,76,47,3
1,JustinTrudeau,2022-10-21 18:16:44+00:00,1583522691675729920,Et au PM @JJHorgan : merci pour les services q...,https://twitter.com/JustinTrudeau/status/15835...,fr,,100,17,24,0
2,JustinTrudeau,2022-09-26 22:19:08+00:00,1574523994568818688,"Update: Effective October 1st, we’re removing ...",https://twitter.com/JustinTrudeau/status/15745...,en,,4436,3402,653,414
3,JustinTrudeau,2022-09-26 22:19:02+00:00,1574523971244265472,"Nouveau : à partir du 1er octobre, on lève les...",https://twitter.com/JustinTrudeau/status/15745...,fr,,174,95,33,10
4,JustinTrudeau,2022-09-22 20:16:22+00:00,1573043547984609284,It’s time – if you’re eligible for your booste...,https://twitter.com/JustinTrudeau/status/15730...,en,,3494,7267,553,777
...,...,...,...,...,...,...,...,...,...,...,...
1485,JoeBiden,2020-03-15 14:46:19+00:00,1239201266410164224,If you're exhibiting symptoms of COVID-19 — or...,https://twitter.com/JoeBiden/status/1239201266...,en,,5460,360,1292,123
1486,JoeBiden,2020-03-15 14:43:52+00:00,1239200647616004096,The right to vote is the most sacred American ...,https://twitter.com/JoeBiden/status/1239200647...,en,,17019,3543,3690,2649
1487,lopezobrador_,2021-01-25 00:30:45+00:00,1353500519344578560,Lamento informarles que estoy contagiado de CO...,https://twitter.com/lopezobrador_/status/13535...,es,,114864,54867,28609,24896
1488,lopezobrador_,2020-12-27 02:24:20+00:00,1343019855272931336,Nos reunimos con la jefa de Gobierno e integra...,https://twitter.com/lopezobrador_/status/13430...,es,,13129,1768,3182,323


In [11]:
# ejemplo de tweet
df['content'][0]

'And to Premier @JJHorgan: Thank you for your service to British Columbians and to all Canadians – particularly your leadership on reconciliation with Indigenous Peoples, and helping people during the COVID-19 pandemic. I’m wishing you the very best. https://t.co/X81iiqnqaW'

In [12]:
# Número de comentarios por presidente/primer ministro
print("\nTweets de presidente o primer ministro relacionados con el Covid-19, de enero 2020 a octubre 2022:\n")
pd.DataFrame(df['username'].value_counts()).reset_index().rename(columns={'index':'President', 'username':"tweets"})


Tweets de presidente o primer ministro relacionados con el Covid-19, de enero 2020 a octubre 2022:



Unnamed: 0,President,tweets
0,JustinTrudeau,1232
1,JoeBiden,255
2,lopezobrador_,3


#### Ejemplo: Obtener tweets con hashtag #INENoSeToca

In [23]:
%%time

# Parámetros
tweets_list_ine = []
maxTweets_ine = 10_000
date_initial = "2023-01-01"

# Get tweets
for i,tweet in enumerate(sntwitter.TwitterSearchScraper('#INENoSeToca').get_items()): # se puede añadir esto --> since:'+date_initial
        if i>maxTweets_ine-1:
            break
        tweets_list_ine.append([tweet.user.username, tweet.date, tweet.id, tweet.content, tweet.url, tweet.lang,
                    tweet.hashtags, tweet.likeCount, tweet.replyCount, tweet.retweetCount, tweet.quoteCount])
        # Otra info que puede sernos útil: tweet.media,  tweet.url

CPU times: user 5.38 s, sys: 507 ms, total: 5.89 s
Wall time: 6min 49s


In [24]:
# Pandas dataframe con tweets que mencionen el hashtag #INENoSeToca
df_ine = pd.DataFrame(tweets_list_ine, columns=column_names)
df_ine['date'] = df_ine['date'].dt.strftime('%Y-%m-%d')
df_ine

Unnamed: 0,username,date,id,content,url,language,hashtags,likes_count,reply_count,retweet_count,quote_count
0,can7rojo,2023-03-06,1632598345440022532,@Sergeluna_S Derrochas y excesos?? Todo está t...,https://twitter.com/can7rojo/status/1632598345...,es,[inenosetoca],0,0,0,0
1,liortega11,2023-03-06,1632590298655121410,@markarloff A mi no me pesa el #inenosetoca!! ...,https://twitter.com/liortega11/status/16325902...,es,"[inenosetoca, trivagos]",0,0,0,0
2,ius7600,2023-03-06,1632582999253348353,"@euripidesf Y sigues exhibiéndote , que 🐶🐻 #pa...",https://twitter.com/ius7600/status/16325829992...,es,"[palero, igualado, elinesomostodos, inenosetoc...",0,0,0,0
3,ATravelian,2023-03-06,1632554013198540800,@PartidoMorenaMx Entonces bajo esa declaración...,https://twitter.com/ATravelian/status/16325540...,es,"[AMLOEsUnPeligroParaMexico, AMLOverguenzamundi...",1,0,0,0
4,agvsto,2023-03-06,1632542410491273216,"@HaffelyGalarza3 @MARIACLEMENTEMX diputado, e...",https://twitter.com/agvsto/status/163254241049...,es,[inenosetoca],0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
9995,mijunior1965,2022-11-14,1592000631740715009,"Mi México querido, no nos vamos a dejar #INENo...",https://twitter.com/mijunior1965/status/159200...,es,[INENoSeToca],0,0,0,0
9996,chinosb,2022-11-14,1592000550203269122,@epigmenioibarra Ni un solo camión de acarread...,https://twitter.com/chinosb/status/15920005502...,es,[INENoSeToca],0,0,0,0
9997,Chavineytor,2022-11-14,1592000516103766017,@lopezobrador_ \n@Mx_Diputados \n@senadomexica...,https://twitter.com/Chavineytor/status/1592000...,es,[INENoSeToca],0,0,0,0
9998,InigoPB77,2022-11-14,1592000220396658689,"@lopezobrador_ a la chingada, lo prometiste y ...",https://twitter.com/InigoPB77/status/159200022...,es,"[AlINENoSeToca, INENoSeToca, YoDefiendoAlINE, ...",0,0,0,0


In [25]:
# ejemplo de tweet
df_ine['content'][1]

'@markarloff A mi no me pesa el #inenosetoca!! Odio pagar impuestos para mantener a los #trivagos'

In [26]:
source = pd.DataFrame(df_ine['date'].value_counts()).reset_index().rename(columns={'index':'fecha', 'date':"tweets"})
source.head()

Unnamed: 0,fecha,tweets
0,2023-02-26,1927
1,2022-11-14,1580
2,2023-02-27,923
3,2022-11-15,646
4,2022-12-07,496


In [27]:
alt.Chart(source[source['fecha'] >= "2023-01-01"]).mark_area(color="pink").encode(
    alt.X("fecha:T", title="2022"),
    alt.Y("tweets:Q", title="Número de Tweets", scale=alt.Scale(type="log")),
    tooltip=["fecha:T","tweets"]
).properties(
    title="Volumen de tweets con hashtag #INENoSeToca durante 2023"
)

# Referencias
- **API de Twitter**
    - [Solicitud de cuenta de desarrollador](https://developer.twitter.com/en/portal/dashboard)
    - [Twitter API Data Collection](https://www.youtube.com/watch?v=Jl-_dDqSaUQ&t=59s) por Stevesie Data (minuto 0:59 al 1:44)
    - [Ejemplo de uso](https://github.com/vcuspinera/Canada_response_covid/blob/master/src/twitter-search_v1_TwitterAPI.ipynb)  

<br>

- **librería `GetOldTweets`**
    - [Descripción del paquete](https://pypi.org/project/GetOldTweets3/) 
    - [Página del paquete en GitHub](https://github.com/Mottl/GetOldTweets3)
    - [Error del paquete](https://github.com/Mottl/GetOldTweets3/issues/98)
    - [Ejemplo de uso](https://github.com/vcuspinera/Canada_response_covid/blob/master/src/twitter-search_v2_GetOldTweets3.ipynb)  

<br>

- **librería `snscrape`**
    - [Descripción del paquete](https://pypi.org/project/snscrape/) 
    - [Página del paquete en GitHub](https://github.com/JustAnotherArchivist/snscrape)
    - [Ejemplo de uso](https://github.com/vcuspinera/Canada_response_covid/blob/master/src/twitter-search_v3_snscrape.ipynb)  

<br>

- **Artículos**
    - [How to scrape millions of tweets using snscrape](https://medium.com/dataseries/how-to-scrape-millions-of-tweets-using-snscrape-195ee3594721) por Rashi Desai.
    - [How to Scrape Tweets With snscrape](https://betterprogramming.pub/how-to-scrape-tweets-with-snscrape-90124ed006af) por Martin Beck.