# 06 • Análisis de tweets

En este notebook se revisará cómo consultar tweets usando Python.

In [1]:
# Basic libraries
import pandas as pd
import numpy as np

## 1. Consultar tweets
Existen distintas librerías para consultar tweets y cada una de ellas tiene sus ventajas y desventajas. La manera oficial es hacerlo a través de la aplicación oficial de Twitter obteniendo acceso como desarrollador (`Twitter API`) para la cual se requiere solicitar una cuenta. Existen algunas alternativas que en lo personal he utilizado, aunque para usarlas hay que familiarizarse con ellas, como `GetOldTweets3` y `snscrape` pues no están tan bien documentadas.

Es importante mencionar que las consultas de twitter usualmente arrojan información en formato `json`, los cuales siguen una estructura parecida a los diccionarios de Python y, en caso de guardar estos archivos, se recomienda guardarlos en formato `.json` en el lugar de convertirlos a `.xls`, `.csv`, `.txt` o `npy` para no perder información.

### 1.1 Cuenta de desarrollador de Twitter
Esta cuenta no tiene costo, aunque sí existe limitación en número de tweets consultados por día. El primer paso es [solicitar una cuenta de desarrollador](https://developer.twitter.com/en/portal/dashboard). Para quien esté interesado en obtener una cuenta les comparto un par de links que les podrían ser útiles

- [Twitter API Data Collection](https://www.youtube.com/watch?v=Jl-_dDqSaUQ&t=59s) por Stevesie Data, ver del minuto 0:59 al 1:44.
- [Ejemplo de aplicación para cuenta de desarrollador en Twitter](https://wptweetboost.com/example-of-the-twitter-developer-account-application-process/) por Hudson Atwell.

Una vez que hayan obtenido su solicitud para abrir cuenta de desarrollador haya sido aceptada, podrán encontrar su llave de autenticación en este [link](https://developer.twitter.com/en/portal/projects-and-apps): `API key`, `API secret key`, `Access token` y `Access token secret`.

La API de Twitter algunas limitaciones para consultar tweets descritas en este [link](https://developer.twitter.com/en/docs/tweets/search/api-reference/get-search-tweets).

In [18]:
# librerías
import twitter

In [19]:
# Traer MI llave de twitter
# keys = ! ../keys/twitter_config.py
keys = ! ../keys/twitter_config_keys.py

# Save keys to use them later
api = twitter.Api(consumer_key = keys[0],
                  consumer_secret = keys[1],
                  access_token_key = keys[2],
                  access_token_secret = keys[3],
                  sleep_on_rate_limit=True #
                 )

In [20]:
## Código para revisar mis llaves
#keys

In [38]:
# Parámetros
num_tweets = 100
max_tweets = 180
time_epoc = 900 # 15 minutes = 900 seconds
a_buscar = "10pesitos"

In [39]:
# consulta de tweets

results = api.GetSearch(
    raw_query = "q=" + a_buscar + 
                "%20&until=" + "2022-04-27" +
                "&count=" + str(num_tweets)
)

In [40]:
# Ejemplo de resultado
# la consulta la regresa en 
results[1]

Status(ID=1516554778855284738, ScreenName=dd_lascamaras, Created=Tue Apr 19 23:10:10 +0000 2022, Text='@jc_ramirezmarin dice que en MORENA son malos pa las cuentas: si fueran buenos ya estaría la gasolina a 10pesitos.… https://t.co/OoYk8mfEoS')

⚠️ __Desventajas__, el obtener una cuenta de desarrollador en Twitter puede tardar tiempo y además de tener restricciones como un tiempo máximo de días previos de consulta (e.g. no se puede consultar tweets de principios de año), además de un número de existir un máximo número de tweets.

### 1.2 Librería `GetOldTweets3`
Esta es una librería está relativamente bien documentada donde se pueden conusltar tweets relativamente antiguos. Para más información pueden consultar la [descripción del paquete](https://pypi.org/project/GetOldTweets3/) con las indicaciones para su instalación y la [página del paquete en GitHub](https://github.com/Mottl/GetOldTweets3).

Es importante mencionar que actualmente este paquete no funciona.

In [28]:
# librerías
import GetOldTweets3 as got

In [29]:
# Partámetros para consulta
tweetCriteria = got.manager.TweetCriteria().setUsername("JustinTrudeau")\
                                           .setTopTweets(True)\
                                           .setMaxTweets(10)

In [30]:
# esto se almacena en un objeto
tweetCriteria

<GetOldTweets3.manager.TweetCriteria.TweetCriteria at 0x7fdcd3153490>

In [32]:
# # Al realizar la consulta arroja error
# tweet = got.manager.TweetManager.getTweets(tweetCriteria)[0]
# print(tweet.text)

⚠️ __Desventajas__, actualmente este paquete no funciona de forma correcta. En la siguiente liga se comparte el error, el cual ha sido persistente desde septiembre 2020 https://github.com/Mottl/GetOldTweets3/issues/98

### 1.3 Librería `snscrape`
Esta librería es la mejor alternativa que he utilizado para bajar tweets, aunque aún falta mejorar la documentación. Además, esta librería sirve para bajar consultar información de otras fuentes entre las que se encuentran Facebook, Instagram y Telegram.

In [70]:
# librerías
import snscrape.modules.twitter as sntwitter

In [75]:
# parametros
account = "lopezobrador_"
max_results = 1000

In [79]:
# se genera consulta
tweets_search = sntwitter.TwitterSearchScraper('"pueblo" from:'+account).get_items() 

# objeto con información
tweets_search

<generator object TwitterSearchScraper.get_items at 0x7fdcd4564450>

In [80]:
# visualizar tweets
tweets_list = []
try:
    for i,tweet in enumerate(tweets_search): 
        if i >= max_results: #number of tweets you want to scrape
            break
        tweets_list.append([tweet.date, tweet.id, tweet.url, tweet.outlinks[0], tweet.content, tweet.username]) #declare the attributes to be returned
except:
    next            

In [82]:
tweets_list[0]

[datetime.datetime(2022, 4, 27, 12, 12, 59, tzinfo=datetime.timezone.utc),
 1519288495671447553,
 'https://twitter.com/lopezobrador_/status/1519288495671447553',
 'https://twitter.com/i/broadcasts/1LyxBoryemOKN',
 'Con el apoyo del pueblo estamos saliendo adelante y viviendo tiempos de esperanza y transformación. Conferencia matutina https://t.co/RynW91sscT',
 'lopezobrador_']

# Referencias
- **API de Twitter**
    - [Solicitud de cuenta de desarrollador](https://developer.twitter.com/en/portal/dashboard)
    - [Twitter API Data Collection](https://www.youtube.com/watch?v=Jl-_dDqSaUQ&t=59s) por Stevesie Data (minuto 0:59 al 1:44)
    - [Ejemplo de aplicación para cuenta de desarrollador en Twitter](https://wptweetboost.com/example-of-the-twitter-developer-account-application-process/) por Hudson Atwell.
    - [Ejemplo de uso](https://github.com/vcuspinera/Canada_response_covid/blob/master/src/twitter-search_v1_TwitterAPI.ipynb)  

    
- **librería `GetOldTweets`**
    - [Descripción del paquete](https://pypi.org/project/GetOldTweets3/) 
    - [Página del paquete en GitHub](https://github.com/Mottl/GetOldTweets3)
    - [Error del paquete](https://github.com/Mottl/GetOldTweets3/issues/98)
    - [Ejemplo de uso](https://github.com/vcuspinera/Canada_response_covid/blob/master/src/twitter-search_v2_GetOldTweets3.ipynb)  
    
    
- **librería `snscrape`**
    - [Descripción del paquete](https://pypi.org/project/snscrape/) 
    - [Página del paquete en GitHub](https://github.com/JustAnotherArchivist/snscrape)
    - [Ejemplo de uso](https://github.com/vcuspinera/Canada_response_covid/blob/master/src/twitter-search_v3_snscrape.ipynb)  
    

- **Artículos**
    - [How to scrape millions of tweets using snscrape](https://medium.com/dataseries/how-to-scrape-millions-of-tweets-using-snscrape-195ee3594721) por Rashi Desai.
    - [How to Scrape Tweets With snscrape](https://betterprogramming.pub/how-to-scrape-tweets-with-snscrape-90124ed006af) por Martin Beck.