# Extracción de datos de Twitter por medio de API 

En este cuaderno utilizaremos la API de Twitter para extraer tweets por medio de la bibliotca **Twarc**. 

**Pasos a seguir para poder utilizar esta aplicación**
- Tener una cuenta en la red social de Twitter.
- Solicitar una cuenta de desarrollador; al ser aprobada, crear una aplicación para poder extraer los datos de Twitter.
- Extraer las credenciales de permiso.


In [1]:
import twarc 
import datetime
import itertools
from twarc.client2 import Twarc2
import json
import csv

Hacemos la autenticación por medio de las credenciales para poder hacer la solicitud de extracción. 

In [2]:
t = Twarc2(bearer_token="AAAAAAAAAAAAAAAAAAAAABmzOgEAAAAAAdXaEdw8lrDMBtPj%2BwY318SBBmk%3DCvdZpj9aQg2ORVIfm0glUMXBNSm1yoDl1Zp1ifSRh3Lf6j6QEm")
#Recomiendan no hacer las credenciales públicas

Definimos la consulta en el periodo comprendido entre el 13 de marzo de 2020 hasta el 10 de mayo de 2021 y creamos las siguientes variables para poder acceder a las fechas de inicio y fecha final. 

In [9]:
start_time = datetime.datetime(2020, 3, 13, 0, 0, 0, 0, datetime.timezone.utc)
end_time = datetime.datetime(2021, 5, 10, 0, 0, 0, 0, datetime.timezone.utc)

#Estas variables deben estar en formato UTC

La consulta está determinada por: 

**Palabras o frases claves**

- covid-19
- coronavirus
- infectado covid-19
- muerte covid-19
- bombona de oxígeno
- dexametasona
- GoFundMe venezuela (con o sin link)
- recolectar dinero covid-19
- ayuda covid-19
- flujómetro de oxígeno
- tratamiento covid-19
- UCI 
- #ServicioPúblico covid-19
- #ServicioPublico covid-19

La búsqueda no hace distinción entre mayúscula y minúscula, sin embargo, sí diferencia las palabras que poseen acentos y las que no.

**Operadores y filtros**

- Tweets que son originales, es decir, que no sean retweets.
- Tweets que provengan del país Venezuela.
- Tweets que contengan enlaces.


En principio, vamos a mostrar los pasos detalladamente, luego creamos una función para aplicarlas a las distintas búsquedas. 

Utilizamos `t.search_all(query, star_time, end_time)` para hacer nuestra primera consulta.

[Creación de consultas para los tweets de búsqueda](https://developer.twitter.com/en/docs/twitter-api/tweets/search/integrate/build-a-query#examples).

### Consulta 1
- covid-19
- coronavirus

In [None]:
search_results = t.search_all(query="covid-19 place_country:VE -is:retweet OR coronavirus place_country:VE -is:retweet", start_time=start_time, end_time=end_time)

Obtener todas las páginas de resultados en un archivo formato .JSON. 

In [None]:
for page in search_results:
    with open("datos_twitter.json", "w+") as f:
        f.write(json.dumps(page) + "\n")

Convertir el archivo .JSON en un archivo .CSV 

In [None]:
! in2csv -k data datos_twitter.json > datos_twitter.csv

#No sé si haya una manera más elegante de hacer esto, pero en muchos casos me daba error.

Podemos visualizar los dos archivos:
    [.JSON]()
    [.CSV]()          (((No están los enlaces)))

In [None]:
Creemos una función que podamos llamar varias veces para hacer el procedimiento anterior: 

In [10]:
def extraccion_datos_twitter(query, start_time, end_time):
    search_results = t.search_all(query, start_time=start_time, end_time=end_time) 
    
    for page in search_results:
        with open("data.json", "w+") as f:
            f.write(json.dumps(page) + "\n")          

### Consulta 2
- infectado covid-19

- muerte covid-19

In [None]:
query = "infectado covid-19 place_country:VE -is:retweet OR muerte covid-19 place_country:VE -is:retweet"
extraccion_datos_twitter(query, start_time, end_time)

In [None]:
! in2csv -k data datos_twitter1.json > datos_twitter1.csv

### Consulta 3

   - oxígeno
   - dexametasona

In [None]:
query = "oxígeno place_country:VE -is:retweet OR dexametasona place_country:VE -is:retweet"
extraccion_datos_twitter(query, start_time, end_time)

In [None]:
! in2csv -k data data.json > datos_twitter2.csv

### Consulta 4

- bombona de oxígeno
- dexametasona

In [None]:
query="bombona de oxígeno place_country:VE -is:retweet OR dexametasona place_country:VE -is:retweet"
extraccion_datos_twitter(query, start_time, end_time)

In [None]:
! in2csv -k data datos_twitter3.json > datos_twitter3.csv

### Consulta 5

- GoFundMe venezuela covid 19
- GoFundMe venezuela covid 19 (has link)

In [None]:
query="GoFundMe venezuela covid-19 -is:retweet OR GoFundMe venezuela covid-19 has:links -is:retweet"
extraccion_datos_twitter(query, start_time, end_time)

In [None]:
! in2csv -k data datos_twitter4.json > datos_twitter4.csv

### Búsqueda 6

- recolectar dinero covid-19
- ayuda covid-19

In [11]:
query = "recolectar dinero covid-19 place_country:VE -is:retweet OR ayuda covi-19 place_country:VE has:links -is:retweet"
extraccion_datos_twitter(query, start_time, end_time)

In [None]:
! in2csv -k data datos_twitter5.json > datos_twitter5.csv

### Consulta 7

- flujómetro de oxígeno

In [None]:
query="flujómetro de oxígeno place_country:VE -is:retweet"
extraccion_datos_twitter(query, start_time, end_time)

In [None]:
! in2csv -k data datos_twitter6.json > datos_twitter6.csv

### Consulta 8

- servicio público (hashtag)

In [None]:
query="#ServicioPúblico covid-19 place_country:VE -is:retweet"
extraccion_datos_twitter(query, start_time, end_time)

In [None]:
! in2csv -k data datos_twitter7.json > datos_twitter7.csv

### Consulta 9

- UCIS 
- unidad de cuidados intensivos

In [None]:
query="UCIS place_country:VE -is:retweet OR unidad de cuidados intensivos place_country:VE -is:retweet"
extraccion_datos_twitter(query, start_time, end_time)

In [None]:
! in2csv -k data datos_twitter8.json > datos_twitter8.csv

### Consulta 10

- tratamiento covid-19

In [None]:
query="tratamiento covid-19 place_country:VE -is:retweet"
extraccion_datos_twitter(query, start_time, end_time)

In [None]:
! in2csv -k data datos_twitter9.json > datos_twitter9.csv

### Consulta 11

- #serviciopublico covid-19

In [None]:
query="#serviciopublico covid-19 place_country:VE -is:retweet "
extraccion_datos_twitter(query, start_time, end_time)

In [None]:
! in2csv -k data datos_twitter10.json > datos_twitter10.csv