<center><img src='../img/logo_cosiam/LogoCoSIAM_COL.png' style='height:230px;  margin: 0px 15px 15px 0px'></center>

# Módulo 6:  Cuenta de desarrollador de Twitter

- Adquisición de datos, parte III: Twitter usando la cuenta de desarrollador
- Adquisición de datos, parte IV: Redes sociales usando la libreria SNScrape


# En capítulos anteriores...

<br>
<center><img src='../img/pipeline/pipeline1.png' style='height:600px;'> </centeR>


# NLP y las Redes Sociales

<center><img src='../img/clase06/2021minute.jpeg' style='height:400px; float: center; margin: 0px 15px 15px 0px'></center>

- Son datos y hay que darlos:
    - +300 millones de usuarios **activos** al mes en Twitter
    - +350.000 tuits por minuto
    - 2.900 millones usuarios **activos** al mes en Facebook
- La fuente más grande de datos no estructurados

## Aplicaciones de NLP en las redes sociales 

<center><br>
<img src='../img/clase01/adele.png' style='height:350px;'>
</center>

- Detección de temas tendencia
- Minería de opinión
- Detección de sentimiento 
- Detección de Fake News
- Filtrar contenido adulto/ofensivo 
- Soporte al cliente

# Retos de NLP en las redes sociales 

<center><img src='../img/clase06/formal.png' style='height:300px; float: center; margin: 0px 15px 15px 0px'><Small><i>Escala de formalidad</i></Small></center>

- Varios idiomas 
- Diferentes sistemas de escritura y trasliteración
- No es formal
- Errores de gramática y ortografía 
- Elementos no textuales (🤔🦠🥺⏫, memes, xD :), etc.)
- Textos cortos y vocabulario nuevo

# 🤖 La API de Twitter: Tweepy

`pip install tweepy`

http://docs.tweepy.org/en/latest/

- API (Interfaz de programación de aplicaciones): Cuando una compañía construye un conjunto de URLs dedicadas a devolver respuestas de datos. 
- Tweepy es la libreria de Python que nos permite conectarnos a Twitter
- **Limitación**: Se pueden adquirir máximo 2.000.000 de tweets al mes. Sólo se pueden adquirir tweets con una semana de antiguedad.

## Paso 1: Crear una aplicación

<br>
<center><img src='../img/clase06/micro.png' style='height:300px; float: center; margin: 0px 15px 15px 0px'></center>

- Ir a https://developer.twitter.com/en/portal/dashboard
- Crear aplicación en la sección `Elevated` y guardar claves en otro archivo

```
api_key,
api_secret_key,
access_token,
access_token_secret,
bearer_token,
```

## Paso 2: Autenticarse con Twitter



In [1]:
import pandas as pd
import tweepy

In [39]:
# Leer llaves
keys = pd.read_csv("/Users/vivianamarquez/Desktop/CCC/otros/no/keys.csv", header=None)
keys = dict(zip(keys[0], keys[1]))

In [40]:
# Autorizar a través de la API
auth = tweepy.OAuthHandler(keys['api_key'], keys['api_secret_key'])
auth.set_access_token(keys['access_token'],keys['access_token_secret'])
api = tweepy.API(auth, wait_on_rate_limit=True)

## Paso 3: Hacer un tuit

- Documentación: http://docs.tweepy.org/en/latest/


In [41]:
# api.update_status("Me encanta el café... sí señor, ahora sí")

## Paso 4: Recolectar datos
Documentación: https://docs.tweepy.org/en/stable/api.html

In [42]:
tweets = tweepy.Cursor(api.search_tweets,
                       q=['sincelejo -RT'],
                       lang='es',
                       geocode=f'9.304722,-75.397778,100km',
                       tweet_mode='extended').items(100)

In [43]:
t = [tweet for tweet in tweets]

In [44]:
t[0].full_text

'Acaba de publicar una foto en Sincelejo, Sucre https://t.co/nVzzSEcZme'

In [45]:
t_processed = []

for tweet in t:
    temp = []
    temp.append(tweet.full_text)
    temp.append(tweet.created_at)
    temp.append(tweet.user.location)
    temp.append(tweet.id)
    temp.append(f"https://twitter.com/i/web/status/{tweet.id}")
    
    t_processed.append(temp)


In [46]:
data = pd.DataFrame(t_processed)
data.columns = ['tweet', 'date', 'user_location', 'id', 'link']
data.head()

Unnamed: 0,tweet,date,user_location,id,link
0,"Acaba de publicar una foto en Sincelejo, Sucre...",2022-10-09 18:17:38+00:00,Periodista,1579174263126634496,https://twitter.com/i/web/status/1579174263126...
1,@CarlosPaterC @CABUSTAMANTEF @Acus2020 Un aspi...,2022-10-09 17:42:35+00:00,,1579165443130281985,https://twitter.com/i/web/status/1579165443130...
2,@SabanaVeolia qué pasa con el servicio de acue...,2022-10-09 16:35:16+00:00,"Colombia, Sucre, Corozal",1579148502198022144,https://twitter.com/i/web/status/1579148502198...
3,@julianhrios Saliendo de Sincelejo rumbo medel...,2022-10-09 16:20:12+00:00,,1579144709477654530,https://twitter.com/i/web/status/1579144709477...
4,"Que pueblo top es Chinú, preferiría vivir cien...",2022-10-09 16:10:41+00:00,"Sincelejo, Colombia",1579142314320363521,https://twitter.com/i/web/status/1579142314320...


In [47]:
data.to_csv("archivo.csv", index=False)

# ... pero, quiero datos más antiguos 🥺

<br>
<center><img src='../img/clase06/no_t.jpeg' style='height:400px; float: center; margin: 0px 15px 15px 0px'></center>

<center><img src='../img/clase06/si_t2.jpeg' style='height:400px; float: center; margin: 0px 15px 15px 0px'></center>

###  Paso 1: Crear un entorno en Twitter

Dirigirse a https://developer.twitter.com/en/account/environments y seguir los siguientes pasos.

1. Hacer click en `set up dev environment` en la sección de `full archive`
<img src='../img/clase06/tw1.png'>

2. Darle un nombre al entorno y escoger una de las aplicaciones
<img src='../img/clase06/tw2.png'>

3. Recordar el nombre del ambiente (en este ejemplo `Historico`) y saber cuál aplicación se usó para acceder con esas llaves
<img src='../img/clase06/tw3.png'>

### Ejemplo de uso

In [48]:
# Nótese que la cadena de búsqueda ahora debe incluir otros paramétros que no son soportados en la librería
busqueda = 'Dragon Ball lang:es -"RT @"'

params = dict(label = 'Historico',
              query = busqueda,
              fromDate = '202001010000',
              toDate = '202002010000')

In [49]:
tweets = tweepy.Cursor(api.search_full_archive, **params).items(200)

In [50]:
t_processed = []

for tweet in tweets:
    temp = []
    
    if tweet.truncated:
        temp.append(tweet.extended_tweet['full_text'])
    else:
        temp.append(tweet.text)
        
    temp.append(tweet.created_at)
    temp.append(tweet.user.location)
    temp.append(tweet.id)
    temp.append(f"https://twitter.com/i/web/status/{tweet.id}")
    
    t_processed.append(temp)

In [51]:
data = pd.DataFrame(t_processed)
data.columns = ['tweet', 'date', 'user_location', 'id', 'link']
data.head()

Unnamed: 0,tweet,date,user_location,id,link
0,@Incineroar_Dark @BlazeXeom97 El mejor episodi...,2020-01-31 23:59:02+00:00,,1223395296580919298,https://twitter.com/i/web/status/1223395296580...
1,"Odio los tutoriales, bueno pues Dragón Ball Z ...",2020-01-31 23:57:32+00:00,Kaer Morhen,1223394919206789120,https://twitter.com/i/web/status/1223394919206...
2,@Carlhillos Qué recuerdos que la primera vez o...,2020-01-31 23:54:53+00:00,,1223394250047414272,https://twitter.com/i/web/status/1223394250047...
3,"@fmaluau A ya terminas dragon ball,perfecto,ya...",2020-01-31 23:54:47+00:00,,1223394226144206848,https://twitter.com/i/web/status/1223394226144...
4,@mintonarel Otros a Dragón Ball.,2020-01-31 23:44:35+00:00,"Hermosillo, Sonora",1223391657409884161,https://twitter.com/i/web/status/1223391657409...


# ... pero, quiero datos más antiguos 🥺

<br>
<center><img src='../img/clase06/no_t.jpeg' style='height:400px; float: center; margin: 0px 15px 15px 0px'></center>

# ... presentando `snscrape`

<br>
<center><img src='../img/clase06/si_t.jpeg' style='height:400px; float: center; margin: 0px 15px 15px 0px'></center>

# SNScrape 

`pip install snscrape`

- Libreria creada para hacer scraping de diferentes redes sociales (Twitter, Facebook, Instagram, VKontakte y más...)
- En un futuro podría dejar de funcionar
- Documentación: https://github.com/JustAnotherArchivist/snscrape

In [54]:
import snscrape.modules.twitter as sntwitter

maxTweets = 10  
for i,tweet in enumerate(sntwitter.TwitterSearchScraper('#eragoldeyepes ' + 'since:2014-07-15 until:2014-08-15').get_items()) :
        if i > maxTweets :
            break
        print(tweet)
        print(tweet.date)
        print(tweet.content)
        print("*"*100)
        print()

https://twitter.com/CANmialegria/status/500066563522056192
2014-08-14 23:48:54+00:00
Cambiemos el HT #EraGolDeYepes, por #EraGolDeCopete. ¡Nunca hubo fuera de lugar!
¿#LaCulpaEsDePostobon?  @PradoVerde1999 @vamosmiverdecom
****************************************************************************************************

https://twitter.com/MiguelSalcedoV/status/500065738640850944
2014-08-14 23:45:37+00:00
#EraGolDeYepes era gol de yepessssssssssssss #10añosduNord
****************************************************************************************************

https://twitter.com/cami_canoles/status/500064190288384000
2014-08-14 23:39:28+00:00
http://t.co/X3CpWL1Q3x #eragoldeyepes
****************************************************************************************************

https://twitter.com/TamayoJr11/status/500062617969643520
2014-08-14 23:33:13+00:00
#EraGolDeYepes http://t.co/K9Am0bxOIh
*********************************************************************************

### 🤓 Recapitulando: Hoy aprendímos...

- Twitter usando la cuenta de desarrollador
- Redes sociales usando la libreria SNScrape

<img src='../img/dragonball/6.jpeg' style='height:600px; float: left; margin: 0px 15px 15px 0px'>

• **Módulo 1**: &nbsp;&nbsp;&nbsp;&nbsp; Introducción ✅ <br>
• **Módulo 2**: &nbsp;&nbsp;&nbsp;&nbsp; Configuración de ambiente de desarrollo ✅ <br>
• **Módulo 3**: &nbsp;&nbsp;&nbsp;&nbsp; Repaso de Python ✅ <br>
• **Módulo 4**: &nbsp;&nbsp;&nbsp;&nbsp; Panorama general del Aprendizaje Automático (Machine Learning) ✅ <br>
• **Módulo 5**: &nbsp;&nbsp;&nbsp;&nbsp; ¿Cómo adquirir datos? ✅ <br>
• **Módulo 6**: &nbsp;&nbsp;&nbsp;&nbsp; Cuenta de desarrollador de Twitter ✅ <br>