# Twitter desde Python y colecta de tweets

## 2.a Configurando Twitter

Ahora que ya hemos visto los conceptos básicos para escribir en código, nuestra intención es combinarlos a través de una _aplicación_. Twitter permite a los desarrolladores acceder a una pequeña parte del flujo de tuits (_stream_) por medio de su _Application Programming Interface_ (API). Sin embargo, solo podemos acceder a través de solicitudes autorizadas de su API. Lo cual significa que debemos registrar una aplicación en Twitter, con la cual vamos a poder obtener las claves de acceso y contraseñas necesarias. Para configurar una aplicación de Twitter necesitamos seguir los siguientes pasos.

### 2.a.1 Registrarse como usuario de Twitter

Solo usuarios registrados de Twitter pueden crear apliaciones. El primer paso es crear una cuenta de Twitter y asociarle un número telefónico. Visita la página de [Twitter](https://twitter.com/) y si no tienes una cuenta aún, crea una.

### 2.a.2 Registra tu aplicación

Para poder acceder a los datos de Twitter mediante programación, es necesario que creemos una aplicación que interactúe con la API de Twitter. Para crear esta aplicación, primero visita la página [https://apps.twitter.com/](https://apps.twitter.com/), entra a tu cuenta de Twitter (si aún no lo estás) y da click en el botón que dice "Create a New App":

![](Imagenes/newapp.png)

El siguiente paso, es llenar un conjunto de campos. Primero, debes darle un nombre a tu aplicación, por ejemplo _nombre-scraper_. Segunda, da una breve descripción de tu aplicación (puedes escribir lo que quieras). Tercero, da una dirección que brinde soporte a tu aplicación (también puedes utilizar alguna páginas comodín). Finalmente, acepta el "Developer Agreement" y presiona "Create your Twitter Application".

![](Imagenes/app2.png)

Después de crear la aplicación, recibiras tu "consumer key" y "consumer secret". Estas contraseñas son la configuración de tu aplicación, las cuales deberás mantener en secreto a toda costa. El siguiente paso, es ir a la pestaña que se llama "Keys and Access Tokens" de tu aplicación.

![](Imagenes/passwords.png)

En la parte de abajo da click en donde dice "Generate Access Token and Token Secret". 

![](Imagenes/token.png)

# 2.b Accediendo a Twitter y recolectando tweets

Ya instalado el módulo necesario para esta parte que es Tweepy, primero es necesario autorizar a nuestra aplicación para acceder a Twitter mediante nuestra cuenta. Existen dos maneras de hacerlo: 

**1ra Forma**: 
Primero vamos a necesitar que Python utilice nuestros códigos para identificarse en la API, mediante los pasos siguientes:  
 * Abrir la carpeta de este taller. 
 * Buscar el archivo `config.py`. 
 * Abrir el archivo `config.py` utilizando un editor de texto.  

Después de realizar los pasos anteriores, en nuestra pantalla debemos observar algo similar a esto:

![](Imagenes/Sublime1.png)

Ahora debemos hacer lo siguiente:
 * Ir a la página web en la que hemos creado nuestra [aplicación](https://apps.twitter.com/) de Twitter,
 * Copiar los _tokens and keys_ y pegarlos en el archivo `config.py` en el lugar que les correspondan,
 * Guardamos el archivo `config.py`.

Para hacer consciente a Python del archivo anterior, ejecutamos lo siguiente desde el notebook de iPython: 

In [None]:
import config

Con el siguiente código, creamos las componentes necesarias para acceder a la API de Twitter.

In [None]:
import tweepy

authentication = tweepy.OAuthHandler(config.consumer_key, config.consumer_secret)
authentication.set_access_token(config.access_token, config.access_secret)

api = tweepy.API(authentication)

Procedemos a explicar línea por línea el código anterior.
 * La primer línea importa el módulo `tweepy`, necesario para comunicar Python y Twitter.
 * La segunda línea asigna el valor `tweepy.OAuthHandler(config.consumer_key, config.consumer_secret)` a la variable `authetication`. Observe que el valor anterior tiene dos argumentos `config.consumer_key` y  `config.consumer_secret` los cuales se refieren al _consumer key_ y _consumer secret_ que utilizamos para actualizar el archivo `config.py`,
 * La tercera línea establece el _token_ de acceso del objeto de autenticación, que es el resto de las _tokens and keys_ que utilizamos para actualizar el archivo `config.py`,  
 * La cuarta línea inicializa una variable llamada `api` asignándole nuestras claves de autorización guardadas en `authentication`. Es través de `api` cómo iniciaremos sesión en Twitter desde Python y podremos hacer uso de los datos.

**2da Forma**:
Podemos guardar los _keys and tokens_ en variables en cada código que vayamos a utilizar, como en el siguiente ejemplo:   

In [None]:
import tweepy

consumer_key='XXXXXXXXXXXXXXXXXXXXXXXXXX'
consumer_secret= 'XXXXXXXXXXXXXXXXXXXXXXX'
access_token = 'XXXXXXXXXXXXXXXXXXXXXXXXXX'
access_secret = 'XXXXXXXXXXXXXXXXXXXXXXXXX'

authentication= tweepy.OAuthHandler(consumer_key, consumer_secret)
authentication.set_access_token(access_token, access_secret)

api = tweepy.API(authentication)

**Nota**: La ventaja de la primera forma sobre la segunda, es que puedes compartir el código y mantienes en secreto tus claves de acceso, mientras en la segunda siempre hay que tener el cuidado de borrar las claves de acceso antes de compartir el código.

Por el momento no es necesario entender más del código anterior, pues ya tenemos una impresión general de lo que esta sucediendo en él mismo, y básicamente esto es todo lo que debemos hacer para accerder a la API de Twitter.

Ahora que ya estamos dentro de la API de Twitter, podemos utilizar la variable `api` para realizar muchas de las acciones comunes en Twitter, como acceder al historial de tweets (_time line_) de la página principal de nuestra cuenta:

In [None]:
for tuit in tweepy.Cursor(api.home_timeline).items(10):
    print(tuit.text)

El código anterior utiliza una llamada a la API y toma los 10 tweets más recientes de nuestro timeline (`api.home_timeline`), a través de un ciclo `for` imprime el texto de cada uno mediante la instrucción  `print(tweet.text)`. 

**Nota:** La API de Twitter restringe a 15 el número de llamadas durante intervalos de 15 minutos. En caso contario nuestra cuenta queda temporalmente bloqueada hasta satisfacer un tiempo de espera de 15 minutos.


**Ejercicio** Actualizar el número 10 por cualquier otro número y volver a ejecutar el código.

Con la misma variable `api` también podemos acceder al ``screen_name`` de todos los usuarios a quienes sigues, escribiendo el siguiente código: 

In [None]:
for follower in tweepy.Cursor(api.friends).items():
    print(follower.screen_name)

También, podemos acceder al texto de nuestros 10 últimos tweets, escribiendo lo siguiente: 

In [None]:
for tuit in tweepy.Cursor(api.user_timeline).items(10):
      print(tweet.text)

En los dos últimos códigos utilizamos un ciclo `for`, el cual se ejecuta en `api.friends` y `api.user_timeline` respectivamente e imprime una lista con todos nuestros seguidores `print(follower)` y una lista con nuestros últimos 10 tweets `print(tweet.text)` respectivamente. 

Nosotros conocemos _a priori_ la información de nuestra cuenta, sin embargo también podemos obtener información similar de otras cuentas bajo ciertas limitantes. 

Un usuario de Twitter puede ser representado en Python mediante un _objeto_, es decir, mediante un conjunto variables empaquetadas. Como usuarios de Twitter recordemos que al crear una cuenta debemos ingresar cierta información (nombre de usuario, número telefónico, localización, lenguaje, preferencias, correo electrónico, etc), y parte de esta información también será visible a otros usuarios (incluso desde la API). Todos estos datos, en su conjunto, representan a un usuario; veamos qué significa esto ejecutando el siguiente código (accediendo a la API de la segunda forma):

In [None]:
import tweepy

consumer_key='XXXXXXXXXXXXXXXXXXXXXXXXXX'
consumer_secret= 'XXXXXXXXXXXXXXXXXXXXXXX'
access_token = 'XXXXXXXXXXXXXXXXXXXXXXXXXX'
access_secret = 'XXXXXXXXXXXXXXXXXXXXXXXXX'

authentication= tweepy.OAuthHandler(consumer_key, consumer_secret)
authentication.set_access_token(access_token, access_secret)

api = tweepy.API(authentication)

usuario= api.get_user(screen_name="TuUsuario")

Las primeras cinco líneas las hemos explicado antes y sólo sirven para iniciar sesión en caso de que no lo hayamos hecho antes. En la última línea debemos reconocer que ``usuario=`` es una expresión que sirve para almacenar _algo_ en la variable ``usuario``. En este caso estamos almacenando la inforamción de una cuenta, la cual se compone de muchos tipos de variables ya que el `screen_name` (nombre de usuario) es una cadena de texto, `followers_count` (número de seguidores) y `friends_count` (número de amigos) son variables numéricas, etc.

Para conocer todas las variables _empaquetadas_ que se asocian con una cuenta podemos escribir el nombre de la variable principal (`usuario`), seguido de un punto, y presionamos la tecla _TAB_ $\left[\overset{\leftarrow}{\rightarrow}\right]$. Esto desplegará un menú como se muestra en la siguiente imagen.

![Desplegar todos los campos](./Imagenes/menu.png)

Puedes intentarlo en la siguiente línea:

In [None]:
usuario.

Este menú contiene las siguientes variables: `contributors_enabled, created_at, default_profile, default_profile_image, description, entities, favourites_count, follow, follow_request_sent, followers, followers_count, followers_ids, following, friends, friends_count, geo_enabled, has_extended_profile, id, id_str, is_translation_enabled, is_translator, lang, listed_count, lists, lists_memberships, lists_subscriptions, location, name, notifications, parse, parse_list, profile_background_color, profile_background_image_url, profile_background_image_url_https, profile_background_tile, profile_banner_url, profile_image_url, profile_image_url_https, profile_link_color, profile_location, profile_sidebar_border_color, profile_sidebar_fill_color, profile_text_color, profile_use_background_image, protected, screen_name, status, statuses_count, time_zone, timeline, translator_type, unfollow, url, utc_offset, verified`.

De esta manera, si escribimos por ejemplo:

In [None]:
print(usuario.created_at)

se imprimirá la fecha de creación de la cuenta.


**Ejercicio**. Crea una lista que contenga el `screen_name` de cinco cuentas y completa el siguiente código para imprimir el nombre de usuario seguido del número de seguidores de cada elemento en la lista.

In [None]:
L=['cuenta1', 'cuenta2', 'cuenta3', 'cuenta4', 'cuenta5' ] # Aqui debes reemplazar cuentaX por el screen_name de cada cuenta

for nombre in L:
    usuario= api.get_user(nombre)
    print(usuario.screen_name, usuario.followers_count)

Inspeccionando las variables que componen al objeto `usuario`, encontramos **id** y **followers_ids**. La primera es una variable numérica que identifica a cada usuario de Twitter con un número, de manera que aunque un  usuario cambie el nombre de su `screen_name`, su `id` siempre permanece igual. Por otra parte la variable `followers_id` nos devuelve una lista de Python con los `ids` de los usuarios que siguen a `usuario`. Veamos:

In [None]:
#Para el id de usuario
print(usuario.id)
#Para la lista con sus seguidores
#  ****** NOTEMOS EL PAR DE PARENTESIS AL FINAL !!!!!!
print(usuario.followers_ids())

Ahora utilizaremos nuestra aplicación para **recolectar los últimos tweets** acerca de un tema en particular, evento o persona. Para esto necesitamos utilizar una nueva función de _tweepy_, que es el `StreamListener`, el cual utilizamos en el siguiente código para imprimir todos los nuevos tweets que contienen la palabra _Python_. Ejecutamos el código, esperamos cierto tiempo y cancelamos el proceso mediante la siguiente forma:
 * Ir a la página del notebook, tenemos que ver algo similar a esto:
 
![./Imagenes/cerrar1.png](./Imagenes/cerrar1.png)

Notemos que los notebook's que se encuentran corriendo estan en color verde.

 * Después selecionamos el notebook que queremos detener e inmediatamente dar click en la parte superior de la pantalla en _shutdown_ (botón amarillo)
 
![./Imagenes/cerrar2.png](./Imagenes/cerrar2.png)

 * Por último hay que actualizar la pestaña donde se enecuntra el notebook que hemos detenido. Otra manera de hacer esto último es cerrar la pestaña donde se encuentra el notebook y volver abrir.

In [None]:
from tweepy import Stream
from tweepy.streaming import StreamListener

consumer_key='XXXXXXXXXXXXXXXXXXXXXXXXXX'
consumer_secret= 'XXXXXXXXXXXXXXXXXXXXXXX'
access_token = 'XXXXXXXXXXXXXXXXXXXXXXXXXX'
access_secret = 'XXXXXXXXXXXXXXXXXXXXXXXXX'

authentication= tweepy.OAuthHandler(consumer_key, consumer_secret)
authentication.set_access_token(access_token, access_secret)

class TwitterListener(StreamListener):

    def on_status(self, status):
        print(status.text)

    def on_error(self, status_code):
        if status_code == 420:
            return False
while True:
        try:
            twitter_stream = Stream(authentication, TwitterListener())
            twitter_stream.filter(track=['python'])
        except:
            pass

Ahora procedemos explicar el código anterior por bloques.
 * En el primer bloque lo que hacemos es importar los módulos necesarios. 
 * En el segundo bloque iniciamos sesión desde la API.  
 * En el tercer bloque preparamos la descarga de tweets.
 * En el cuarto bloque iniciamos la descarga usando (`stream`) para filtrar aquellos tweets que contegan la palabra _python_ (última línea). 

**Ejercicio**. Actualizar la palabra Python por cualquier otra palabra y volver a ejecutar el código.

**Ejercicio**. Trate de buscar otro término o términos.

# 2.c Preprocesamiendo de Datos

Comenzamos la segunda parte de este curso, en ella vamos a realizar algunos pasos de preprocesamiento del texto que necesitamos para su análisis.

Recordemos que tenemos un código que _recolecta tweets_. Ahora guardaremos nuestros tweets en la carpeta `data/` con el nombre `stream_[XX].json`, donde `XX` debe ser sustituida por la consulta realizada. 

Antes de continuar debemos saber que un tweet, al igual que un usuario, también puede representarse mediante un _objeto_, es decir, un conjunto de variables de diferentes tipos. Las variables que representan a un tweet son distintas de aquellas que representan a los usuarios. Comencemos obteniendo un tweet de nuestro _timeline_.

In [None]:
for tuit in tweepy.Cursor(api.home_timeline).items(1):
    ejemplo_de_tuit=tuit

Ahora despleguemos los campos que contienen la información de un tweet de la misma manera que lo hicimos para los usuarios: Escribimos el nombre de la variable principal (`ejemplo_de_tuit`), seguido de un punto, y presionamos la tecla _TAB_ $\left[\overset{\leftarrow}{\rightarrow}\right]$ para desplegar el menú de las variables que componen al tweet, como son la fecha de creación del tweet, el usuario que lo creó, si fue un retweet (y de quién fue el tweet original), etc.

In [None]:
ejemplo_de_tuit.

Por ejemplo, el siguiente código imprime el nombre del usuario que realizó el tweet almacenado en `ejemplo_de_tuit`, la hora y el texto que contiene.

In [None]:
print(ejemplo_de_tuit.user.screen_name,ejemplo_de_tuit.created_at,ejemplo_de_tuit.text)

Observemos que un tweet contiene bastante información, como por ejemplo, el usuario que lo escribe, la fecha en que fue escrito, la geolocalización, etc. Para nuestros propósitos los campos más importantes son:
 * text: el texto real del tweet,
 * created_at: la fecha de creación,
 * favorite_count: el número de los favoritos de este tweet,
 * retweet_count: el numero de retweets,
 * lang: el lenguaje del tweet,
 * id: el identificador del tweet,
 * place: información de geolocalización,
 * user: el perfil del autor del tweet.
 
Así como podemos guardar documentos en diferentes tipos de archivos y formatos, guardaremos tweets en formato de _json_, el cual es una manera común de almacenar datos en internet, en el siguiente código podemos ver esta acción.

In [None]:
#Codigo para escribir archivos json
import json

with open("./data/stream_lunch.json","a") as archivo:
    archivo.write(json.dumps(ejemplo_de_tuit._json))
    archivo.write('\n')

Línea por línea, el código anterior hace lo siguiente:

 * Importa el módulo ``json`` (necesario para escribir/leer archivos en este formato).
 * En la carpeta ``data`` crea un archivo llamado ``stream_lunch.json``, el cual será llamado por Python mediante la variable ``archivo`` .
 * Después, se escribe el tweet `ejemplo_de_tuit` como contenido del archivo creado.
 * Por último, damos un salto de línea al termino del tweet. Aunque este paso es opcional, es recomendable hacerlo para que el archivo contenga un tweet por línea.
 
De forma análoga, podemos leer del archivo el tweet que acebamos de guardar.

In [None]:
#Codigo para leer archivos json
import json

with open("./data/stream_lunch.json","r") as archivo:
    renglones=archivo.readlines()
    for data in renglones:
        tuit=json.loads(data)
        print(tuit['created_at'])

**Nota:** Comparando los códigos de escritura y lectura de archivos _json_, notamos que la línea encargada de abrir/crear un archvio es idéntica en ambos casos, excepto por el parámetro "a" ó "r". En el primer caso, el parámetro "a" significa _append_ (o agregar), es decir, cada vez que realicemos un ``archivo.write`` agregaremos una línea al archivo, conservando todo el contenido previo. Mientras que el parámetro "r" significa _read_ (o leer) y no podremos realizar ningún proceso de escritura en el archivo, simplemente leerlo. Análogamente, para sobrescribir el archivo escribimos una "w".

**Nota:** En el código de lectura de archivos _json_, la instrucción ``json.loads(data)`` traduce en un objeto de Python la línea que leimos del archivo, pero en este caso accedemos a los campos o variables que conforman a tweet mediante paréntesis cuadrados [ ] y escribiendo entre comillas el nombre del campo; y no mediante el nombre de la variable principal y un punto, como cuando obtenemos el tweet directamente de la API.

Comparar:

``tuit['created_at']``

con 

``tuit.created_at``.

Ahora guardemos en un archivo el flujo de tweets de una palabra en específico:

In [None]:
from tweepy import Stream
from tweepy.streaming import StreamListener

import json
import tweepy

consumer_key = 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXX'
consumer_secret = 'XXXXXXXXXXXXXXXXXXXXXXXXXXX'
access_token = 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX'
access_secret = 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXX'

authentication = tweepy.OAuthHandler(consumer_key, consumer_secret)
authentication.set_access_token(access_token, access_secret)

class TwitterListener(StreamListener):

    def on_data(self,data):
        tweet=json.loads(str(data))
        print(tweet['text'])
        with open("./data/stream_lunch.json","a") as archivo:
            archivo.write(json.dumps(tweet))
            archivo.write('\n')
        return(True)

    def on_error(self, status):
        print(status)

while True:
        try:
            twitter_stream = Stream(authentication, TwitterListener())
            twitter_stream.filter(track=['python'])
        except:
            pass

El formato _json_ es conveniente para hacer análisis cuando no necesitamos desplegar en pantalla todos los datos, pero en mucho casos nos gustaría inspeccionar estos datos manualmente. Aunque en el fondo un archivo _json_ es un archivo de texto plano, resulta difícil de leer. Por esta razón, vamos a convertir nuestros tweets obtenidos en un archivo _csv_ (valores separados por comas), para de esta manera poderlos abrir y manipular mediante una _hoja de cálculo_ ya sea en OpenOffice o Excel. Además, podemos guardar sólo la información del tweet que nos interese para reducir el tamaño de los archivos. El siguiente código nos muestra como almacenar tweets en un archivo en formato _csv_. 

In [None]:
import csv
import json

fields = ['created_at', 'user', 'text', 'favorite_count', 'retweet_count', 'lang', 'place']

tweets = []
with open("data/stream_lunch_old.json") as infile:
    for line in infile:
        tweet= json.loads(line)
        information = []
        for field in fields:
            if field not in tweet:
                information.append('')
            elif field == 'user':
                information.append(tweet['user']['screen_name'])
                information.append(tweet['user']['id'])
            elif field == 'place' and tweet['place'] != None:
                information.append(tweet['place']['name'])
            else:
                information.append(tweet[field])
        tweets.append(information)

with open("data/stream_lunch.csv", "w",encoding='utf-8') as outfile:
    csvwriter = csv.writer(outfile)
    csvwriter.writerow(['created_at', 'screen_name','id', 'text', 'favorite_count', 'retweet_count', 'lang', 'place']]) 
    csvwriter.writerows(tweets)

Notemos que la variable `fields` es una lista que indica los campos de los tweets que queremos almacenar en nuestro archivo con formato _cvs_.

**Ejercicio** Actualice esta lista con otros campos.

**Ejercicio:** Compara el siguiente código con el que imprime sólo el texto de tweet y señala las diferencias.

# 2.d Clasificar usuarios como _humano_ o _bot_

Además de los datos sobre los usuarios que provee Twitter, también tenemos la posibilidad de saber cuál es la probabilidad de que un usuario sea _bot_. Antes de esto, veamos una última funcionalidad de la API que nos permitirá tener una idea más precisa de a qué nos referimos

#### Twittear desde la API

Es posible twittear desde python siguiendo el siguiente código (después de haber iniciado sesión desde la API):

In [None]:
#Iniciar sesion desde aqui si no se ha hecho previamente

mensaje='  ' # Escribir entre las comillas un mensaje

api.update_status(status=mensaje) 

Con el código anterior, resulta casi inmediato saber cómo automatizar tweets o respuestas, sin embargo Twitter también impone restricciones en el número de tweets y en la frecuencia con la que pueden ser enviados. Ignorar estas restricciones conlleva a penalizaciones que van desde un bloqueo temporal de nuestras claves de autorización, hasta el bloqueo de nuestra cuenta.

Mediante los pasos seguidos hasta ahora podría automatizarse la interacción de una cuenta de Twitter, de manera que una computadora imite el comportamiento de un usuario humano. A este tipo de programas los llamamos _bots_ y podemos encontrarlos con diferentes grados de sofisticación. Primero notemos que cada usuario _humano_ de Twitter tiene sus propios hábitos para utilizar esta plataforma, y por esta razón encasillar a un usuario como _bot_ o _humano_ involucra probabilidad. Podrían proponerse muchas maneras de efectuar esta clasificación, en este curso utilizaremos una función de Python provista por otro módulo de terceros llamado `Botometer`(antes `BotOrNot`), ya instaldos anteriormente ambos. 

#### Utilizando BotOrNot.

El módulo `BotOrNot` utiliza parámetros como el tipo de contenido y sentimiento en el texto de los tweets, así como tu red de amigos, entre otros parámetros. Este módulo evalua la probabilidad de que un usuario sea bot de acuerdo a varios clasificadores; sin embargo, al ser desarrollado por la Universidad de Indiana, algunos clasificadores devuelven valores poco confiables debido a que están diseñados para trabajar con texto en lengua inglesa. Como hablantes del español, podemos utilizar `network_classification`, el cual evalua nuestra la red de la cuenta en terminos de  retweets, menciones y hashtags; `friend_classification` que depende de los seguidores y cuentas seguidas; entre otros. La descripción completa de los clasificadores podemos encontrarla en _BotOrNot: A System to Evaluate Social Bots_, Clayton, Onu, et.al., _Proceedings of the 25th International Conference Companion on World Wide Web_, 2016, disponible con libre acceso [aquí](https://arxiv.org/pdf/1602.00975.pdf).
    
Una vez instalado este módulo, podemos correr el siguiente código que devuelve el puntaje para cada clasificador (puntajes altos representan una probabilidad alta de que la cuenta sea _bot_, y viceversa).

In [None]:
import botornot

twitter_app_auth = {
    'consumer_key': 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX',
    'consumer_secret': 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX',
    'access_token': 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX',
    'access_token_secret': 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX',
  }

for api_key in twitter_app_auth.values(): 
    assert not api_key.startswith('COPY_')

bon = botornot.BotOrNot(**twitter_app_auth)
api = bon.twitter_api

bon_result = bon.check_account('TuUsuario')

Para ver el resultado de la evaluación del usuario, no olvidemos anexar al código anterior lo siguiente. 

In [None]:
print(bon_result)

#### Utilizando Botometer

El módulo `BotOrNot` cambia de nombre a `Botometer` en su versión más reciente, uno de los cambios más sobresalientes de `Botometer` es que adiconalmente a las claves de acceso a Twitter se requiere obtener una clave de [`Mashape`](https://www.mashape.com/), la cual obtenemos de la siguiente manera:
 * Ingresamos a (https://market.mashape.com/) y creamos una cuenta (sólo necesitamos proporcionar nuestro correo electrónico, un nombre de usuario y una contraseña).
 * Una vez registrados, a nuestro correo llegará una solicitud de activación para nuestra cuenta en Mashape Market, la cual debemos aceptar.
 * Cuando iniciemos sesión en Mashape Market, en la parte superior de la página aparecerá una pestaña con el nombre _Applications_, al dar click sobre ella se desplegará un Menú con una applicación llamada `Default Application`. Necesitamos dar click sobre ella.
 ![default-app](./Imagenes/def-app.png)


 * En la nueva página, damos click en _GET THE KEYS_
 
 ![exportar claves](./Imagenes/exportar.png)
 
 
 * Por último, en la nueva ventana, damos click en el botón _COPY_ para copiar toda esta secuencia de caracteres que constituirán en código el contenido de la variable `ms_k` (clave mashape).
 
 ![clave mashape](./Imagenes/copy.png)

Una vez instalado este módulo, podemos correr el siguiente código que devuelve el puntaje para cada clasificador (puntajes altos representan una probabilidad alta de que la cuenta sea bot, y viceversa).

In [None]:
import botometer

ms_k = "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"
twitter_app_auth = {
    'consumer_key': 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX',
    'consumer_secret': 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX',
    'access_token': 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX',
    'access_token_secret': 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX',
}
bom = botometer.Botometer(mashape_key=ms_k, **twitter_app_auth)

result = bom.check_account('@usuario')

Notemos que lo anterior solo funciona para un solo usuario, ahora nos interesa saber si ¿Es posible hacer la clasificiación de muchos usuarios al mismo tiempo? La respuesta a lo anterior es sí y solo debemos hacer lo siguiente:

In [None]:
accounts = ['@usuario1', '@usuario2', '@usuario3']
results = list(bom.check_accounts_in(accounts))

Ahora evaluar muchas cuentas de la forma anterior sería tedioso y complicado, en lo que sigue explicaremos otra forma de hacerlo y más aún es posible clasificarlos en seis categorías:  
 * Tener los usuarios a evaluar en un archivo `'csv'` que contenga el `'id'` de las cuentas en una columna, supongamos que nuestro archivo se llama `'Cuentas.csv'`.
 * Cargar los módulos que vamos a usar visualizar la evaluación de las cuentas:

In [None]:
from __future__ import print_function, unicode_literals

import datetime
import json
import re
import time
import traceback
import botometer
import pandas as pd
import requests
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

 * Ilustraremos el proceso de evaluación cargando el archivo `'Cuentas.csv'` que contiene el `id` de 30 cuentas:

In [None]:
file1 = 'Cuentas.csv'

* Usando Pandas lo convertimos en un «data frame»:

In [None]:
df = pd.read_csv(file1, low_memory = False, encoding='latin1')

 * Separamos la columna de los nombres de las cuentas:

In [None]:
df0 = df['id']

 * Para darnos una idea rápida de las cuentas que tenemos, podemos inspeccionarlas con un `describe`.

In [None]:
df0.describe()

 * Creamos una lista que tenga solo una mención de cada cuenta a evaluar (para no repetir):

In [None]:
df3 = df0.unique()

 * Incluimos las llaves, secretos y pase:

In [None]:
mashape_key = "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"
twitter_app_auth = {
    'consumer_key': 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX',
    'consumer_secret': 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX',
    'access_token': 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX',
    'access_token_secret': 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX',
  }

for api_key in twitter_app_auth.values(): 
    assert not api_key.startswith('COPY_')

 * Ahora inicializamos el API de `Botometer`:

In [None]:
bom = botometer.Botometer(mashape_key=mashape_key, **twitter_app_auth)
api = bom.twitter_api

 * Ya estamos listos para el paso importante, llamar a `Botometer` usando nuesta lista de cuentas:

In [None]:
import time 

#time.time() # el tiempo ahora en segundos
#time.sleep(10) # se espera durante 10 segundos

retry = 0

time_at_block_start = time.time()
calls_in_block = 0
results = {}    
for user_id in df3:
    try:
        print('Getting result for ' , user_id)
        bom_result = bom.check_account(user_id)
        results[user_id] = bom_result
        print('    ...success!')
    except:
        print('    ...fail.')
        
    calls_in_block += 1
    now = time.time()
        
    if calls_in_block == 179 and now - time_at_block_start <= 15 * 60:
        time.sleep(15 * 60 - now + time_at_block_start)
        
    if now - time_at_block_start >= 15 * 60:
        time_at_block_start = time.time()
        calls_in_block = 0

print("Done.")

* Cuando el proceso anterior haya terminado (esto puede durar mucho si tenemos muchas cuentas) guardamos los resultados. Para guardar los datos (guardados en memoria como `results`) reutilizaremos el código que guarda tweets en un archivo:

In [None]:
import json

with open("./data/evaluacion.json",'w') as archivo:
    for user_id in results.keys():
        archivo.write(json.dumps(results[user_id]))
        archivo.write('\n')

Con los pasos anteriores hemos terminado el proceso de la evaluación de nuestras cuentas mediante Botometer. Ahora ya es posible pasar a la fase de visualización simple, para esto:
 * Abrimos el archivo `'evaluacion.json'` (que creamos con los puntajes) y guardamos la información del archivo en la variable `sresultados` (lista que contiene diccionarios):

In [None]:
import json
sresults=[]
with open("./data/evaluacion.json","r") as archivo:
    renglones=archivo.readlines()
    for data in renglones:
        puntaje=json.loads(data)
        sresults.append(puntaje)

 * Recordemos que como hablantes del español el módulo de `Botometer` nos permite podemos utilizar network (en `BotOrNot` network_classification), el cual evalua nuestra cuenta en términos de retweets, menciones y hashtags; friend (en `BotOrNot` friend_classification) que depende de los seguidores y cuentas seguidas; entre otros. Ahora si preparamos las variables que conformarán un nuevo «data frame», el cual utilizaremos para analizar los puntajes obtenidos de `Botometer`:

In [None]:
users = []; content = []; friend = []; network = []; sentiment = []; temporal = []; userc = []
for user_dict in sresults:
    user=user_dict['user']
    users.append(user)
    content.append(user_dict['categories']['content'])
    friend.append(user_dict['categories']['friend'])
    network.append(user_dict['categories']['network'])
    sentiment.append(user_dict['categories']['sentiment'])
    temporal.append(user_dict['categories']['temporal'])
    userc.append(user_dict['categories']['user'])

 * Ahora creamos este nuevo «data frame»:

In [None]:
import pandas
df = pandas.DataFrame({'user': users, 'content': content, 'friend': friend, 'network': network,
  'sentiment': sentiment,
  'temporal': temporal,
  'user': userc})

En este momento ya somos capaces de empezar a visualizar los puntajes obtenidos, por ejemplo en la categoría de «Network», usando un estimado de la densidad de núcleo, conocido como «kernel density estimate», además la imagen se guardará en un archivo:

In [None]:
from __future__ import print_function, unicode_literals

import datetime
import json
import re
import time
import traceback
import botometer
import pandas as pd
import requests
import seaborn as sns

import numpy as np

import matplotlib.pyplot as plt

scores = df[df['network'].notnull()]['network']
sns.set(rc={"figure.figsize": (12, 6)})
ax = sns.distplot(scores)
ax.set_title('Distribución de puntajes de Red, «Network», obtenidos con Botometer en Cuentas.csv')
ax.set_xlim([0,1])
ax.set_xlabel('Content classification')
ax.yaxis.set_visible(True)
ax.patch.set_visible(True)

filename = 'Network-Cuentas'
plt.savefig(filename)

Por cuestiones de tiempo, sólo hemos evaluado 30 cuentas; un ejemplo de una gráfica obtenida evaluando un mayor número de cuentas se muestra en la siguiente imagen. Para este ejemplo se colectaron tweets usando la etiqueta _#Tanhuato_: 

![](Network-dist-Tanhuato_19-20_8_16.png)

Vemos una señal prominente en .8, lo que indica que estas cuentas son muy probablemente bots y que ademas tienen las mismas características, lo cuál sucedería si todas fueron automatizadas (programadas) con los mismos parámetros de comportamiento.

Distintas cuentas se comportan de distintas maneras, por lo que es conveniente comparar varios puntajes a la vez. Esto es sencillo en 2D. Por ejemplo, comparemos puntajes de Red y Amigos:

In [1]:
sns.set(style="white")

x1 = df[df['friend'].notnull()]['friend']
x2 = df[df['network'].notnull()]['network']
x1 = pd.Series(x1, name="Friend class")
x2 = pd.Series(x2, name="Net class")

g = sns.jointplot(x1, x2, kind="kde", n_levels=60, shade=True, size=12, space=0)

filename = 'KDE-Friend-Temporal-Cuentas'
plt.savefig(filename)

Como antes, ilustramos con un ejemplo obtenido de un conjunto de datos más extenso (_#Tanhuato_):

![](KDE-Friend-Net-Tanhuato_19-20_8_16.png)

Se aprecia un cúmulo de cuentas con una distribución muy uniforme en la esquina superior derecha, la zona de los bots.

De esta manera podemos identificar cúmulos de cuentas que son potencialmente bots dejando que los datos guíen el análisis.

Estos métodos fueron desarrollados para [éste artículo](https://link.springer.com/chapter/10.1007/978-3-319-47874-6_19), disponible con [libre acceso aquí](https://arxiv.org/abs/1609.08239).

**Suárez-Serrato, Pablo, Margaret E. Roberts, Clayton Davis, and Filippo Menczer. "On the influence of social bots in online protests." In International Conference on Social Informatics, pp. 269-278. Springer International Publishing, 2016.**

**Nota:** Los autores agradecen que [se cite](http://dblp.uni-trier.de/rec/bibtex/journals/corr/Suarez-SerratoR16) este trabajo si se usan estos métodos o códigos.