# Table of Contents
 <p><div class="lev1 toc-item"><a href="#Minando-datos-de-Twitter-con-Pandas-+-Tweepy" data-toc-modified-id="Minando-datos-de-Twitter-con-Pandas-+-Tweepy-1"><span class="toc-item-num">1&nbsp;&nbsp;</span><strong>Minando datos de Twitter con Pandas + Tweepy</strong></a></div><div class="lev2 toc-item"><a href="#Importamos-nuestras-librerías" data-toc-modified-id="Importamos-nuestras-librerías-11"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Importamos nuestras librerías</a></div><div class="lev2 toc-item"><a href="#Creamos-una-App-de-Twitter" data-toc-modified-id="Creamos-una-App-de-Twitter-12"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Creamos una App de Twitter</a></div><div class="lev2 toc-item"><a href="#Extraemos-tweets" data-toc-modified-id="Extraemos-tweets-13"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Extraemos tweets</a></div><div class="lev2 toc-item"><a href="#Creamos-un-dataframe" data-toc-modified-id="Creamos-un-dataframe-14"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>Creamos un dataframe</a></div><div class="lev2 toc-item"><a href="#Añadimos-información-relevante" data-toc-modified-id="Añadimos-información-relevante-15"><span class="toc-item-num">1.5&nbsp;&nbsp;</span>Añadimos información relevante</a></div><div class="lev1 toc-item"><a href="#Visualización-y-estadística-básica" data-toc-modified-id="Visualización-y-estadística-básica-2"><span class="toc-item-num">2&nbsp;&nbsp;</span><strong>Visualización y estadística básica</strong></a></div><div class="lev2 toc-item"><a href="#Promedios-y-popularidad" data-toc-modified-id="Promedios-y-popularidad-21"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Promedios y popularidad</a></div><div class="lev2 toc-item"><a href="#Series-de-tiempo" data-toc-modified-id="Series-de-tiempo-22"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Series de tiempo</a></div><div class="lev2 toc-item"><a href="#Pie-charts-de-dispositivos" data-toc-modified-id="Pie-charts-de-dispositivos-23"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Pie charts de dispositivos</a></div><div class="lev1 toc-item"><a href="#Análisis-de-sentimientos" data-toc-modified-id="Análisis-de-sentimientos-3"><span class="toc-item-num">3&nbsp;&nbsp;</span><strong>Análisis de sentimientos</strong></a></div><div class="lev2 toc-item"><a href="#Importando-textblob" data-toc-modified-id="Importando-textblob-31"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Importando textblob</a></div><div class="lev2 toc-item"><a href="#Analizando-sentimientos" data-toc-modified-id="Analizando-sentimientos-32"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Analizando sentimientos</a></div><div class="lev2 toc-item"><a href="#Analizando-resultados" data-toc-modified-id="Analizando-resultados-33"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Analizando resultados</a></div><div class="lev1 toc-item"><a href="#Referencias" data-toc-modified-id="Referencias-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Referencias</a></div>

# **Minando datos de Twitter con Pandas + Tweepy**

## Importamos nuestras librerías

**Pandas** es una biblioteca de código abierto, que proporciona estructuras de datos de alto rendimiento y fácil de usar y herramientas de análisis de datos para el lenguaje de programación Python.

**Tweepy** es una biblioteca de Python fácil de usar para acceder a la API de Twitter.

**NumPy** es el paquete fundamental para la computación científica con Python. Contiene entre otras cosas:
* Un potente objeto de matriz N-dimensional
* Sofisticadas funciones de radiodifusión
* Herramientas para integrar código C / C ++ y Fortran
* Álgebra lineal útil, transformada de Fourier y capacidades de números aleatorios

Además de sus usos científicos obvios, NumPy también puede ser utilizado como un eficiente contenedor multidimensional de datos genéricos. Se pueden definir tipos de datos arbitrarios. Esto permite a NumPy integrarse de forma transparente y rápida con una amplia variedad de bases de datos.

**Matplotlib** es una biblioteca de trazado de Python 2D que produce figuras de calidad de publicación en una variedad de formatos impresos y entornos interactivos entre plataformas. Matplotlib se puede utilizar en scripts Python, en el shell Python e IPython, en el Jupyter Notebook, en servidores de aplicaciones web y para kits de herramientas de interfaz gráfica de usuario.

**Seaborn** es una biblioteca de visualización de Python basada en matplotlib. Proporciona una interfaz de alto nivel para dibujar gráficos estadísticos atractivos.

In [None]:
# General:
# Tweepy           # Para consumir la API de Twitter
# Pandas     # Para manejo de datos
# NumPy      # Para operaciones numéricas

# Para ploteo y visualización:
# Seaborn
# Display
# Pyplot
# Inline

## Creamos una App de Twitter

Para poder extraer twits para un posterior análisis, debemos acceder a nuestra cuenta de Twitter y crear una app. El sitio para poder hacer eso es [https://apps.twitter.com/](https://apps.twitter.com/).

De esta app que creamos necesitaremos actualizar nuestro script `credentials.py` con la siguiente información:
* Consumer Key (API Key)
* Consumer Secret (API Secret)
* Access Token
* Access Token Secret

Habiendo hehco esto, podemos proceder a consumir el API de Twitter. Para ello, creamos una función que nos permita autenticar nuestras llaves de acceso y consumo.

In [None]:
# Importamos nuestras llaves de acceso:
from credentials import *

# Configuración del API:
def twitter_config():
    """
    Función de utilidad para configurar el consumo del 
    API de Twitter con las llaves proporcionadas.
    """
    # Autenticar y acceder usando llaves:
    auth = tweepy.OAuthHandler(CONSUMER_KEY, CONSUMER_SECRET)
    auth.set_access_token(ACCESS_TOKEN, ACCESS_SECRET)

    # Regresar acceso al API:
    api = tweepy.API(auth)
    return api

## Extraemos tweets

Ahora podemos crear un extractor de datos de Twitter para un usuario en específico.

En mi caso, utilizaré a Donald Trump ([@realDonaldTrump](https://twitter.com/realDonaldTrump)) como usuario a minar.


<!-- <iframe src='https://twitter.com/realDonaldTrump' width=700 height=350></iframe> -->

In [None]:
# Creamos un objeto extractor:


# Creamos una lista de tweets:



# Imprimimos los primeros 5 tweets:





## Creamos un dataframe

Ahora tenemos información inicial para construir un `DataFrame` de pandas, para poder manipular la información de manera más sencilla.

La función `display` de Jupyter Notebook nos permite tener un ploteo más amigable, y el método `head` de un dataframe nos permite visualizar sólo los primeros 5 elementos (o el número que elementos que se le pasen como argumento).

In [None]:
# Podemos crear un dataframe como sigue:


# Hacemos un display del dataframe:


Algo interesante es la cantidad de métodos internos que tiene la estructura de un tweet en Tweepy:

In [None]:
# Imprimimos métodos internos:


De aquí resulta interesante que, si queremos obtener datos como la fecha de creación de un tweet o el dispositivo con el que fue creado, podemos acceder a esta información con métodos que aparecen en esta lista. Un ejemplo es el siguiente:

In [None]:
# Imprimimos info del primer tweet:









## Añadimos información relevante

Esta información de cada tweet puede ser agregada a nuestro dataframe:

In [None]:
# Añadimos datos relevantes:







Reimprimendo parte de nuestro dataframe, vemos que la actualización se realiza:

In [None]:
# Hacemos un display del dataframe:


Muy bien, estamos listos para realizar un posterior análisis.

¡Sube el nivel!

# **Visualización y estadística básica**

## Promedios y popularidad

Primero nos interesa conocer estadísticos básicos sobre la información que extragimos, como la media de las longitudes de cada tweet, cuál fue el tweet con más favoritos, cuál fue el tweet más retweeteado, etc.

In [None]:
# Extraemos el promedio:




In [None]:
# Extraemos el tweet con más FAVs y con más RTs:







# Max FAVs:




# Max RTs:





## Series de tiempo

Dado que tenemos todo un vector de fechas de creación, podemos construir una serie de tiempo con respecto a longitudes de tweets, favoritos y retweets.

In [None]:
# Creamos series de tiempo para datos:





Visualizamos las series de tiempo en plots:

In [None]:
# Visualización de longitudes:


In [None]:
# Visualización de likes vs retweets:



## Pie charts de dispositivos

Limpiamos las fuentes de creación de tweets para hacer un pie chart:

In [None]:
# Obtenemos posibles fuentes:





# Imprimimos fuentes:




Contamos dispositivos y creamos un pie chart:

In [None]:
# Creamos un vector mapeado a etiquetas:










# Pie chart:



Ya tenemos estadístigas y gráficas muy básicas sobre los datos obtenidos.

¿Y si hacemos análisis de sentimientos?

# **Análisis de sentimientos**

## Importando textblob

**TextBlob** es una biblioteca de Python (2 y 3) para procesar datos de texto. Proporciona una API sencilla para ahondar en las tareas comunes de procesamiento del lenguaje natural (PNL), como el etiquetado de parte del habla, la extracción de frase nominal, el análisis de sentimientos, la clasificación, la traducción y mucho más.

In [None]:
from textblob import TextBlob
import re

def limpia_tweet(tweet):
    '''
    Función de utilidad para limpiar el texto de un tweet removiendo 
    enlaces y caracteres especiales usando regex.
    '''
    return ' '.join(re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)", " ", tweet).split())

def analiza_sentimiento(tweet):
    '''
    Función de utilidad para clasificar el sentimiento del tweet
    proporcionado utilizando textblob
    '''
    analysis = TextBlob(limpia_tweet(tweet))
    if analysis.sentiment.polarity > 0:
        return 1
    elif analysis.sentiment.polarity == 0:
        return 0
    else:
        return -1

## Analizando sentimientos

Con estas funciones podemos realizar un análisis de sentimientos de tweets de nuestro dataframe.

In [None]:
# Creamos columna de resultados del análisis


# Hacemos display de los sentimientos:


## Analizando resultados

Podemos construir una lista con todos los tweets clasificados, así como reportar porcentajes del análisis realizado.

In [None]:
# Construimos listas con tweets clasificados:





In [None]:
# Imprimimos porcentajes:





# Referencias

1. [Documentación oficial de Tweepy](http://tweepy.readthedocs.io/en/v3.5.0/).
2. [Documentación oficial de NumPy](https://docs.scipy.org/doc/numpy-dev/index.html).
3. [Tutorial de NumPy](https://docs.scipy.org/doc/numpy-dev/user/quickstart.html).
4. [Tutorial de Pandas](https://pandas.pydata.org/pandas-docs/stable/tutorials.html).
5. [Documentación oficial de Pandas](https://pandas.pydata.org/pandas-docs/stable/index.html).
6. [Documentación oficial de Matplotlib](http://matplotlib.org/index.html).
7. [Tutorial de Pyplot](http://matplotlib.org/users/pyplot_tutorial.html).
8. [Sitio oficial de Seaborn](https://seaborn.pydata.org/).
9. [Documentación oficial de TextBlob](https://textblob.readthedocs.io/en/dev/).
10. [Creación de clasificadores con TextBlob](https://textblob.readthedocs.io/en/dev/classifiers.html).