# PRACTICA 1: Extracción de datos de una red social

En esta práctica, crearemos un pequeño script que se encargue de recuperar información de Reddit, una red social muy popular en la que tiene cabida cualquier tema que nos interese.
A través del wrapper para Python PRAW, utilizaremos el API de Reddit para extraer los datos de posts y comentarios, los almacenaremos en disco y trabajaremos con ellos para extraer valiosa información.

En primer lugar, importaremos los módulos de Python que nos harán falta para poder realizar el script. Los módulos son los siguientes:

+ praw: Reddit API wrapper para Python.
+ ElementTree: Módulo que nos permitirá crear y leer XML.
+ datetime: Módulo para el tratamiento de fechas
+ CountVectorizer y TfidfVectorizer: Módulos de scikit-learn que utilizaremos para el posterior análisis de los datos extraídos.
+ numpy: Módulo para trabajar fácilmente con arrays y matrices

In [1]:
# Importamos el wrapper praw para acceder al api de reddit
import praw
# Importamos el parser XML
import xml.etree.ElementTree as ET
# Importamos datetime para tratar fechas
import datetime
# Importamos el CountVectorizer y el TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
# Importamos numpy para realizar operaciones con matrices
import numpy as np

El siguiente paso será definir los valores necesarios para realizar la conexión al API de Reddit. Además, crearemos variables con los valores de subreddit, el número de posts que queremos recuperar y el nombre del fichero donde los vamos a almacenar en disco.

In [2]:
# Definimos los valores necesarios para realizar la conexion al api
CLIENT_ID = 'hYM-vevrJQH5zA'
CLIENT_SECRET = 't5HlntQcK052abHi7CLja-2ep_U'
USERNAME = 'eseijo'
PASSWORD = 'TGINE2017'
USER_AGENT = 'script:redditextractor:0.1 (by /u/eseijo)'

# Subreddit a utilizar
SUBREDDIT = 'personalfinance'
# Numero de posts a extraer
N = 300
# Nombre de fichero donde se guardaran los datos extraidos de reddit
FILENAME = 'redditextractor_data.xml'

A continuación, encapsularemos en funciones alguna de las funcionalidades que necesitamos. Las funciones son las siguientes:

+ get_new_content: Función que devuelve los últimos contenidos de un subreddit.
+ get_hot_content: Función que devuelve los contenidos más populares del momento en un subreddit.
+ get_XML_from_reddit_comment: Función que, dado un comentario de Reddit, crea un XML y lo añade a una lista.
+ get_XML_from_reddit_post: Función que, dado un post de Reddit, crea una lista que contiene el post y cada uno de sus comentarios en XML.
+ get_XML_content_as_list_from_file: Función que lee un XML de posts/comentarios de Reddit y devuelve una lista con sus contenidos. El contenido será el texto incluido en el tag content y, en caso de que este esté vacío, el del tag title. Si ninguno de los dos tags contiene información, el elemento se descarta.
+ get_central_terms_from_corpus: Función que devuelve los n términos centrales de un corpus. Utiliza el TfidfVectorizer filtrando stop words y las palabras que aparecen en menos de 10 documentos.
+ get_most_repeated_terms_from_corpus: Función que devuelve los n términos más repetidos de un corpus. Utiliza el CountVectorizer filtrando stop words y las palabras que aparecen en menos de 10 documentos.

In [3]:
# Funcion que devuelve los ultimos contenidos de un subreddit
def get_new_content(reddit, subreddit, topN):
    subreddit = reddit.subreddit(subreddit)
    return subreddit.new(limit = topN)

In [4]:
# Funcion que devuelve los contenidos mas populares del momento para un subreddit
def get_hot_content(reddit, subreddit, topN):
    subreddit = reddit.subreddit(subreddit)
    return subreddit.hot(limit = topN)

Aunque el API de Reddit devuelve como máximo 100 posts por petición, el wrapper PRAW se encarga de realizar las peticiones necesarias espaciándolas debidamente para cumplir con las restricciones que impone el API. Por lo tanto, si se piden 1250 posts, se realizarán 13 llamadas al API, una cada dos segundos.

In [5]:
# Funcion que parsea un comentario a XML y lo anade a una lista
def get_XML_from_reddit_comment(entry, acc = []):
    e = ET.Element('entry')
    title = ET.SubElement(e, 'title')
    content = ET.SubElement(e, 'content')
    content.text = entry.body
    date = ET.SubElement(e, 'date')
    date.text = datetime.datetime.fromtimestamp(entry.created).strftime("%Y-%m-%d %H:%M:%S")
    type = ET.SubElement(e, 'type')
    type.text = 'comment'
    acc.append(e)
    return acc

In [6]:
# Funcion que parsea un post y sus comentarios a XML y devuelve una lista
def get_XML_from_reddit_post(entry):
    acc = []
    e = ET.Element('entry')
    title = ET.SubElement(e, 'title')
    title.text = entry.title
    content = ET.SubElement(e, 'content')
    content.text = entry.selftext
    date = ET.SubElement(e, 'date')
    date.text = datetime.datetime.fromtimestamp(entry.created).strftime("%Y-%m-%d %H:%M:%S")
    type = ET.SubElement(e, 'type')
    type.text = 'post'
    acc.append(e)
    for comment in entry.comments:
        if isinstance(comment, praw.models.MoreComments):
            continue
        get_XML_from_reddit_comment(comment, acc)
    return acc

In [7]:
# Funcion que lee un XML de posts/comentarios de un fichero y devuelve una lista con sus contenidos
def get_XML_content_as_list_from_file(filename):
    parser = ET.XMLParser(encoding = 'utf-8')
    root = ET.parse(filename, parser = parser).getroot()
    result = []
    for entry in root:
        if entry.find('content').text != None:
            result.append(entry.find('content').text)
        elif entry.find('title').text != None:
            result.append(entry.find('title').text)
    return result

In [8]:
# Funcion que devuelve los n terminos centrales de un corpus
def get_central_terms_from_corpus(corpus, n = 10):
    vectorizer = TfidfVectorizer(stop_words = 'english', min_df = 10)
    tfidf = vectorizer.fit_transform(corpus)
    acc_sum = np.sum(tfidf, axis = 0)
    top_positions = np.argsort(-acc_sum).A1[:n]
    terms = []
    feature_names = vectorizer.get_feature_names()
    for pos in top_positions:
        terms.append(feature_names[pos])
    return terms

In [9]:
# Funcion que devuelve los n terminos mas repetidos de un corpus
def get_most_repeated_terms_from_corpus(corpus, n = 100):
    vectorizer = CountVectorizer(stop_words = 'english', min_df = 10)
    count = vectorizer.fit_transform(corpus)
    acc_sum = np.sum(count, axis = 0)
    top_positions = np.argsort(-acc_sum).A1[:n]
    terms = []
    feature_names = vectorizer.get_feature_names()
    for pos in top_positions:
        terms.append(feature_names[pos])
    return terms

Tras la definición de las funciones, ya estamos en condiciones de ejecutar el código y realizar la extracción de datos para su análisis. Para ello, empezaremos realizando la conexión al API de Reddit.

In [10]:
# Realizar la conexion al api de reddit
reddit = praw.Reddit(client_id = CLIENT_ID, client_secret = CLIENT_SECRET,
                     user_agent = USER_AGENT, username = USERNAME, password = PASSWORD)

Version 5.1.0 of praw is outdated. Version 5.2.0 was released Tuesday October 24, 2017.


Definimos una lista vacía en la que meteremos los ids de los posts procesados por si alguna petición nos devuelve alguno que ya hemos tratado.

In [11]:
postIds = []

Creamos el elemento root del XML. EL XML resultante tendrá un aspecto como este:

<pre>
    &lt;?xml version="1.0" encoding="UTF-8"?&gt;
    &lt;entryList&gt;
      &lt;entry&gt;
        &lt;title&gt;What's your favorite 90s TV show?&lt;/title&gt;
        &lt;content /&gt;
        &lt;date&gt;2017-11-02 19:27:56&lt;/date&gt;
        &lt;type&gt;post&lt;/type&gt;
      &lt;/entry&gt;
      &lt;entry&gt;
        &lt;title /&gt;
        &lt;content&gt;*Rugrats*.&lt;/content&gt;
        &lt;date&gt;2017-11-02 19:28:25&lt;/date&gt;
        &lt;type&gt;comment&lt;/type&gt;
      &lt;/entry&gt;
      &lt;entry&gt;
        &lt;title&gt;What was the worst accident you have seen?&lt;/title&gt;
        &lt;content /&gt;
        &lt;date&gt;2017-11-02 19:27:27&lt;/date&gt;
        &lt;type&gt;post&lt;/type&gt;
      &lt;/entry&gt;
      &lt;entry&gt;
        &lt;title&gt;People of Reddit, what is your best "Ay caramba" moment?&lt;/title&gt;
        &lt;content /&gt;
        &lt;date&gt;2017-11-02 19:25:58&lt;/date&gt;
        &lt;type&gt;post&lt;/type&gt;
      &lt;/entry&gt;
      [...]
    &lt;/entryList&gt;
</pre>

In [12]:
e = ET.Element('entryList')

Recuperamos el contenido más popular del subreddit e iteramos sobre él, creando en cada iteración una lista de XML que incluirá el post y sus comentarios y que añadiremos como hijos al elemento &lt;entryList&gt;.

In [13]:
for post in get_hot_content(reddit, SUBREDDIT, N):
    if post.id not in postIds:
        e.extend(get_XML_from_reddit_post(post))
        postIds.append(post.id)

En el caso de que se quisiese hacer con el contenido más reciente, el código sería similar y tan sólo habría que reemplazar la función get_hot_content por get_new_content. También se podrían usar ambas a la vez (o todas las que se necesiten) ya que al guardar los ids de los posts, evitamos introducir repetidos a nuestra colección.

In [14]:
# for post in get_new_content(reddit, subreddit, n):
#     if post.id not in postIds:
#         e.extend(get_XML_from_reddit_post(post))
#         postIds.append(post.id)

Tras recuperar el contenido y haber formado el XML, lo escribimos en un fichero local.

In [15]:
f = open(FILENAME, 'w')
print(ET.tostring(e).decode('utf-8'), file = f)
f.close()

Con la información debidamente normalizada y almacenada, procederemos a trabajar con ella.
<br/>
Empezaremos recuperando la información del XML y creando una lista con el contenido de cada post/comentario.

In [16]:
# Recuperamos el contenido del fichero
corpus = get_XML_content_as_list_from_file(FILENAME)

A continuación, mostramos los 10 términos centrales de la colección.

In [17]:
# Mostramos los 10 terminos centrales
print('10 terminos centrales para el subreddit {} tras analizar {} posts y sus comentarios ({} documentos en total)'.format(SUBREDDIT, N, len(corpus)))
print(get_central_terms_from_corpus(corpus))

10 terminos centrales para el subreddit personalfinance tras analizar 300 posts y sus comentarios (2074 documentos en total)
['money', 'pay', 'credit', 'just', 'don', 'personalfinance', 'like', 'account', 'com', 'year']


Por último, mostramos los 100 términos más repetidos.

In [18]:
# Mostramos los 100 terminos mas repetidos
print('100 terminos mas repetidos en el subreddit {} tras analizar {} posts y sus comentarios ({} documentos en total)'.format(SUBREDDIT, N, len(corpus)))
print(get_most_repeated_terms_from_corpus(corpus))

100 terminos mas repetidos en el subreddit personalfinance tras analizar 300 posts y sus comentarios (2074 documentos en total)
['money', 'pay', 'credit', 'just', 'don', 'like', 'year', 'personalfinance', 'account', 'insurance', 'time', 'com', 'month', 'need', 'www', 'make', 'wiki', 'debt', 'reddit', 'want', 'savings', 'http', 'car', 'work', 'card', 'years', 'job', 'good', 've', 'income', 'know', 'loan', 'new', 'use', 'fund', 'think', 'll', 'going', 'tax', 'plan', 'buy', 'way', 'months', 'really', 'loans', 'paying', 'free', 'better', '000', 'bank', 'company', 'library', 'got', 'people', 'save', 'house', 'things', 'home', 'start', 'paid', 'payment', 'right', 'sure', 'cash', 'life', 'cost', 'student', 'probably', 'rate', 'expenses', '401k', 'help', 'questions', 'taxes', 'check', 'emergency', '10', 'look', 'subreddit', 'advice', 'health', 'balance', 'live', 'spend', 'lot', 'best', 'looking', 'does', 'day', 'contact', 'able', 'school', 'ira', 'getting', 'automatically', 'kids', 'helpful', 