# Práctica 1: Extracción de datos de una red social
## por Federico Pardo García

## Máster en BIG DATA: Tecnologías de Gestión de Información No Estructurada 2020/2021


## Introducción

El objetivo de este trabajo es la de realizar un __análisis textual__ de una serie de contenidos. Para ello, utilizaremos Reddit, una red social de código abierto, que nos permitirá obtener parte de sus contenidos textuales con el fin de analizarlos en este trabajo. Por medio de este análisis, obtendremos información como las palabras más utilizadas o los términos más importantes.
Además, se incluye una extracción de tópicos de los textos obtenidos de Reddit. Esta se realizará por medio de la herramienta _Gensim_, una librería para Python que nació con la intención de buscar los documentos académicos más similares a otro dado, y que en esta ocasión, nos permitirá obtener las palabras claves de los temas que se hablan en el subreddit elegido.

## Obtención de los datos de Reddit

Lo primero que debemos hacer, es __conectarnos a Reddit__ para poder obtener los datos que queremos analizar. Para ello, debemos habernos dado de alta en la red social como desarrollador, y haber creado una aplicación. Esto tiene  como fin, el que se nos facilite un código con el que poder hacer peticiones al sitio web.
Para acceder a la misma, utilizaremos un __wrapper para python llamado__ `PRAW`, que se encargará de realizar la comunicación con la plataforma.

Primero importamos las librerías necesarias para el procesamiento de los datos e inicializamos una instancia de `PRAW` para poder realizar peticiones a Reddit.

In [1]:
import praw
from praw.models import MoreComments
import datetime
import xml.etree.ElementTree as ET

reddit = praw.Reddit(client_id="EfIURuPhLtg1rQ",
                     client_secret="9ZAUICh4qEl5thBs2Y3tHETkm_E",
                     user_agent="Comment Extraction (by /u/Fedeparg)")

Dado que no vamos a enviar ningún dato a la red social, nos vale con el modo de "Solo lectura", así que comprobamos que al menos podemos __leer datos de Reddit:__

In [2]:
print(reddit.read_only)

True


A continuación, definimos un método que nos permita extraer la información necesaria. He decidido que se le pase el subreddit, así como el nombre del fichero en el que se guardará la información. Cada post almacena su tipo, título, fecha y cuerpo del mensaje. Por su parte, los comentarios almacenan su tipo, el id del post al que pertenecen, su fecha y mensaje.

Después de conformar el fichero ``xml``, este se exporta mediante las 2 líneas finales.

In [3]:
# Método para extraer posts y sus comentarios
# de un subreddit dado y exportarlos en xml.
def extraction(posts, name):
    items = ET.Element("data")
    for submission in posts:
        element = ET.SubElement(items, 'post')
        element.set('id', submission.id)
        element.set('title', submission.title)
        element.set('date', datetime.datetime.fromtimestamp(int(submission.created_utc))
                    .strftime('%Y-%m-%d %H:%M:%S'))
        element.text = submission.selftext + "\n"
        for comment in submission.comments.list():
            if isinstance(comment, MoreComments):
                continue
            element_c = ET.SubElement(items, 'comment')
            element_c.set('id', comment.id)
            element_c.set('postid', submission.id)
            element_c.set('date', datetime.datetime.fromtimestamp(int(submission.created_utc))
                          .strftime('%Y-%m-%d %H:%M:%S'))
            element_c.text = comment.body + "\n"
            

    mydata = ET.ElementTree(items)
    mydata.write(name + ".xml")

A continuación, exportamos posts del subreddit ``r/teslamotors`` en 3 ficheros diferentes, dado que los exportamos de 3 subcategorías diferentes. Los "top", que son temas candentes con muchos comentarios. Los "new" o nuevos, que son los que se han creado recientemente. Y por último, los "rising", que son posts que empiezan a tener una gran cantidad de interacciones y puede que acaben convirtiendose en "top".

El atributo `limit` se refiere al número máximo de post que permito descargar. Dado que algunos subreddits tienen una gran cantidad de usuarios muy activos, puede darse el caso de que con un millar de posts lleguemos a tener hasta 1 GB de texto, debido a la gran cantidad de comentarios en cada post. Este parámetro ha sido ajustado en base a la experiencia con el subreddit, y recomiendo que sea ajustado para cada caso particular.

In [4]:
import os.path
if not os.path.exists("./top.xml"):
    top = reddit.subreddit("teslamotors").top(limit=200)
    extraction(top, "top")
elif not os.path.exists("./new.xml"):
    new = reddit.subreddit("teslamotors").new(limit=500)
    extraction(new, "new")
elif not os.path.exists("./rising.xml"):
    rising = reddit.subreddit("teslamotors").rising(limit=None)
    extraction(rising, "rising")

## Extracción de las 100 palabras más repetidas y las 50 más centrales
### Definición de funciones para el procesamiento de los datos

Con el fin de mejorar la legibilidad del código, voy a definir una serie de funciones que aportarán la funcionalidad básica de la parte obligatoria de la práctica. Esta se basa en mostrar las 50 palabras más centrales de cada colección, entendiendo centrales como quellas cuya suma acumulada de __tf/idf__ sobre todos los documentos sea mayor, así como los 100 términos más repetidos a lo largo de la colección. Ambos se obtendrán después de haber realizado el filtrado de *Stopwords*.

Primero, vamos a definir una función que nos facilite la extracción del texto de los `xml` generados. Esta tomará como entrada el nombre del fichero que queremos leer, e introducirá todo el texto en una lista.

In [5]:
def extract_XML(filename):
    tree = ET.ElementTree(file = filename)
    root = tree.getroot()
    collection = []
    for doc in root:
        if 'title' in doc.attrib:
            collection.append(doc.attrib["title"])
        # Dado que pueden haber posts sin cuerpo, se debe
        # comprobar si existe dicho cuerpo
        if doc.text:
            collection.append(doc.text)
    return collection

Las __StopWords__ se definen como las palabras que no aportan información sobre un tema y que aparecen en todo tipo de documentos. Algunos ejemplo serian las palabras 'de', 'y', 'por', que nos sirven para conformar cualquier tipo de oración, pero no nos permiten entender el tema del que se habla por si solas. Es por ello que queremos eliminarlas para que no interfieran en el análisis del texto. Para ello utilizaremos la lista proporcionada por `SciKit`, con algunas incorporaciones propuestas por mí, ya que durante el desarrollo se han observado dichas palabras en repetidas ocasiones y no aportan nada al estudio. La lista de la librería tiene algunos problemas conocidos, pero nos servirá para el objetivo de la práctica.

In [6]:
# Definición de StopWords
from sklearn.feature_extraction import text
my_stopwords = text.ENGLISH_STOP_WORDS.union(["isn", "ll", "ve", "don", "doesn",
                                              "oh", "deleted", "www"])

Ya que se tiene que realizar el mismo procedimiento para las tres colecciones que hemos seleccionado, vamos a crear dos funciones que realicen la tarea de extraer los datos que se nos piden. La función `top100_instances` se encargará de mostrar los __100 términos más repetidos__ a lo largo de todos los documentos de cada colección, mediante la función `countVecotrizer`. Por su parte, la función `top50_centered_terms` nos permitirá obtener los __términos más relevantes__, mediante la función `TfidfVectorizer`.

In [7]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
import pandas as pd
pd.set_option('display.max_rows', 100)

def top100_instances(filename):
    collection = extract_XML(filename)
    vectorizer = CountVectorizer(stop_words = my_stopwords, min_df = 10)
    collectionVectorized = vectorizer.fit_transform(collection)
    df = pd.DataFrame(collectionVectorized.todense(), columns = vectorizer.get_feature_names())
    return df

In [8]:
def top50_centered_terms(filename):
    collection = extract_XML(filename)
    tfidf_vectorizer = TfidfVectorizer(use_idf=True, stop_words = my_stopwords, min_df = 10) 
    tfidf_vectors = tfidf_vectorizer.fit_transform(collection)
    df = pd.DataFrame(tfidf_vectors.todense(), columns = tfidf_vectorizer.get_feature_names())
    return df

### Procesamiento de los ficheros
El procesamiento de los 3 ficheros se hacen de la misma manera, llamando a las dos funciones que acabamos de definir y realizando un pequeño procesamiento de suma acumulada sobre su resultado. Siempre se muestra primero las 100 palabras más repetidas y posteriormente las 50 más centrales.

#### Top

In [9]:
# Top 100 palabras más repetidas
df = top100_instances("top.xml")
dfcumsum = df.cumsum()
cumsum = dfcumsum.iloc[-1]
cumsum = cumsum.sort_values(ascending=False)
print(cumsum[0:100])

tesla          12501
car            10643
like            9227
just            9106
people          6309
model           5047
cars            4730
think           4625
https           4487
time            3974
com             3930
really          3449
make            3411
know            3318
good            3042
elon            2965
way             2921
going           2886
need            2792
right           2677
drive           2506
want            2502
new             2501
years           2416
comments        2374
work            2299
did             2291
electric        2273
lot             2205
better          2184
thing           2181
teslamotors     2171
use             2161
does            2150
sure            2132
actually        2075
driving         2053
probably        2035
battery         2018
truck           1955
got             1877
day             1856
company         1846
pretty          1832
say             1804
look            1793
didn            1736
looks        

In [10]:
# Top 50 términos más centrales
df = top50_centered_terms("top.xml")
dfcumsum = df.cumsum()
cumsum = dfcumsum.iloc[-1]
cumsum = cumsum.sort_values(ascending=False)
cumsum[0:50]

tesla       1540.179266
car         1357.479227
like        1287.014873
just        1195.837366
people       843.169039
model        819.540888
think        737.770967
cars         670.377293
good         621.182381
https        609.787187
know         606.917137
elon         595.710098
time         591.962014
really       583.758171
com          537.305476
right        535.562178
make         523.493102
did          522.059460
way          489.076826
want         484.680836
need         484.004145
lol          477.009137
going        464.610323
looks        455.245155
does         438.582584
yeah         434.092406
drive        427.986345
thing        418.077356
new          414.930968
sure         413.758955
yes          410.507220
love         408.365731
work         399.298017
probably     397.261144
years        396.254245
better       394.065040
got          391.393164
actually     391.087094
look         380.680279
nice         371.581230
pretty       366.882766
electric     364

#### New

In [11]:
# Top 100 palabras más repetidas
df = top100_instances("new.xml")
dfcumsum = df.cumsum()
cumsum = dfcumsum.iloc[-1]
cumsum = cumsum.sort_values(ascending=False)
print(cumsum[0:100])

tesla          9457
car            7974
just           6739
like           5951
model          5130
https          3252
think          3245
new            3132
people         3100
time           2979
cars           2835
com            2707
fsd            2310
really         2267
know           2205
going          2160
need           2121
make           2116
way            2020
range          1974
good           1972
use            1896
want           1890
better         1868
battery        1868
right          1805
driving        1789
years          1772
does           1661
drive          1625
sure           1608
got            1558
year           1550
price          1542
did            1461
lot            1453
probably       1389
long           1355
miles          1351
used           1332
vehicle        1331
work           1319
day            1302
charging       1276
point          1274
said           1273
maybe          1232
actually       1223
pretty         1210
thing          1203


In [12]:
# Top 50 términos más centrales
df = top50_centered_terms("new.xml")
dfcumsum = df.cumsum()
cumsum = dfcumsum.iloc[-1]
cumsum = cumsum.sort_values(ascending=False)
cumsum[0:50]

tesla       890.647728
car         796.641458
just        733.988915
like        714.602668
model       656.090502
think       455.128723
new         417.098828
people      413.246962
time        385.644030
cars        363.192231
know        360.213991
fsd         353.670942
https       346.437578
good        342.119169
really      331.055893
going       307.361865
need        307.174831
right       298.818244
make        296.018127
way         295.903168
want        294.818687
com         292.125271
range       290.438594
better      288.212095
did         286.141978
does        282.619787
yes         276.192860
sure        276.005242
thanks      274.750185
got         273.822415
use         270.673809
years       268.506803
price       256.824630
yeah        254.969889
lol         254.544404
battery     248.326160
year        243.715222
probably    236.688707
driving     235.477036
drive       232.310419
looks       229.522845
nice        223.603123
said        219.579425
elon       

#### Rising

In [13]:
# Top 100 palabras más repetidas
df = top100_instances("rising.xml")
dfcumsum = df.cumsum()
cumsum = dfcumsum.iloc[-1]
cumsum = cumsum.sort_values(ascending=False)
print(cumsum[0:100])

tesla        289
car          271
like         263
just         257
fsd          233
https        185
driving      139
com          133
people       125
think        123
time         113
video        109
lane         104
going        101
videos        93
drive         92
good          91
new           91
need          91
cars          91
right         85
really        85
twitter       81
way           81
stop          79
know          77
turn          76
left          75
want          75
better        74
autopilot     73
model         70
beta          68
make          68
traffic       66
yeah          63
does          61
cameras       60
status        57
sure          57
point         56
road          55
got           54
price         53
didn          51
self          51
use           50
current       50
sign          50
maybe         50
did           50
year          49
work          49
thing         48
lot           48
pretty        47
actually      47
years         47
elon          

In [14]:
# Top 50 términos más centrales
df = top50_centered_terms("rising.xml")
dfcumsum = df.cumsum()
cumsum = dfcumsum.iloc[-1]
cumsum = cumsum.sort_values(ascending=False)
cumsum[0:50]

like         55.736849
tesla        54.518381
just         53.134117
car          52.523110
fsd          50.782075
https        37.583910
driving      32.471512
think        31.567446
people       31.143250
video        30.427119
good         29.844109
time         29.083762
com          27.888798
videos       26.489075
new          26.000397
going        25.551834
need         25.225578
want         24.634878
yeah         24.264651
stop         23.323897
drive        23.076202
right        23.046160
cars         23.007626
know         22.798763
lane         22.414171
beta         21.335695
really       21.172747
way          20.535799
model        19.681946
twitter      19.353996
yes          19.117531
sure         18.813349
got          18.713512
elon         18.431931
better       18.140295
thanks       17.947850
autopilot    17.885792
lol          17.547770
turn         17.331462
left         17.186443
did          17.176010
make         16.941629
maybe        16.800080
traffic    

Sin realizar ninguna extracción de temas, podemos inferir que el __tema principal__ es Tesla y la movilidad eléctrica.

## Topic Modeling con Genism
A continuación, vamos a intentar extraer los temas de conversación que se dan en la colección de documentos. Para ello y como ya hemos indicado, vamos a hacer uso de la librería `Gensim`. La extracción de tópicos se hará siguiendo los mismos pasos de un tutorial facilitado por el profesor de la asignatura, que podemos encontrar [aquí](https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/).

Ya que `r/teslamotors` es una comunidad con un tema principal claramente diferenciado y que personalmente conozco en profunidad, vamos a realizar el análisis sobre un único fichero, con el fin de probar esta funcionalidad y medir su precisión. Si es capaz de extraer algunos tópicos de calidad, podemos decir que el rendimiento del modelo de selección de temas es bueno.

### Importar las librerías necesarias
Primero vamos a importar todas las librerías que necesitamos para la ejecución correcta del código de este punto en adelante.

In [15]:
import nltk
# Descargamos la lista de StopWords que nos facilitan
nltk.download('stopwords')
import re
import numpy as np
from pprint import pprint

# Gensim
import gensim
import gensim.corpora as corpora
from gensim.utils import simple_preprocess
from gensim.models import CoherenceModel

# spacy for lemmatization
import spacy

# Plotting tools
import pyLDAvis
import pyLDAvis.gensim  # don't skip this
import matplotlib.pyplot as plt
%matplotlib inline

import warnings
warnings.filterwarnings("ignore",category=DeprecationWarning)

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/fedeparg/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### Preparación de los datos
En primer lugar, vamos a importar y seleccionar la lista de __StopWords__ que queremos utilizar para filtrar el texto. Dado que Reddit es una red social en la que predomina el inglés, seleccionamos dicha lista de palabras.

In [16]:
# NLTK Stop words
from nltk.corpus import stopwords
stop_words = stopwords.words('english')

Seleccionamos el fichero `top.xml` para realizar el análisis, dado que es el que mayor cantidad de texto contiene, lo que en un principio debería facilitar el reconocimiento de tópicos.

In [17]:
data = extract_XML('top.xml')

Por medio de expresones regulares, eliminamos todos los caracteres que no sean texto como tal. Esto incluye nueas líneas, espacios y demás caracteres invisibles.

In [18]:
data = [re.sub('\S*@\S*\s?', '', sent) for sent in data]
data = [re.sub('\s+', ' ', sent) for sent in data]
data = [re.sub("\'", "", sent) for sent in data]

A continuación, _tokenizamos_ cada frase en una lista de palabras, eliminando los signos de puntuación y cualquier caracter innecesario por el camino.

In [19]:
# Tokenize words
def sent_to_words(sentences):
    for sentence in sentences:
        yield(gensim.utils.simple_preprocess(str(sentence), deacc=True))  # deacc=True removes punctuations

data_words = list(sent_to_words(data))

Usando el código que nos facilita la librería, configuramos los __bigramas__ y __trigramas__, que no son más que grupos de 2 y 3 palabras respectivamente que aparecen juntos con frecuencia. Un ejemplo podría ser "Nueva York", ya que ambas palabras pueden aparecer separadas, como en "nueva pieza" o "jamón york", por poner un ejemplo. Mediante esta técnica, si un par de o trío de palabras aparecen juntas un número mínimo arbitrario de veces, podemos indicarle a la librería que las tome como un único término.

In [20]:
# Build the bigram and trigram models
bigram = gensim.models.Phrases(data_words, min_count=5, threshold=100) # higher threshold fewer phrases.
trigram = gensim.models.Phrases(bigram[data_words], threshold=100)  

# Faster way to get a sentence clubbed as a trigram/bigram
bigram_mod = gensim.models.phrases.Phraser(bigram)
trigram_mod = gensim.models.phrases.Phraser(trigram)

A continuación, eliminamos las __StopWords__ y aplicamos la __lematización__, que no es más que convertir una palabra a su palabra raíz. Por ejemplo, "coches" procede de la palabra "coche", así que la transformamos en dicha palabra. Por último, generamos los __bigramas__ y __trigramas__ que hemos configurado en el paso anterior.

In [21]:
# Define functions for stopwords, bigrams, trigrams and lemmatization
def remove_stopwords(texts):
    return [[word for word in simple_preprocess(str(doc)) if word not in stop_words] for doc in texts]

def make_bigrams(texts):
    return [bigram_mod[doc] for doc in texts]

def make_trigrams(texts):
    return [trigram_mod[bigram_mod[doc]] for doc in texts]

def lemmatization(texts, allowed_postags=['NOUN', 'ADJ', 'VERB', 'ADV']):
    """https://spacy.io/api/annotation"""
    texts_out = []
    for sent in texts:
        doc = nlp(" ".join(sent)) 
        texts_out.append([token.lemma_ for token in doc if token.pos_ in allowed_postags])
    return texts_out

In [22]:
# Remove Stop Words
data_words_nostops = remove_stopwords(data_words)

# Form Bigrams
data_words_bigrams = make_bigrams(data_words_nostops)

# Initialize spacy 'en' model, keeping only tagger component (for efficiency)
# python3 -m spacy download en
nlp = spacy.load('en', disable=['parser', 'ner'])

# Do lemmatization keeping only noun, adj, vb, adv
data_lemmatized = lemmatization(data_words_bigrams, allowed_postags=['NOUN', 'ADJ', 'VERB', 'ADV'])

print(data_lemmatized[:2])

[['feature', 'useful', 'today'], []]


Por último antes de entrenar el modelo, debemos prearar su entrada. LDA recibe como entrada un diccionario y el corpus de los documentos. Vamos a prerar ambos

In [23]:
# Create Dictionary
id2word = corpora.Dictionary(data_lemmatized)

# Create Corpus
texts = data_lemmatized

# Term Document Frequency
corpus = [id2word.doc2bow(text) for text in texts]

# View
# Human readable format of corpus (term-frequency)
[[(id2word[id], freq) for id, freq in cp] for cp in corpus[:2]]


[[('feature', 1), ('today', 1), ('useful', 1)], []]

## Entrenamiento del modelo LDA
Llega el momento de entrenar el modelo después de toda la preparación de los datos. Los valores de configuración son los mismos que en el tutorial, salvo por el aumento del `chunksize`, que permite utilizar un mayor número de documentos por cada bloque de entrentamiento. El número de topics se ha dejado por defecto para probar su rendimiento.

In [24]:
# Build LDA model
lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus,
                                           id2word=id2word,
                                           num_topics=20,
                                           random_state=100,
                                           update_every=1,
                                           chunksize=2000,
                                           passes=10,
                                           alpha='auto',
                                           per_word_topics=True)


Dentro de cada tema extraído, se adjunta una lista de duplas (número, palabra). El número indica el grado de importancia de la palabra a la que acompaña en dicho tema.
Si analizamos el primero, vemos las palabras __charge__, __vehicle__, __battery__, __electric__... Solo con estas cuatro palabras podemos entender que se trata de un tema sobre la carga de vehículos eléctricos, por lo que podemos deducir de qué va.

Aplicando la misma lógica en los demás temas extraídos, vemos una tendencia similar, en la que podemos percibir de lo que se habla en cada uno de los casos. Por tanto, podemos considerar que la extracción de tópicos ha sido un éxito.

In [25]:
# Print the Keyword in the 20 topics
pprint(lda_model.print_topics())
doc_lda = lda_model[corpus]


[(0,
  '0.069*"charge" + 0.065*"vehicle" + 0.060*"battery" + 0.057*"electric" + '
  '0.049*"power" + 0.045*"less" + 0.042*"mile" + 0.036*"range" + 0.030*"owner" '
  '+ 0.027*"gas"'),
 (1,
  '0.156*"delete" + 0.058*"garage" + 0.038*"yet" + 0.031*"sit" + '
  '0.028*"position" + 0.025*"launch" + 0.024*"happy" + 0.023*"thought" + '
  '0.021*"notice" + 0.016*"team"'),
 (2,
  '0.173*"car" + 0.055*"model" + 0.046*"year" + 0.033*"buy" + 0.027*"new" + '
  '0.026*"cost" + 0.024*"pay" + 0.022*"long" + 0.019*"high" + 0.019*"price"'),
 (3,
  '0.133*"good" + 0.095*"company" + 0.059*"love" + 0.041*"help" + 0.028*"idea" '
  '+ 0.026*"future" + 0.026*"hear" + 0.024*"stock" + 0.023*"check" + '
  '0.021*"option"'),
 (4,
  '0.094*"com" + 0.073*"comment" + 0.057*"reddit" + 0.056*"https" + '
  '0.039*"teslamotors_comment" + 0.030*"support" + 0.030*"autopilot" + '
  '0.029*"sub" + 0.025*"last_usage" + 0.023*"https_www"'),
 (5,
  '0.039*"guess" + 0.038*"believe" + 0.035*"energy" + 0.035*"cheap" + '
  '0.033*"

La perplejidad y la coherencia son dos medidas que nos permiten conocer la calidad del modelo. La __perplejidad__ es una medida de lo buena que es una distribución de probabilidad o la probabilidad de un modelo a la hora de predecir una muestra. Por su parte, la __coherencia__ es una medida de la cantidad de información media que se puede extraer por cada documento por separado.

In [26]:
# Compute Perplexity
print('\nPerplexity: ', lda_model.log_perplexity(corpus))  # a measure of how good the model is. lower the better.

# Compute Coherence Score
coherence_model_lda = CoherenceModel(model=lda_model, texts=data_lemmatized, dictionary=id2word, coherence='c_v')
coherence_lda = coherence_model_lda.get_coherence()
print('\nCoherence Score: ', coherence_lda)



Perplexity:  -10.919636409379128

Coherence Score:  0.4541883999840876


A continuación, se incluye una visualización de los temas extraidos junto con sus palabras clave.

In [27]:
# Visualize the topics
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim.prepare(lda_model, corpus, id2word)
vis

## Indexación de documentos mediante Whoosh

[Whoosh](https://whoosh.readthedocs.io/en/latest/quickstart.html) es una librería para Python que nos permite indexar documentos. Esto quiere decir que se puede realizar una búsqueda de los mismos por medio de una simple consulta, y esta devolverá todos los documentos relevantes para la misma. Vamos a inicializarla y a realizar algunas consultas para probar su funcionamiento. Pero primero, es necesario importar todas las librerías necesarias para su funcionamiento:

In [28]:
from whoosh.fields import *
from whoosh.index import create_in
from whoosh.qparser import QueryParser
from whoosh.index import open_dir
from whoosh.query import *

El esquema que he definido para el almacenamiento de los documentos se basa en solo dos campos para mantenerlo simple. El campo _title_ almacenará los títulos de los posts, mientras que el _content_ se encargará de almacenar tanto el _body_ de los posts, como los comentarios de los mismos.

In [29]:
schema = Schema(title=TEXT(stored = True), content=TEXT(stored= True))

Creamos una carpeta para la indexación en caso de que no exista, y lo cargamos.

In [30]:
if not os.path.exists("index"):
    os.mkdir("index")
    ix = create_in("index", schema)
# Cargamos el index
ix = open_dir("index")

A continuación, vamos a llenar el indice con el archivo `new.xml` (por elegir uno). Dado que esta vez si que diferenciamos entre el título de un post y su contenido, debemos definir un nuevo método de extracción del fichero `xml`, ya que el desarrollado para el objetivo principal de la práctica no se ajusta a nuestras necesidades, pues devuelve una lista con todo el texto sin diferenciar entre títulos y cuerpos.

In [31]:
# Le pasamos el nombre del fichero y el writer de Whoosh
def extract_XML_ix(filename, writer):
    tree = ET.ElementTree(file = filename)
    root = tree.getroot()
    for doc in root:
        if 'title' in doc.attrib:
            if doc.text:
                writer.add_document(title=doc.attrib["title"], content=doc.text)
        else:
            writer.add_document(content=doc.text)
    writer.commit()

In [32]:
writer = ix.writer()
collection = extract_XML_ix("new.xml", writer)

Ahora vamos a probar a realizar una búsqueda que contenga la palabra "Tesla". Siendo un subreddit dedicado a la marca, no debe ser complicado encontrar algún _match_. Dado que no incluyo el atributo _limit_ en el método `search`, solo se me devolverán los 10 primeros resultados, pero puedo consultar el total.

In [33]:
parser = QueryParser("content", ix.schema)
myquery = parser.parse("tesla")
with ix.searcher() as searcher:
    results = searcher.search(myquery)
    print(results)
    print("Total de resultados: ", len(results))
    for r in results:
        print(r)

<Top 10 Results for Term('content', 'tesla') runtime=0.10234807500000898>
Total de resultados:  18366
<Hit {'content': '"not to excuse Tesla, but...." <defends Tesla>😂😂\n'}>
<Hit {'content': '"not to excuse Tesla, but...." <defends Tesla>😂😂\n'}>
<Hit {'content': '"not to excuse Tesla, but...." <defends Tesla>😂😂\n'}>
<Hit {'content': "This is the best I found: [https://tesla-info.com/blog/tesla-model-history.php](https://tesla-info.com/blog/tesla-model-history.php)\n\nHowever, it doesn't track range\n"}>
<Hit {'content': "This is the best I found: [https://tesla-info.com/blog/tesla-model-history.php](https://tesla-info.com/blog/tesla-model-history.php)\n\nHowever, it doesn't track range\n"}>
<Hit {'content': "This is the best I found: [https://tesla-info.com/blog/tesla-model-history.php](https://tesla-info.com/blog/tesla-model-history.php)\n\nHowever, it doesn't track range\n"}>
<Hit {'content': "They do not.\n\nSource: I'm the guy that maintains the Tesla API documentation: [https://te

Como se puede observar, se obtienen un total de 6122 resultados en 0.04 segundos, por lo que confirmamos que funciona. Ahora vamos a probar una consulta algo más complicada. Quiero todos los posts o comentarios que incluyan las palabras _engine_ y _battery_.

In [34]:
parser = QueryParser("content", ix.schema)
myquery = And([Term("content", "engine"),
              Term("content", "battery")])

#myquery = parser.parse("Model Y")
with ix.searcher() as searcher:
    results = searcher.search(myquery)
    print(results)
    print("Total de resultados: ", len(results))
    for r in results:
        print(r)

<Top 10 Results for And([Term('content', 'engine'), Term('content', 'battery')]) runtime=0.012251083000023755>
Total de resultados:  90
<Hit {'content': 'Not all are BEVs (battery electric vehicle), some are PHEVs (plug in hybrids, short range battery with an gas engine as range extender)\n'}>
<Hit {'content': 'Not all are BEVs (battery electric vehicle), some are PHEVs (plug in hybrids, short range battery with an gas engine as range extender)\n'}>
<Hit {'content': 'Not all are BEVs (battery electric vehicle), some are PHEVs (plug in hybrids, short range battery with an gas engine as range extender)\n'}>
<Hit {'content': "A powertrain like in the Mercedes GLE PHEV would be good for someone who tows things regularly. I think it's a 33KWh battery and a diesel engine.\n"}>
<Hit {'content': "A powertrain like in the Mercedes GLE PHEV would be good for someone who tows things regularly. I think it's a 33KWh battery and a diesel engine.\n"}>
<Hit {'content': "A powertrain like in the Merced

Por último, vamos a realizar una consulta __OR__, la cual incluya un término u otro. Vamos a probar con _range_ y _wind_, que son dos términos que pueden aparecer juntos, ya que el viento afecta especialmente a la autonomía de los coches eléctricos, como separados.

In [35]:
parser = QueryParser("content", ix.schema)
myquery = Or([Term("content", "range"),
              Term("content", "wind")])

#myquery = parser.parse("Model Y")
with ix.searcher() as searcher:
    results = searcher.search(myquery)
    print(results)
    print("Total de resultados: ", len(results))
    for r in results:
        print(r)

<Top 10 Results for Or([Term('content', 'range'), Term('content', 'wind')]) runtime=0.020133946999976615>
Total de resultados:  4635
<Hit {'content': 'Is it to adjust for wind noise?\n'}>
<Hit {'content': 'the cleaning power of wind\n'}>
<Hit {'content': 'Is it to adjust for wind noise?\n'}>
<Hit {'content': 'the cleaning power of wind\n'}>
<Hit {'content': 'Is it to adjust for wind noise?\n'}>
<Hit {'content': 'the cleaning power of wind\n'}>
<Hit {'content': 'I drive from SF to LA a lot (in both SR and Model Y), this chart is nowhere near accurate.\n\nHighway range at 80mph is around 60~70% of the EPA range, depending on the temperature/wind\n\nI mean I guess you can drive at 60mph in the slow lane with trucks spitting rocks at you if you really wanna hit EPA numbers\n'}>
<Hit {'content': 'I drive from SF to LA a lot (in both SR and Model Y), this chart is nowhere near accurate.\n\nHighway range at 80mph is around 60~70% of the EPA range, depending on the temperature/wind\n\nI mean I