In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import gensim

#Visualizations
#import plotly.express as px
#import seaborn as sns
#import pyLDAvis.gensim
#import chart_studio
#import chart_studio.plotly as py 
#import chart_studio.tools as tls

plt.style.use('seaborn')

#data_path = "data/santiago_covid_2020.csv"
#data_path = "data/santiago_enero.csv"
data_path = "data/gabrielboric.csv"



# spanish stop words
stop_words = set(stopwords.words('spanish'))
stop_words = ['t', 'si', 'q', 'https', 'co', 'solo', 'ser', 'bien', 
            'así', 'ma', 'mas', 'igual', 'va', 'después',
            'hacer', 'hace', 'creo'] + list(stop_words)



# **Métodos útiles**

In [2]:
def delete_chars(text, unwanted_chars):
    """
    useful method to replace a list of chars on text.
    return:
        (str) the same str without the chars in chars.
    """
    for char in unwanted_chars:
        text = text.replace(char, '')
    return text

def preprocess_tweet(tweet):
    """
    Replaces unwanted characters and performs
    a preprocessing.
    input: 
        (str) tweet.
    return:
        (str[]) final: list of words.
    """
    unwanted = ['#', ',', '.', '!', '?', '¿', '¡', '()',\
                ')', '-', '=', 'jaja', 'jajaja']
    final = delete_chars(tweet, unwanted).split()
    final = [w.lower() for w in final]
    final = [w for w in final if w not in stop_words and len(w) > 3]
    # Se eliminan links y @users
    final = [w for w in final if w[:4] != 'http']
    final = [w for w in final if w[:1] != '@']
    return final
    
# mini mini test
print(preprocess_tweet('##hola) ¿chao? =) jaja!'))


['hola', 'chao']


# **Tweets**

In [3]:
data = pd.read_csv(data_path)[['date', 'tweet']]
data.iloc[0]['tweet']

  interactivity=interactivity, compiler=compiler, result=result)


'Hoy nos reunimos con el Rector de la @uvalpochile @ocorralesj para conversar sobre educación superior y los desafíos de las universidades estatales para el nuevo Chile. Nuestro gobierno buscará fortalecer la #educación pública de calidad.  https://t.co/aXvXMWoNPx'

In [4]:
preprocess_tweet(data.iloc[0]['tweet'])

['reunimos',
 'rector',
 'conversar',
 'educación',
 'superior',
 'desafíos',
 'universidades',
 'estatales',
 'nuevo',
 'chile',
 'gobierno',
 'buscará',
 'fortalecer',
 'educación',
 'pública',
 'calidad']

In [5]:
# Se pre-procesan los tweets: Esto transforma cada
# tweet en una colección de palabras.
# processed_tweets corresponde a una lista de listas de palabras.

processed_tweets = data['tweet'].map(preprocess_tweet)
processed_tweets.head()

# Se van a eliminar tweets pequeños: con menos de 5 palabras después
# del preprocessing.
dropers = []
for ind, tweet in enumerate(processed_tweets):
    if len(tweet) < 5:
        dropers.append(ind) 

processed_tweets = processed_tweets.drop(dropers)
processed_tweets.sample(5)

36690    [estatal, cambios, acceso, insuficientes, ajus...
38494        [sacar, twitter, quiero, policias, digitales]
11184    [conversando, apareció, poetisa, chilena, veró...
38008    [cabe, duda, ruiz, tagle, presidente, sólo, hi...
11241    [declaración, principios, sigue, piñera, probl...
Name: tweet, dtype: object

In [6]:
# Se crea el vocabulario. 
# Corresponde a crear una lista con todas las palabras involucrada 
# en el corpus asignando un índice único a cada una.

dictionary = gensim.corpora.Dictionary(processed_tweets)

c = 0
for k, v in dictionary.iteritems():
    print(k,v)
    c += 1
    if c > 5: break
        
print('Largo del diccionario: ', len(dictionary))

0 buscará
1 calidad
2 chile
3 conversar
4 desafíos
5 educación
Largo del diccionario:  29196


In [7]:
# Se transforman las palabras a vectores con el dictionary.
# bow = "bag of words"

bow_corpus = [dictionary.doc2bow(doc) for doc in processed_tweets]
print('tweet 0: ', bow_corpus[0])
print('tweet 1: ', bow_corpus[1])

# Con esto cada tweet se representa como una colección de tuplas (w, a) 
# donde w es el índice de la palabra y a la cantidad de apariciones en ese
# tweet.

tweet 0:  [(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 2), (6, 1), (7, 1), (8, 1), (9, 1), (10, 1), (11, 1), (12, 1), (13, 1), (14, 1)]
tweet 1:  [(15, 1), (16, 1), (17, 1), (18, 1), (19, 1), (20, 1), (21, 1), (22, 1), (23, 1), (24, 1), (25, 1), (26, 1), (27, 1), (28, 1)]


In [17]:
# Se crea y usa el lda model
# Running LDA using Bag of Words

# LdaMulticore

from gensim.models import LdaModel
lda_model = LdaModel(bow_corpus, \
                                    num_topics=5,\
                                    id2word=dictionary)


# Los hiperparámetros serán calibrados más adelante.

In [18]:
for idx, topic in lda_model.print_topics(-1):
    print('Topic: {} \nWords: {}'.format(idx, topic))

Topic: 0 
Words: 0.010*"gracias" + 0.009*"abrazo" + 0.008*"estudiantil" + 0.007*"chile" + 0.007*"estudiantes" + 0.006*"muchas" + 0.005*"izquierda" + 0.005*"compa" + 0.005*"aguante" + 0.005*"autónoma"
Topic: 1 
Words: 0.015*"educación" + 0.010*"acuerdo" + 0.008*"política" + 0.007*"ahora" + 0.007*"lucro" + 0.006*"(via" + 0.005*"gobierno" + 0.005*"reforma" + 0.005*"vamos" + 0.005*"confech"
Topic: 2 
Words: 0.009*"magallanes" + 0.007*"ahora" + 0.007*"mucha" + 0.006*"vamos" + 0.006*"fuerza" + 0.005*"mañana" + 0.005*"semana" + 0.005*"reunión" + 0.005*"política" + 0.005*"buena"
Topic: 3 
Words: 0.008*"universidad" + 0.008*"cabros" + 0.007*"universitario" + 0.007*"senado" + 0.006*"arenas" + 0.006*"punta" + 0.004*"educación" + 0.004*"magallanes" + 0.004*"chile" + 0.004*"ahora"
Topic: 4 
Words: 0.014*"fech" + 0.009*"movimiento" + 0.006*"chile" + 0.004*"izquierda" + 0.004*"derecha" + 0.004*"parece" + 0.004*"buena" + 0.004*"cosa" + 0.004*"tolerancia0" + 0.004*"compañeros"


In [None]:
# Visualizar:

#pyLDAvis.enable_notebook()
#pyLDAvis.gensim.prepare(lda_model, bow_corpus, dictionary)

In [14]:
#from gensim.models import CoherenceModel
# Compute Coherence Score
#coherence_model_lda = CoherenceModel(model=lda_model, texts=processed_tweets, dictionary=dictionary, coherence='c_v')
#coherence_model_lda.get_coherence()