In [1]:
from stop_words import get_stop_words
import pandas as pd
import warnings
import numpy as np

import AMP_lib as amp

%matplotlib inline
warnings.filterwarnings('ignore')

In [2]:
# VARIABLES INICIALES #
dsname="mapuche"
n_max_tokens = 5000
n_max_tokens_toprint = 15
LDA_max_iter = 30
LDA_learning_offset = 50.
LDA_random_state = 10
ngram_range=(1, 1)

In [None]:
# lectura de datos
raw_data = pd.read_csv('dataset/sophia_%s_v2.csv' % dsname, sep='\n', header=None)

# DESCARGA STOP-WORDS
# obtener stopwords y aplicar filtro sobre el texto
print ("[INFO] - Obtención de stop-words y filtros")
docs, news_df2, stopwords = amp.stopwordsAndFilters(raw_data)

# Vectorización de tokens
print ("[INFO] - Vectorización de Tokens")
tf, tf_feature_names = amp.vectorizer(n_max_tokens=n_max_tokens, stopwords=stopwords, ngram_range=ngram_range, docs=docs)

# Análisis de perplexity
print ("[INFO] - Cálculo de perplexity")
amp.plotPerplexity(dsname=dsname, tf=tf, max_topics=15, max_iter=5, learning_offset=50., random_state=50)


[INFO] - Obtención de stop-words y filtros
[nltk_data] Downloading package stopwords to /home/boris/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /home/boris/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## Resultados
En la Figura [fig_index] podemos identificar el menor valor de Perplexity para 3 tópicos. Así, aplicamos LDA con $n\_topics = 3$.

In [None]:
# Elección de mejor n, según perplexity
n_topics = 2

# Ejecución de LDA
W1, W2, components = amp.computeLDA(tf, n_topics, LDA_max_iter, LDA_learning_offset, LDA_random_state)

# asignar tópico a noticias
A_lda_keys = []
for i in range(W2.shape[0]):
    A_lda_keys.append( W2[i].argmax() )

news_df_topics = news_df2.assign(topic=np.array(A_lda_keys))

### ( ¿Qué representan los tópicos encontrados? Análisis de noticias por tópico )
En esta sección es necesario revisar algunas noticias del tópico para encontrar el "sentido" u "orientación" que representa.

In [None]:
news_df_topics[ news_df_topics['topic']==0 ]['text'][0:10]

n_top_topics=10

g_topics = news_df_topics.groupby('topic')
news_df_topics, topics_list = amp.getNewsWithTopic(tf_feature_names=tf_feature_names, components=components, W2=W2, n_topics=n_topics, news_df_original=news_df2)
for topic in range(n_topics):
    print("TOPIC #%s" % topic)
    print(topics_list[topic][0:10],"\n") # muestra 10 top palabras
    print("Ejemplo:")
    
    for art_text in news_df_topics[ news_df_topics['topic']==topic ]['text'][0:4]:
        print(art_text[:300]) # 300 primeros caracteres de la noticia
    print("\n-----\n")

### Tópicos encontrados tras análisis de texto
* Topic 0: Mapuche + Socio-político (Pueblo)
* Topic 1: Mapuche + Cultura (libro, poesia, música, playlist, youtube)

In [None]:
# Distribución de noticias del tema
news_df_topics['org'].value_counts().plot(kind='bar')

print ("Top 20 medios según cantidad de noticias registradas")
print ((news_df_topics['org'].value_counts()).nlargest(20))

# Filtrar top-20 medios:
top20_df = (news_df_topics['org'].value_counts()).nlargest(20)#.to_frame()
top20_list = top20_df.index.values.tolist()
news_df_topics_top20 = news_df_topics.loc[news_df_topics['org'].isin(top20_list)]
print(len(news_df_topics_top20))


In [None]:
# plotear el porcentaje de presencia de cada tópico en los medios
amp.plotTopicByMedia(dsname=dsname, news_df_topics=news_df_topics_top20, n_topics=n_topics)


In [None]:
## Evolución del tema a través del tiempo
amp.plotMediaTimeline(dsname=dsname, data=W2.T)

### Material suplementario
Cantidad de noticias sobre el tópico que se analiza:

In [None]:
news_df_topics['org'].value_counts()