In [41]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import NMF, LatentDirichletAllocation
from nltk.corpus import stopwords

corpus = pd.read_csv('corpus.csv.gz', compression='gzip')
stopwords = stopwords.words("portuguese")

In [42]:
def print_top_words(model, feature_names, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("Topic #%d:" % topic_idx)
        print(" ".join([feature_names[i]
                        for i in topic.argsort()[:-n_top_words - 1:-1]]))
        if topic_idx > 9:
            break
    print()
    
n_features = 1600
n_topics = 10
n_top_words = 20

diarios = corpus[corpus['qual_a_melhor_classificao_para_esse_texto']=='diario']
outro = corpus[corpus['qual_a_melhor_classificao_para_esse_texto']=='outro']

### extract features diarios

In [43]:
tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, strip_accents='unicode',
                                   max_features=n_features,
                                   stop_words=stopwords)
tfidf = tfidf_vectorizer.fit_transform(diarios.content)

tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, strip_accents='unicode',
                                max_features=n_features,
                                stop_words=stopwords)
tf = tf_vectorizer.fit_transform(diarios.content)

### NMF Topics Diarios

In [44]:
nmf = NMF(n_components=n_topics, random_state=1,
          alpha=.1, l1_ratio=.5).fit(tfidf)
tfidf_feature_names = tfidf_vectorizer.get_feature_names()
print_top_words(nmf, tfidf_feature_names, n_top_words)

Topic #0:
nao ja dia ser tudo bem ate vida sao sempre tempo tambem aqui so fazer ainda porque vou la pessoas
Topic #1:
voce quero mim vai sei sinto so sentir nao amo ser ama nunca sabe coracao pensar feliz sera saber voz
Topic #2:
pra aqui ai ta gente vc semana ne voces to pro tava cor casa so lindo olha postar jardim vai
Topic #3:
livro livros ler leitura romance historia autor li capa lendo autora paginas charlie lista capitulo forma resenha personagem traz anos
Topic #4:
leite bolo receita acucar chocolate xicara farinha massa bata sopa adicione colher ingredientes acrescente cha coloque forno misture sobremesa coco
Topic #5:
nao sei nada vai consigo acho mal pensar ninguem ha so posso sim pode mulher disse estar dizer quer problema
Topic #6:
pele base rosto po produto produtos usar tom cobertura maquiagem usando cor uso marcas bem fotos tipo foto aplicar deixa
Topic #7:
amor coracao amizade amo sentimento amar vida mim falar amigos sera cada guardar teste amada doce dor cor ha dize

### LDA Topics Diarios

In [45]:
lda = LatentDirichletAllocation(n_topics=n_topics, max_iter=5,
                                learning_method='online',
                                learning_offset=50.,
                                random_state=0)
lda.fit(tf)
tf_feature_names = tf_vectorizer.get_feature_names()
print_top_words(lda, tf_feature_names, n_top_words)

Topic #0:
base pele cobertura aplicar cabelos conhecida marcas rosto 00 nao bem tom usando natural construir aqui total queda pode ate
Topic #1:
parque barra chocolate quatro sociais nao tocar ponto tambem voce etc aproveitar partes familia pensando ser comer vida fazer praca
Topic #2:
experiencia regra gastar ganhar mesa nao ouro aventura personagem regras importa agora escolhas peca relacao dinheiro espero sao escolher voce
Topic #3:
cores cor produtos linha argila cabelos pele produto pra verde site super shampoo nao sao ja compra bem http usando
Topic #4:
leite nao bolo bem look receita ate acucar chocolate velho massa arroz colher farinha xicara dia coloque ingredientes sopa sobremesa
Topic #5:
nao voce pra ja ser tudo bem so dia ate vida sao tambem sempre fazer tempo ainda aqui porque todos
Topic #6:
nao pra the voce ja amo vai vc ai ta dia so aqui to ser fazer clique bem http ate
Topic #7:
fio cm kg bolinha circulo grande estrutura bem bola mario abaixo parte 11 peso 12 passe fa

### extract features outros

In [46]:
tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, strip_accents='unicode',
                                   max_features=n_features,
                                   stop_words=stopwords)
tfidf = tfidf_vectorizer.fit_transform(outros.content)

tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, strip_accents='unicode',
                                max_features=n_features,
                                stop_words=stopwords)
tf = tf_vectorizer.fit_transform(outros.content)

### NMF Topics Outros

In [47]:
nmf = NMF(n_components=n_topics, random_state=1,
          alpha=.1, l1_ratio=.5).fit(tfidf)
tfidf_feature_names = tfidf_vectorizer.get_feature_names()
print_top_words(nmf, tfidf_feature_names, n_top_words)

Topic #0:
nao ser vida ja sao so tudo bem dia voce ate ainda tambem pessoas pode vai sobre tempo porque assim
Topic #1:
deus senhor palavra estar oracao vida salvacao presenca povo oracoes cristo missao filhos graca biblia comigo igreja muitas filho evangelho
Topic #2:
livro livros li leitura historia autor ler sobre personagens editora paginas meninos volume sinopse ano edicao pouco narrativa gostei realmente
Topic #3:
voces meninas super pele base cabelo ne espero cor maquiagem colecao produtos bem aqui fiz linda amiga ola dia www
Topic #4:
musica banda album musicas amy cantora video paul the disco novo on versao and jazz lancado gaga fas of cantar
Topic #5:
jesus cristo jairo senhor caminho quero conosco pastor pes discipulos fe ti evangelho palavra morte vida nao mestre lider coracao
Topic #6:
voce tamara comportamento risos telefone verdade sim ah calca quer virus alguem pode vai sabe ve cabelo significa fazer erro
Topic #7:
sinto tristeza virtual procurar humano tao alma es corp

### LDA Topics Outros

In [48]:
lda = LatentDirichletAllocation(n_topics=n_topics, max_iter=5,
                                learning_method='online',
                                learning_offset=50.,
                                random_state=0)
lda.fit(tf)
tf_feature_names = tf_vectorizer.get_feature_names()
print_top_words(lda, tf_feature_names, n_top_words)

Topic #0:
you the banda album go now musica on and medico paul nao disco amy cd all is musicas of maquina
Topic #1:
nao aumento preta ponto pontos carreira legenda baixo baixos video arquivos arquivo verde comunicacao ser usando bem fazer usuarios servico
Topic #2:
negra cade vem ah http www fala voce roupa mail ajudar rei pra alunos rede youtube dormir es nao producao
Topic #3:
som ouvido questao intensidade velocidade onda nao frequencia sons porto antonio paulo alegre altura sonora sao oleo permite apenas possui
Topic #4:
nao vou existe musica ceu show pra ser porque aqui tudo sobre voltar sao 10 voce cheia vai rio tanto
Topic #5:
nao voce ser deus ja vida tambem sao bem sobre tudo so pra ate dia todos pode aqui fazer ainda
Topic #6:
nao aqui comeca dias so voces pra frio ta ver cara assim fotos demais tambem vou banho vai ja base
Topic #7:
nao cabelo creme vossa bem tambem cha bolo ofereco pao cor produtos linha receita ja super maquiagem vosso fazer acucar
Topic #8:
sombra usei na