In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import NMF, LatentDirichletAllocation
from nltk.corpus import stopwords

corpus = pd.read_csv('corpus.csv.gz', compression='gzip')
stopwords = stopwords.words("portuguese")
corpus = corpus[corpus['qual_a_melhor_classificao_para_esse_texto:confidence'] == 1]

In [2]:
def print_top_words(model, feature_names, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("Topic #%d:" % topic_idx)
        print(" ".join([feature_names[i]
                        for i in topic.argsort()[:-n_top_words - 1:-1]]))
        if topic_idx > 9:
            break
    print()
    
n_features = 1600
n_topics = 10
n_top_words = 20

diarios = corpus[corpus['qual_a_melhor_classificao_para_esse_texto']=='diario']
outro = corpus[corpus['qual_a_melhor_classificao_para_esse_texto']=='outro']

### extract features diarios

In [3]:
tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, strip_accents='unicode',
                                   max_features=n_features,
                                   stop_words=stopwords)
tfidf = tfidf_vectorizer.fit_transform(diarios.content)

tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, strip_accents='unicode',
                                max_features=n_features,
                                stop_words=stopwords)
tf = tf_vectorizer.fit_transform(diarios.content)

### NMF Topics Diarios

In [4]:
nmf = NMF(n_components=n_topics, random_state=1,
          alpha=.1, l1_ratio=.5).fit(tfidf)
tfidf_feature_names = tfidf_vectorizer.get_feature_names()
print_top_words(nmf, tfidf_feature_names, n_top_words)

Topic #0:
nao ser tudo vida dia ja bem so sempre ate aqui sao la tempo porque ainda vou fazer tambem pessoas
Topic #1:
voce amor mim fara vai nao falta quero sera sabe sinto so feliz saber sentir coracao voz ser ama nunca
Topic #2:
pra jardim tava formar casa ai pau lindo semana nariz gente ne praia uns roupas voltei meio casinha comer ta
Topic #3:
foto vermelho cor juro marca ontem fica tambem estacao usei nao tirei umas sao lindo cores baixo tirar conseguia apaixonada
Topic #4:
livro leitura ler livros historia anos pedro impressao fato li tres super nesses lendo le sobre adoro gostei nessa legal
Topic #5:
cidade hotel estrada chegamos viagem vimos cartao fotos saimos pude delicia ja daqui andar fome aviao pegar dia nessa rio
Topic #6:
look acessorios bolsa estilo jeans calca looks cores modelos cor preta cabelo modelo combina usando azul tecidos opcoes pecas camisa
Topic #7:
natal noel papai arvore falou falei presentes desenho ganhar importante luzes ano epoca esquecer amor mamae e

### LDA Topics Diarios

In [5]:
lda = LatentDirichletAllocation(n_topics=n_topics, max_iter=5,
                                learning_method='online',
                                learning_offset=50.,
                                random_state=0)
lda.fit(tf)
tf_feature_names = tf_vectorizer.get_feature_names()
print_top_words(lda, tf_feature_names, n_top_words)

Topic #0:
argila cabelos verde linha fios capilar nao facebook blog http www branca produtos in deixa tratamento acao https marca intenso
Topic #1:
creme maos dia nao fila cara pau tava mulher uso hoje casa ja porque gostei vida ate inverno rio voce
Topic #2:
brinco make voce nao rosto ser tipo usar so ideal pra maquiagem boca producao portanto vez formato tambem coisa pequeno
Topic #3:
nao manga ferramenta clique laco ate parte pra opcao cor site va tao sempre ser clicar ja detalhes voce bem
Topic #4:
veja trailer previsao estreia jeans nao corpo calca peca modelos aqui cintura combina basico voce 05 filmes preta ser todo
Topic #5:
pra nao voce bolo leite receita massa acucar xicara farinha dia formas colher sopa vou ja biscoitos po ate margarina
Topic #6:
sophia nao dia tudo so voce facebook https porque todos bom pessoas vc 11 ai pra ainda festa sempre mundo
Topic #7:
nao voce pra ja ser dia tudo so ate bem vida sao sempre ainda aqui tambem fazer tempo la mim
Topic #8:
the nao of to

### extract features outros

In [6]:
tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, strip_accents='unicode',
                                   max_features=n_features,
                                   stop_words=stopwords)
tfidf = tfidf_vectorizer.fit_transform(outro.content)

tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, strip_accents='unicode',
                                max_features=n_features,
                                stop_words=stopwords)
tf = tf_vectorizer.fit_transform(outro.content)

### NMF Topics Outros

In [7]:
nmf = NMF(n_components=n_topics, random_state=1,
          alpha=.1, l1_ratio=.5).fit(tfidf)
tfidf_feature_names = tfidf_vectorizer.get_feature_names()
print_top_words(nmf, tfidf_feature_names, n_top_words)

Topic #0:
nao voce ser vida dia pra sao ja vai tudo bem pessoas sobre ate pode so ainda tambem ter porque
Topic #1:
deus jesus senhor palavra cristo nao evangelho salvacao oracao presenca amor graca igreja missao vida oracoes estar filho fe fome
Topic #2:
banda forro muido nota agradecer arnaldo fas breve blog amy decisao novidades propria obrigado pra cantar cantora confira todos felipe
Topic #3:
filme historia filmes comercial personagens organizacao imagens nota pretendo tema nascido pequena aparece seculo sobre acontece medidas trata onde inteiro
Topic #4:
meninas voces glitter namorados logo tons ne pra espero amiga blogspot fiz dar domingo dia deixar verde novidades ai quer
Topic #5:
facebook social rede esposa usuarios mulher foto empresa ainda mes orkut assassinato brasil the oficial matar original pena incrivel redes
Topic #6:
you now the cd and banda is all this down break world on your it tres tristeza re trilha music
Topic #7:
pele pes merecem foto area corpo passar estar a

### LDA Topics Outros

In [8]:
lda = LatentDirichletAllocation(n_topics=n_topics, max_iter=5,
                                learning_method='online',
                                learning_offset=50.,
                                random_state=0)
lda.fit(tf)
tf_feature_names = tf_vectorizer.get_feature_names()
print_top_words(lda, tf_feature_names, n_top_words)

Topic #0:
nao oleo ser tambem voce vai todos mundo deus ainda disse hoje cada assim tudo sempre cozinha pra sao facebook
Topic #1:
nao pao creme tristeza bolo cha chocolate acucar receita colocar ate meio vossa preparo modo maquina ingredientes blue leite lo
Topic #2:
nao deus ser creme dia voce senhor pao bolo sempre amor vez porque hoje cha sobre voces todo mim disse
Topic #3:
nao so pra ser hoje lei deve senhora vida pode aqui tristeza ate vai dias ter jovem deus dois hora
Topic #4:
nao advogado policial pare voce parar ve ser sinal anos pessoas idade cidade estar ainda diferenca vou bem ja pode
Topic #5:
nao voce ser deus vida sao tambem ja dia sobre tudo ate bem pra pode todos tempo vai aqui ainda
Topic #6:
nao ser mente pode tudo tambem pessoas advogado vida mundo libertacao voce todas ja ter sente varias elenco trabalho parece
Topic #7:
you now the nao and banda cd all your on down break is this it novo world musica video to
Topic #8:
nao sinho voce cade mandou ah lady vem glitt