# Notícias G1 - 4. Topic Modeling com NMF e K-means 

Modelagem de tópicos usando NMF para encontrar os termos mais relevantes de cada notícia e o K-mean para aplicar clusterização (agrupamento) das notícias em centróides. 

## Imports:

Importes de bibliotecas usadas com frequência no código.

In [1]:
import pandas as pd
import numpy as np

## Recuperando Dados Gravados:

Recuperando dados gravados após cálculo de TF-IDF e criação de matrizes esparças.

In [2]:
df_noticias_treino = pd.read_csv("noticias_g1_tfidf_massa_treino.csv")
df_vocabulario = pd.read_csv("noticias_g1_vocabulario.csv")
sr_vocabulario = df_vocabulario['0']
print(df_noticias_treino.shape, sr_vocabulario.shape)

(1206, 2494) (2494,)


## Transformando dados em Matrizes Esparças:

Transforma os dados dos Dataframes em matrizes esparças para utilizar no NMF e no K-means.

In [3]:
from scipy.sparse import coo_matrix, vstack
sm_noticias_treino = coo_matrix(df_noticias_treino)
sm_noticias_treino.shape

(1206, 2494)

## Método para mostrar os termos mais relevantes:

Definição do método que separa e apresenta os N termos mais relevantes de um conjunto de palavras considerando seu TF-IDF.

In [4]:
def show_topics(components, num_top_words, vocab):
      top_words = lambda t: [vocab[i] for i in np.argsort(t)[:-num_top_words-1:-1]]
      topic_words = ([top_words(t) for t in components])
      return [' '.join(t) for t in topic_words]

## NMF:

O termo NMF significa Non-negative matrix factorization e vamos utilizá-lo para encontrar os termos mais importantes de cada notícia.

In [5]:
from sklearn.decomposition import NMF

X = sm_noticias_treino
model_nmf = NMF(n_components=X.shape[0], random_state=42)
W1 = model_nmf.fit_transform(X)
H1 = model_nmf.components_

print(show_topics(H1, 8, sr_vocabulario))

['cpi vacin atras pfiz sufici brasil metad milh', 'cpi sobr covid ouv ter nest mod distribui', 'liv msic lbum can show voz disc composi', 'mdi mvel dia mort tendnc desd qued diagns', 'alt invest fech pont divulga reserv ms bols', 'dominguett propin davat robert astrazenec vacin dos ministri', 'beneficiri bols parcel auxli faml caix calendri emerg', 'vacin contr covid desenvolv menos test financ anticorp', 'aziz queirog depo cloroquin luan om cpi dou', 'film festiv franc crnic concorr competi edi julh', 'pazuell mirand fal nom luil question car mencion', 'cop julg amric futebol desist decis marc exp', 'dominguett robert logs pazuell coronel propin dia vacin', 'pgr web blog ros stf posi covaxin conclus', 'fbric encerr ir produt unidad ativ client afet', 'facebook annci usuri europe investiga vantag informa onlin', 'vag anal candidat benefci alimenta abert desenvolv val', 'cep email report vej fatur instagr sit ms', 'om tarif energ consum sistem eltr recurs entreg', 'pazuell exministr cov

## K-means

O K-means é um técnica de clusterização, ou seja, de agrupamento dos elementos em centróides por similaridade, tomando como base um critério que, no caso, é o TF-IDF das palavras.

In [6]:
from sklearn.cluster import KMeans
km = KMeans(n_clusters=7, init='k-means++', max_iter=100, n_init=1, verbose=True)
km.fit_transform(sm_noticias_treino)

print()
print(show_topics(km.cluster_centers_, 8, sr_vocabulario))

print()
from collections import Counter
Counter(km.labels_)

Initialization complete
Iteration  0, inertia 1986.667
Iteration  1, inertia 1064.684
Iteration  2, inertia 1054.306
Iteration  3, inertia 1051.305
Iteration  4, inertia 1050.235
Iteration  5, inertia 1049.314
Iteration  6, inertia 1047.957
Iteration  7, inertia 1045.371
Iteration  8, inertia 1043.819
Iteration  9, inertia 1043.580
Iteration 10, inertia 1043.405
Iteration 11, inertia 1043.225
Iteration 12, inertia 1042.897
Iteration 13, inertia 1042.678
Iteration 14, inertia 1042.421
Iteration 15, inertia 1042.193
Iteration 16, inertia 1042.161
Converged at iteration 16: center shift 0.000000e+00 within tolerance 3.747644e-08

['alt mai econom pre dl cresc infla merc', 'cpi covaxin mirand vacin ministri sen dominguett depo', 'bolsonar presid ministr brasil cpi covid mdi govern', 'empr facebook cep usuri vend sit plataform email', 'film cinem the ano estre histr estrel sri', 'msic lbum can singl artist composi lan disc', 'ser vacin pod empr est pag brasil ano']



Counter({4: 118, 6: 450, 5: 105, 2: 193, 0: 114, 1: 133, 3: 93})