<a href="https://colab.research.google.com/github/gabrielxbox/projeto-com-python/blob/master/%C3%A9cnica_de_vetoriza%C3%A7%C3%A3o_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Vamos usar a técnica de vetorização para transformar palavras e, a seguir, aplicar
uma técnica de clusterização para agrupar os títulos. Como sempre, vamos começar
carregando as bibliotecas necessárias.

In [None]:
import pandas as pd
import numpy as np
from numpy.linalg import svd
from nltk.stem import RSLPStemmer
import multiprocessing as mp
from bokeh.plotting import figure, show, output_notebook
from bokeh.models import ColumnDataSource, Range1d, LabelSet,
Label
from bokeh import palettes
from sklearn.cluster import KMeans

In [None]:
output_notebook()

In [None]:
df1 = pd.read_csv(“titulos-buzzfeed-brasil-non_clickbait_titles.csv”)
df1[‘grupo’] = ‘noticia’
df1.head(10)

In [None]:
df2 = pd.read_csv(“titulos-buzzfeed-brasil-clickbait_titles.
csv”)
df2[‘grupo’] = ‘caça-clique’
df2.head(10)

In [None]:
#Vamos juntar os dois conjuntos de dados.
df = pd.concat([df1, df2])

In [None]:
df.head(10)

In [None]:
df.tail(10)

In [None]:
df = df.sample(frac=1)
df.head(10)

Uma lida rápida mostra que agora temos títulos de notícias misturados a caça-cliques.
Porém, os índices estão misturados; vamos resetar o índice do conjunto de dados.

In [None]:
df = df.reset_index(drop=True)
df.head(10)

A única coluna útil é a coluna title, então vamos utilizar apenas ela, mas vamos manter
a coluna grupo em mãos para avaliar o modelo.

In [None]:
grupos = df[‘grupo’]
df = df[“title”]
df.head(10)

In [None]:
grupos.head(10)

In [None]:
def conta_palavras(texto, stopwords=stopwords, stemer=stemer):
 palavras = texto.split(“ “)
 palavras = [palavra.lower() for palavra in palavras if palavra not in stopwords and palavra.isalpha()]
 return {x:palavras.count(x) for x in palavras}

A seguir, contamos as palavras de cada documento e montamos as linhas da matriz
termo-documento.

In [None]:
with mp.Pool() as p:
 contagem = p.map(conta_palavras, df.values)

Vamos olhar a contagem de palavras nos 10 primeiros documentos

In [None]:
contagem[:5]

Agora vamos criar a matriz termo-documento transposta usando um DataFrame do
pandas.

In [None]:
termo_documento_transposto = pd.ataFrame(contagem)
termo_documento_transposto.head(10)

In [None]:
termo_documento_transposto = termo_documento_transposto.fillna(0)
termo_documento_transposto.head(10)

In [None]:
p = figure(x_range=(0, 1), y_range=(0, 1))
p.image(image=[termo_documento_transposto.values], x=0, y=0,
dw=1, dh=1, palette=”Spectral11”)
show(p)

In [None]:
termo_documento = termo_documento_transposto.T
termo_documento.head(15)

Vamos aplicar a decomposição em valores singulares na matriz termo-documento e
encontrar a matriz de vetores de documentos.

In [None]:
U, W, Vt = svd(termo_documento.values, full_matrices=True)

In [None]:
p = figure(x_range=(0, 1), y_range=(0, 1))
p.image(image=[Vt], x=0, y=0, dw=1, dh=1, palette=”Spectral11”)
show(p)

Dessa vez, em lugar de coletar amostras para fazer os gráficos e analisar os resultados,
vamos clusterizar os documentos usando uma k-means. O algoritmo k-means já está
implementado no scikit-learn e já importamos a classe necessária, vamos apenas
instanciar o modelo e realizar o treinamento. Vamos começar pegando as palavras, que
são as colunas do conjunto de dados termo_documento_transposto.

In [None]:
palavras = termo_documento_transposto.columns
palavras[:20]

In [None]:
modelo = KMeans(n_clusters=3)
resultados = modelo.fit_predict(U)

In [None]:
palavras_resultados = [{p: r} for p, r in zip(palavras, resultados)]

In [None]:
#Vamos escolher algumas palavras e comparar as classes avaliando a similaridade.
print(resultado_para[‘filha’], resultado_para[‘mãe’])

In [None]:
print(resultado_para[‘afetado’], resultado_para[‘afetar’])

In [None]:
print(resultado_para[‘abraçar’], resultado_para[‘abraçados’])
