<a href="https://colab.research.google.com/github/gabrielxbox/projeto-com-python/blob/master/Vetoriza%C3%A7%C3%A3o_de_texto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import numpy as np
from numpy.linalg import svd
from nltk.stem import RSLPStemmer
import multiprocessing as mp
import matplotlib.pyplot as plt

In [None]:
df = pd.read_csv(“Tweets_Mg.csv”)
df.head(10)

df = df.Text
df.head(10)

O primeiro passo é separar as palavras. Vamos começar montando um dicionário
com todas elas e quantas vezes aparecem em cada documento, ou seja, vamos contar.
Começamos pela função que conta as palavras de um texto.

In [None]:
def conta_palavras(texto):
 palavras = texto.split(“ “)
 return {x:palavras.count(x) for x in palavras}

In [None]:
conta_palavras(df.values[0])

Antes de apenas contar, precisamos executar alguns passos para eliminar coisas como
estas: palavras de pouco significado semântico (como as preposições de, para, em
etc.), padronizar as palavras de forma que o tempo verbal, plural ou singular, gênero e
outros diferenciais não interfiram.
Vamos remover as preposições, as chamadas stopwords, e depois faremos uso da
classe RSLPStemmer do pacote nltk importado anteriormente. Essa classe executa um
processo chamado stemming. Vejamos a seguir o comportamento desse processo

In [None]:
stemer = RSLPStemmer()

In [None]:
stemer.stem(“Governador”)

In [None]:
stemer.stem(“Governadora”)

In [None]:
stemer.stem(“Governadoras”)

In [None]:
stemer.stem(“Valadares/MG”)

In [None]:
stemer.stem(“https://t.co/JSbKamIqUJ”)

In [None]:
stemer.stem(“���⛪”)

In [None]:
stemer.stem(“@”)

Perceba que as expressões foram normalizadas para caixa baixa, e tiveram o número
(plural ou singular) e o gênero removidos.
Quanto às palavras de pouco significado, elas são as chamadas stopwords. Vamos
remover essas palavras do texto. Vamos começar carregando essas palavras.

In [None]:
stopwords = pd.read_csv(“stopwords.csv”)
stopwords.head(10)

In [None]:
stopwords = stopwords.values
stopwords[:10]

In [None]:
stopwords = [linha[0].strip() for linha in stopwords]
stopwords

In [None]:
def conta_palavras(texto, stopwords=stopwords):
 palavras = texto.split(“ “)
 palavras = [palavra for palavra in palavras if palavra not
in stopwords]
 return {x:palavras.count(x) for x in palavras}

In [None]:
conta_palavras(df.values[0])

In [None]:
def conta_palavras(texto, stopwords=stopwords):
 palavras = texto.split(“ “)
 palavras = [palavra for palavra in palavras if palavra not
in stopwords and palavra.isalpha()]
 return {x:palavras.count(x) for x in palavras}

In [None]:
conta_palavras(df.values[0])

In [None]:
def conta_palavras(texto, stopwords=stopwords, stemer=stemer):

In [None]:
palavras = texto.split(“ “)
 palavras = [stemer.stem(palavra) for palavra in palavras if
palavra not in stopwords and palavra.isalpha()]
 return {x:palavras.count(x) for x in palavras}

In [None]:
conta_palavras(df.values[0])

Agora temos o resultado que queremos. Vamos aplicar isso aos demais textos, vamos usar
a função map do pacote multiprocessing e gerar o resultado em paralelo para otimizar.

In [None]:
with mp.Pool() as p:
 contagem = p.map(conta_palavras, df.values)

In [None]:
termo_documento_transposto = pd.DataFrame(contagem)
termo_documento_transposto.head(10)

In [None]:
termo_documento_transposto = termo_documento_transposto.fillna(0)
termo_documento_transposto.head(100)

In [None]:
plt.figure(figsize=(20, 20))

In [None]:
plt.imshow(termo_documento_transposto, cmap=’gray’)

In [None]:
termo_documento = termo_documento_transposto.T
termo_documento.head(10)

In [None]:
U, W, Vt = svd(termo_documento.values, full_matrices=True)

In [None]:
plt.figure(figsize=(15, 15))
plt.imshow(U, cmap=’gray’)

In [None]:
plt.figure(figsize=(15, 15))
plt.imshow(Vt, cmap=’gray’)

Vamos começar analisando a similaridade semântica de documentos. Vamos começar
colhendo alguns documentos da lista de tweets original:

In [None]:
indice_amostra = [12, 53, 8, 8188, 8169, 8198, 9, 13, 14]
amostra = df[indice_amostra]
for indice, documento in amostra.iteritems():
 print(indice, “\n”, documento, “\n”, “-”*50, “\n”)

In [None]:
V = np.transpose(Vt)


In [None]:
V_amostra = V[indice_amostra]
V_amostra

In [None]:
V_amostra2 = V_amostra[:,:2]
V_amostra2

In [None]:
V_amostra2 = np.asarray([v/np.linalg.norm(v) for v in V_amostra2])

In [None]:
plt.figure(figsize=(12, 12))
x = V_amostra2[:, 0]
y = V_amostra2[:, 1]
plt.scatter(x, y)
for i, indice in enumerate(indice_amostra):
 plt.annotate(indice, (x[i], y[i]))
 

In [None]:
df[12]

In [None]:
df[53]