In [4]:
#one-hot encoding
#vetores de dimensão do tamanho do vocabulário - valores binários

from sklearn.preprocessing import OneHotEncoder

enc = OneHotEncoder(handle_unknown='ignore')

X = [["Com"], ["a"], ["chave"], ["na"], ["mão"], ["quer"], ["abrir"], ["a"], ["porta"]]

enc.fit(X)

vocab = list(enc.categories_[0])
vetores = enc.transform(X).toarray()

print("Vocabulário\n", vocab, "\n")
print("Matriz\n", vetores, "\n")

print("Atributos\n", enc.get_feature_names_out()) # mesma ordem de vocabulário

Vocabulário
 ['Com', 'a', 'abrir', 'chave', 'mão', 'na', 'porta', 'quer'] 

Matriz
 [[1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]] 

Atributos
 ['x0_Com' 'x0_a' 'x0_abrir' 'x0_chave' 'x0_mão' 'x0_na' 'x0_porta'
 'x0_quer']


In [3]:
#matriz frequência termo-documento (bag of words)
#a contagem de quantas vezes um termo aparece em um documento

import nltk
nltk.download('punkt')

from sklearn.feature_extraction.text import CountVectorizer

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\barba\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [5]:
poema = ['E agora, José?', 'A festa acabou', 'a luz apagou', 'o povo sumiu', 'a noite esfriou', 'e agora, José?', 'e agora, você?',
         'você que é sem nome', 'que zomba dos outros', 'você que faz versos', 'que ama, protesta?', 'e agora, José?']
print(len(poema))

12


In [6]:
def tokenize(texto):
    return nltk.word_tokenize(texto, language="portuguese")

vectorizer = CountVectorizer(tokenizer=tokenize, lowercase=True)

vetores = vectorizer.fit_transform(poema)
vocab = vectorizer.get_feature_names_out()

print("Vocabulário\n", vocab, "\n")
print("Matriz\n", vetores.toarray(), "\n") #importante notar que essa representação não é binária!

Vocabulário
 [',' '?' 'a' 'acabou' 'agora' 'ama' 'apagou' 'dos' 'e' 'esfriou' 'faz'
 'festa' 'josé' 'luz' 'noite' 'nome' 'o' 'outros' 'povo' 'protesta' 'que'
 'sem' 'sumiu' 'versos' 'você' 'zomba' 'é'] 

Matriz
 [[1 1 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 1 0 0 0 0]
 [0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0]
 [1 1 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [1 1 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 1 0 0 1 0 1]
 [0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 1 0]
 [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 1 1 0 0]
 [1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0]
 [1 1 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]] 





In [7]:
#matriz de frequência termo-termo
#quantas vezes um termo aparece acompanhado de outro no mesmo documento

import numpy as np

corpus_tok = []
for verso in poema:
    tokenizado = str(tokenize(verso.lower()))
    corpus_tok.append(tokenizado)

vocab = ['a', 'acabou', 'agora', 'ama', 'apagou', 'dos', 'é', 'esfriou', 'faz', 'festa', 
         'josé', 'luz', 'noite', 'nome', 'o', 'outros', 'povo', 'protesta', 'que', 'sem', 
         'sumiu', 'versos', 'você', 'zomba', 'é']

vetores = np.zeros((len(vocab), len(vocab)))

for verso in corpus_tok:
    for i, w1 in enumerate(vocab):
        for j, w2 in enumerate(vocab):
            if i != j:
                if w1 in verso and w2 in verso:
                    vetores[i, j] += 1

print("Vocabulário\n", vocab, "\n")
print("Matriz\n", vetores)

Vocabulário
 ['a', 'acabou', 'agora', 'ama', 'apagou', 'dos', 'é', 'esfriou', 'faz', 'festa', 'josé', 'luz', 'noite', 'nome', 'o', 'outros', 'povo', 'protesta', 'que', 'sem', 'sumiu', 'versos', 'você', 'zomba', 'é'] 

Matriz
 [[ 0.  1.  4.  1.  1.  1.  3.  1.  1.  1.  3.  1.  1.  0. 10.  1.  0.  1.
   3.  0.  0.  1.  2.  1.  3.]
 [ 1.  0.  0.  0.  0.  0.  0.  0.  0.  1.  0.  0.  0.  0.  1.  0.  0.  0.
   0.  0.  0.  0.  0.  0.  0.]
 [ 4.  0.  0.  0.  0.  0.  3.  0.  0.  0.  3.  0.  0.  0.  4.  0.  0.  0.
   0.  0.  0.  0.  1.  0.  3.]
 [ 1.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  1.  0.  0.  1.
   1.  0.  0.  0.  0.  0.  0.]
 [ 1.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  1.  0.  0.  1.  0.  0.  0.
   0.  0.  0.  0.  0.  0.  0.]
 [ 1.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  1.  1.  0.  0.
   1.  0.  0.  0.  0.  1.  0.]
 [ 3.  0.  3.  0.  0.  0.  0.  0.  0.  0.  3.  0.  0.  1.  4.  0.  0.  0.
   1.  1.  0.  0.  1.  0.  4.]
 [ 1.  0.  0.  0.  0.  0.  0.  0.  0.  

In [8]:
#remoção de stopwords
#para reduzir a esparsidade da representação

import nltk
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('portuguese')

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(stop_words=stopwords)

vetor = vectorizer.fit_transform(poema)
vocab = vectorizer.get_feature_names_out()

print("Vocabulário\n", vocab, "\n")
print("Matriz\n", vetor.toarray())

Vocabulário
 ['acabou' 'agora' 'ama' 'apagou' 'esfriou' 'faz' 'festa' 'josé' 'luz'
 'noite' 'nome' 'outros' 'povo' 'protesta' 'sumiu' 'versos' 'zomba'] 

Matriz
 [[0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0]
 [1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0]
 [0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1]
 [0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0]
 [0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0]
 [0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0]]


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\barba\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [10]:
#matriz tf-idf
#quantas vezes um termo aparece em um número total de documentos
#e em relação ao tamanho do documento que está sendo levado em consideração

from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import Pipeline

vectorizer = Pipeline([
    ('count', CountVectorizer()),
    ('tfid', TfidfTransformer())
])

vectors = vectorizer.fit_transform(poema)
vocab = vectorizer['count'].get_feature_names_out()

print("Vocabulário\n", vocab, "\n")
print("Matriz\n", np.round(vectors.toarray(), 2))

Vocabulário
 ['acabou' 'agora' 'ama' 'apagou' 'dos' 'esfriou' 'faz' 'festa' 'josé'
 'luz' 'noite' 'nome' 'outros' 'povo' 'protesta' 'que' 'sem' 'sumiu'
 'versos' 'você' 'zomba'] 

Matriz
 [[0.   0.67 0.   0.   0.   0.   0.   0.   0.74 0.   0.   0.   0.   0.
  0.   0.   0.   0.   0.   0.   0.  ]
 [0.71 0.   0.   0.   0.   0.   0.   0.71 0.   0.   0.   0.   0.   0.
  0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.   0.   0.71 0.   0.   0.   0.   0.   0.71 0.   0.   0.   0.
  0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.71
  0.   0.   0.   0.71 0.   0.   0.  ]
 [0.   0.   0.   0.   0.   0.71 0.   0.   0.   0.   0.71 0.   0.   0.
  0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.67 0.   0.   0.   0.   0.   0.   0.74 0.   0.   0.   0.   0.
  0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.67 0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
  0.   0.   0.   0.   0.   0.74 0.  ]
 [0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.