# Exemplo 01 - Implementando BoW

In [3]:
# Importando a ferramenta que irá criar a representação numérica
from sklearn.feature_extraction.text import CountVectorizer

# Criando um corpus de documento que será usado para criação do vocabulário
documentos = [
  "Gato e Cachorro",
  "Gato brinca com Cachorro",
  "Gato e Rato",
  "Cachorro, Gato e Rato",
  "Gato",
  "Cachorro e Rato"
]
# Criando um objeto para ser utilizado: transformar os documentos em vetores
vectorizer = CountVectorizer()

# Criando a matriz de contagem
X = vectorizer.fit_transform(documentos)
  # fit >>> cria um vacabulário das palavras
  # transforme >>> conta a frequencia de cada palavra no corpus

# Imprimindo a Matriz e o vocabulário gerado
print (f"Vocabulario: {vectorizer.vocabulary_}")
  # Realiza o mapeamento do vocabulário para um índice da matriz

print ("Matriz BoW:")
print (X.toarray())
  # Mostra a frequência de cada palavra dentro da matriz

Vocabulario: {'gato': 3, 'cachorro': 1, 'brinca': 0, 'com': 2, 'rato': 4}
Matriz BoW:
[[0 1 0 1 0]
 [1 1 1 1 0]
 [0 0 0 1 1]
 [0 1 0 1 1]
 [0 0 0 1 0]
 [0 1 0 0 1]]


# Exemplo 02 - Implementando BOW junto com TF-IDF

In [4]:
# Importando as Bibliotecas
from sklearn.feature_extraction.text import CountVectorizer
  # Classe que transforma os documentos em vetores e realiza a contagem de frequencia
from sklearn.feature_extraction.text import TfidfVectorizer
  # Classe que transforma os documentos em vetores e uma contagem de frequencia ponderada

# Definindo o corpus
documentos = [
    "O cachorro gosta de passear no parque",
    "O gato dorme no sofá o dia todo",
    "Cachorros e Gatos podem ser bons amigos"
]

#Criando o modelo BoW
vectorizer_bow = CountVectorizer()
  # Instanciamento da classe em objeto para ser usado
X_bow = vectorizer_bow.fit_transform(documentos)
  # fit >>> realizar a transformação do vocabulário
  # transform >>> transforma cada vetor em um documento com a contagem de frequência

# Imprimindo o Vocabulário e a Matriz
print (f"Vocabulário BoW: {vectorizer_bow.vocabulary_}")
print ("Matriz BoW:")
print (X_bow.toarray())

# Criando um modelo TF-IDF
vectorizer_tfidf = TfidfVectorizer()
  # Realiza a instanciação da classe em objeto
X_tfidf = vectorizer_tfidf.fit_transform(documentos)
  # fit >>> realizar a transformação do vocabulário
  # transform >>> transforma cada vetor em um documento com a contagem de frequência ponderada

# Imprimindo o Vocabulário e a Matriz TF-IDF
print (f"\nVocabulário TF-IDF: {vectorizer_tfidf.vocabulary_}")
print ("Matriz TF-IDF")
print (X_tfidf.toarray())

Vocabulário BoW: {'cachorro': 2, 'gosta': 9, 'de': 4, 'passear': 12, 'no': 10, 'parque': 11, 'gato': 7, 'dorme': 6, 'sofá': 15, 'dia': 5, 'todo': 16, 'cachorros': 3, 'gatos': 8, 'podem': 13, 'ser': 14, 'bons': 1, 'amigos': 0}
Matriz BoW:
[[0 0 1 0 1 0 0 0 0 1 1 1 1 0 0 0 0]
 [0 0 0 0 0 1 1 1 0 0 1 0 0 0 0 1 1]
 [1 1 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0]]

Vocabulário TF-IDF: {'cachorro': 2, 'gosta': 9, 'de': 4, 'passear': 12, 'no': 10, 'parque': 11, 'gato': 7, 'dorme': 6, 'sofá': 15, 'dia': 5, 'todo': 16, 'cachorros': 3, 'gatos': 8, 'podem': 13, 'ser': 14, 'bons': 1, 'amigos': 0}
Matriz TF-IDF
[[0.         0.         0.42339448 0.         0.42339448 0.
  0.         0.         0.         0.42339448 0.32200242 0.42339448
  0.42339448 0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.42339448
  0.42339448 0.42339448 0.         0.         0.32200242 0.
  0.         0.         0.         0.42339448 0.42339448]
 [0.40824829 0.40824829 0.        

# Exemplo 03 - Realizando o pré-processamento e a extração de características do texto

### Construção de um exemplo de pré-processamento e representação de texto:

*   Item da lista
*   Item da lista
