#Exemplo 1 - Implementando BOW

In [1]:
# importando a ferramenta que irá criar a representação numérica
from sklearn.feature_extraction.text import CountVectorizer

# criando um corpus de documentos que será usado para criação do vocabulário
documentos = [
    "gato e cachorro",
    "gato brinca com cachorro",
    "gato e rato"
]

# Criando um objeto para ser utilizado: transformar os documentos em vetores
vectorizer = CountVectorizer()

# Criando a matriz de contagem
X = vectorizer.fit_transform(documentos)
# fit >>> cria um vocabulário das palavras
# transforme >>> conta a frequencia de cada palavra no corpus

# Imprimindo a Matriz e o Vocabulário gerado
print(f"Vocabulario: {vectorizer.vocabulary_}")
# realiza o mapeamento do vocabulário para um índice da matriz

print("Matriz BоW:")
print(X.toarray())
# mostra a frequencia de cada palavra dentro da matriz

Vocabulario: {'gato': 3, 'cachorro': 1, 'brinca': 0, 'com': 2, 'rato': 4}
Matriz Bом:
[[0 1 0 1 0]
 [1 1 1 1 0]
 [0 0 0 1 1]]


# Exemplo 2 - Implementando BOW junto com TF-IDF

In [1]:
# Importando as Bibliotecas
from sklearn.feature_extraction.text import CountVectorizer
# classe que transforma os documentos em vetores e realiza a contagem de frequencia
from sklearn.feature_extraction.text import TfidfVectorizer
# Classe que transforma os documentos em vetores e uma contagem de frequencia ponderada

# Definindo o corpus
documents = [
    "O cachorro gosta de passear no parque",
    "O gato dorme no sofá o dia todo",
    "Cachorros e gatos podem ser bons amigos"
]

# Criando o modelo BOM
vectorizer_bow = CountVectorizer()
# Instantamento da classe em objeto para ser usado
x_bow = vectorizer_bow.fit_transform(documents)
# fit >>> realizar a transformação do vocabulário
# transform >> transforma cada vetor em um documento com a contagem de frequência

# Imprimindo o Vocabulário e a Matriz
print(f"Vocabulário BOM: {vectorizer_bow.vocabulary_}")
print("Matriz BOM:")
print(x_bow.toarray())

# Criando um modelo TF-IDF
vectorizer_tfidf = TfidfVectorizer()
# realiza a instanciação da classe em objeto
x_tfidf = vectorizer_tfidf.fit_transform(documents)
# fit >>> realizar a transformação do vocabulário
# transform >> transforma cada vetor em um documento com a contagem de frequência ponderada

# Imprimindo o Vocabulário e a Matriz TF-IDF
print(f"\nVocabulário TF-IDF: {vectorizer_tfidf.vocabulary_}")
print("Matriz TF-IDF")
print(x_tfidf.toarray())

Vocabulário BOM: {'cachorro': 2, 'gosta': 9, 'de': 4, 'passear': 12, 'no': 10, 'parque': 11, 'gato': 7, 'dorme': 6, 'sofá': 15, 'dia': 5, 'todo': 16, 'cachorros': 3, 'gatos': 8, 'podem': 13, 'ser': 14, 'bons': 1, 'amigos': 0}
Matriz BOM:
[[0 0 1 0 1 0 0 0 0 1 1 1 1 0 0 0 0]
 [0 0 0 0 0 1 1 1 0 0 1 0 0 0 0 1 1]
 [1 1 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0]]

Vocabulário TF-IDF: {'cachorro': 2, 'gosta': 9, 'de': 4, 'passear': 12, 'no': 10, 'parque': 11, 'gato': 7, 'dorme': 6, 'sofá': 15, 'dia': 5, 'todo': 16, 'cachorros': 3, 'gatos': 8, 'podem': 13, 'ser': 14, 'bons': 1, 'amigos': 0}
Matriz TF-IDF
[[0.         0.         0.42339448 0.         0.42339448 0.
  0.         0.         0.         0.42339448 0.32200242 0.42339448
  0.42339448 0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.42339448
  0.42339448 0.42339448 0.         0.         0.32200242 0.
  0.         0.         0.         0.42339448 0.42339448]
 [0.40824829 0.40824829 0.        

# Exemplo 3 - Realizando o Pre processamento e a extração de características do texto

In [1]:
!pip uninstall numpy scikit-learn
!pip install numpy scikit-learn

!pip uninstall gensim
!pip install gensim

Found existing installation: numpy 1.25.2
Uninstalling numpy-1.25.2:
  Would remove:
    /usr/local/bin/f2py
    /usr/local/bin/f2py3
    /usr/local/bin/f2py3.11
    /usr/local/lib/python3.11/dist-packages/numpy-1.25.2.dist-info/*
    /usr/local/lib/python3.11/dist-packages/numpy.libs/libgfortran-040039e1.so.5.0.0
    /usr/local/lib/python3.11/dist-packages/numpy.libs/libopenblas64_p-r0-5007b62f.3.23.dev.so
    /usr/local/lib/python3.11/dist-packages/numpy.libs/libquadmath-96973f99.so.0.0.0
    /usr/local/lib/python3.11/dist-packages/numpy/*
Proceed (Y/n)? y
  Successfully uninstalled numpy-1.25.2
Found existing installation: scikit-learn 1.6.1
Uninstalling scikit-learn-1.6.1:
  Would remove:
    /usr/local/lib/python3.11/dist-packages/scikit_learn-1.6.1.dist-info/*
    /usr/local/lib/python3.11/dist-packages/scikit_learn.libs/libgomp-a34b3233.so.1.0.0
    /usr/local/lib/python3.11/dist-packages/sklearn/*
Proceed (Y/n)? y
  Successfully uninstalled scikit-learn-1.6.1
Collecting numpy
 

In [2]:
"""Algumas frases para aumentar o corpus:
 ["o", "papagaio", "está", "falando"],
 ["a", "lhama", "vai", "cuspir", "em", "você"],
 ["o", "cachorro", "gosta", "de", "bola"],
"""
# Importação da Biblioteca
from gensim.models import Word2Vec
# Word2Vec >>> criar os modelos de vetorização

# Criação do Corpus
corpus = [
    ["o", "cachorro", "está", "dominado"],
    ["o", "gato", "está", "dominado"]
]

# Criando o modelo de vetor
model = Word2Vec(sentences=corpus, vector_size=100, window=5, min_count=1, sg=1)
# sentences = define o texto a ser transformado em vetor
# vector_size = define a dimensão dos vetores que representarão as palavras
# window = define a janela de contexto, considera as palavras antes e as palavras depois no alvo para aprender
# min_count = ignora as palavras que aparecer 1 vez no corpus
# indica o modelo utilizado
    # 1 = skip_gram;
    # 0 = CBOW

# Obtém o vetor da palavra
vector = model.wv['cachorro']

# Calcula a similaridade de duas palavras
similarity = model.wv.similarity('cachorro', 'gato')
# similaridade cosseno, quanto mais próximo de 1, maior similaridade

print("Similaridade entre 'cachorro' e 'gato': ", similarity)

Similaridade entre 'cachorro' e 'gato':  -0.0446171


In [3]:
from gensim.models import Word2Vec

corpus = [
    ["o", "cachorro", "está", "latindo", "no", "quintal"],
    ["o", "gato", "está", "miando", "no", "telhado"],
    ["o", "pássaro", "está", "voando", "no", "céu", "lua"],
    ["a", "bola", "está", "rolando", "no", "chão"],
    ["a", "criança", "está", "brincando", "com", "o", "cachorro"],
    ["o", "gato", "e", "o", "rato", "são", "inimigos"],
    ["a", "água", "está", "quente", "na", "caneça"],
    ["o", "sol", "está", "brilhando", "no", "céu"],
    ["a", "lua", "está", "cheia", "hoje", "no", "céu"],
    ["a", "computador", "está", "ligado", "na", "mesa"],
    ["a", "lua", "está", "no", "céu", "lua", "bonita"]
]

model = Word2Vec(sentences=corpus, vector_size=100, window=5, min_count=1, sg=1)

# Calculando a similaridade entre palavras
print(f"Similaridade entre cachorro e gato: {model.wv.similarity('cachorro', 'gato')}")
print(f"Similaridade entre cachorro e bola: {model.wv.similarity('cachorro', 'bola')}")
print(f"Similaridade entre céu e lua: {model.wv.similarity('céu', 'lua')}")
print(f"Similaridade entre computador e mesa: {model.wv.similarity('computador', 'mesa')}")

Similaridade entre cachorro e gato: 0.008797231130301952
Similaridade entre cachorro e bola: -0.12085192650556564
Similaridade entre céu e lua: 0.1388162225484848
Similaridade entre computador e mesa: 0.04975401982665062
