In [20]:
# Importações básicas
import numpy as np #trabalha matrizes
import pandas as pd #dataframes
import matplotlib.pyplot as plt #grafics
from gensim.models import Word2Vec #modelo de velorização
import gensim.downloader as api 
from sklearn.manifold import TSNE #framework de treinamento
import re #regex
import nltk #trabalho com linguagem natural
from nltk.tokenize import word_tokenize 
from nltk.corpus import stopwords
import warnings
from sklearn.metrics.pairwise import cosine_similarity

In [21]:
#Carregando Dados de Exemplo
documento1 = "O filme tem uma história envolvente e atuações convincentes"
documento2 = "A narrativa do filme é cativante e os atores são excelentes"
documento3 = "O restaurante tem comida deliciosa e preços acessíveis"

In [22]:
#Pré-processamento do Texto

def Pre_processamento(texto):
    # Remove pontuação e caracteres especiais
    texto = re.sub(r'[^a-záàâãéèêíïóôõöúçñ ]', '', texto)
    # Converte para minúsculas
    texto = texto.lower()

    # Tokeniza o texto
    tokens = word_tokenize(texto)

    # Remover stopwords (opcional, dependendo da aplicação)
    stop_words = set(stopwords.words('portuguese'))
    tokens = [token for token in tokens if token not in stop_words]


    
    return tokens

In [23]:
# Treinando um Modelo do Zero

def preprocess(textos):

    # Definir parâmetros do modelo
    vector_size = 100    # Dimensionalidade dos vetores
    window = 5           # Tamanho da janela de contexto
    min_count = 1        # Frequência mínima das palavras
    workers = 4          # Número de threads para treinamento
    sg = 1               # Modelo Skip-gram (1) ou CBOW (0)

    model = Word2Vec(
    sentences=textos,
    vector_size=vector_size,
    window=window,
    min_count=min_count,
    workers=workers,
    sg=sg
)
    return model


In [24]:
# Função para calcular vetor médio da frase
def frase_para_vetor(frase_tokens, modelo):
    vetores = [modelo.wv[p] for p in frase_tokens if p in modelo.wv]
    if not vetores:
        return np.zeros(modelo.vector_size)
    return np.mean(vetores, axis=0)

In [25]:
# Pre-processando os documentos
documento1 = Pre_processamento(documento1)
documento2 = Pre_processamento(documento2)
documento3 = Pre_processamento(documento3)

In [26]:
# Treinando o modelo com os documentos pré-processados
modelo = preprocess([documento1, documento2, documento3])

In [27]:
# Convertendo cada frase em vetor
vetor1 = frase_para_vetor(documento1,modelo)
vetor2 = frase_para_vetor(documento2,modelo)
vetor3 = frase_para_vetor(documento3,modelo)

In [28]:
# Calculando similaridade entre frases
sim12 = cosine_similarity([vetor1], [vetor2])[0][0]
sim13 = cosine_similarity([vetor1], [vetor3])[0][0]
sim23 = cosine_similarity([vetor2], [vetor3])[0][0]

In [29]:
# Exibindo os resultados
print(f"Similaridade entre documento1 e documento2: {sim12:.4f}")
print(f"Similaridade entre documento1 e documento3: {sim13:.4f}")
print(f"Similaridade entre documento2 e documento3: {sim23:.4f}")

Similaridade entre documento1 e documento2: 0.2509
Similaridade entre documento1 e documento3: 0.0010
Similaridade entre documento2 e documento3: -0.1123
