In [11]:
import pandas as pd
from gensim.models import Word2Vec
import nltk
import re

# Certifique-se de que os pacotes do NLTK estão instalados e baixados
nltk.download('punkt')

# 1. Simulação da carga do dataset (data.csv)
df = pd.read_csv("../DATA/data.csv")

# 2. Função de pré-processamento de texto
def preprocess_text(text):
    # Remover caracteres especiais e números
    text = re.sub(r'[^a-zA-Z\s]', '', text)
    # Tokenizar o texto em palavras
    tokens = nltk.word_tokenize(text.lower())
    return tokens

# 3. Aplicar a função de pré-processamento na coluna 'Sentence'
df['tokens'] = df['Sentence'].apply(preprocess_text)

# 4. Preparar as frases para o Word2Vec
sentences = df['tokens'].tolist()



[nltk_data] Downloading package punkt to /home/alexmarino/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [12]:
# 5. Treinar o modelo Word2Vec com Skip-Gram (sg=1)
model_skipgram = Word2Vec(sentences, vector_size=100, window=5, sg=1, min_count=1, workers=4)

# 6. Treinar o modelo Word2Vec com CBOW (sg=0)
model_cbow = Word2Vec(sentences, vector_size=100, window=5, sg=0, min_count=1, workers=4)



In [13]:
# 7. Exemplo de uso com Skip-Gram: Encontrando palavras semelhantes
print("Palavras semelhantes a 'company' (Skip-Gram):")
try:
    similar_words_skipgram = model_skipgram.wv.most_similar('company')
    for word, score in similar_words_skipgram:
        print(f"{word}: {score:.4f}")
except KeyError:
    print("A palavra 'company' não está no vocabulário do modelo Skip-Gram.")

# 8. Exemplo de uso com CBOW: Encontrando palavras semelhantes
print("\nPalavras semelhantes a 'company' (CBOW):")
try:
    similar_words_cbow = model_cbow.wv.most_similar('company')
    for word, score in similar_words_cbow:
        print(f"{word}: {score:.4f}")
except KeyError:
    print("A palavra 'company' não está no vocabulário do modelo CBOW.")

# 9. Acessando o vetor de uma palavra no Skip-Gram
try:
    vector_company_skipgram = model_skipgram.wv['company']
    print(f"\nVetor para a palavra 'company' (Skip-Gram):\n{vector_company_skipgram}")
except KeyError:
    print("A palavra 'company' não está no vocabulário do modelo Skip-Gram.")

# 10. Acessando o vetor de uma palavra no CBOW
try:
    vector_company_cbow = model_cbow.wv['company']
    print(f"\nVetor para a palavra 'company' (CBOW):\n{vector_company_cbow}")
except KeyError:
    print("A palavra 'company' não está no vocabulário do modelo CBOW.")


Palavras semelhantes a 'company' (Skip-Gram):
investment: 0.9399
alma: 0.9276
sanoma: 0.9262
yit: 0.9173
group: 0.9141
glaston: 0.9117
media: 0.9090
talentum: 0.9079
kemira: 0.9033
okmetic: 0.9027

Palavras semelhantes a 'company' (CBOW):
group: 0.9990
investment: 0.9980
unit: 0.9975
bank: 0.9975
tuesday: 0.9974
business: 0.9974
board: 0.9974
march: 0.9974
report: 0.9974
plans: 0.9974

Vetor para a palavra 'company' (Skip-Gram):
[-0.3953466   0.44561073 -0.1933641   0.26521158 -0.01517364 -0.4657397
  0.4498104   0.3906953  -0.17538315 -0.39529118  0.13914734 -0.15127547
  0.04955543 -0.08732861  0.03901793  0.0480535   0.5799961   0.14880109
 -0.29730242 -0.518933    0.04424501 -0.08326782  0.24716862 -0.07529128
  0.03398097  0.20418982 -0.32653487 -0.03133602  0.07519048  0.1760143
  0.32009733  0.24552563  0.2961152  -0.30357483 -0.1292578   0.6636436
  0.35933396 -0.02432049 -0.02101317  0.00623129  0.22353657 -0.15464105
  0.14604169 -0.03355061  0.27365452 -0.07337537 -0.0229093

In [None]:
# 7. Encontrar as K palavras mais próximas no modelo Skip-Gram
word = 'company'  # Palavra de exemplo
print(f"\nK vizinhos mais próximos de '{word}' (Skip-Gram):")
try:
    neighbors_skipgram = find_knn(model_skipgram, word, k=5)
    for neighbor in neighbors_skipgram:
        print(neighbor)
except KeyError:
    print(f"A palavra '{word}' não está no vocabulário do modelo Skip-Gram.")



In [None]:
# 8. Encontrar as K palavras mais próximas no modelo CBOW
print(f"\nK vizinhos mais próximos de '{word}' (CBOW):")
try:
    neighbors_cbow = find_knn(model_cbow, word, k=5)
    for neighbor in neighbors_cbow:
        print(neighbor)
except KeyError:
    print(f"A palavra '{word}' não está no vocabulário do modelo CBOW.")
