# Global Vectors for Word Representation (GloVe)

Autores:
*   Rafael Noboro Tominaga
*   Romeo Bulla Junior

Disciplina:
*   Processamento de Linguagem Natural com Redes Neurais Artificiais (PCS5029)

Docente:
*   Prof. Dr. Edson Satoshi Gomi

Objetivo:
*   Apresentar o modelo GloVe e comparar com Skip‑gram (SG).

In [None]:
pip install gensim

In [3]:
import gensim.downloader as api
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

ModuleNotFoundError: No module named 'sklearn'

# Introdução

Word2Vec (Mikolov et al., 2013) possui duas variantes:

*   CBOW (Continuous Bag of Words): prediz a palavra central a partir do contexto. É rápido, funciona bem para palavras frequentes, mas tende a suavizar representações e perde nuances.

*   Skip‑gram (SG): prediz palavras de contexto a partir da palavra central. Funciona melhor para palavras raras e nuances semânticas, mas é mais lento.

GloVe (Pennington, Socher e Manning, 2014) foi proposto para superar essas limitações, combinando o melhor dos dois mundos:

*   Usa estatísticas globais de co‑ocorrência (não apenas janelas locais de contexto).

*   Produz embeddings consistentes para tarefas semânticas (analogias, relações globais) e sintáticas.

In [None]:
model_glove = api.load("glove-wiki-gigaword-300")
model_sg = api.load("word2vec-google-news-300")

# Comparação de vizinhos

In [None]:
word = "apple"
print("GloVe:", model_glove.most_similar(word, topn=5))
print("Skip-gram:", model_sg.most_similar(word, topn=5))

# Teste de analogias

In [None]:
print("GloVe:", model_glove.most_similar(positive=["king","woman"], negative=["man"], topn=5))
print("Skip-gram:", model_sg.most_similar(positive=["king","woman"], negative=["man"], topn=5))

# Visualização com PCA

In [None]:
def plot_embeddings(model, words, title):
    vectors = [model[w] for w in words if w in model]
    pca = PCA(n_components=2)
    coords = pca.fit_transform(vectors)

    plt.figure(figsize=(6,4))
    plt.scatter(coords[:,0], coords[:,1], c='blue')
    for word, (x,y) in zip(words, coords):
        plt.text(x+0.02, y+0.02, word, fontsize=12)
    plt.title(title)
    plt.show()

words = ["king", "queen", "man", "woman", "prince", "princess", "lord", "lady"]

print("\nVisualização PCA (GloVe):")
plot_embeddings(model_glove, words, "Espaço vetorial - GloVe")

print("Visualização PCA (Skip-gram):")
plot_embeddings(model_sg, words, "Espaço vetorial - Skip-gram")

# Comparação de similaridade em pares

In [None]:
pairs = [("king","queen"), ("man","woman"), ("paris","france"), ("rome","italy"), ("car","road"), ("cat","dog")]

print("\nSimilaridade coseno para pares de palavras:\n")
for w1, w2 in pairs:
    if w1 in model_glove and w2 in model_glove and w1 in model_sg and w2 in model_sg:
        sim_glove = model_glove.similarity(w1,w2)
        sim_sg = model_sg.similarity(w1,w2)
        print(f"{w1}-{w2}:  GloVe={sim_glove:.3f},  Skip-gram={sim_sg:.3f}")