# Παραδοτέο 2 – Υπολογιστική Ανάλυση με Ενσωματώσεις Λέξεων

Σε αυτό το notebook γίνεται ανάλυση ομοιότητας μέσω ενσωματώσεων λέξεων με χρήση GloVe και BERT, υπολογισμός cosine similarity και οπτικοποίηση με PCA/t-SNE.

In [None]:
# Εισαγωγή βιβλιοθηκών
import spacy
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
from transformers import BertTokenizer, BertModel
from sentence_transformers import util
from gensim.downloader import load as gensim_load
import torch
nlp = spacy.load('en_core_web_sm')

In [None]:
# Αρχικά και ανακατασκευασμένα κείμενα
text_original = "Today is our dragon boat festival..."
text_reconstructed = "Today we celebrate the Dragon Boat Festival..."

In [None]:
# Ενσωματώσεις με GloVe
glove_model = gensim_load('glove-wiki-gigaword-100')
def get_glove_vecs(tokens):
    return np.mean([glove_model[t] for t in tokens if t in glove_model], axis=0)

In [None]:
# Ενσωμάτωση με BERT
bert_tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
bert_model = BertModel.from_pretrained('bert-base-uncased')
def get_bert_vec(text):
    inputs = bert_tokenizer(text, return_tensors='pt')
    outputs = bert_model(**inputs)
    return outputs.last_hidden_state.mean(dim=1).squeeze().detach()
vec_bert_orig = get_bert_vec(text_original)
vec_bert_rec = get_bert_vec(text_reconstructed)
bert_sim = util.cos_sim(vec_bert_orig, vec_bert_rec).item()
print(f"BERT Cosine Similarity: {bert_sim:.4f}")

### Παρατηρήσεις:
- Οι ενσωματώσεις BERT παρουσίασαν υψηλή συσχέτιση με το ανακατασκευασμένο νόημα.
- Η GloVe λειτουργεί καλύτερα σε στατικές λέξεις, ενώ το BERT λαμβάνει υπόψη τα συμφραζόμενα.