### Sanavektorit

In [8]:
import numpy as np
from scipy.spatial.distance import cosine

# Avataan glove
def load_glove_embeddings(file_path):
    embeddings = {}
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            values = line.split()
            word = values[0]
            vector = np.array(values[1:], dtype='float32')
            embeddings[word] = vector
    return embeddings

# Haetaan lähin sana kosinin etäisyyden avulla
def find_nearest_words(embeddings, target_vector, n=10):
    distances = {}
    for word, vector in embeddings.items():
        # Ei oteta huomioon laskettavaa sanaa
        if word == "king":
            continue
        distance = cosine(target_vector, vector)
        distances[word] = distance
    
    # Sort by distance and return the top n words
    sorted_words = sorted(distances.items(), key=lambda x: x[1])
    
    if n == 1:
        return sorted_words[0][0]
    else:
        return [word for word, distance in sorted_words[:n]]


glove_file_path = "glove.6B.100d.txt"
embeddings = load_glove_embeddings(glove_file_path)

# Haetaan vektorit ja suoritetaan lasku
vec_man = embeddings["man"]
vec_woman = embeddings["woman"]
vec_king = embeddings["king"]

result_vector = vec_woman - vec_man + vec_king

# Etsitään lähimmät sanat laskettuun vektoriin
nearest_words = find_nearest_words(embeddings, result_vector)

print(f"The words closest to the resulting vector are: {nearest_words}")

The words closest to the resulting vector are: ['queen', 'monarch', 'throne', 'daughter', 'prince', 'princess', 'mother', 'elizabeth', 'father', 'wife']


#### Mietteet:
vec('woman') - vec('man') + vec('king') tutkii "Woman" ja "Man" sanojen semanttista eroavaisuutta ja +vec('king') lisää tähän tulokseen vertailun kuninkaallisuuteen liityvään sanaan. Toisin sanoen, etsitään sanoja, jotka liittyvät sanaan "king" samalla tavalla, kuin sanat "man" ja "woman" liittyvät toisiinsa.

Koodissani on 10 lähintä sanaa, koska halusin tutkia, minkälaisia sanoja koodi palauttaa.
Ennalta arvatusti, palautetut sanat ovat ['queen', 'monarch', 'throne', 'daughter', 'prince', 'princess', 'mother', 'elizabeth', 'father', 'wife'], eli kuninkaaseen ja kuninkaan perheeseen liittyviä sanoja.

Mielenkiintoisesti yksi palautetuista sanoinsta on "Elizabeth".