In [173]:
import importlib
import embedding_models
importlib.reload(embedding_models)
from embedding_models import EmbeddingModel
# import numpy as np

# Quick data
articles = [
    "L'intelligence artificielle révolutionne la finance",
    "Les marchés boursiers chutent après une annonce de la FED",
    "Tesla annonce une nouvelle batterie à autonomie record",
    "Apple dévoile son iPhone 16 avec des fonctionnalités inédites",
    "Le marché du travail en France connaît une hausse des embauches",
    "L'IA et la cybersécurité : une nouvelle ère de protection des données",
    "L'intelligence artificielle révolutionne la économie"
]

tfidf = EmbeddingModel('tfidf')
w2v = EmbeddingModel('word2vec')
sbert = EmbeddingModel('sbert')

In [174]:
tfidf.fit(articles)
w2v.fit(articles)
sbert.fit(articles)

In [175]:
embeddings_tfidf = tfidf.transform(articles)
embeddings_w2v = w2v.transform(articles)
embeddings_sbert = sbert.transform(articles)

In [176]:
similarity_tfidf = tfidf.similarity(embeddings_tfidf[0], embeddings_tfidf[6])
similarity_w2v = w2v.similarity(embeddings_w2v[0], embeddings_w2v[6])
similarity_sbert = sbert.similarity(embeddings_sbert[0], embeddings_sbert[6])

In [177]:
print(f"Similarité TFIDF entre l'article 1 et l'article 7 : {similarity_tfidf:.2f}")
print(f"Similarité WV entre l'article 1 et l'article 7 : {similarity_w2v:.2f}")
print(f"Similarité SBERT entre l'article 1 et l'article 7 : {similarity_sbert:.2f}")

Similarité TFIDF entre l'article 1 et l'article 7 : 0.71
Similarité WV entre l'article 1 et l'article 7 : 0.76
Similarité SBERT entre l'article 1 et l'article 7 : 0.80


In [178]:
# word = "la économie"
# word_lower = word.lower()

# if word in w2v.model.wv:
#     vec_economie = w2v.model.wv[word]
# elif word_lower in w2v.model.wv:
#     vec_economie = w2v.model.wv[word_lower]
# else:
#     print(f"Le mot '{word}' ou sa version minuscule '{word_lower}' ne sont pas dans Word2Vec.")

In [179]:
# SBERT encodes the whole sentence to seize the global meaning.
# As 'finance' and 'economie' are close in meanings SBERT gives a higher similarity.
# On the other hand, Word2Vec vectorizes each word independently. The mean of the vectors
# struggles to capture the link between 'finance' & 'economie'. 

vec_finance_w2v = w2v.model.wv["finance"]
vec_economie_w2v = w2v.model.wv["économie"]

vec_finance_sbert = sbert.model.encode(['finance'])[0]
vec_economie_sbert = sbert.model.encode(['économie'])[0]

similarity_fe_w2v = w2v.similarity(vec_finance_w2v, vec_economie_w2v)
similarity_fe_sbert = w2v.similarity(vec_finance_sbert, vec_economie_sbert)

print(f"Similarité Word2Vec entre 'finance' et 'économie' : {similarity_fe_w2v:.2f}")
print(f"Similarité SBERT entre 'finance' et 'économie' : {similarity_fe_sbert:.2f}")


Similarité Word2Vec entre 'finance' et 'économie' : 0.08
Similarité SBERT entre 'finance' et 'économie' : 0.38


In [None]:
# Yeah, the difference we have is definetly linked to this then. 