In [1]:
from gensim.models import Word2Vec
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity


In [2]:
# Corpus d'articles (chaque article est une liste de mots)
articles = [
    ["machine", "learning", "intelligence", "artificielle"],
    ["réseaux", "neurones", "profonds", "deep", "learning"],
    ["traitement", "langage", "naturel", "NLP"],
    ["voitures", "autonomes", "apprentissage", "automatique"],
    ["vision", "ordinateur", "reconnaissance", "images"]
]

In [3]:
# Entraînement du modèle Word2Vec
model_w2v = Word2Vec(articles, vector_size=100, window=5, min_count=1, workers=4)

In [4]:
# Fonction pour calculer la moyenne des vecteurs d'un article
def get_embedding(article):
    vectors = [model_w2v.wv[word] for word in article if word in model_w2v.wv]
    return np.mean(vectors, axis=0) if vectors else np.zeros(100)

# Stocker les embeddings des articles
article_embeddings = np.array([get_embedding(article) for article in articles])

# Fonction de recommandation
def recommend(article_index, top_n=3):
    similarities = cosine_similarity([article_embeddings[article_index]], article_embeddings)[0]
    top_indices = np.argsort(similarities)[::-1][1:top_n+1]  # Ignorer l'article de base

    print(f"\nArticles similaires à : {' '.join(articles[article_index])}")
    for idx in top_indices:
        print(f"- {' '.join(articles[idx])} (Score : {similarities[idx]:.2f})")


In [5]:
# Exemple d'utilisation : Recommander des articles similaires à l'article sur "NLP"
recommend(2)


Articles similaires à : traitement langage naturel NLP
- machine learning intelligence artificielle (Score : 0.10)
- voitures autonomes apprentissage automatique (Score : -0.06)
- réseaux neurones profonds deep learning (Score : -0.06)
