In [12]:
# Importer les modules nécessaires
from gensim.models import Word2Vec
from gensim.utils import simple_preprocess
from gensim.parsing.preprocessing import STOPWORDS

# Créer une copie modifiable de STOPWORDS et supprimer "Gensim"
stopwords = set(STOPWORDS)
stopwords.discard("Gensim")

def preprocess_text(text):
    """
    Cette fonction prend une chaîne de texte en entrée et renvoie une liste de mots prétraités.
    Le prétraitement comprend la tokenisation, la suppression des ponctuations et des stopwords.
    """
    # Tokeniser le texte
    tokens = simple_preprocess(text)

    # Supprimer les ponctuations et les stopwords (à l'exception de "Gensim")
    filtered_tokens = [token for token in tokens if token not in stopwords and token.isalnum()]

    # Ajouter manuellement le mot "Gensim" au texte prétraité s'il n'est pas déjà présent
    if "Gensim" not in filtered_tokens:
        filtered_tokens.append("Gensim")

    # Ajouter manuellement le mot "Word2Vec" au texte prétraité s'il n'est pas déjà présent
    if "Word2Vec" not in filtered_tokens:
        filtered_tokens.append("Word2Vec")

    return filtered_tokens

# Fonction pour entraîner un modèle Word2Vec
def train_word2vec_model(text, vector_size=100, window=5, min_count=1, epochs=100):
    """
    Cette fonction prend une liste de chaînes de texte en entrée et renvoie un modèle Word2Vec entraîné.
    Les paramètres du modèle peuvent être ajustés en fonction des besoins.
    """
    # Prétraiter le texte
    processed_text = [preprocess_text(sentence) for sentence in text]

    # Créer un modèle Word2Vec vide
    model = Word2Vec(vector_size=vector_size, window=window, min_count=min_count)

    # Entraîner le modèle Word2Vec
    model.build_vocab(processed_text)
    model.train(processed_text, total_examples=len(processed_text), epochs=epochs)

    return model

# Exemple d'utilisation
text = [
    "Ce code est un exemple de manipulation de texte avec Gensim.",
    "Gensim est une bibliothèque populaire pour le traitement du langage naturel.",
    "Avec Gensim, vous pouvez facilement créer des modèles Word2Vec."
]

# Entraîner un modèle Word2Vec avec le texte donné
model = train_word2vec_model(text)

# Obtenir les vecteurs de mots
word_vectors = model.wv

# Afficher la similarité entre deux mots
print("Similarité entre 'Gensim' et 'Word2Vec' :", word_vectors.similarity('Gensim', 'Word2Vec'))


Similarité entre 'Gensim' et 'Word2Vec' : 0.04526207
