TP - word embedding 

# Partie I - Utiliser un modèle existant

I. Utiliser un modèle Word2Vec pré-entraîné

a) Télécharger le modèle word2vec-google-news-300

In [None]:
import gensim.downloader as api

model = api.load('word2vec-google-news-300')
print("Modèle chargé avec succès.")




b) Vérifier si ton prénom est dans le vocabulaire

In [None]:
prenom = "priscille"
print(prenom in model.key_to_index) 


c) Trouver le mot le plus similaire à ton prénom

In [None]:
if prenom in model.key_to_index:
    similar = model.most_similar(prenom, topn=1)
    print(f"Mot le plus similaire à {prenom} : {similar}")
else:
    print(f"{prenom} n'existe pas dans le vocabulaire.")


d) Vérifier la similarité entre "computer" et "software"

In [None]:
similarite = model.similarity("computer", "software")
print(f"Similarité entre 'computer' et 'software' : {similarite:.4f}")


e) Trouver les 5 mots les plus similaires à "computer"

In [None]:
similar_words = model.most_similar("computer", topn=5)
print("5 mots les plus similaires à 'computer' :")
for word, score in similar_words:
    print(f"{word}: {score:.4f}")


f) Trouver l'intrus parmi ["computer", "software", "intelligence", "engineering"]

In [None]:
intrus = model.doesnt_match(["computer", "software", "intelligence", "engineering"])
print(f"Intrus dans la liste : {intrus}")


g) Opérations sémantiques

In [None]:
# 1. Monnaie indienne
print(model.most_similar(positive=['india', 'currency'], topn=1))

# 2. Participe passé de "buy"
print(model.most_similar(positive=['buy'], topn=1))

# 3. Capitale du Chili
print(model.most_similar(positive=['chile', 'capital'], topn=1))

# 4. Nom de famille du président chinois
print(model.most_similar(positive=['china', 'president'], topn=1))

# 5. Femelle du cheval
print(model.most_similar(positive=['horse', 'female'], negative=['male'], topn=1))


 # II. Entraîner ton propre modèle Word2Vec

 a) Télécharger la page Wikipédia « Computer Science »

In [None]:
import requests

url = "https://en.wikipedia.org/wiki/Computer"
response = requests.get(url)

wiki_html = response.text
print("Page Wikipédia téléchargée.")


 b) Parser avec BeautifulSoup

In [None]:
from bs4 import BeautifulSoup

# Parser
soup = BeautifulSoup(wiki_html, 'lxml')
print("Page Wikipédia parsée avec succès.")


c) Extraire tous les paragraphes (<p>)

In [None]:
paragraphes = soup.find_all('p')

texte_wikipedia = " ".join([p.get_text() for p in paragraphes])

print("Texte brut extrait.")
print(texte_wikipedia[:500])  # Afficher un extrait pour vérifier


d) Comparer le texte

e) Segmenter en phrases puis en mots

In [None]:
import nltk
nltk.download('punkt')


phrases = nltk.sent_tokenize(texte_wikipedia)

mots_tokenises = [nltk.word_tokenize(phrase.lower()) for phrase in phrases]
print("Texte segmenté en phrases et mots.")

f) Enlever les mots non porteurs de sens (stopwords)

In [None]:
nltk.download('stopwords')
from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))

mots_nettoyes = []
for phrase in mots_tokenises:
    mots_filtres = [mot for mot in phrase if mot.isalpha() and mot not in stop_words]
    mots_nettoyes.append(mots_filtres)

print("Stopwords supprimés.")


g) Entraîner ton modèle Word2Vec

In [None]:
from gensim.models import Word2Vec

model_wiki = Word2Vec(sentences=mots_nettoyes, vector_size=100, window=5, min_count=2, workers=4)
print("Modèle Word2Vec entraîné sur la page Wikipedia.")


h) Tester ton modèle (Exemples demandés)

5 mots les plus similaires à "computer"

In [None]:
print(model_wiki.wv.most_similar("computer", topn=5))

Similarité entre "computer" et "software"

In [None]:
similarite_custom = model_wiki.wv.similarity("computer", "software")
print(f"Similarité 'computer' vs 'software' (modèle personnel) : {similarite_custom:.4f}")


i) Comparaison avec modèle pré-entraîné :

    Regarde la différence :

        Le modèle pré-entraîné est plus général, car formé sur des milliards de mots.

        Ton modèle personnalisé est plus spécifique au contexte "computer".