# Notebook Word2Vec
Rédiger un notebook complet sur les plongements Word2Vec :
- Explications du principe du Word2Vec
- Applications sur le jeu de données de votre choix
- Une fois, le plongement fait, faire un TSNE sous les mots plongés, et afficher sur un plot quelques mots (des opposés et des synonymes)

Word2Vec est une technique utilisée dans le traitement du langage naturel ou NLP pour représenter des mots en tant que vecteur. Ces vecteurs récupèrent le sens et le contexte d'un mot.
# Idée principale
- Word2Vec prend un grand nombre de données (corpus) en entrée.
- Il crée ensuite un espace vectoriel dans lequel on assigne un vecteur unique avec un nombre spécifique de dimensions (des centaines) à chaque mot unique.
- La clé est que chacun de ces vecteurs encode les similarités sémantiques et les relations entre les mots. Les mots avec un sens similaire auront des vecteurs similaires dans l'espace.
# Apprentissage des intégrations
Word2Vec utilise deux architectures principales pour entrainer le modèle et créé ces intégrations de mot :
1. **Le Bag-Of-Word continu** :
    - Ce modèle prédit un mot (mot cible) basé sur les mots du contexte environnant (une fenêtre de mot avant et après).
    - En essayant de prédire le mot cible basé sur le contexte, le modèle apprend les relations sémantiques entre les mots.
2. **Skip-gram** :
    - Le modèle marche dans le sens opposé. Il prédit les mots du contexte environnants en se basant sur un seul mot en entrée.
    - Encore, grâce à cette prédiction, le modèle capture les similarités sémantiques entre les mots.
# Les benefices de la représentation Word2Vec
- **Capture des relations sémantiques** : Les mots avec un sens similaire auront des vecteurs proches dans l'espace vectoriel. Cela permet de trouver des synonymes ou suggérer des mots en rapport. 
- **Reduction de la complexité** : Les vecteurs sont bien plus efficaces que de représenter les mots avec de l'encodage one-hot.

# Application sur un jeu de données

## Commençons avec une tokenization d'un texte simple

1. **Tout d'abord, on importe la bibliothèque NLTK :**

In [18]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

2. **Ensuite, on charge le texte que l'on veut :**

In [19]:
text = "Ceci est un texte de demonstration des fonctionnalités de NLTK."

3. **On effectue la tokenisation :**

In [20]:
tokens = nltk.word_tokenize(text)
print(f"Tokens : {tokens}")

Tokens : ['Ceci', 'est', 'un', 'texte', 'de', 'demonstration', 'des', 'fonctionnalités', 'de', 'NLTK', '.']


4. **Suppression des mots vides :**

In [21]:
stopwords = nltk.corpus.stopwords.words("french")
filtered_tokens = [token for token in tokens if token not in stopwords]
print(f"Avec les mots vides retirés : {filtered_tokens}")

Avec les mots vides retirés : ['Ceci', 'texte', 'demonstration', 'fonctionnalités', 'NLTK', '.']


5. **Marquage des mots avec leur grammaire :**

In [22]:
pos_tags = nltk.pos_tag(filtered_tokens)
print(f"Grammaire des mots : {pos_tags}")

Grammaire des mots : [('Ceci', 'NNP'), ('texte', 'NN'), ('demonstration', 'NN'), ('fonctionnalités', 'NN'), ('NLTK', 'NNP'), ('.', '.')]


6. **Named Entity Recognition :**

In [23]:
entities = nltk.ne_chunk(pos_tags)
print(f"Entities : {entities}")

Entities : (S
  (GPE Ceci/NNP)
  texte/NN
  demonstration/NN
  fonctionnalités/NN
  (ORGANIZATION NLTK/NNP)
  ./.)


## Maintenant avec un texte plus grand

1. **On commence par récupérer le texte d'une page internet :**

In [25]:
from bs4 import BeautifulSoup
import urllib.request

url = "https://fr.wikipedia.org/wiki/Pont_de_Gueuroz"

response = urllib.request.urlopen(url)

html_text = response.read()

soup = BeautifulSoup(html_text, "html.parser")

tag = soup.find("div", {"id": "mw-content-text"})

text = tag.text

print(text)





Pont de Gueuroz

 Le pont de 1934 au premier plan et le pont moderne le remplaçant.
   

Géographie

Pays

Suisse



Canton

Valais



Commune

Vernayaz



Coordonnées géographiques 46° 07′ 43″ N, 7° 02′ 26″ E 

Fonction

Franchit

Trient



Fonction

Pont routier



Caractéristiques techniques

Type

Pont en arc



Longueur

168,36 m



Hauteur libre

187 m



Matériau(x)

béton



Construction

Construction

1931 à 1934



Concepteur

Alexandre Sarrasin



 

Géolocalisation sur la carte : Suisse





Géolocalisation sur la carte : canton du Valais








modifier 


Le pont de Gueuroz est un pont en arc en béton armé situé en Suisse dans le canton du Valais[1]. Entre 1934 et 1963 il était le pont le plus haut d'Europe.

Histoire[modifier | modifier le code]
Il traverse les gorges du Trient à une hauteur de 187 mètres, entre les communes de Vernayaz et Salvan et relie Salvan à Martigny. Le pont a été construit entre 1931 et 1934 et fut le détenteur pendant 29 ans du record de ha

2. **Ensuite, on effectue la tokenization :**

In [27]:
tokens = nltk.word_tokenize(text)
print(f"Tokens : {tokens}")

Tokens : ['Pont', 'de', 'Gueuroz', 'Le', 'pont', 'de', '1934', 'au', 'premier', 'plan', 'et', 'le', 'pont', 'moderne', 'le', 'remplaçant', '.', 'Géographie', 'Pays', 'Suisse', 'Canton', 'Valais', 'Commune', 'Vernayaz', 'Coordonnées', 'géographiques', '46°', '07′', '43″', 'N', ',', '7°', '02′', '26″', 'E', 'Fonction', 'Franchit', 'Trient', 'Fonction', 'Pont', 'routier', 'Caractéristiques', 'techniques', 'Type', 'Pont', 'en', 'arc', 'Longueur', '168,36', 'm', 'Hauteur', 'libre', '187', 'm', 'Matériau', '(', 'x', ')', 'béton', 'Construction', 'Construction', '1931', 'à', '1934', 'Concepteur', 'Alexandre', 'Sarrasin', 'Géolocalisation', 'sur', 'la', 'carte', ':', 'Suisse', 'Géolocalisation', 'sur', 'la', 'carte', ':', 'canton', 'du', 'Valais', 'modifier', 'Le', 'pont', 'de', 'Gueuroz', 'est', 'un', 'pont', 'en', 'arc', 'en', 'béton', 'armé', 'situé', 'en', 'Suisse', 'dans', 'le', 'canton', 'du', 'Valais', '[', '1', ']', '.', 'Entre', '1934', 'et', '1963', 'il', 'était', 'le', 'pont', 'le',

3. **On peut donc néttoyer le texte en supprimant les mots vides :**

In [28]:
stopwords = nltk.corpus.stopwords.words("french")
filtered_tokens = [token for token in tokens if token not in stopwords]
print(f"Avec les mots vides retirés : {filtered_tokens}")

Avec les mots vides retirés : ['Pont', 'Gueuroz', 'Le', 'pont', '1934', 'premier', 'plan', 'pont', 'moderne', 'remplaçant', '.', 'Géographie', 'Pays', 'Suisse', 'Canton', 'Valais', 'Commune', 'Vernayaz', 'Coordonnées', 'géographiques', '46°', '07′', '43″', 'N', ',', '7°', '02′', '26″', 'E', 'Fonction', 'Franchit', 'Trient', 'Fonction', 'Pont', 'routier', 'Caractéristiques', 'techniques', 'Type', 'Pont', 'arc', 'Longueur', '168,36', 'Hauteur', 'libre', '187', 'Matériau', '(', 'x', ')', 'béton', 'Construction', 'Construction', '1931', '1934', 'Concepteur', 'Alexandre', 'Sarrasin', 'Géolocalisation', 'carte', ':', 'Suisse', 'Géolocalisation', 'carte', ':', 'canton', 'Valais', 'modifier', 'Le', 'pont', 'Gueuroz', 'pont', 'arc', 'béton', 'armé', 'situé', 'Suisse', 'canton', 'Valais', '[', '1', ']', '.', 'Entre', '1934', '1963', 'pont', 'plus', 'haut', "d'Europe", '.', 'Histoire', '[', 'modifier', '|', 'modifier', 'code', ']', 'Il', 'traverse', 'gorges', 'Trient', 'hauteur', '187', 'mètres',

4. **Et on associe à chaque mot son analyse lexicale :**

In [29]:
pos_tags = nltk.pos_tag(filtered_tokens)
print(f"Grammaires des mots : {pos_tags}")

Grammaires des mots : [('Pont', 'NNP'), ('Gueuroz', 'NNP'), ('Le', 'NNP'), ('pont', 'NN'), ('1934', 'CD'), ('premier', 'NN'), ('plan', 'NN'), ('pont', 'VBP'), ('moderne', 'JJ'), ('remplaçant', 'NN'), ('.', '.'), ('Géographie', 'NNP'), ('Pays', 'NNP'), ('Suisse', 'NNP'), ('Canton', 'NNP'), ('Valais', 'NNP'), ('Commune', 'NNP'), ('Vernayaz', 'NNP'), ('Coordonnées', 'NNP'), ('géographiques', 'VBZ'), ('46°', 'CD'), ('07′', 'CD'), ('43″', 'CD'), ('N', 'NNP'), (',', ','), ('7°', 'CD'), ('02′', 'CD'), ('26″', 'CD'), ('E', 'NNP'), ('Fonction', 'NNP'), ('Franchit', 'NNP'), ('Trient', 'NNP'), ('Fonction', 'NNP'), ('Pont', 'NNP'), ('routier', 'JJR'), ('Caractéristiques', 'NNP'), ('techniques', 'NNS'), ('Type', 'NNP'), ('Pont', 'NNP'), ('arc', 'VBD'), ('Longueur', 'NNP'), ('168,36', 'CD'), ('Hauteur', 'NNP'), ('libre', 'VBD'), ('187', 'CD'), ('Matériau', 'NNP'), ('(', '('), ('x', 'NNP'), (')', ')'), ('béton', 'NN'), ('Construction', 'NNP'), ('Construction', 'NN'), ('1931', 'CD'), ('1934', 'CD'), (

## Maintenant, on peut continuer avec la représentation en Word2Vec
1. **Pour cela on va utiliser Gensim :**

In [30]:
from gensim.models import Word2Vec

2. **On crée le model :**

In [54]:
model = Word2Vec(filtered_tokens, min_count=1)

3. **On peut maintenant utiliser le model :**

In [62]:
print(model.wv)

KeyedVectors<vector_size=100, 81 keys>
