# Notebook Word2Vec
Rédiger un notebook complet sur les plongements Word2Vec :
- Explications du principe du Word2Vec
- Applications sur le jeu de données de votre choix
- Une fois, le plongement fait, faire un TSNE sous les mots plongés, et afficher sur un plot quelques mots (des opposés et des synonymes)

Word2Vec est une technique utilisée dans le traitement du langage naturel ou NLP pour représenter des mots en tant que vecteur. Ces vecteurs récupèrent le sens et le contexte d'un mot.
# Idée principale
- Word2Vec prend un grand nombre de données (corpus) en entrée.
- Il crée ensuite un espace vectoriel dans lequel on assigne un vecteur unique avec un nombre spécifique de dimensions (des centaines) à chaque mot unique.
- La clé est que chacun de ces vecteurs encode les similarités sémantiques et les relations entre les mots. Les mots avec un sens similaire auront des vecteurs similaires dans l'espace.
# Apprentissage des intégrations
Word2Vec utilise deux architectures principales pour entrainer le modèle et créé ces intégrations de mot :
1. **Le Bag-Of-Word continu** :
    - Ce modèle prédit un mot (mot cible) basé sur les mots du contexte environnant (une fenêtre de mot avant et après).
    - En essayant de prédire le mot cible basé sur le contexte, le modèle apprend les relations sémantiques entre les mots.
2. **Skip-gram** :
    - Le modèle marche dans le sens opposé. Il prédit les mots du contexte environnants en se basant sur un seul mot en entrée.
    - Encore, grâce à cette prédiction, le modèle capture les similarités sémantiques entre les mots.
# Les benefices de la représentation Word2Vec
- **Capture des relations sémantiques** : Les mots avec un sens similaire auront des vecteurs proches dans l'espace vectoriel. Cela permet de trouver des synonymes ou suggérer des mots en rapport. 
- **Reduction de la complexité** : Les vecteurs sont bien plus efficaces que de représenter les mots avec de l'encodage one-hot.

# Application sur un jeu de données

## Commençons avec une tokenization d'un texte simple

1. **Tout d'abord, on importe la bibliothèque NLTK :**

In [2]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

2. **Ensuite, on charge le texte que l'on veut :**

In [3]:
text = "Ceci est un texte de demonstration des fonctionnalités de NLTK."

3. **On effectue la tokenisation :**

In [4]:
tokens = nltk.word_tokenize(text)
print(f"Tokens : {tokens}")

Tokens : ['Ceci', 'est', 'un', 'texte', 'de', 'demonstration', 'des', 'fonctionnalités', 'de', 'NLTK', '.']


4. **Suppression des mots vides :**

In [5]:
stopwords = nltk.corpus.stopwords.words("french")
filtered_tokens = [token for token in tokens if token not in stopwords]
print(f"Avec les mots vides retirés : {filtered_tokens}")

Avec les mots vides retirés : ['Ceci', 'texte', 'demonstration', 'fonctionnalités', 'NLTK', '.']


5. **Marquage des mots avec leur grammaire :**

In [6]:
pos_tags = nltk.pos_tag(filtered_tokens)
print(f"Grammaire des mots : {pos_tags}")

Grammaire des mots : [('Ceci', 'NNP'), ('texte', 'NN'), ('demonstration', 'NN'), ('fonctionnalités', 'NN'), ('NLTK', 'NNP'), ('.', '.')]


6. **Named Entity Recognition :**

In [7]:
entities = nltk.ne_chunk(pos_tags)
print(f"Entities : {entities}")

Entities : (S
  (GPE Ceci/NNP)
  texte/NN
  demonstration/NN
  fonctionnalités/NN
  (ORGANIZATION NLTK/NNP)
  ./.)


## Maintenant avec un texte plus grand

1. **On commence par récupérer le texte d'une page internet :**

In [24]:
from bs4 import BeautifulSoup
import urllib.request

url = "https://en.wikipedia.org/wiki/Dragon_Ball"

response = urllib.request.urlopen(url)

html_text = response.read()

soup = BeautifulSoup(html_text, "html.parser")

tag = soup.find("div", {"id": "mw-content-text"})

text = tag.text

print(text)

Japanese media franchise created by Akira Toriyama
This article is about the media franchise in general. For other uses, see Dragon Ball (disambiguation).


Dragon BallCreated byAkira ToriyamaOriginal workDragon Ball (1984–1995)OwnerBird Studio/ShueishaYears1984–presentPrint publicationsBook(s)Companion booksComicsMangaFilms and televisionFilm(s)List of filmsShort film(s)
Yo! Son Goku and His Friends Return!! (2008)
Episode of Bardock (2011)
Animated series
List of anime
Dragon Ball (1986–1989)
Dragon Ball Z (1989–1996)
Dragon Ball GT (1996–1997)
Dragon Ball Z Kai (2009–2011; 2014–2015)
Dragon Ball Super (2015–2018)
Super Dragon Ball Heroes (2018–present)
Dragon Ball Daima (2024)
Television special(s)
Bardock – The Father of Goku (1990)
The History of Trunks (1993)
A Hero's Legacy (1997)
Direct-to-video
Plan to Eradicate the Saiyans (1993)
Plan to Eradicate the Super Saiyans (2010)
GamesTraditional
Carddass
Dragon Ball Z: The Anime Adventure Game
Dragon Ball Collectible Card Game
Video

2. **Ensuite, on effectue la tokenization :**

In [25]:
tokens = nltk.word_tokenize(text)
print(f"Tokens : {tokens}")

Tokens : ['Japanese', 'media', 'franchise', 'created', 'by', 'Akira', 'Toriyama', 'This', 'article', 'is', 'about', 'the', 'media', 'franchise', 'in', 'general', '.', 'For', 'other', 'uses', ',', 'see', 'Dragon', 'Ball', '(', 'disambiguation', ')', '.', 'Dragon', 'BallCreated', 'byAkira', 'ToriyamaOriginal', 'workDragon', 'Ball', '(', '1984–1995', ')', 'OwnerBird', 'Studio/ShueishaYears1984–presentPrint', 'publicationsBook', '(', 's', ')', 'Companion', 'booksComicsMangaFilms', 'and', 'televisionFilm', '(', 's', ')', 'List', 'of', 'filmsShort', 'film', '(', 's', ')', 'Yo', '!', 'Son', 'Goku', 'and', 'His', 'Friends', 'Return', '!', '!', '(', '2008', ')', 'Episode', 'of', 'Bardock', '(', '2011', ')', 'Animated', 'series', 'List', 'of', 'anime', 'Dragon', 'Ball', '(', '1986–1989', ')', 'Dragon', 'Ball', 'Z', '(', '1989–1996', ')', 'Dragon', 'Ball', 'GT', '(', '1996–1997', ')', 'Dragon', 'Ball', 'Z', 'Kai', '(', '2009–2011', ';', '2014–2015', ')', 'Dragon', 'Ball', 'Super', '(', '2015–2018

3. **On peut donc néttoyer le texte en supprimant les mots vides :**

In [76]:
stopwords = nltk.corpus.stopwords.words("english")
filtered_tokens = [token for token in tokens if token not in stopwords]
print(f"Avec les mots vides retirés : {filtered_tokens}")

Avec les mots vides retirés : ['Japanese', 'media', 'franchise', 'created', 'Akira', 'Toriyama', 'This', 'article', 'media', 'franchise', 'general', '.', 'For', 'uses', ',', 'see', 'Dragon', 'Ball', '(', 'disambiguation', ')', '.', 'Dragon', 'BallCreated', 'byAkira', 'ToriyamaOriginal', 'workDragon', 'Ball', '(', '1984–1995', ')', 'OwnerBird', 'Studio/ShueishaYears1984–presentPrint', 'publicationsBook', '(', ')', 'Companion', 'booksComicsMangaFilms', 'televisionFilm', '(', ')', 'List', 'filmsShort', 'film', '(', ')', 'Yo', '!', 'Son', 'Goku', 'His', 'Friends', 'Return', '!', '!', '(', '2008', ')', 'Episode', 'Bardock', '(', '2011', ')', 'Animated', 'series', 'List', 'anime', 'Dragon', 'Ball', '(', '1986–1989', ')', 'Dragon', 'Ball', 'Z', '(', '1989–1996', ')', 'Dragon', 'Ball', 'GT', '(', '1996–1997', ')', 'Dragon', 'Ball', 'Z', 'Kai', '(', '2009–2011', ';', '2014–2015', ')', 'Dragon', 'Ball', 'Super', '(', '2015–2018', ')', 'Super', 'Dragon', 'Ball', 'Heroes', '(', '2018–present', ')'

4. **Et on associe à chaque mot son analyse lexicale :**

In [27]:
pos_tags = nltk.pos_tag(filtered_tokens)
print(f"Grammaires des mots : {pos_tags}")

Grammaires des mots : [('Japanese', 'JJ'), ('media', 'NNS'), ('franchise', 'RB'), ('created', 'VBN'), ('Akira', 'NNP'), ('Toriyama', 'NNP'), ('This', 'DT'), ('article', 'NN'), ('media', 'NNS'), ('franchise', 'NN'), ('general', 'NN'), ('.', '.'), ('For', 'IN'), ('uses', 'NNS'), (',', ','), ('see', 'VBP'), ('Dragon', 'NNP'), ('Ball', 'NNP'), ('(', '('), ('disambiguation', 'NN'), (')', ')'), ('.', '.'), ('Dragon', 'NNP'), ('BallCreated', 'NNP'), ('byAkira', 'VBD'), ('ToriyamaOriginal', 'NNP'), ('workDragon', 'NN'), ('Ball', 'NNP'), ('(', '('), ('1984–1995', 'CD'), (')', ')'), ('OwnerBird', 'NNP'), ('Studio/ShueishaYears1984–presentPrint', 'NNP'), ('publicationsBook', 'NN'), ('(', '('), (')', ')'), ('Companion', 'NNP'), ('booksComicsMangaFilms', 'NN'), ('televisionFilm', 'NN'), ('(', '('), (')', ')'), ('List', 'NNP'), ('filmsShort', 'NN'), ('film', 'NN'), ('(', '('), (')', ')'), ('Yo', 'NN'), ('!', '.'), ('Son', 'NNP'), ('Goku', 'NNP'), ('His', 'PRP$'), ('Friends', 'NNPS'), ('Return', 'NNP

## Maintenant, on peut continuer avec la représentation en Word2Vec
1. **Pour cela on va utiliser Gensim :**

In [33]:
from gensim.models import Word2Vec
from gensim.test.utils import common_texts

2. **On crée le model :**

In [77]:
a = text.split(".")
a = [b.split(" ") for b in a]
a = [b for b in a if b not in stopwords]
model = Word2Vec(sentences=a, vector_size=100, window=5, min_count=1, workers=4)

3. **On peut maintenant utiliser le model :**

In [78]:
print(model.wv.key_to_index)
# common_texts

{'': 0, 'the': 1, 'Ball': 2, 'of': 3, 'Dragon': 4, 'and': 5, 'on': 6, 'from': 7, '\n\n^': 8, 'in': 9, 'original': 10, 'Archived': 11, 'Retrieved': 12, 'a': 13, 'to': 14, 'September': 15, 'as': 16, 'The': 17, '3,': 18, '2020': 19, 'was': 20, 'with': 21, 'by': 22, 'Z': 23, 'series': 24, 'that': 25, 'Anime': 26, 'is': 27, 'for': 28, 'January': 29, '2013': 30, '"Dragon': 31, 'manga': 32, '2019': 33, '2008': 34, 'December': 35, 'Super': 36, '(in': 37, 'News': 38, 'also': 39, 'anime': 40, 'June': 41, 'May': 42, 'July': 43, 'Goku': 44, 'it': 45, 'Japanese)': 46, 'Network': 47, 'were': 48, 'Toriyama': 49, 'Shueisha': 50, 'April': 51, 'March': 52, 'first': 53, 'an': 54, 'August': 55, 'February': 56, '2016': 57, 'Ball:': 58, 'b': 59, 'has': 60, '2018': 61, 'have': 62, 'Japan': 63, 'November': 64, 'his': 65, 'its': 66, 'released': 67, '2022': 68, '7,': 69, 'October': 70, 'been': 71, 'which': 72, 'In': 73, 'Jump': 74, 'he': 75, 'at': 76, '10,': 77, 'more': 78, '2021': 79, 'had': 80, 'com': 81, '20

In [82]:
print(model.wv.most_similar("art"))

[('also', 0.9748021960258484), ('for', 0.9746712446212769), ('Toriyama', 0.973855197429657), ('\n\n^', 0.9738457798957825), ('with', 0.973726749420166), ('Super', 0.973697304725647), ('Jump', 0.9735428690910339), ('and', 0.9734803438186646), ('Ball', 0.9734467267990112), ('to', 0.9733799695968628)]
