In [1]:
import nltk
import pandas as pd
import numpy as np
from gensim.models import Word2Vec
from tqdm.notebook import tqdm 

In [2]:
lemmatizer = nltk.stem.WordNetLemmatizer()

def tokenize_and_lemmatize(text):
    pos_lemma = {
        "J": "a",
        "N": "n",
        "V": "v"
    }

    # découpage de la phrase en liste de mots
    tokens = nltk.tokenize.word_tokenize(text)

    # suppression des mots qui ne contiennent pas uniquement des lettres
    tokens = [t for t in tokens if t.isalpha()]

    # part-of-speech tagging de chaque mot, pour déterminer leur catégorie lexicale
    # (noms, adjectifs, etc.)
    tags = nltk.pos_tag(tokens)

    # filtre des mots en fonction de leur catégorie lexicale, et lemmatization
    tokens = [
        lemmatizer.lemmatize(word, pos_lemma[pos[0]])
        for word, pos in tags
        if (pos[:2] == "NN" or pos[:2] == "JJ" or pos[:2] == "VB")
    ]
    
    return tokens

def text_to_sentences(text):
    text = text.lower()

    # découpage du texte en liste de phrases
    input_sentences = nltk.tokenize.sent_tokenize(text)
    output_sentences = []

    # tokenization et lemmatization des mots de chaque phrase, une par une
    for sentence in input_sentences:
        words = tokenize_and_lemmatize(sentence)
        output_sentences.append(words)
    
    return output_sentences

In [3]:
# chargement des articles
df = pd.read_parquet("science/climate/articles.parquet")

## Le principe de word2vec

word2vec "apprend" une représentation vectorielle (spatiale) des mots d'un corpus en entraînant un modèle à accomplir une tâche de prédiction. Ici, la tâche est de prédire les mots entourant un mot donné; par exemple, dans l'expression:

"*climate change simulation*"

Le mot doit apprendre à prédire les mots précédant et suivant "change":

![](output/word2vec_skipgram.png "")