# Analyse de sentiments - Word2Vec

Dans ce notebook, on met en place une chaîne de traitement des données textuelles pour l'analyse d'opinions en utilisant Word2Vec avec des stratégies d'agrégation naïves. 

Tout d'abord, on utilise spaCy pour le prétraitement du texte, incluant la tokenisation, la lemmatisation, et la suppression des mots vides. 
Ensuite, on entraîne un modèle Word2Vec sur les revues positives et négatives. Ici, la stratégie d'agrégation naïve choisie consiste à représenter chaque revue par la moyenne des vecteurs de mots qui la composent. 

On utilise ensuite ces vecteurs de documents pour entraîner un classificateur SVM à noyau linéaire, comme dans le notebook précédent, afin de classifier les reviews. Les performances du modèle sont évaluées par l'accuracy, métrique selon moi pertinente pour l'évaluation du modèle en présence de données équilibrées. 

Finalement, le modèle s'avère être pas meilleur que le hasard, ce qui peut notamment s'expliquer par le fait que les stratégies d'aggrégation naïves ne performent pas très bien sur des revues longues.

# I. Chargement des données et des librairies 

In [8]:
# Installation de spaCy et gensim
!pip install spacy gensim



In [1]:
# Importation des librairies nécessaires
import spacy
from spacy.lang.en import STOP_WORDS
from gensim.models import Word2Vec

import os
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report, f1_score
from sklearn.model_selection import GridSearchCV

In [10]:
# Téléchargement du modèle spaCy entraîné pour des textes en anglais 

!python -m spacy download en_core_web_sm

Collecting en-core-web-sm==3.7.1
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1-py3-none-any.whl (12.8 MB)
     ---------------------------------------- 0.0/12.8 MB ? eta -:--:--
     - -------------------------------------- 0.4/12.8 MB 12.2 MB/s eta 0:00:02
     --- ------------------------------------ 1.1/12.8 MB 11.8 MB/s eta 0:00:01
     ---- ----------------------------------- 1.5/12.8 MB 8.6 MB/s eta 0:00:02
     ----- ---------------------------------- 1.8/12.8 MB 9.0 MB/s eta 0:00:02
     ------- -------------------------------- 2.3/12.8 MB 9.1 MB/s eta 0:00:02
     -------- ------------------------------- 2.7/12.8 MB 9.7 MB/s eta 0:00:02
     --------- ------------------------------ 3.1/12.8 MB 9.5 MB/s eta 0:00:02
     ----------- ---------------------------- 3.7/12.8 MB 9.8 MB/s eta 0:00:01
     ------------ --------------------------- 4.1/12.8 MB 9.7 MB/s eta 0:00:01
     ------------- --------------------

/!\ Les chemins des dossiers de revues positives et négatives sont à adapter en fonction des vôtres.

In [10]:
# Chargement des données 

# Chemins des dossiers de revues positives et négatives
positive_path = "C:/Users/guilts0300/Documents/APT/3A IODAA/ONTO-TAL/tuto_TAL-main/notebooks/ressources/movies/movies1000/pos"
negative_path = "C:/Users/guilts0300/Documents/APT/3A IODAA/ONTO-TAL/tuto_TAL-main/notebooks/ressources/movies/movies1000/neg"

# Lecture des fichiers de revues
def load_reviews(folder_path):
    reviews = []
    for filename in os.listdir(folder_path):
        with open(os.path.join(folder_path, filename), 'r', encoding='utf-8') as file:
            reviews.append(file.read())
    return reviews

positive_reviews = load_reviews(positive_path)
negative_reviews = load_reviews(negative_path)

# II. Prétraitements et modélisation

## Fonctions de prétraitement

In [12]:
# Prétraitements des données 
# Utilisation de spaCy pour tokeniser, lemmatiser et supprimer les stop words.

nlp = spacy.load("en_core_web_sm")

# Fonction de prétraitement 
def preprocess_text(text):
    """ 
    Cette fonction preprocess_text prend un texte en entrée, l'analyse avec spaCy, effectue la lemmatisation, 
    et supprime les mots vides.
    """
    doc = nlp(text)
    tokens = [token.lemma_ for token in doc if token.text.lower() not in STOP_WORDS]
    return tokens

# Prétraitement des reviews positives et négatives
processed_positive_reviews = [preprocess_text(review) for review in positive_reviews]
processed_negative_reviews = [preprocess_text(review) for review in negative_reviews]

## Construction du modèle Word2Vec et du classifieur SVM

In [13]:
# Modèle Word2Vec sur les reviews préprocessées
model = Word2Vec(processed_positive_reviews + processed_negative_reviews, vector_size=100, window=5, min_count=1, workers=4)

In [14]:
# Stratégie d'aggrégation naïve : on fait la moyenne des vecteurs de mots pour représenter chaque review.
def average_word_vectors(words, model, vocabulary, num_features):
    """
    Cette fonction prend en entrée une liste de mots, un modèle Word2Vec, le vocabulaire du modèle, 
    et le nombre de caractéristiques du modèle. 
    Elle calcule la moyenne des vecteurs de mots présents dans la liste.
    """
    feature_vector = np.zeros((num_features,), dtype="float64")
    nwords = 0.

    for word in words:
        if word in vocabulary:
            nwords = nwords + 1.
            feature_vector = np.add(feature_vector, model.wv[word])

    if nwords:
        feature_vector = np.divide(feature_vector, nwords)

    return feature_vector

def get_document_vectors(docs, model, vocabulary, num_features):
    """
    Cette fonction la fonction précédente pour obtenir les vecteurs de documents à partir d'une liste de 
    documents.
    """
    documents = [average_word_vectors(doc, model, vocabulary, num_features) for doc in docs]
    return np.array(documents)

In [15]:
# Entrainement et évaluation du modèle

X = get_document_vectors(processed_positive_reviews + processed_negative_reviews, model, model.wv.index_to_key, 100)
# Etiquettes des reviews
y = [1] * len(processed_positive_reviews) + [0] * len(processed_negative_reviews)

# Division du dataset en données d'entrainement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# On utilise les vecteurs de documents pour entraîner un SVM à noyau linéaire (comme dans le premier notebook)
svm_classifier = SVC(kernel='linear')
svm_classifier.fit(X_train, y_train)

# On évalue le modèle par son accuracy
predictions = svm_classifier.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
print(f"Accuracy: {accuracy}")

Accuracy: 0.6225


# III. Conclusion

On  a obtenu une accuracy de 62%, ce qui est 20 points moins performant que l'accuracy du modèle retenu dans le notebook précédent. Comme vu en classe avec le notebook representationLearning (TAL), les stratégies naïves d'aggrégation somme/moyenne ne fonctionnent pas bien sur les avis longs (en particulier avec de nombreux mots fréquents). Cela ajoute beaucoup de bruits.

Au regard de la durée d'exécution des cellules et de l'entraînement du modèle, on décide de ne pas effectuer de GridSearch sur ce modèle utilisant Word2Vec, étant donné qu'il est probable que, même optmisé, il ne soit pas plus performant que le modèle précédent.On aurait pu toutefois faire du GridSearch pour ajuster quelques paramètres de Word2Vec et les expérimenter pour optimiser le modèle, notamment : 

- vector_size : Dimension des vecteurs de mots. Des vecteurs de taille plus grande peuvent capturer des relations plus complexes entre les mots, mais peuvent nécessiter plus de données pour être entraînés correctement.

- window : Définit la taille de la fenêtre de contexte lors de l'apprentissage du modèle. Une fenêtre plus grande peut capturer des relations contextuelles plus larges, mais cela peut être plus coûteux en termes de temps et nécessiter plus de données.

- min_count : Nombre minimum d'occurrences d'un mot pour être pris en compte lors de l'entraînement. Des valeurs plus élevées peuvent aider à éliminer le bruit en ignorant les mots rares, mais cela peut également  exclure des mots importants si l'on fixe le seuil trop haut.

- workers : Nombre de cœurs CPU à utiliser lors de l'entraînement du modèle. Utiliser plusieurs cœurs peut accélérer le processus d'entraînement.

- epochs : Nombre d'époques d'entraînement. Augmenter le nombre d'époques peut permettre au modèle de mieux s'ajuster aux données, mais on peut également à faire du surapprentissage sur le jeu de données d'entraînement.