In [2]:
import spacy
import numpy as np
from gensim.models import Word2Vec
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# Charger le modèle spaCy pour le prétraitement du texte
nlp = spacy.load("en_core_web_sm")


import os

# Fonction pour charger les revues à partir d'un dossier
def load_reviews_from_folder(folder_path):
    reviews = []
    for filename in os.listdir(folder_path):
        filepath = os.path.join(folder_path, filename)
        with open(filepath, 'r', encoding='utf-8') as file:
            review = file.read()
            reviews.append(review)
    return reviews

# Chemin vers les dossiers de revues positives et négatives
positive_folder = "C:/Users/guilts0300/Documents/APT/3A IODAA/ONTO-TAL/tuto_TAL-main/notebooks/ressources/movies/movies1000/pos"
negative_folder = "C:/Users/guilts0300/Documents/APT/3A IODAA/ONTO-TAL/tuto_TAL-main/notebooks/ressources/movies/movies1000/neg"


# Charger les revues positives et négatives
positive_reviews = load_reviews_from_folder(positive_folder)
negative_reviews = load_reviews_from_folder(negative_folder)

# Définir la fonction de prétraitement du texte avec spaCy
def preprocess_text(text):
    doc = nlp(text)
    tokens = [token.lemma_ for token in doc if not token.is_stop]
    return tokens

# Appliquer le prétraitement aux données
positive_reviews = [preprocess_text(review) for review in positive_reviews]
negative_reviews = [preprocess_text(review) for review in negative_reviews]



# Entraîner le modèle Word2Vec sur les données positives et négatives
model = Word2Vec(positive_reviews + negative_reviews, vector_size=100, window=5, min_count=1, workers=4)

# Définir la fonction d'agrégation naïve (moyenne des vecteurs de mots)
def average_word_vectors(words, model, vocabulary, num_features):
    feature_vector = np.zeros((num_features,), dtype="float64")
    nwords = 0.

    for word in words:
        if word in vocabulary:
            nwords = nwords + 1.
            feature_vector = np.add(feature_vector, model.wv[word])

    if nwords:
        feature_vector = np.divide(feature_vector, nwords)

    return feature_vector

# Définir la fonction pour obtenir les vecteurs de documents
def get_document_vectors(docs, model, vocabulary, num_features):
    documents = [average_word_vectors(doc, model, vocabulary, num_features) for doc in docs]
    return np.array(documents)

# Diviser les données en ensembles d'entraînement et de test
X = get_document_vectors(positive_reviews + negative_reviews, model, model.wv.index_to_key, 100)
y = [1] * len(positive_reviews) + [0] * len(negative_reviews)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entraîner un classificateur SVM
svm_classifier = SVC(kernel='linear')
svm_classifier.fit(X_train, y_train)

# Faire des prédictions sur les données de test
predictions = svm_classifier.predict(X_test)

# Évaluer les performances du modèle
accuracy = accuracy_score(y_test, predictions)
print(f"Accuracy: {accuracy}")


Accuracy: 0.615
