In [1]:
import pandas as pd
import numpy as np
import gensim
from gensim.models import Word2Vec
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import LabelEncoder
from nltk.tokenize import word_tokenize
import re
import nltk
import joblib

In [4]:
# Fonction de pr√©traitement du texte
def preprocess_text(text):
    text = text.lower()  # Convertir en minuscule
    text = re.sub(r'http\S+', '', text)  # Supprimer les liens
    text = re.sub(r'@\w+', '', text)  # Supprimer les mentions
    text = re.sub(r'[^a-zA-Z\s]', '', text)  # Supprimer les caract√®res non-alphab√©tiques
    return text

# Charger le dataset CSV
df = pd.read_csv('dataset/phrases_emojis.csv')  # Remplacez par le chemin de votre fichier CSV

# Pr√©traiter les tweets
df['tweet_processed'] = df['Phrase'].apply(preprocess_text)

In [9]:
# Tokenisation des tweets
tokenized_tweets = [word_tokenize(tweet) for tweet in df['tweet_processed']]

# Entra√Æner un mod√®le Word2Vec
model = Word2Vec(sentences=tokenized_tweets, window=5, min_count=1, sg=0)

# Sauvegarder le mod√®le
model.save("models/word2vec_model_twitter.model")
print("Mod√®le sauvegard√©.")

Mod√®le sauvegard√©.


In [12]:
# Fonction pour obtenir l'embedding moyen d'un tweet
def get_tweet_embedding(tweet, model):
    tokens = word_tokenize(preprocess_text(tweet))  # Tokenisation
    embeddings = []
    
    for word in tokens:
        if word in model.wv:
            embeddings.append(model.wv[word])
    
    if embeddings:
        return np.mean(embeddings, axis=0)  # Renvoie l'embedding moyen
    else:
        return np.zeros(model.vector_size)  # Si aucun mot trouv√© dans le mod√®le, renvoie un vecteur nul

# Extraire les embeddings des tweets
X = np.array([get_tweet_embedding(tweet, model) for tweet in df['Phrase']])

# Encoder les emojis en labels num√©riques
encoder = LabelEncoder()
df['emoji_label'] = encoder.fit_transform(df['Emojis'])

# D√©finir les labels (y) et les caract√©ristiques (X)
y = df['emoji_label'].values

# Diviser les donn√©es en ensemble d'entra√Ænement et de test
X_train, X_test, y_train, y_test, train_indices, test_indices = train_test_split(
    X, y, np.arange(len(df)), test_size=0.2, random_state=42)

# Entra√Æner un mod√®le de classification (RandomForest ici, mais vous pouvez essayer d'autres mod√®les)
clf = RandomForestClassifier(n_estimators=100)
clf.fit(X_train, y_train)


In [14]:
# Pr√©diction sur l'ensemble de test
y_pred = clf.predict(X_test)

# √âvaluation de la pr√©cision du mod√®le
accuracy = accuracy_score(y_test, y_pred)
print(f"Pr√©cision du mod√®le : {accuracy * 100:.2f}%")

# Afficher des emojis pr√©dits pour quelques exemples
predicted_emojis = encoder.inverse_transform(y_pred)

# R√©cup√©rer les tweets et emojis r√©els correspondants aux indices de l'ensemble de test
tweets_predicted = df.iloc[test_indices]['Phrase']
emojis_real = df.iloc[test_indices]['Emojis']

# Afficher les r√©sultats : tweet, emoji r√©el et emoji pr√©dit
for tweet, emoji_real, emoji_pred in zip(tweets_predicted.head(30), emojis_real.head(30), predicted_emojis[:30]):
    print(f"Tweet: {tweet}\nEmoji r√©el: {emoji_real}\nEmoji pr√©dit: {emoji_pred}\n")


Pr√©cision du mod√®le : 54.92%
Tweet: Apr√®s avoir progressivement reculer l'heure de mon r√©veil‚è∞ pour m'y habituer pas √† pas, je me l√®ve tous les jours √† 5h30  .
Emoji r√©el: ‚úÖüï†
Emoji pr√©dit: ‚úÖüï†

Tweet: Ah et j'ai aussi peur de ne pas comprendre un mot important dans la question  √ßa m'a arriv√© au bac blanc pour l'essai philosophique rip
Emoji r√©el: üëç
Emoji pr√©dit: üòÆüí®

Tweet: Est ce qu‚Äôil est possible de faire quelque chose de plus? Est-ce possible d‚Äô√™tre de faire de la d√©sensibilisation? Des conseils?
Emoji r√©el: üò≠
Emoji pr√©dit: üò∑

Tweet: Bonjour
Emoji r√©el: üëãüèª
Emoji pr√©dit: üëã

Tweet: Bonne soir√©e redditeurs / redditrices.
Emoji r√©el: ‚ù§Ô∏è
Emoji pr√©dit: ‚ù§Ô∏è

Tweet: Merci d‚Äôavance pour votre aide !  (merci de me mentionner lors de vos r√©ponse !)
Emoji r√©el: üôèüî•
Emoji pr√©dit: üôèüî•

Tweet: question concernant ma merguez bleue
Emoji r√©el: üòÇ
Emoji pr√©dit: üòÖ

Tweet: (Potentiellement un dernier √©dit √† veni