In [8]:
!pip install -r requirements.txt



In [9]:
import pandas as pd
import re
import nltk
from nltk.corpus import stopwords
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split
from datasets import load_dataset

### Prétraitement des Données

* Nous commençons par charger les données depuis un fichier CSV et afficher les informations sur les sentiments pour comprendre la structure des données.
* Ensuite, nous définissons une fonction de prétraitement pour nettoyer les tweets en enlevant les caractères spéciaux, les URLs, les mentions et les hashtags, et en supprimant les stopwords.


In [10]:

#dataset = pd.read_csv("C:/Users/flavi/Downloads/fifa_world_cup_2022_tweets.csv")

# Charger le dataset
dataset = load_dataset("Tirendaz/fifa-world-cup-2022-tweets")

tweets = dataset['train']['Tweet']
sentiments = dataset['train']['Sentiment']

# Créer un DataFrame avec les deux listes
dataset = pd.DataFrame({
    'Tweet': tweets,
    'Sentiment': sentiments
})
# Afficher des informations sur le dataset pour voir sa structure
print(dataset['Sentiment'])

# Télécharger les stopwords de NLTK si nécessaire
nltk.download('stopwords')
stop_words = set(stopwords.words('english'))

# Fonction pour prétraiter les tweets
def preprocess_tweet(tweet):
    # Remplacer les retours à la ligne par des espaces
    tweet = re.sub(r'\n', ' ', tweet)
    # Remplacer les retours chariots par des espaces
    tweet = re.sub(r'\r', ' ', tweet)
    # Enlever les URLs
    tweet = re.sub(r'http\S+|www\S+', '', tweet)
    # Enlever les mentions
    tweet = re.sub(r'@\w+', '', tweet)
    # Enlever les hashtags
    tweet = re.sub(r'#\w+', '', tweet)
    # Enlever les caractères spéciaux en gardant seulement les alphanumériques et les espaces
    tweet = ''.join([char for char in tweet if char.isalnum() or char.isspace()])
    # Convertir en minuscules
    tweet = tweet.lower()
    # Enlever les stopwords
    tweet = ' '.join([word for word in tweet.split() if word not in stop_words])
    return tweet

# Appliquer le prétraitement à chaque tweet
tweets_df = dataset['Tweet'].apply(preprocess_tweet)

# Afficher les tweets prétraités
print(tweets_df)

0         neutral
1        positive
2        positive
3        positive
4        negative
           ...   
22519    positive
22520     neutral
22521    positive
22522    positive
22523     neutral
Name: Sentiment, Length: 22524, dtype: object


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\cypri\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


0                                           drinking today
1        amazing launch video shows much face canada me...
2                                   worth reading watching
3                            golden maknae shinning bright
4        bbc cares much human rights homosexual rights ...
                               ...                        
22519                                    go world cup 2022
22520    anderlecht confirms former viborg ffs jesper f...
22521                              great thread read start
22522                         raphinha wants brazil united
22523    buy sot pinksale confused buy tokens pinksale ...
Name: Tweet, Length: 22524, dtype: object


### Tokenisation et Préparation des Séquences

* Nous utilisons Tokenizer de Keras pour transformer les tweets en séquences de tokens. La taille du vocabulaire est augmentée à 10000 mots.
* Les séquences sont ensuite remplies (padding) à une longueur fixe de 120 tokens.

In [11]:
# Tokenisation : Transformer les tweets en séquences de tokens
tokenizer = Tokenizer(num_words=10000)  
tokenizer.fit_on_texts(tweets_df)
X = tokenizer.texts_to_sequences(tweets_df)

# Padding des séquences : Normaliser les séquences à une longueur fixe
X = pad_sequences(X, maxlen=120)  # Augmentation de la longueur maximale des séquences

# Convertir les labels de sentiment en valeurs numériques
dataset['Sentiment'] = dataset['Sentiment'].map({'negative': 0, 'neutral': 1, 'positive': 2})
y = dataset['Sentiment'].values

### Définition et Entraînement du Modèle LSTM

* Nous définissons un modèle LSTM bidirectionnel avec des couches de dropout pour régulariser les données et éviter le surapprentissage.
* Le modèle est compilé avec la perte sparse_categorical_crossentropy et l'optimiseur Adam.
* Nous entraînons le modèle sur les données d'entraînement et validons sur les données de test.

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout, SpatialDropout1D, Bidirectional
from tensorflow.keras.optimizers import Adam

# Définition de la classe pour le modèle LSTM personnalisé
class CustomLSTMModel:
    def __init__(self, vocab_size, embedding_dim, input_length, hidden_dim, output_size):
        # Initialiser le modèle séquentiel
        self.model = Sequential()
        # Ajouter une couche d'embedding
        self.model.add(Embedding(input_dim=vocab_size, output_dim=embedding_dim, input_length=input_length))
        # Ajouter un SpatialDropout pour régulariser les embeddings
        self.model.add(SpatialDropout1D(0.3)) 
        # Ajouter une couche LSTM bidirectionnelle avec dropout
        self.model.add(Bidirectional(LSTM(hidden_dim, return_sequences=True, dropout=0.3, recurrent_dropout=0.3)))
        # Ajouter une couche LSTM avec dropout
        self.model.add(LSTM(hidden_dim, dropout=0.3, recurrent_dropout=0.3))
        # Ajouter une couche dense avec activation softmax pour la classification
        self.model.add(Dense(output_size, activation='softmax'))
        
        # Compiler le modèle avec la perte 'sparse_categorical_crossentropy' et l'optimiseur Adam
        self.model.compile(loss='sparse_categorical_crossentropy', optimizer=Adam(learning_rate=0.001), metrics=['accuracy'])

    # Fonction pour entraîner le modèle
    def fit(self, X_train, y_train, validation_data, epochs=10, batch_size=64):  # Augmentation des époques
        history = self.model.fit(X_train, y_train, epochs=epochs, batch_size=batch_size, validation_data=validation_data, verbose=1)
        return history

    # Fonction pour évaluer le modèle
    def evaluate(self, X_test, y_test):
        loss, accuracy = self.model.evaluate(X_test, y_test, verbose=1)
        return loss, accuracy

    # Fonction pour prédire les classes des nouvelles données
    def predict(self, X_test):
        return self.model.predict(X_test)

# Assurer que les données sont sous forme de tableau numpy
X = np.array(X)
y = np.array(y)

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Initialiser et entraîner le modèle LSTM personnalisé
vocab_size = 10000  # Taille du vocabulaire ajustée
embedding_dim = 128
input_length = 120
hidden_dim = 128  # Augmentation de la dimension cachée
output_size = 3  # Pour trois classes : négatif, neutre, positif

custom_lstm_model = CustomLSTMModel(vocab_size, embedding_dim, input_length, hidden_dim, output_size)
custom_lstm_model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=10, batch_size=64)


### Évaluation et Prédiction

* Nous évaluons le modèle sur les données de test pour obtenir la perte et la précision.
* Nous prédisons les sentiments des tweets de test et affichons un rapport de classification pour évaluer les performances du modèle.
* Pour comparaison, nous entraînons également un modèle de régression logistique et comparons ses performances avec le modèle LSTM.

In [None]:
from sklearn.metrics import classification_report, accuracy_score

# Évaluer le modèle
loss, accuracy = custom_lstm_model.evaluate(X_test, y_test)
print(f'Test Loss: {loss} | Test Accuracy: {accuracy}')

# Prédire et imprimer le rapport de classification
y_pred = np.argmax(custom_lstm_model.predict(X_test), axis=-1)
print("Classification Report:")
print(classification_report(y_test, y_pred, target_names=['negative', 'neutral', 'positive']))

# Modèle de régression logistique pour comparaison
from sklearn.linear_model import LogisticRegression

# Entraîner le modèle de régression logistique
logistic_model = LogisticRegression(max_iter=1000)
logistic_model.fit(X_train, y_train)

# Prédire et évaluer
y_pred_logistic = logistic_model.predict(X_test)
print("Logistic Regression Accuracy:", accuracy_score(y_test, y_pred_logistic))
print(classification_report(y_test, y_pred_logistic, target_names=['negative', 'neutral', 'positive']))
