In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LogisticRegression
import pickle

# Charger le fichier CSV
df = pd.read_csv('emotion_dataset_raw.csv')

# Prétraitement des données
texts = df['Text'].values
labels = df['Emotion'].values

# Encodage des étiquettes
label_encoder = LabelEncoder()
labels_encoded = label_encoder.fit_transform(labels)

# Vectorisation du texte
vectorizer = TfidfVectorizer(max_features=10000)  # Ajustez max_features selon vos besoins
X = vectorizer.fit_transform(texts)

# Division des données
X_train, X_test, y_train, y_test = train_test_split(X, labels_encoded, test_size=0.2, random_state=42)

# Entraînement du modèle
model = LogisticRegression(max_iter=1000)  # Augmentez max_iter si nécessaire
model.fit(X_train, y_train)

# Évaluation du modèle (facultatif)
print(f"Model Accuracy: {model.score(X_test, y_test)}")

# Sauvegarder le modèle et les outils de prétraitement
with open('text_emotion.pkl', 'wb') as file:
    pickle.dump({
        'model': model,
        'vectorizer': vectorizer,
        'label_encoder': label_encoder
    }, file)

print("Modèle et outils de prétraitement sauvegardés dans 'text_emotion.pkl'")