# 🧠 Notebook : Entraînement du Modèle LP (TF-IDF + Logistic Regression)

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
import joblib

# 📥 Charger les données nettoyées
df = pd.read_csv("../data/train_clean.csv")
print("Colonnes :", df.columns)

# 🧠 Séparer les données
X_train, X_test, y_train, y_test = train_test_split(df["text_clean"], df["toxic"], test_size=0.2, random_state=42)

# 🔤 Vectorisation TF-IDF
vectorizer = TfidfVectorizer(max_features=5000)
X_train_vect = vectorizer.fit_transform(X_train)
X_test_vect = vectorizer.transform(X_test)

# 🔍 Modèle : Régression Logistique
model = LogisticRegression(max_iter=200)
model.fit(X_train_vect, y_train)

# 📊 Évaluation
y_pred = model.predict(X_test_vect)
print(classification_report(y_test, y_pred))

# 💾 Sauvegarder le modèle et le vecteur
joblib.dump(model, "../models/model_LP.pkl")
joblib.dump(vectorizer, "../models/vectorizer_LP.pkl")
print("✅ Modèle LP sauvegardé avec succès.")

Colonnes : Index(['text_clean', 'toxic'], dtype='object')
              precision    recall  f1-score   support

           0       0.95      0.89      0.92      7036
           1       0.90      0.96      0.93      6996

    accuracy                           0.93     14032
   macro avg       0.93      0.93      0.93     14032
weighted avg       0.93      0.93      0.93     14032

✅ Modèle LP sauvegardé avec succès.
