In [14]:
import os
import joblib
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import classification_report

# Chemin vers les données et les modèles
data_path = "../Data/processed/df_reviews.csv"
models_path = "../models/classical_m"

# Vérifier si le chemin des modèles existe, sinon le créer
if not os.path.exists(models_path):
    os.makedirs(models_path)

# Charger le dataset
df = pd.read_csv(data_path)

# Vérifier les colonnes du dataset
print(df.head())

# Supposons que le dataset a des colonnes 'text' pour le texte et 'sentiment' pour les labels
# Prétraitement des données (si nécessaire)
# Par exemple, convertir les labels en entiers si ce n'est pas déjà fait
label_mapping = {'negative': 0, 'neutral': 1, 'positive': 2}
df['sentiment'] = df['sentiment'].map(label_mapping)

# Séparer les données en features (X) et labels (y)
X = df['text']
y = df['sentiment']

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Vectoriser les données textuelles en utilisant TF-IDF
vectorizer = TfidfVectorizer(max_features=5000)
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

# Entraîner le modèle SVM
model = SVC(kernel='linear', probability=True)
model.fit(X_train_tfidf, y_train)

# Évaluer le modèle
y_pred = model.predict(X_test_tfidf)
print(classification_report(y_test, y_pred))

# Sauvegarder le vectorizer TF-IDF et le modèle SVM
joblib.dump(vectorizer, os.path.join(models_path, "tfidf_vectorizer.pkl"))
joblib.dump(model, os.path.join(models_path, "svm_moXdel.pkl"))

print("Modèle et vectorizer sauvegardés avec succès.")


  sentiment                                               text  \
0   neutral  decide eat aware going take 2 hour beginning e...   
1  positive  ive taken lot spin class year nothing compare ...   
2   neutral  family diner buffet eclectic assortment large ...   
3  positive  wow yummy different delicious favorite lamb cu...   
4  positive  cute interior owner gave u tour upcoming patio...   

                                              tokens  length  \
0  ['decide', 'eat', 'aware', 'going', 'take', '2...     277   
1  ['ive', 'taken', 'lot', 'spin', 'class', 'year...     540   
2  ['family', 'diner', 'buffet', 'eclectic', 'ass...     260   
3  ['wow', 'yummy', 'different', 'delicious', 'fa...     153   
4  ['cute', 'interior', 'owner', 'gave', 'u', 'to...     380   

                                      processed_text  
0  decide eat aware going take 2 hour beginning e...  
1  ive taken lot spin class year nothing compare ...  
2  family diner buffet eclectic assortment large ... 