In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Charger les données depuis le fichier CSV (remplacez 'nom_du_fichier.csv' par le nom réel de votre fichier CSV)
df = pd.read_csv('songs _data.csv')

# Séparation des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(df['Lyrics'], df['Dialect'], test_size=0.2, random_state=42)

# Création d'un vecteur de caractéristiques TF-IDF
tfidf_vectorizer = TfidfVectorizer(max_features=5000)  # Vous pouvez ajuster le nombre maximal de caractéristiques
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

# Initialisation du modèle SVM
svm_model = SVC(kernel='linear', C=1.0, random_state=42)

# Entraînement du modèle SVM
svm_model.fit(X_train_tfidf, y_train)

# Prédictions sur l'ensemble de test
svm_predictions = svm_model.predict(X_test_tfidf)

# Évaluation du modèle
accuracy = accuracy_score(y_test, svm_predictions)
print(f'Accuracy: {accuracy * 100:.2f}%')

# Affichage du rapport de classification
print(classification_report(y_test, svm_predictions))

# Affichage de la matrice de confusion
conf_matrix = confusion_matrix(y_test, svm_predictions)
print('Confusion Matrix:')
print(conf_matrix)


Accuracy: 86.43%
              precision    recall  f1-score   support

           0       0.84      0.81      0.82        72
           1       0.86      0.75      0.80        24
           2       0.88      0.93      0.91       103

    accuracy                           0.86       199
   macro avg       0.86      0.83      0.84       199
weighted avg       0.86      0.86      0.86       199

Confusion Matrix:
[[58  2 12]
 [ 5 18  1]
 [ 6  1 96]]
