In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, precision_recall_fscore_support


In [2]:
# Charger les données
file_path = 'GoodBadVariableNames_JS.json'
data = pd.read_json(file_path)

# Fusionner les données 'bonnes' et 'mauvaises' en un seul DataFrame
bad, good = data['bad'].tolist(), data['good'].tolist()
dataset = [[code, 0] for code in bad] + [[code, 1] for code in good]

# Séparer les extraits de code et les étiquettes
X, y = zip(*dataset)

# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)


In [3]:
# Vectoriser les données textuelles avec TF-IDF
vectorizer = TfidfVectorizer()
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)


In [4]:
# Créer le modèle SVM
svm_model = SVC(kernel='linear')  # Vous pouvez expérimenter avec différents noyaux

# Entraîner le modèle SVM
svm_model.fit(X_train_tfidf, y_train)


In [5]:
# Prédire les étiquettes pour l'ensemble de test
y_pred = svm_model.predict(X_test_tfidf)

# Calculer les métriques d'évaluation
accuracy = accuracy_score(y_test, y_pred)
precision, recall, f1, _ = precision_recall_fscore_support(y_test, y_pred, average='binary')

print(f'Accuracy: {accuracy}, Precision: {precision}, Recall: {recall}, F1: {f1}')


Accuracy: 0.6896551724137931, Precision: 0.84, Recall: 0.6, F1: 0.7000000000000001


In [7]:
def tester_modele_svm(model, vectorizer, text):
    # Vectoriser le texte
    text_tfidf = vectorizer.transform([text])

    # Prédire avec le modèle SVM
    prediction = model.predict(text_tfidf)

    # Interpréter la prédiction
    return 'Bon' if prediction[0] == 1 else 'Mauvais'

# Exemple de test
nouvel_extrait = "const x=3;"  # Remplacez ceci avec votre propre extrait
resultat = tester_modele_svm(svm_model, vectorizer, nouvel_extrait)
print(f"Le modèle prédit que cet extrait est: {resultat}")


Le modèle prédit que cet extrait est: Mauvais
