# 1. Importation des Bibliothèques

In [1]:
#import tensorflow as tf
from transformers import TFBertModel, BertTokenizer
import pandas as pd
from sklearn.model_selection import train_test_split

2023-12-30 19:44:14.823519: I tensorflow/core/util/port.cc:113] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2023-12-30 19:44:14.844052: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-30 19:44:14.844072: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-30 19:44:14.844609: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2023-12-30 19:44:14.848300: I tensorflow/core/platform/cpu_feature_guar

# 2.Fonctions d'augmentation des Données

Préparer un ensemble de données pour l'entraînement en ayant un nombre équilibré d'exemples de qualité 'mauvaise' et 'bonne'.
Augmenter l'ensemble de données pour améliorer la capacité de généralisation du modèle et pour empêcher le surajustement.

In [2]:
import random

BAD, GOOD = 0, 1

def group_by(value_key_list, groups):
    return [[value for value, key in value_key_list if key == group] for group in groups]

def augment_dataset(dataset, factor = 10):
    num_examples = len(dataset) * factor
    bad_snippets, good_snippets = group_by(dataset, [BAD, GOOD])
    half_examples = num_examples // 2
    bad, good = [], []
    for _ in range(half_examples):
        # Generate 'bad' examples
        num_bad = random.randint(1, 3)  # At least one bad snippet
        num_good = random.randint(0, 2)  # Random number of good snippets
        snippets = random.choices(bad_snippets, k=num_bad) + random.choices(good_snippets, k=num_good)
        random.shuffle(snippets)
        bad.append("\n".join(snippets))

    for _ in range(half_examples, num_examples):
        # Generate 'good' examples
        num_snippets = random.randint(1, 4)
        snippets = random.choices(good_snippets, k=num_snippets)
        good.append("\n".join(snippets))

    new_dataset = [[code, BAD] for code in bad] + [[code, GOOD] for code in good]

    return dataset + new_dataset

# 3.Chargement des Données

Charger efficacement les données à partir d'un fichier de stockage externe dans la mémoire de travail pour le traitement ultérieur.
Structurer les données de manière à ce qu'elles soient prêtes pour une utilisation directe dans les étapes d'entraînement
et de validation du modèle.

In [3]:
# Load data
file_path = 'GoodBadVariableNames_JS.json'
data = pd.read_json(file_path)

bad, good = data['bad'].tolist(), data['good'].tolist()
dataset = [[code, BAD] for code in bad] + [[code, GOOD] for code in good]


# 4.  Division et Augmentation des Données

Réaliser une division standard des données pour l'apprentissage supervisé, 
en s'assurant que le modèle est évalué sur des données non vues pendant l'entraînement.
Augmenter les ensembles d'entraînement et de test pour éviter le surajustement et améliorer la généralisation du modèle.
Préparer les ensembles de données de manière à ce que les caractéristiques et les étiquettes soient facilement accessibles pour l'entraînement et les évaluations du modèle.

In [4]:
train, test = train_test_split(dataset, test_size=0.1)
train, test = [augment_dataset(dataset) for dataset in (train, test)]
(X_train, y_train), (X_test, y_test) = ((list(x) for x in zip(*dataset)) for dataset in (train, test))


# 5. Préparation du Modèle

Charger et préparer le tokenizer et le modèle pour le traitement des données textuelles spécifiques au code.
Créer une structure de données personnalisée qui sera compatible avec les outils de PyTorch pour l'entraînement du modèle.

In [5]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
from torch.utils.data import Dataset, DataLoader

tokenizer = AutoTokenizer.from_pretrained("microsoft/codebert-base")
model = AutoModelForSequenceClassification.from_pretrained("microsoft/codebert-base", num_labels=2)


class CodeDataset(Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx])
        return item

    def __len__(self):
        return len(self.labels)

encodings = tokenizer(X_train, truncation=True, padding=True)
dataset = CodeDataset(encodings, y_train)


Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at microsoft/codebert-base and are newly initialized: ['classifier.out_proj.weight', 'classifier.dense.weight', 'classifier.dense.bias', 'classifier.out_proj.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


# 6.Chargement  des feactures  du modèle  CodeBERT

Les embeddings sont un aspect fondamental du traitement du langage naturel et de l'apprentissage automatique, car ils permettent de représenter des textes en tant que points dans un espace vectoriel. Cela rend possible la comparaison, la classification, et d'autres formes d'analyse sur des données textuelles complexes. Dans le contexte de l'analyse de code, obtenir des embeddings de haute qualité est crucial pour comprendre la structure et le contenu du code, ce qui peut ensuite être appliqué pour détecter des motifs, des anomalies, ou évaluer la qualité du code.

In [6]:
from transformers import AutoModel, AutoTokenizer

def get_codebert_embeddings(texts, tokenizer, model):
    # Tokenize the input texts
    inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt")
    
    # Get the embeddings
    with torch.no_grad():
        outputs = model(**inputs)

    # The embeddings can be taken from the last hidden state of the model
    embeddings = outputs.last_hidden_state
    
    return embeddings


# 7. La boucle d'entraînement

Réaliser l'entraînement du modèle sur les données préparées en ajustant les poids pour minimiser la perte.
Utiliser des paramètres d'entraînement standards pour l'ajustement fin d'un modèle pré-entraîné dans un cadre de classification de séquences.

In [7]:
# Define training parameters
loader = DataLoader(dataset, batch_size=16, shuffle=True)
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-5)
from tqdm import tqdm

# Training loop
for epoch in range(1):
    for batch in tqdm(loader):
        optimizer.zero_grad()
        input_ids = batch['input_ids']
        attention_mask = batch['attention_mask']
        labels = batch['labels']
        outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss
        loss.backward()
        optimizer.step()


100%|██████████| 359/359 [36:18<00:00,  6.07s/it]


# 8. Évaluation du Modèle

Évaluer le modèle sur un ensemble de données de validation pour déterminer sa performance en termes de précision des prédictions
precision_recall_fscore_support calcule la précision, le rappel, et le score F1 pour les prédictions binaires (bon ou mauvais code).
accuracy_score calcule l'exactitude globale des prédictions.

In [10]:
from sklearn.metrics import accuracy_score, precision_recall_fscore_support

val_encodings = tokenizer(X_test, truncation=True, padding=True)
val_dataset = CodeDataset(val_encodings, y_test)
val_loader = DataLoader(val_dataset, batch_size=16, shuffle=True)

def evaluate(model, val_loader):
    model.eval()
    predictions, true_labels = [], []
    with torch.no_grad():
        for batch in tqdm(val_loader):
            input_ids = batch['input_ids']
            attention_mask = batch['attention_mask']
            labels = batch['labels']
            outputs = model(input_ids, attention_mask=attention_mask)
            logits = outputs.logits
            predictions.extend(torch.argmax(logits, dim=1).tolist())
            true_labels.extend(labels.tolist())
    
    precision, recall, f1, _ = precision_recall_fscore_support(true_labels, predictions, average='binary')
    accuracy = accuracy_score(true_labels, predictions)
    return accuracy, precision, recall, f1

# Example evaluation after training
accuracy, precision, recall, f1 = evaluate(model, val_loader)
print(f'Accuracy: {accuracy}, Precision: {precision}, Recall: {recall}, F1: {f1}')


100%|██████████| 40/40 [00:45<00:00,  1.14s/it]

Accuracy: 0.8432601880877743, Precision: 0.9426229508196722, Recall: 0.7278481012658228, F1: 0.8214285714285714





# Prédictions à partir du modèle sur un seul batch de données de validation

Réaliser une inférence rapide sur un petit ensemble de données pour vérifier le comportement du modèle ou pour des démonstrations.
Fournir un moyen simple de tester le modèle avec des données réelles sans avoir à exécuter l'ensemble du processus d'évaluation.

In [11]:
batch = next(iter(val_loader))
input_ids = batch['input_ids']
attention_mask = batch['attention_mask']
outputs = model(input_ids, attention_mask=attention_mask)

 Comment un nouvel exemple de code peut être préparé pour une telle inférence

In [12]:
tokenizer(['var x = 4'], truncation=True, padding=True)['input_ids']

[[0, 10806, 3023, 5457, 204, 2]]

# 9. Un petit test 

In [13]:
def predict_code_quality(model, tokenizer, code_snippet):
    # Tokenize the code snippet
    inputs = tokenizer(code_snippet, return_tensors="pt", truncation=True, padding=True)

    # Run the model
    with torch.no_grad():
        outputs = model(**inputs)
        print(outputs)
        bad, good = outputs.logits[0]
    
    # Interpret the output (0 for bad quality, 1 for good quality)
    quality = "Good Quality" if good > bad else "Bad Quality"
    return quality

# Example usage
for code_snippet in ["let s = new Student();", "let student = new Student();"]:
    quality = predict_code_quality(model, tokenizer, code_snippet)
    print(f"{code_snippet} is: {quality}")


SequenceClassifierOutput(loss=None, logits=tensor([[ 3.3566, -3.5776]]), hidden_states=None, attentions=None)
let s = new Student(); is: Bad Quality
SequenceClassifierOutput(loss=None, logits=tensor([[-1.4207,  0.7625]]), hidden_states=None, attentions=None)
let student = new Student(); is: Good Quality


# 10. Sauvgarde du modèle

In [14]:
torch.save(model.state_dict(), 'tester1.pth')