# Projet Traitement de données multidimensionnelles

Le projet vise à créer une intelligence artificielle (IA) utilisant un Large Language Model (LLM) pour catégoriser automatiquement les commentaires sur des séries télévisées. L'approche détaillée pour réaliser ce projet :

1. Choixd'un LLM adéquat
Il y a plusieursmodèles comme BERT, GPT-2 ou GPT-3..., chaque modèle a ses forces spécifiques pour différentes tâches de traitement de langage naturel.
Critères de Sélection : on doit prendre en compte les capacités de traitement de langage du modèle, la facilité d'utilisation, la disponibilité des ressources (comme les modèles pré-entraînés), et les exigences matérielles ( si un GPU est nécessaire), le domaine, la langue.
2. Évaluer les Performances du LLM sur un Ensemble de Test
Préparation des Données : on doit divisez nos 3 corpus en ensembles d''entraînement, de validation et de test.
Métriques de Performance : on peut utilisez des métriques telles que la précision, pour évaluer les performances initiales du LLM sur l'ensemble de test.
3. Optimiser les Performances
Ajustement de la Taille de l''Ensemble de Test : on doit testez différentes tailles pour l''ensemble de test et évaluez comment cela affecte les performances du modèle.
4. Fine-Tuning du LLM Sélectionné
Adaptation aux données Spécifiques : Fine-tunez le modèle sur notre ensemble d''entraînement pour améliorer ses performances sur les données de commentaires spécifiques.
Ajustements des Hyperparamètres : On peut expérimentez avec différents taux d''apprentissage, tailles de batch, et autres hyperparamètres.
5. Évaluation des Performances Après Fine-Tuning
Tests Post Fine-Tuning : Après le fine-tuning, on peut réévaluez les performances du modèle sur notre ensemble de test.
Comparaison Avant/Après : on peut comparez les performances avant et après le fine-tuning pour mesurer les améliorations.

In [1]:
import xml.etree.ElementTree as ET

# on lit les corpus 1, 2 et 3
chemin_fichier_xml1 = 'C:\\Users\\docme\\Desktop\\MASTER_2_CHPS\\IA_LLM_KAMEL\\PROJET_AMIRA_MEHRI_LLM\\corpus_1.xml'
chemin_fichier_xml2 = 'C:\\Users\\docme\\Desktop\\MASTER_2_CHPS\\IA_LLM_KAMEL\\PROJET_AMIRA_MEHRI_LLM\\corpus_2.xml'
chemin_fichier_xml3 = 'C:\\Users\\docme\\Desktop\\MASTER_2_CHPS\\IA_LLM_KAMEL\\PROJET_AMIRA_MEHRI_LLM\\corpus_3.xml'

# Parse les fichier XML
tree1 = ET.parse(chemin_fichier_xml1)
tree2 = ET.parse(chemin_fichier_xml2)
tree3 = ET.parse(chemin_fichier_xml3)
root1 = tree1.getroot()
root2 = tree2.getroot()
root3 = tree3.getroot()

# Fonction 1 pour extraire les informations
def extract_info(root1):
    # Extraire les informations de la série et des commentaires
    series_info1 = []
    for serie_commentaires in root1.findall('SERIE_COMMENTAIRES'):
        serie = serie_commentaires.find('SERIE').text
        serie_id = serie_commentaires.find('SERIE').get('id')
        comments = []
        for commentaire in serie_commentaires.findall('COMMENTAIRES/COMMENTAIRE'):
            comment_id = commentaire.get('id')
            author = commentaire.get('auth')
            evaluation = commentaire.get('eval')
            text = commentaire.text
            comments.append({
                'id': comment_id,
                'author': author,
                'evaluation': evaluation,
                'text': text
            })
        series_info1.append({
            'serie': serie,
            'serie_id': serie_id,
            'comments': comments
        })
    return series_info1

# Extraction des informations
series_info1 = extract_info(root1)
#print(series_info)  # Afficher les informations extraites
print(series_info1[:10])  # Affiche seulement les 100 premiers éléments

# Fonction 2 pour extraire les informations
def extract_info(root2):
    # Extraire les informations de la série et des commentaires
    series_info2 = []
    for serie_commentaires in root2.findall('SERIE_COMMENTAIRES'):
        serie = serie_commentaires.find('SERIE').text
        serie_id = serie_commentaires.find('SERIE').get('id')
        comments = []
        for commentaire in serie_commentaires.findall('COMMENTAIRES/COMMENTAIRE'):
            comment_id = commentaire.get('id')
            author = commentaire.get('auth')
            evaluation = commentaire.get('eval')
            text = commentaire.text
            comments.append({
                'id': comment_id,
                'author': author,
                'evaluation': evaluation,
                'text': text
            })
        series_info2.append({
            'serie': serie,
            'serie_id': serie_id,
            'comments': comments
        })
    return series_info2

# Extraction des informations
series_info2 = extract_info(root2)
#print(series_info2)  # Afficher les informations extraites
print(series_info2[:10])  # Affiche seulement les 100 premiers éléments

# Fonction 2 pour extraire les informations
def extract_info(root3):
    # Extraire les informations de la série et des commentaires
    series_info3 = []
    for serie_commentaires in root3.findall('SERIE_COMMENTAIRES'):
        serie = serie_commentaires.find('SERIE').text
        serie_id = serie_commentaires.find('SERIE').get('id')
        comments = []
        for commentaire in serie_commentaires.findall('COMMENTAIRES/COMMENTAIRE'):
            comment_id = commentaire.get('id')
            author = commentaire.get('auth')
            evaluation = commentaire.get('eval')
            text = commentaire.text
            comments.append({
                'id': comment_id,
                'author': author,
                'evaluation': evaluation,
                'text': text
            })
        series_info3.append({
            'serie': serie,
            'serie_id': serie_id,
            'comments': comments
        })
    return series_info3

# Extraction des informations
series_info3 = extract_info(root3)
#print(series_info2)  # Afficher les informations extraites
print(series_info3[:10])  # Affiche seulement les 100 premiers éléments



IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



In [None]:
def score_to_stars(score):
    # Convertir le score en nombre flottant
    score = float(score.replace(',', '.'))
    # Attribuer des étoiles en fonction du score
    stars = '★' * int(score)  # Étoile pleine pour chaque point entier
    if score - int(score) >= 0.5:
        stars += '½'  # Ajouter une demi-étoile si nécessaire
    return stars

# Parcourir chaque série et chaque commentaire pour transformer les scores
for serie in series_info2:
    for comment in serie['comments']:
        score = comment['evaluation']
        stars = score_to_stars(score)
        print(f"Série: {serie['serie']}, Commentaire ID: {comment['id']}, Score: {score}, Évaluation en étoiles: {stars}")


In [2]:
from transformers import GPT2Tokenizer
import tensorflow as tf

# Initialiser le tokenizer
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')

# On Assure que le tokenizer utilise le même token que le modèle pour le padding
tokenizer.pad_token = tokenizer.eos_token

# Tokeniser et encoder tous les commentaires
encoded_comments = [tokenizer.encode_plus(
    comment['text'],
    truncation=True,
    padding='max_length',
    max_length=512,
    return_tensors="tf"
) for item in series_info2 for comment in item['comments']]

# Maintenant, on doit extraire les input_ids et attention_masks
input_ids = [ec['input_ids'][0] for ec in encoded_comments]
attention_masks = [ec['attention_mask'][0] for ec in encoded_comments]

# Cette opération suppose que encoded_comments est une liste de dictionnaires retournés par encode_plus
input_ids = tf.concat([ec['input_ids'] for ec in encoded_comments], 0)
attention_masks = tf.concat([ec['attention_mask'] for ec in encoded_comments], 0)


In [3]:
from sklearn.model_selection import train_test_split

# Convertissez vos évaluations de string à float et remplacez les virgules par des points
labels = tf.convert_to_tensor([float(comment['evaluation'].replace(',', '.')) for item in series_info2 for comment in item['comments']], dtype=tf.float32)
print(labels)


# Convertissez vos tenseurs en numpy arrays si nécessaire
input_ids_np = input_ids.numpy()
attention_masks_np = attention_masks.numpy()
labels_np = labels.numpy()

# Divisez les données
train_inputs, test_inputs, train_labels, test_labels = train_test_split(input_ids_np, labels_np, random_state=42, test_size=0.1)
train_masks, test_masks, _, _ = train_test_split(attention_masks_np, labels_np, random_state=42, test_size=0.1)

tf.Tensor([4.5 3.  5.  ... 5.  4.5 4.5], shape=(7706,), dtype=float32)


In [4]:
# Vérifier la forme des données
print("Forme des inputs d'entraînement :", train_inputs.shape)
print("Forme des masques d'entraînement :", train_masks.shape)
print("Forme des étiquettes d'entraînement :", train_labels.shape)

# Vérifier que les tensors ne contiennent pas que des zéros, ce qui indiquerait un problème de padding
print("Inputs d'entraînement, premiers éléments :", train_inputs[0][:10])
print("Masques d'entraînement, premiers éléments :", train_masks[0][:10])


Forme des inputs d'entraînement : (6935, 512)
Forme des masques d'entraînement : (6935, 512)
Forme des étiquettes d'entraînement : (6935,)
Inputs d'entraînement, premiers éléments : [41840   235 41840   235 41840   235 41840   235 41840   235]
Masques d'entraînement, premiers éléments : [1 1 1 1 1 1 1 1 1 1]


In [5]:
from transformers import TFGPT2Model, GPT2Tokenizer
from tensorflow.keras.layers import Input, Dense, Dropout
from tensorflow.keras.models import Model
from tensorflow.keras.initializers import glorot_uniform
from tensorflow.keras.regularizers import l2  # Importer la régularisation L2

# Charger le modèle GPT-2 pré-entraîné
gpt2_model = TFGPT2Model.from_pretrained('gpt2')

# Définir les couches d'entrée pour les IDs de tokens et les masques d'attention
input_ids_layer = Input(shape=(512,), dtype='int32', name='input_ids')
attention_masks_layer = Input(shape=(512,), dtype='int32', name='attention_mask')

# Obtenir les sorties du modèle GPT-2
outputs = gpt2_model(input_ids_layer, attention_mask=attention_masks_layer)

# GPT-2 n'a pas de 'pooler_output', donc nous utilisons directement les 'logits'
# qui sont les scores avant l'activation finale
# Prendre le dernier état caché pour représenter la séquence entière
sequence_output = outputs.last_hidden_state

# Vous pouvez prendre le dernier token pour la classification
# Notez que l'indexation dépend de la direction de l'attention dans le modèle GPT-2 utilisé
clf_output = sequence_output[:, -1, :]  # Prendre le vecteur associé au dernier token

# Appliquer le dropout pour la régularisation
clf_output = Dropout(0.1)(clf_output)

# Ajouter une couche dense pour la classification finale avec régularisation L2
output_layer = Dense(1, activation='sigmoid', kernel_regularizer=l2(0.01))(clf_output)  # Pour la classification binaire

# Construire le modèle
classification_model = Model(inputs=[input_ids_layer, attention_masks_layer], outputs=output_layer)

# Compiler le modèle
classification_model.compile(
    optimizer=tf.keras.optimizers.Adam(learning_rate=5e-5),
    loss='categorical_crossentropy',
    metrics=['accuracy']
)

# Afficher le résumé du modèle
classification_model.summary()

All PyTorch model weights were used when initializing TFGPT2Model.

All the weights of TFGPT2Model were initialized from the PyTorch model.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFGPT2Model for predictions without further training.


Model: "model"
__________________________________________________________________________________________________
 Layer (type)                Output Shape                 Param #   Connected to                  
 input_ids (InputLayer)      [(None, 512)]                0         []                            
                                                                                                  
 attention_mask (InputLayer  [(None, 512)]                0         []                            
 )                                                                                                
                                                                                                  
 tfgpt2_model (TFGPT2Model)  TFBaseModelOutputWithPastA   1244398   ['input_ids[0][0]',           
                             ndCrossAttentions(last_hid   08         'attention_mask[0][0]']      
                             den_state=(None, 512, 768)                                       

Le résumé montre les différentes couches de notre modèle, 
y compris les couches d''entrée, le modèle GPT-2, la couche de dropout, et la couche de sortie dense.

In [None]:
# Entraînement du modèle
# Ajuste `batch_size` et `epochs` selon mon pc  et les besoins du modèle
history = classification_model.fit(
    [train_inputs, train_masks],
    train_labels,
    validation_data=([test_inputs, test_masks], test_labels),
    batch_size=8,  # Taille du batch, peut être réduite ou augmentée selon la capacité de votre machine
    epochs=1,  # Nombre d'époques, à ajuster selon la convergence du modèle
    verbose=1  # Pour afficher la progression de l'entraînement, mettre à 2 pour moins de détails
)

# Évaluation du modèle sur l'ensemble de test
test_loss, test_accuracy = classification_model.evaluate(
    [test_inputs, test_masks],
    test_labels,
    verbose=1
)
print(f"Test Loss: {test_loss}, Test Accuracy: {test_accuracy}")


  return dispatch_target(*args, **kwargs)




In [None]:
# Fine-tune le modèle sur votre ensemble de données
history = classification_model.fit(
    [train_inputs, train_masks],  # Données d'entraînement
    train_labels,                 # Étiquettes d'entraînement
    validation_data=([test_inputs, test_masks], test_labels),  # Données de validation
    batch_size=16,                # Vous pouvez essayer d'ajuster la taille du batch
    epochs=4,                     # Et le nombre d'époques
    verbose=1                     # Pour afficher la progression de l'entraînement
)

# Sauvegarder le modèle après l'entraînement
classification_model.save('path_to_save_model')

# Évaluation du modèle sur l'ensemble de test
test_loss, test_accuracy = classification_model.evaluate(
    [test_inputs, test_masks],  # Données de test
    test_labels,                # Étiquettes de test
    verbose=1                   # Pour afficher les résultats de l'évaluation
)

print(f"Test Loss: {test_loss}, Test Accuracy: {test_accuracy}")

# nous pouvons également tracer l'historique de l'entraînement pour visualiser les performances du modèle au fil des époques
import matplotlib.pyplot as plt

plt.plot(history.history['accuracy'], label='accuracy')
plt.plot(history.history['val_accuracy'], label='val_accuracy')
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.ylim([0, 1])
plt.legend(loc='lower right')
plt.show()
