In [1]:
import pandas as pd
import numpy as np
import torch
import time
from datasets import Dataset, DatasetDict

# Les paths de fichiers
path1 = r"C:\Users\Zakaria-Laptop\LLM-Models\NLP_TFIDF\DataBase\S08_question_answer_pairs.txt"
path2 = r"C:\Users\Zakaria-Laptop\LLM-Models\NLP_TFIDF\DataBase\S09_question_answer_pairs.txt"
path3 = r"C:\Users\Zakaria-Laptop\LLM-Models\NLP_TFIDF\DataBase\S10_question_answer_pairs.txt"

In [2]:
def read_file(path: str) -> pd.DataFrame:
    """_summary_

    Args:
        path (str): _description_

    Returns:
        pd.DataFrame: _description_
    """    
    return pd.read_csv(path, sep="	")

data1 = read_file(path1)
data2 = read_file(path2)
# It's a file encoded with ISO
data3 = pd.read_csv(path3, sep="\t", encoding='ISO-8859-1')

data = pd.concat([data1, data2, data3])
data.head(2)


Unnamed: 0,ArticleTitle,Question,Answer,DifficultyFromQuestioner,DifficultyFromAnswerer,ArticleFile
0,Abraham_Lincoln,Was Abraham Lincoln the sixteenth President of...,yes,easy,easy,S08_set3_a4
1,Abraham_Lincoln,Was Abraham Lincoln the sixteenth President of...,Yes.,easy,easy,S08_set3_a4


## Preprocessing

In [3]:
copy_data = data.copy()
# Transformer en un Dataset Hugging Face
dataset = Dataset.from_pandas(copy_data)
dataset = dataset.remove_columns("__index_level_0__")
dataset

Dataset({
    features: ['ArticleTitle', 'Question', 'Answer', 'DifficultyFromQuestioner', 'DifficultyFromAnswerer', 'ArticleFile'],
    num_rows: 3998
})

In [147]:
"""from datasets import Dataset, DatasetDict

#Diviser les données en ensembles train, validation, test
train_df = copy_data.sample(frac=1, random_state=42)

# Créer les ensembles DataSet
train_dataset = Dataset.from_pandas(train_df)

# Créer les DatasetDict
dataset_dict = DatasetDict({
    "train": train_dataset,
})
dataset_dict = dataset_dict.remove_columns('__index_level_0__')
print(dataset_dict)"""

DatasetDict({
    train: Dataset({
        features: ['Question', 'Answer'],
        num_rows: 3998
    })
})


In [8]:
from datasets import Dataset, DatasetDict

#Diviser les données en ensembles train, validation, test
train_df = copy_data.sample(frac=1, random_state=42)
remaining_df = copy_data.drop(train_df.index)
validation_df = remaining_df.sample(frac=0.25, random_state=42)
test_df = remaining_df.drop(validation_df.index)

# Créer les ensembles DataSet
train_dataset = Dataset.from_pandas(train_df)
validation_dataset = Dataset.from_pandas(validation_df)
test_dataset = Dataset.from_pandas(test_df)

# Créer les DatasetDict
dataset_dict = DatasetDict({
    "train": train_dataset,
    "validation": validation_dataset,
    "test": test_dataset,
})
dataset_dict = dataset_dict.remove_columns(['__index_level_0__', 'ArticleTitle', 'DifficultyFromQuestioner', 'DifficultyFromAnswerer', 'ArticleFile'])
data_finale = dataset_dict["train"]
print(data_finale)

Dataset({
    features: ['Question', 'Answer'],
    num_rows: 3998
})


## Théorie:

Pour créer un modèle qui fonctionne comme une FAQ, l'approche la plus courante consiste à utiliser des techniques de recherche de similarité de texte. Cela consiste à identifier quelle question de ton ensemble de données est la plus similaire à la question posée en entrée, puis à renvoyer la réponse correspondante.

## Les étapes:

__1 - Nettoyage et prétraitement des données :__

Nettoyer les questions et réponses (enlever les stop words, la ponctuation, etc.).

__2 - Vectorisation des questions :__

Convertir les questions en vecteurs numériques. Une méthode classique consiste à utiliser des techniques comme TF-IDF, Word2Vec ou des modèles plus avancés comme les embeddings BERT (Bidirectional Encoder Representations from Transformers) pour obtenir des représentations vectorielles des questions.

__3 - Calcul de la similarité :__

Utiliser une mesure de similarité, comme la similarité cosinus, pour comparer la question en entrée à toutes les questions de ton ensemble de données et identifier la question la plus proche.

__4 - Récupération de la réponse :__

Renvoyer la réponse correspondant à la question la plus similaire.

## Approche TF-IDF et Cos-similarité

In [7]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [20]:
# Supprimer les None de ma base de données vu que lors de l'application de vectorizer.fit_transform ça applique .lower() et avec des None ça retoure des erreurs
data = [item for item in data_finale if item["Question"] is not None and item["Question"].strip() != ""]

In [21]:
questions = [item["Question"] for item in data]
responses = [item["Answer"] for item in data]
print(f"len of questions is: {len(questions)} and len of answers is: {len(responses)}")

len of questions is: 3961 and len of answers is: 3961


In [22]:
# Etape1: Véctorisation les questions avec TF-IDF
vectorizer = TfidfVectorizer()
tf_idf_matrix = vectorizer.fit_transform(questions)


In [23]:
# Définir une fonction pour retourner la réponse basant sur le Cos-similarity

def get_answer(question):
    # Avoir le vector de la question
    question_tfidf = vectorizer.transform([question])

    # Appliquer le cos similarity avec ma matrice
    similarity = cosine_similarity(question_tfidf, tf_idf_matrix).flatten()

    # Trouver l'index de la question la plus similaire
    closest_question_index = np.argmax(similarity)

    # Retourner la réponse associe à cette question
    return responses[closest_question_index]



In [26]:
# Test

new_question = "How many cymbals are usually included in a drum kit?"
response = get_answer(new_question)
print(f"Question: {new_question}\nRéponse: {response}")

Question: How many cymbals are usually included in a drum kit?
Réponse: at least 3


In [27]:
dash = "-".join("" for x in range(50))
print(f"{dash} To be continued {dash}")

------------------------------------------------- To be continued -------------------------------------------------
