In [1]:
import logging
import warnings
import nest_asyncio
from datasets import Dataset
import pandas as pd
from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_relevancy,
    answer_similarity,
    answer_correctness,
    context_recall,
    context_precision,
)
#from ragas.langchain import RagasEvaluatorChain
# from ragas.langchain.evalchain import RagasEvaluatorChain

from paths import get_paths
from config import LlmParam
#ChatParam
from langchain.memory import ConversationBufferMemory
from langchain.prompts import PromptTemplate
from langchain_community.llms import LlamaCpp
from langchain.callbacks.manager import CallbackManagerForRetrieverRun
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain.callbacks import StreamingStdOutCallbackHandler
from langchain_community.embeddings import HuggingFaceInstructEmbeddings
import InstructorEmbedding

In [2]:
from test_chains import kwf_chain

In [None]:
LLAMA_FILE = "llama-2-7b-chat.Q5_K_M.gguf"
MISTRAL_FILE = "mistral-7b-instruct-v0.2.Q5_K_M.gguf"

paths_dir = get_paths(model_file=LLAMA_FILE, model_name="LLAMA2")
mistral_paths = get_paths(model_file=MISTRAL_FILE, model_name="MISTRAL")
PROJECT_DIR = paths_dir["PROJECT_DIR"]
DATA_DIR = paths_dir["DATA_DIR"]
LLAMA_DIR = paths_dir["MODEL_DIR"]
MISTRAL_DIR = mistral_paths["MODEL_DIR"]
CHROMA_VECTOR_DIR = paths_dir["CHROMA_VECTOR_DIR"]
PREPARED_CHUNK_DIR = paths_dir["PREPARED_CHUNK_DIR"]
VECTOR_STORE = paths_dir["VECTOR_STORE"]
TEMPERATURE = LlmParam.TEMPERATURE
N_GPU_LAYERS = LlmParam.N_GPU_LAYERS
N_TOKENS = LlmParam.N_TOKENS
KWF_TEMPLATE = LlmParam.KWF_TEMPLATE
#MAX_CHAR_LIMIT = ChatParam.MAX_CHAR_LIMIT

In [None]:
key1 = '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'
key2 = 'sk-proj-4tKVWAEEpyYDkULwLxpFT3BlbkFJXGbkrYW3YMws0H0lH9dc'
key3 = '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'

In [None]:
import os
os.environ["OPENAI_API_KEY"] = key3

In [None]:
#base_eval = '../data/baseEvaluation.xlsx'
base_eval = '../data/BaseEvaluations.xlsx'
eval_df = pd.read_excel(base_eval)



In [None]:
# Extraire la ligne 4 à déplacer
n = 3
row_3 = eval_df.iloc[n]



In [None]:
eval_df.head()

In [None]:
# Supprimer la ligne d'origine de l'index actuel
eval_df = eval_df.drop(eval_df.index[n])

# Réinsérer la ligne au début
eval_df = pd.concat([row_3.to_frame().T, eval_df], ignore_index=True)

# Afficher le DataFrame avec la ligne au début
eval_df.head()

In [None]:
eval_df["Question expert"] = eval_df["Question expert"].apply(lambda x: x.replace("CRPA", "code des relations entre le public et l’administration"))

In [None]:
eval_df["Question novice"] = eval_df["Question novice"].apply(lambda x: x.replace("CRPA", "code des relations entre le public et l’administration"))

In [None]:
eval_df['Mots clés Question Expert'] = eval_df['Mots clés Question Expert'].apply(lambda x: x.replace("CRPA,", ""))

In [None]:
eval_df["Mots clés Question Novice"] = eval_df['Mots clés Question Novice'].apply(lambda x: x.replace("CRPA,", ""))

In [None]:
"code des relations entre le public et l’administration"

In [None]:
eval_df["Question expert"] = eval_df["Question expert"].astype(str)
eval_df["Réponse expert"] = eval_df["Réponse expert"].astype(str)
eval_df["Réponse Novice"] = eval_df["Réponse Novice"].astype(str)
eval_df["Passage"] = eval_df["Passage"].astype(str)
eval_df['Mots clés Question Expert'] = eval_df["Mots clés Question Expert"].astype(str)
eval_df["Mots clés Question Novice"] = eval_df["Mots clés Question Novice"].astype(str)

In [None]:
eval_df.head()

In [None]:
eval_df.shape

## Test avec la métrique `answer_similarity` et `answer_correctness` de Ragas

Le concept de similarité sémantique concerne l'évaluation de la ressemblance sémantique entre la réponse générée et la vraie réponse. Ce score est compris entre 0 et 1. Un score plus élevé signifie un meilleur alignement entre la réponse générée et la vraie réponse
## Calcul 
Ce score se calcule en 3 étapes

- Étape 1 : vectorisation de la réponse de référence à l'aide d'un modèle d'embedding.

- Étape 2 : vectorisation de la réponse générée à l'aide du même embedding.

- Étape 3 : calcul de la similarité cosinus entre les deux vecteurs.

## Evaluation des questions expertes

## Suppression de question dont la réponse part dans tous les sens
- Question 4: Quelles sont les mesures spécifiques requises par le CRPA pour la publication de documents contenant des données à caractère personnel, en particulier en ce qui concerne l'anonymisation ?

In [None]:
# eval_df["Question expert"] = eval_df["Question expert"].drop(index=3)
# eval_df["Réponse expert"]= eval_df["Réponse expert"].drop(index=3)
# eval_df["Passage"] = eval_df["Passage"].drop(index=3)
# eval_df["Mots clés Question Expert"] = eval_df["Mots clés Question Expert"].drop(index=3)

In [None]:
questions_experte = eval_df["Question expert"] + eval_df["Mots clés Question Expert"]
reponses_experte = eval_df["Réponse expert"]
context = eval_df["Passage"]

In [None]:
eval_df["Question_experte"]  = eval_df["Question expert"] + eval_df["Mots clés Question Expert"]
eval_df["Question_novice"] = eval_df["Question novice"] + eval_df["Mots clés Question Novice"]

In [None]:
questions_experte.shape

In [None]:
# Questions
question_exp1 = questions_experte[0]
question_exp2 = questions_experte[1] 
question_exp3 = questions_experte[2]
question_exp4 = questions_experte[3]
question_exp5 = questions_experte[4]
question_exp6 = questions_experte[5]
question_exp7 = questions_experte[6]
question_exp8=  questions_experte[7] 
question_exp9 = questions_experte[8]
# Réponses 
reponse_exp1 = reponses_experte[0]
reponse_exp2 = reponses_experte[1] 
reponse_exp3 = reponses_experte[2]
reponse_exp4 = reponses_experte[3]
reponse_exp5 = reponses_experte[4]
reponse_exp6 = reponses_experte[5]
reponse_exp7 = reponses_experte[6]
reponse_exp8=  reponses_experte[7] 
reponse_exp9 = questions_experte[8]
# Contexte ou passage 
context_1 = context[0]
context_2 = context[1] 
context_3 = context[2]
context_4 = context[3]
context_5 = context[4]
context_6 = context[5]
context_7 = context[6]
context_8=  context[7] 
context_9 = context[8]


In [None]:
# callback_manager = CallbackManager([StreamingStdOutCallbackHandler()])
# llm_model = LlamaCpp(
#     model_path=LLAMA_DIR,
#     n_gpu_layers=N_GPU_LAYERS,
#     n_ctx=N_TOKENS,
#     n_batch=512,
#     f16_kv=True,
#     temperature=TEMPERATURE,
#     max_tokens=N_TOKENS,
#     n_parts=1,
#     verbose=True,
#     echo=False,
#     streaming=True,
#     callback_manager=callback_manager,
# )
# memory = ConversationBufferMemory(
#     memory_key="chat_history",
#     input_key="question",
#     return_messages=True,
#     output_key="answer",
# )
# prompt = PromptTemplate(
# 			    input_variables=["context", "chat_history", "question"],
# 			    template=KWF_TEMPLATE,
# 			)
# embedding = HuggingFaceInstructEmbeddings(
#         model_name="hkunlp/instructor-large", model_kwargs={"device": "cuda"}
#     )

In [None]:
eval_df["Question_experte"].values

In [None]:
# eval_df = eval_df.head(1)

In [None]:
ground_truth_expert = eval_df[["Question_experte", "Passage", "Réponse expert"]]
ground_truth_expert = ground_truth_expert.rename(columns={"Question_experte": "question", "Passage": "context",
                                                          "Réponse expert" : "ground_truth"})

In [None]:
ground_truth_novice = eval_df[["Question_novice", "Passage", "Réponse Novice"]]
ground_truth_novice = ground_truth_novice.rename(columns={"Question_novice": "question", "Passage": "context",
                                                          "Réponse Novice" : "ground_truth"})

In [None]:
eval_dataset_expert = Dataset.from_pandas(ground_truth_expert)
eval_dataset_novice = Dataset.from_pandas(ground_truth_novice)

In [None]:
eval_dataset_expert[0]

In [None]:
from tqdm import tqdm

In [None]:

#def create_ragas_dataset(eval_dataset):
rag_dataset = []
i = 0
#for question in questions_experte:
for row in tqdm(eval_dataset_expert):
		i = i+1
		print(row)
		#question = question_exp4
		# 
		question = row["question"]
		print(f"Traitement de la question {i}: {question} ...")
		#question = str(question)
		# 
		keyword_part = question.split("?")[-1]
		logging.info(f"Mots imposés: {keyword_part} ...")
		memory = ConversationBufferMemory(
				memory_key="chat_history",
				input_key="question",
				return_messages=True,
				output_key="answer")
		prompt = PromptTemplate(
									input_variables=["context", "chat_history", "question"],
									template=KWF_TEMPLATE,
					)
		chain = kwf_chain(
						keyword_part, prompt, memory,
						PREPARED_CHUNK_DIR,
		)
		input_structure = {"question": question}

		answer = chain.invoke(input_structure)
		extraits = []
		for i in range(min(3, len(answer["source_documents"]))):
			extraits.append(answer["source_documents"][i].page_content)
		
		rag_dataset.append(
									{"question" : question,
										"answer" : answer["answer"],
										"contexts" : [extrait for extrait in extraits],
										"ground_truth" : row["ground_truth"]
										})
		

# answers.append(response["answer"])

# 	#exit()
# 	#chunk["source_documents"][i].page_content
# contexts.append([context.page_content for context in response["source_documents"]])

In [None]:
rag_df_exp = pd.DataFrame(rag_dataset)
rag_eval_dataset_expert = Dataset.from_pandas(rag_df_exp)

In [None]:
rag_df_exp.to_parquet("../ragasDataset/EvaluationExpert_temp_{TEMPERATURE}.pq")


In [None]:
#rag_df_exp.to_parquet("../ragasDataset/dataExpert.pq")

In [None]:
rag_df_exp = pd.read_parquet("../ragasDataset/dataExpert.pq")

In [None]:
rag_eval_dataset_expert = Dataset.from_pandas(rag_df_exp)

In [None]:
embedding_hg = HuggingFaceInstructEmbeddings(
        model_name="hkunlp/instructor-large", model_kwargs={"device": "cuda"}
    )

In [None]:
def evaluate_ragas_dataset(rg_dataset, metrics):
  result = evaluate(
    rg_dataset,
    metrics=metrics
  )
  return result

In [None]:

#rag_df_exp.to_csv(f"../ragasDataset/EvaluationExpert_temp_{TEMPERATURE}.csv", index=False)
metric1 = [answer_similarity, faithfulness, answer_relevancy, context_relevancy, answer_correctness]

In [None]:
results_answer_similarity_2  = evaluate_ragas_dataset(rag_eval_dataset_expert, metrics=metric1)

In [None]:
results_answer_similarity_2_df = results_answer_similarity_2.to_pandas()

In [None]:
results_answer_similarity = results_answer_similarity.to_pandas() 

In [None]:
results_answer_similarity["answer_similarity"] = results_answer_similarity["answer_similarity"].map(lambda x: str(round(int(x) / 100, 1)) + "%")

In [None]:
results_answer_similarity['answer_similarity'] = results_answer_similarity['answer_similarity'].str.replace("%", "")


In [None]:
results_answer_similarity['answer_similarity'] = results_answer_similarity['answer_similarity'].apply(lambda x : str(int(x)/100) + "%")

In [None]:
results_answer_similarity['answer_similarity'] = results_answer_similarity['answer_similarity'].str.replace("0", "")

In [None]:
results_answer_similarity.to_excel("QuestionsExpertes.xlsx", index=False)

In [None]:
rag_df_exp = pd.read_csv("../ragasDataset/EvaluationExpert_temp_0.01.csv")
rag_eval_dataset_expert = Dataset.from_pandas(rag_df_exp)

In [None]:


	# for row in tqdm(eval_dataset):
	#   answer = rag_pipeline.invoke({"question" : row["Question_experte"]})
	#   rag_dataset.append(
	#       {"question" : row["question"],
	#        "answer" : answer["response"],
	#        "contexts" : [context.page_content for context in answer["context"]],
	#        "ground_truths" : [row["ground_truth"]]
	#        }
	#   )
# answers = []
# contexts = []
#def create_ragas_dataset(eval_dataset):
rag_dataset = []
i = 0
#for question in questions_experte:
for row in tqdm(eval_dataset_novice):
		i = i+1
		print(row)
		#question = question_exp4
		# 
		question = row["question"]
		print(f"Traitement de la question {i}: {question} ...")
		#question = str(question)
		# 
		keyword_part = question.split("?")[-1]
		logging.info(f"Mots imposés: {keyword_part} ...")
		memory = ConversationBufferMemory(
				memory_key="chat_history",
				input_key="question",
				return_messages=True,
				output_key="answer")
		prompt = PromptTemplate(
									input_variables=["context", "chat_history", "question"],
									template=KWF_TEMPLATE,
					)
		chain = kwf_chain(
						keyword_part, prompt, memory,
						PREPARED_CHUNK_DIR,
		)
		input_structure = {"question": question}

		answer = chain.invoke(input_structure)
		extraits = []
		for i in range(min(3, len(answer["source_documents"]))):
			extraits.append(answer["source_documents"][i].page_content)
		
		rag_dataset.append(
									{"question" : question,
										"answer" : answer["answer"],
										"contexts" : [extrait for extrait in extraits],
										"ground_truth" : row["ground_truth"]
										})
		



In [None]:
rag_df_nov = pd.DataFrame(rag_dataset)
rag_eval_dataset_novice = Dataset.from_pandas(rag_df_nov)

In [None]:
metrics = [answer_similarity]

In [None]:
from tqdm import tqdm

In [None]:
results_answer_similarity_novice = Dataset.from_dict({})

In [None]:
len(rag_eval_dataset_novice[0]['answer'].strip())

In [None]:
datasets_eval = []
rag_df_nov = pd.read_parquet(f"../ragasDataset/EvaluationNovice_temp_{TEMPERATURE}.pq")
rag_eval_dataset_novice = Dataset.from_pandas(rag_df_nov)
# for row in rag_eval_dataset_novice:
#  #print(type(row))
#  #row['answer'] = row['answer'].strip()
#  df = pd.DataFrame.from_dict(row)
#  eval_i = Dataset.from_pandas(df)
#  #print(
 # 
evaluate_ragas_dataset(rag_eval_dataset_novice, metrics=metrics)

In [None]:
rag_eval_dataset_novice[0]

In [None]:
results_answer_similarity_novice_q1 = results_answer_similarity_novice 

In [None]:
rag_df_nov.to_csv(f"../ragasDataset/EvaluationNovice_temp_{TEMPERATURE}.csv", index=False)

In [None]:
rag_df_nov.to_parquet("../ragasDataset/EvaluationNovice_temp_{TEMPERATURE}.pq")

In [None]:
# rag_df = pd.DataFrame(rag_dataset)
# rag_eval_dataset = Dataset.from_pandas(rag_df)


In [None]:
# import os
# os.environ["OPENAI_API_KEY"] = 'sk-proj-4tKVWAEEpyYDkULwLxpFT3BlbkFJXGbkrYW3YMws0H0lH9dc'

In [None]:
# metrics = [
     
#      	,
       
        
#     ]

In [None]:
rag_eval_dataset_expert

In [None]:
CONTEXTS = [context.split('\\n.') for context in rag_eval_dataset_expert["contexts"]]

In [None]:
CONTEXTS

In [None]:
rag_eval_dataset_expert["contexts"] = CONTEXTS

In [None]:
results_answer_relevancy  = evaluate_ragas_dataset(rag_eval_dataset_expert, metrics=[answer_relevancy])

In [None]:
results_context_relevancy  = evaluate_ragas_dataset(rag_eval_dataset_expert, metrics=[context_relevancy])

In [None]:
results_answer_correctness  = evaluate_ragas_dataset(rag_eval_dataset_expert, metrics=[answer_correctness]])

In [None]:
results_faithfull  = evaluate_ragas_dataset(rag_eval_dataset_expert, metrics=[faithfulness])

In [None]:
results_faithfullness_df = results_faithfull.to_pandas()

In [None]:
results_answer_similarity = results.to_pandas()

In [None]:
results_answer_similarity

In [None]:

eval_df = pd.read_csv(f"DatasetEvaluation_temp_{TEMPERATURE}.csv")

In [None]:
reponses_experte

In [None]:
response_df  = Dataset.from_dict({"question": questions_experte, 
                             "answer": answers,
                             "contexts": contexts,
                             "ground_truth": reponses_experte
                             })
#response_df= Dataset.from_dict(my_dict)

In [None]:
CONTEXT = eval_df['contexts'].values

In [None]:
CONTEXT2 = [context.split('\\n')  for context in CONTEXT]

In [None]:
CONTEXT2[1]

In [None]:
# response_df  = Dataset.from_dict({"question": questions_experte, 
#                              "answer": answers,
#                              "contexts": contexts,
#                              "ground_truth": reponses_experte
#                              })
# #response_df = Dataset.from_dict(my_dict)

In [None]:
#response_df = Dataset.from_pandas(eval_df)

In [None]:
response_df 

In [None]:
response_df 

In [None]:
from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_relevancy,
    answer_similarity,
    answer_correctness,
    context_recall,
    context_precision,
)

In [None]:
from ragas import RunConfig
import nest_asyncio

In [None]:
def evaluate_ragas_dataset(rg_dataset, metrics):
    
    
    result = evaluate(
        rg_dataset,
        metrics=metrics,
       
    )
    return result

In [None]:
nest_asyncio.apply()
metrics = [answer_similarity]
rag_df_exp = pd.read_parquet("/home/userds/projet-rag/chatbot/ragasDataset/dataExpert.pq")
rag_eval_dataset_expert = Dataset.from_pandas(rag_df_exp)
answer_sim = [answer_similarity]
eval_dataset  = evaluate_ragas_dataset(rag_eval_dataset_expert, metrics=metrics)

In [None]:
nest_asyncio.apply()
metrics = [answer_similarity]
rag_df_novice = pd.read_parquet("/home/userds/projet-rag/chatbot/ragasDataset/EvaluationNovice_temp_0.01.pq")
rag_eval_dataset_novice = Dataset.from_pandas(rag_df_novice)
#answer_sim = [answer_similarity]
eval_dataset  = evaluate_ragas_dataset(rag_eval_dataset_novice, metrics=metrics)

In [None]:
metrics = [answer_similarity]

# answer_correctness,
# faithfulness,
# answer_relevancy,
# context_relevancy]

In [None]:
results_similarity = evaluate(response_df,  metrics=metrics, embeddings=embedding_hg)

In [None]:
results_faithfulness = evaluate(response_df,  metrics=[faithfulness])

In [None]:
results_answer_similarity = results_similarity.to_pandas()

In [None]:
results_answer_similarity.to_csv("Answer_similarity_csv")

In [None]:
results_answer_similarity.head()

In [None]:
results_faithfull = results.to_pandas()

In [None]:
results_faithfull.head()

In [None]:
results_answer_similarity.to_csv(f"Evaluations_temperature{TEMPERATURE}.csv", index=False)

In [None]:
from langchain_core.language_models import BaseLanguageModel
from langchain_core.embeddings import Embeddings

# define llm and embeddings
#langchain_llm = BaseLanguageModel(model="my_model") # any langchain LLM instance
langchain_embeddings = Embeddings(model=embedding_hg) # any langchain Embeddings instance

# make sure to wrap them with wrappers
from ragas.llms import LangchainLLMWrapper
from ragas.embeddings import LangchainEmbeddingsWrapper

#langchain_llm = LangchainLLMWrapper(langchain_llm)
langchain_embeddings = LangchainEmbeddingsWrapper(langchain_embeddings)

# you can also use custom LLMs and Embeddings here but make sure 
# # they are subclasses of BaseRagasLLM and BaseRagasEmbeddings
# llm = MyCustomLLM()
# embeddings = MyCustomEmbeddings()

In [None]:
results

In [None]:
answers_4 = []
contexts_4 = []
#i = 0
# for question in questions_experte:
# i = i+1
# if i <=10:
question = question_exp4
print(f"Traitement de la question {question} ...")
#question = str(question)
keyword_part = question.split("?")[-1]
logging.info(f"Mots imposés: {keyword_part} ...")
memory = ConversationBufferMemory(
		memory_key="chat_history",
		input_key="question",
		return_messages=True,
		output_key="answer")
prompt = PromptTemplate(
							input_variables=["context", "chat_history", "question"],
							template=KWF_TEMPLATE,
			)
chain = kwf_chain(
				keyword_part, prompt, memory,
				PREPARED_CHUNK_DIR,
)
input_structure = {"question": question}

response = chain.invoke(input_structure)
answers_4 = response["answer"]

	#exit()
	#chunk["source_documents"][i].page_content
contexts_4.append([context.page_content for context in response["source_documents"]])

In [None]:
answers_1 = []
contexts_1 = []
#i = 0
# for question in questions_experte:
# i = i+1
# if i <=10:
question = question_exp1
print(f"Traitement de la question {question} ...")
#question = str(question)
keyword_part = question.split("?")[-1]
logging.info(f"Mots imposés: {keyword_part} ...")
memory = ConversationBufferMemory(
		memory_key="chat_history",
		input_key="question",
		return_messages=True,
		output_key="answer")
prompt = PromptTemplate(
							input_variables=["context", "chat_history", "question"],
							template=KWF_TEMPLATE,
			)
chain = kwf_chain(
				keyword_part, prompt, memory,
				PREPARED_CHUNK_DIR,
)
input_structure = {"question": question}

response = chain.invoke(input_structure)
answers_1 = response["answer"]

	#exit()
	#chunk["source_documents"][i].page_content
contexts_1.append([context.page_content for context in response["source_documents"]])

In [None]:
contexts_1

contexte_1 = [['\n. QUELLES SONT LES OBLIGATIONS DE PUBLICATION EN LIGNE ?. • les administrations ne sont pas tenues de publier les archives publiques issues des opérations de sélection prévues aux articles L. 212-2 et L. 212-3 du code du patrimoine. Attention : les obligations de publication en ligne telles que détaillées ci-après n’impliquent pas une diffusion des documents en question dans leur intégralité. En effet les administrations seront tenues de s’interroger sur la nécessité d’occulter certaines informations non communicables ou d’anonymiser le document ( cf 2. Infra). Les obligations prévues par le code des relations entre le public et l’administration L’article L. 312-1 du CRPA consacre de façon générale la faculté pour les administrations de publier les documents administratifs qu’elles produisent ou reçoivent. Le CRPA prévoit également des obligations légales de publication.',
  '\n. QUELLES SONT LES OBLIGATIONS. \nDE PUBLICATION EN LIGNE ?. Articles L. 300-2 et L. 300-3 du CRPA. À noter que : • seuls les documents qui ont un lien suffisamment direct avec l’exercice des missions de service public, ou qui retracent les conditions dans lesquelles l’organisme privé exerce sa mission de service public, ont un caractère administratif, à l’exclusion des documents relatifs uniquement au fonctionnement interne de cet organisme5 ; Toutefois, bien qu’ils soient sans lien avec les missions de service public, les documents relatifs à la gestion du domaine privé des personnes publiques sont désormais soumis au régime d’accès des documents administratifs. • le document doit exister à la date de la demande. Lorsqu’il n’existe pas en tant que tel, le document doit pouvoir être créé par un traitement automatisé d’usage courant (c’est-à-dire en ayant recours à un programme informatique de maniement aisé et à la disposition du service qui détient la base de données) ; En d’autres termes, l’administration n’est pas tenue, sauf disposition particulière, d’élaborer un document pour répondre à une demande6, ni de numériser un document dont elle dispose exclusivement sous forme papier afin de le mettre en ligne. Cependant, la création d’un document peut être imposée à l’administration lorsqu’une obligation de publication implique la création d’un document ad hoc. C’est le cas par exemple de la publication des règles définissant les principaux traitements algorithmiques (cf 1.1.2.2.) ou en matière d’information environnementale.',
  '\n. QUELLES SONT LES OBLIGATIONS. \nDE PUBLICATION EN LIGNE ?. Articles L. 300-2 et L. 300-3 du CRPA. Ces obligations concernent les documents administratifs au sens du CRPA, c’est-à-dire tout document produit ou reçu par l’administration au sens de l’article L. 300-2 du code des relations entre le public et l’administration dans le cadre d’une mission de service public. Les documents administratifs peuvent revêtir de nombreuses formes (dossiers, rapports, études, comptes rendus, procès-verbaux, statistiques, directives, instructions, circulaires, codes sources, etc.) et adopter tout support (écrit, enregistrement sonore ou visuel, forme numérique ou informatique). Il peut s’agir de documents détenus par l’État, les collectivités territoriales mais aussi par les autres personnes de droit public ou les personnes de droit privé. Pour déterminer si une personne privée est chargée d’une mission de service public, dans le silence des textes, il y a lieu de contrôler4 : • si la personne privée assure une mission d’intérêt général sous le contrôle de l’administration et si elle est dotée à cette fin de prérogatives de puissance publique ; • ou, en l’absence de telles prérogatives, si, eu égard à l’intérêt général de son activité, aux conditions de sa création, de son organisation ou de son fonctionnement, aux obligations qui lui sont imposées ainsi qu’aux mesures prises pour vérifier que les objectifs qui lui sont assignés sont atteints, il apparaît que l’administration a entendu lui confier une telle mission.',
  '46 https://references.modernisation.gouv.fr/sites/default/files/Referentiel_General_Interoperabilite_V2.pdf. \n. 4 COMMENT RÉUTILISER LES DONNÉES DIFFUSÉES ?. Les obligations prévues par le CRPA pour la réutilisation. Articles L. 321-1 et suivants du CRPA. Par principe, les informations publiques figurant dans des documents communiqués ou publiés par les administrations48 peuvent être utilisées par toute personne (physique ou morale, publique ou privée) qui le souhaite à d’autres fins que celles de la mission de service public pour les besoins de laquelle les documents ont été produits ou reçus. Sont donc librement réutilisables : • les données figurant dans des documents publiés par l’administration ; • les données figurant dans des documents communiqués par l’administration ou pour lesquels la communication est un droit, sous réserve du respect d’éventuelles obligations d’occultation (voir supra). La réutilisation des données ne dépend pas du régime juridique sous lequel s’est effectuée leur communication ou la publication (CRPA ou autres obligations légales ou règlementaires). Certains obstacles peuvent cependant restreindre la libre réutilisation : • les droits de propriété intellectuelle détenus par des tiers à l’administration ainsi que ceux des administrations sur les bases de données qu’elles ont produites ou reçues dans l’exercice d’une mission de service public à caractère industriel ou commercial soumise à la concurrence. Les autres administrations, ne peuvent en revanche, au titre des droits qu’elles détiennent au titre des articles L. 342-1 et L. 342-2 du code de la propriété intellectuelle, faire obstacle à la réutilisation du contenu des bases de données qu’elles publient en application du 3° de l’article L. 312-1-1 du présent code dans le cadre de l’« open data »49.',
  '57 https://www.cnil.fr/fr/les-droits-pour-maitriser-vos-donnees-personnelles. 58 https://www.cnil.fr/fr/limiter-la-conservation-des-donnees. 59 https://www.cnil.fr/fr/garantir-la-securite-des-donnees. \n. GLOSSAIRE. Définitions. Anonymisation : souvent confondue avec la notion de pseudonymisation, l’anonymisation est un traitement effectué sur un document permettant de rendre impossible par quelque moyen que ce soit, et cela de façon irréversible, l’identification des personnes. Lorsque l’anonymisation est effective, le RGPD ne s’applique plus au traitement des données, celles-ci n’étant dès lors plus à caractère personnel. Archive publique : ensemble des documents, y compris les données, quels que soient leur date, leur lieu de conservation, leur forme et leur support, produits ou reçus par toute personne physique ou morale et par tout service ou organisme public ou privé dans l’exercice d’une activité de service public. Ainsi, tout document administratif est une archive publique. Les archives publiques forment toutefois un ensemble plus vaste que les documents administratifs dans la mesure où elles englobent les documents qui sont exclus du champ d’application du CRPA, notamment les documents juridictionnels et judiciaires. Les archives du Conseil constitutionnel et des assemblées parlementaires ne sont pas régies par le régime de droit commun des archives publiques mais par des dispositions qui sont propres à chacune de ces instances.']]

In [None]:
answers_2 = []
contexts_2 = []
#i = 0
# for question in questions_experte:
# i = i+1
# if i <=10:
question = question_exp2
print(f"Traitement de la question {question} ...")
#question = str(question)
keyword_part = question.split("?")[-1]
logging.info(f"Mots imposés: {keyword_part} ...")
memory = ConversationBufferMemory(
		memory_key="chat_history",
		input_key="question",
		return_messages=True,
		output_key="answer")
prompt = PromptTemplate(
							input_variables=["context", "chat_history", "question"],
							template=KWF_TEMPLATE,
			)
chain = kwf_chain(
				keyword_part, prompt, memory,
				PREPARED_CHUNK_DIR,
)
input_structure = {"question": question}

response = chain.invoke(input_structure)
answers_2 = response["answer"]

	#exit()
	#chunk["source_documents"][i].page_content
contexts_2 = contexts_2.append([context.page_content for context in response["source_documents"]])

In [None]:
answers_3 = []
contexts_3 = []
#i = 0
# for question in questions_experte:
# i = i+1
# if i <=10:
question = question_exp3
print(f"Traitement de la question {question} ...")
#question = str(question)
keyword_part = question.split("?")[-1]
logging.info(f"Mots imposés: {keyword_part} ...")
memory = ConversationBufferMemory(
		memory_key="chat_history",
		input_key="question",
		return_messages=True,
		output_key="answer")
prompt = PromptTemplate(
							input_variables=["context", "chat_history", "question"],
							template=KWF_TEMPLATE,
			)
chain = kwf_chain(
				keyword_part, prompt, memory,
				PREPARED_CHUNK_DIR,
)
input_structure = {"question": question}

response = chain.invoke(input_structure)
answers_3 = response["answer"]

	#exit()
	#chunk["source_documents"][i].page_content
contexts_3.append([context.page_content for context in response["source_documents"]])

In [None]:
answers_5 = []
contexts_5 = []
#i = 0
# for question in questions_experte:
# i = i+1
# if i <=10:
question = question_exp5
print(f"Traitement de la question {question} ...")
#question = str(question)
keyword_part = question.split("?")[-1]
logging.info(f"Mots imposés: {keyword_part} ...")
memory = ConversationBufferMemory(
		memory_key="chat_history",
		input_key="question",
		return_messages=True,
		output_key="answer")
prompt = PromptTemplate(
							input_variables=["context", "chat_history", "question"],
							template=KWF_TEMPLATE,
			)
chain = kwf_chain(
				keyword_part, prompt, memory,
				PREPARED_CHUNK_DIR,
)
input_structure = {"question": question}

response = chain.invoke(input_structure)
answers_5 = response["answer"]

	#exit()
	#chunk["source_documents"][i].page_content
contexts_5.append([context.page_content for context in response["source_documents"]])

In [None]:
answers_6 = []
contexts_6 = []
#i = 0
# for question in questions_experte:
# i = i+1
# if i <=10:
question = question_exp6
print(f"Traitement de la question {question} ...")
#question = str(question)
keyword_part = question.split("?")[-1]
logging.info(f"Mots imposés: {keyword_part} ...")
memory = ConversationBufferMemory(
		memory_key="chat_history",
		input_key="question",
		return_messages=True,
		output_key="answer")
prompt = PromptTemplate(
							input_variables=["context", "chat_history", "question"],
							template=KWF_TEMPLATE,
			)
chain = kwf_chain(
				keyword_part, prompt, memory,
				PREPARED_CHUNK_DIR,
)
input_structure = {"question": question}

response = chain.invoke(input_structure)
answers_6 = response["answer"]

	#exit()
	#chunk["source_documents"][i].page_content
contexts_6.append([context.page_content for context in response["source_documents"]])

In [None]:
answers_7 = []
contexts_7 = []
#i = 0
# for question in questions_experte:
# i = i+1
# if i <=10:
question = question_exp7
print(f"Traitement de la question {question} ...")
#question = str(question)
keyword_part = question.split("?")[-1]
logging.info(f"Mots imposés: {keyword_part} ...")
memory = ConversationBufferMemory(
		memory_key="chat_history",
		input_key="question",
		return_messages=True,
		output_key="answer")
prompt = PromptTemplate(
							input_variables=["context", "chat_history", "question"],
							template=KWF_TEMPLATE,
			)
chain = kwf_chain(
				keyword_part, prompt, memory,
				PREPARED_CHUNK_DIR,
)
input_structure = {"question": question}

response = chain.invoke(input_structure)
answers_7 = response["answer"]

	#exit()
	#chunk["source_documents"][i].page_content
contexts_7.append([context.page_content for context in response["source_documents"]])

In [None]:
answers_8 = []
contexts_8 = []
#i = 0
# for question in questions_experte:
# i = i+1
# if i <=10:
question = question_exp8
print(f"Traitement de la question {question} ...")
#question = str(question)
keyword_part = question.split("?")[-1]
logging.info(f"Mots imposés: {keyword_part} ...")
memory = ConversationBufferMemory(
		memory_key="chat_history",
		input_key="question",
		return_messages=True,
		output_key="answer")
prompt = PromptTemplate(
							input_variables=["context", "chat_history", "question"],
							template=KWF_TEMPLATE,
			)
chain = kwf_chain(
				keyword_part, prompt, memory,
				PREPARED_CHUNK_DIR,
)
input_structure = {"question": question}

response = chain.invoke(input_structure)
answers_8 = response["answer"]

	#exit()
	#chunk["source_documents"][i].page_content
contexts_8.append([context.page_content for context in response["source_documents"]])

In [None]:
answers_9 = []
contexts_9 = []
#i = 0
# for question in questions_experte:
# i = i+1
# if i <=10:
question = question_exp9
print(f"Traitement de la question {question} ...")
#question = str(question)
keyword_part = question.split("?")[-1]
logging.info(f"Mots imposés: {keyword_part} ...")
memory = ConversationBufferMemory(
		memory_key="chat_history",
		input_key="question",
		return_messages=True,
		output_key="answer")
prompt = PromptTemplate(
							input_variables=["context", "chat_history", "question"],
							template=KWF_TEMPLATE,
			)
chain = kwf_chain(
				keyword_part, prompt, memory,
				PREPARED_CHUNK_DIR,
)
input_structure = {"question": question}

response = chain.invoke(input_structure)
answers_9 = response["answer"]

	#exit()
	#chunk["source_documents"][i].page_content
contexts_9.append([context.page_content for context in response["source_documents"]])

	

Question 4
Part dans tous les sens des fois

In [None]:
# from langchain_community.embeddings import HuggingFaceInstructEmbeddings
# import InstructorEmbedding
# embedding = HuggingFaceInstructEmbeddings(model_name="hkunlp/instructor-large", model_kwargs={"device": "cuda"})

In [None]:
questions_experte = [question_exp1, question_exp2, question_exp3, question_exp4, question_exp5,
                     question_exp6, question_exp7, question_exp8, question_exp9]
answers = [answers_1, answers_2, answers_3, answers_4, answers_5, 
           answers_6, answers_7, answers_8, answers_9]
contexts = [contexts_1, contexts_2, contexts_3, contexts_4, contexts_5, 
            contexts_6, contexts_7, contexts_8, contexts_9]
reponses_experte = [reponse_exp1, reponse_exp2, reponse_exp3, reponse_exp4, reponse_exp5,
                    reponse_exp6, reponse_exp7, reponse_exp8, reponse_exp9]


In [None]:
eval_dataframe = pd.read_csv(f"DatasetEvaluation_temp_{TEMPERATURE}.csv")

In [None]:
context11 = [[['\n. QUELLES SONT LES OBLIGATIONS DE PUBLICATION EN LIGNE ?. • les administrations ne sont pas tenues de publier les archives publiques issues des opérations de sélection prévues aux articles L. 212-2 et L. 212-3 du code du patrimoine. Attention : les obligations de publication en ligne telles que détaillées ci-après n’impliquent pas une diffusion des documents en question dans leur intégralité. En effet les administrations seront tenues de s’interroger sur la nécessité d’occulter certaines informations non communicables ou d’anonymiser le document ( cf 2. Infra). Les obligations prévues par le code des relations entre le public et l’administration L’article L. 312-1 du CRPA consacre de façon générale la faculté pour les administrations de publier les documents administratifs qu’elles produisent ou reçoivent. Le CRPA prévoit également des obligations légales de publication.',
  '\n. QUELLES SONT LES OBLIGATIONS. \nDE PUBLICATION EN LIGNE ?. Articles L. 300-2 et L. 300-3 du CRPA. À noter que : • seuls les documents qui ont un lien suffisamment direct avec l’exercice des missions de service public, ou qui retracent les conditions dans lesquelles l’organisme privé exerce sa mission de service public, ont un caractère administratif, à l’exclusion des documents relatifs uniquement au fonctionnement interne de cet organisme5 ; Toutefois, bien qu’ils soient sans lien avec les missions de service public, les documents relatifs à la gestion du domaine privé des personnes publiques sont désormais soumis au régime d’accès des documents administratifs. • le document doit exister à la date de la demande. Lorsqu’il n’existe pas en tant que tel, le document doit pouvoir être créé par un traitement automatisé d’usage courant (c’est-à-dire en ayant recours à un programme informatique de maniement aisé et à la disposition du service qui détient la base de données) ; En d’autres termes, l’administration n’est pas tenue, sauf disposition particulière, d’élaborer un document pour répondre à une demande6, ni de numériser un document dont elle dispose exclusivement sous forme papier afin de le mettre en ligne. Cependant, la création d’un document peut être imposée à l’administration lorsqu’une obligation de publication implique la création d’un document ad hoc. C’est le cas par exemple de la publication des règles définissant les principaux traitements algorithmiques (cf 1.1.2.2.) ou en matière d’information environnementale.',
  '\n. QUELLES SONT LES OBLIGATIONS. \nDE PUBLICATION EN LIGNE ?. Articles L. 300-2 et L. 300-3 du CRPA. Ces obligations concernent les documents administratifs au sens du CRPA, c’est-à-dire tout document produit ou reçu par l’administration au sens de l’article L. 300-2 du code des relations entre le public et l’administration dans le cadre d’une mission de service public. Les documents administratifs peuvent revêtir de nombreuses formes (dossiers, rapports, études, comptes rendus, procès-verbaux, statistiques, directives, instructions, circulaires, codes sources, etc.) et adopter tout support (écrit, enregistrement sonore ou visuel, forme numérique ou informatique). Il peut s’agir de documents détenus par l’État, les collectivités territoriales mais aussi par les autres personnes de droit public ou les personnes de droit privé. Pour déterminer si une personne privée est chargée d’une mission de service public, dans le silence des textes, il y a lieu de contrôler4 : • si la personne privée assure une mission d’intérêt général sous le contrôle de l’administration et si elle est dotée à cette fin de prérogatives de puissance publique ; • ou, en l’absence de telles prérogatives, si, eu égard à l’intérêt général de son activité, aux conditions de sa création, de son organisation ou de son fonctionnement, aux obligations qui lui sont imposées ainsi qu’aux mesures prises pour vérifier que les objectifs qui lui sont assignés sont atteints, il apparaît que l’administration a entendu lui confier une telle mission.',
  '46 https://references.modernisation.gouv.fr/sites/default/files/Referentiel_General_Interoperabilite_V2.pdf. \n. 4 COMMENT RÉUTILISER LES DONNÉES DIFFUSÉES ?. Les obligations prévues par le CRPA pour la réutilisation. Articles L. 321-1 et suivants du CRPA. Par principe, les informations publiques figurant dans des documents communiqués ou publiés par les administrations48 peuvent être utilisées par toute personne (physique ou morale, publique ou privée) qui le souhaite à d’autres fins que celles de la mission de service public pour les besoins de laquelle les documents ont été produits ou reçus. Sont donc librement réutilisables : • les données figurant dans des documents publiés par l’administration ; • les données figurant dans des documents communiqués par l’administration ou pour lesquels la communication est un droit, sous réserve du respect d’éventuelles obligations d’occultation (voir supra). La réutilisation des données ne dépend pas du régime juridique sous lequel s’est effectuée leur communication ou la publication (CRPA ou autres obligations légales ou règlementaires). Certains obstacles peuvent cependant restreindre la libre réutilisation : • les droits de propriété intellectuelle détenus par des tiers à l’administration ainsi que ceux des administrations sur les bases de données qu’elles ont produites ou reçues dans l’exercice d’une mission de service public à caractère industriel ou commercial soumise à la concurrence. Les autres administrations, ne peuvent en revanche, au titre des droits qu’elles détiennent au titre des articles L. 342-1 et L. 342-2 du code de la propriété intellectuelle, faire obstacle à la réutilisation du contenu des bases de données qu’elles publient en application du 3° de l’article L. 312-1-1 du présent code dans le cadre de l’« open data »49.',
  '57 https://www.cnil.fr/fr/les-droits-pour-maitriser-vos-donnees-personnelles. 58 https://www.cnil.fr/fr/limiter-la-conservation-des-donnees. 59 https://www.cnil.fr/fr/garantir-la-securite-des-donnees. \n. GLOSSAIRE. Définitions. Anonymisation : souvent confondue avec la notion de pseudonymisation, l’anonymisation est un traitement effectué sur un document permettant de rendre impossible par quelque moyen que ce soit, et cela de façon irréversible, l’identification des personnes. Lorsque l’anonymisation est effective, le RGPD ne s’applique plus au traitement des données, celles-ci n’étant dès lors plus à caractère personnel. Archive publique : ensemble des documents, y compris les données, quels que soient leur date, leur lieu de conservation, leur forme et leur support, produits ou reçus par toute personne physique ou morale et par tout service ou organisme public ou privé dans l’exercice d’une activité de service public. Ainsi, tout document administratif est une archive publique. Les archives publiques forment toutefois un ensemble plus vaste que les documents administratifs dans la mesure où elles englobent les documents qui sont exclus du champ d’application du CRPA, notamment les documents juridictionnels et judiciaires. Les archives du Conseil constitutionnel et des assemblées parlementaires ne sont pas régies par le régime de droit commun des archives publiques mais par des dispositions qui sont propres à chacune de ces instances.']]]

In [None]:
eval_dataframe.loc[1, ["contexts"]] = context11

In [None]:
eval_dataframe

In [None]:
my_dict = {
    "question" : eval_dataframe["question"].values.flatten(),
    "answer" : eval_dataframe["answer"].values.flatten(),
    "contexts" : eval_dataframe["contexts"].values.flatten(),
    "ground_truth" : eval_dataframe["ground_truth"].values.flatten(),
}

In [None]:
my_dict

In [None]:
# response_df  = Dataset.from_dict({
#     "question" : eval_dataframe["question"],
#     "answer" : eval_dataframe["answer"],
#     "contexts" : eval_dataframe["contexts"],
#     "ground_truth" : eval_dataframe["ground_truth"],
# })
response_df = Dataset.from_dict(my_dict)


In [None]:
metrics = [answer_similarity,
answer_correctness,
faithfulness,
answer_relevancy,
context_relevancy]
embedding = HuggingFaceInstructEmbeddings(
        model_name="hkunlp/instructor-large", model_kwargs={"device": "cuda"}
    )
results = evaluate(eval_dataframe,  metrics=metrics, embeddings=embedding)

In [None]:
results_df = results.to_pandas()

results_df.to_excel(f"QAExpert_temperature_{TEMPERATURE}.xlsx")

In [None]:
results_df

In [None]:
print(answers[0])

In [None]:
print(results_df["ground_truth"][0])

In [None]:
#lines = df.ground.values[2:4]

In [None]:
#lines

In [None]:
results_df[["question", "ground_truth", "answer", "answer_similarity"]]

## Evaluation des questions novices

In [None]:
eval_df

In [None]:
questions_novice = eval_df["Question novice"] + eval_df["Mots clés Question Novice"]
reponses_novice = eval_df["Réponse Novice"]

- Answer_similarity
- 5 Exemples
- 1 Exemple  avec les autres critères RAG TRiad
- Définition des métriques
- Cosine Similarity de langchain

# Test d'évaluation RAG TRIAD 



`Faithfulness ou Groundness`:  Consistance de la réponse générée par rapport au contexte. Le calcul se fait entre la réponse générée par le LLM et le contexte retriévié. Une réponse est dite faithfull si toutes les affirmations qui sont dans la réponse peuvent être prédites par le contexte retriévié. 

Pour ce faire, on identifie d'abord un ensemble d'affirmation sur la réponse, et on quantifie si l'affirmation peut être prédite par le contexte retriévie. Le groundness est la moyenne de toutes les affirmations 

__Exemple__ :  

- Question : Qui est Albert Einstein ? 

- Contexte : Albert Einstein (né le 14 mars 1879) est un physicien théoricien d'origine allemande, largement considéré comme l'un des scientifiques les plus importants et les plus influents de tous les temps. 

- Réponse avec haut faithfulness : Einstein est né en Allemagne le 14 mars 1879. 

- Réponse avec faible faithfulness : Einstein est né en Allemagne le 20 mars 1879. 
 

`Answer relevance` 

Cette métrique mesure la pertinence de la réponse générée par rapport au prompt (question). Cette mesure est calculée à partir de la question, du contexte et de la réponse. 

__Exemple__ : 

**Question** : Où se trouve la France et quelle est sa capitale ? 

**Réponse peu pertinente** : La France est située en Europe occidentale. 

**Réponse très pertinente** : La France est située en Europe occidentale et Paris est sa capitale. 

__Méthode de calcul__ : 

Pour calculer la pertinence de la réponse à une question donnée, nous suivons deux étapes : 

- Étape 1 : rétro-ingénierie de "n" variantes de la question à partir de la réponse générée à l'aide d'un grand modèle linguistique (LLM). Par exemple, pour la première réponse, le LLM peut générer les questions possibles suivantes :  

		- Question 1 : "Dans quelle partie de l'Europe se trouve la France ?" 

		- Question 2 : "Quelle est la situation géographique de la France en Europe ?" 

		- Question 3 : "Pouvez-vous identifier la région d'Europe où se trouve la France ?" 

- Étape 2 : Calculer la similarité moyenne en cosinus entre les questions générées et la question réelle. 

Le concept sous-jacent est que si la réponse répond correctement à la question, il est très probable que la question originale puisse être reconstruite uniquement à partir de la réponse. 


`Contexte relevance` 

Cette mesure évalue la pertinence du contexte retrouvé. Le calcul se fait sur la base de la question et des contextes. Les valeurs sont comprises entre 0 et 1, les valeurs les plus élevées indiquant une meilleure pertinence. 

  

Idéalement, le contexte récupéré devrait contenir exclusivement des informations essentielles pour répondre à la requête fournie. Pour ce faire, nous estimons d'abord la valeur en identifiant les phrases du contexte retrouvé qui sont pertinentes pour répondre à la question posée.  

__Exemple__: 

- Question : Quelle est la capitale de la France ? 

- Contexte très pertinent : La France, située en Europe occidentale, comprend des villes médiévales, des villages alpins et des plages méditerranéennes. Paris, sa capitale, est célèbre pour ses maisons de couture, ses musées d'art classique, dont le Louvre, et ses monuments comme la tour Eiffel. 

- Faible pertinence du contexte : La France, située en Europe occidentale, comprend des villes médiévales, des villages alpins et des plages méditerranéennes. Paris, sa capitale, est célèbre pour ses maisons de couture, ses musées d'art classique, dont le Louvre, et ses monuments comme la Tour Eiffel. Le pays est également réputé pour ses vins et sa cuisine raffinée. Les dessins rupestres de Lascaux, le théâtre romain de Lyon et le vaste château de Versailles témoignent de la richesse de son histoire.

In [None]:
small_dataset_df = response_df.to_pandas()

In [None]:
small_dataset_df = small_dataset_df.head(2)

In [None]:
small_dataset = Dataset.from_pandas(small_dataset_df)

In [None]:
from ragas.metrics import context_relevancy

In [None]:
metrics = [
    faithfulness,
    answer_relevancy,
    context_relevancy,
    answer_correctness
    
]

In [None]:
results = evaluate(small_dataset, metrics)

In [None]:
results_df = results.to_pandas()

In [None]:
results_df

### Similarité cosinus avec LangChain 

In [None]:
from langchain.utils.math import cosine_similarity

In [None]:
results_df

In [None]:
df_cosine = pd.DataFrame.from_dict(response_df)

In [None]:
df_cosine

In [None]:
from langchain_community.embeddings import HuggingFaceInstructEmbeddings
import InstructorEmbedding
embedding = HuggingFaceInstructEmbeddings(
        model_name="hkunlp/instructor-large", model_kwargs={"device": "cuda"}
    )

In [None]:
true_embeddings = embedding.embed_documents(df_cosine["ground_truth"].values)

In [None]:
answers_embeddings = embedding.embed_documents(df_cosine["answer"].values)

In [None]:
similarity = cosine_similarity(true_embeddings, answers_embeddings)

In [None]:
similarity

In [None]:
#print(results_df[["answer_relevancy", "answer_similarity"]])





################### Test avec RAGAS ###########################
# make eval chains
# eval_chains = {
#     m.name: RagasEvaluatorChain(
#         metric=m
#     )
#     for m in [faithfulness, answer_relevancy, context_relevancy, context_recall]
# }

# # evaluate
# for name, eval_chain in eval_chains.items():
#     print(f" Name {name} ...")
#     score_name = f"{name}_score"
#     print(f"{score_name}: Eval chain type: {type(eval_chain)} \n")
#     print(f"{score_name}: {eval_chain(answers)[score_name]}")
# export LANGCHAIN_TRACING_V2=true
# export LANGCHAIN_ENDPOINT="https://api.smith.langchain.com"
# export LANGCHAIN_API_KEY='ls__2b782c568b874436b35388fd810a13bcx'
# export LANGCHAIN_PROJECT=<your-project>  # if not specified, defaults to "default"
# from langsmith import Client
# from langsmith.utils import LangSmithError

# client = Client()
# dataset_name = "RGPD test"

# # dataset creation
# from langsmith import Client
# from langsmith.utils import LangSmithError

# client = Client()
# dataset_name = "NYC test"

# try:
#     # check if dataset exists
#     dataset = client.read_dataset(dataset_name=dataset_name)
#     print("using existing dataset: ", dataset.name)
# except LangSmithError:
#     # if not create a new one with the generated query examples
#     dataset = client.create_dataset(
#         dataset_name=dataset_name, description="RGPD test dataset"
#     )
#     for q in Questions:
#         client.create_example(
#             inputs={"query": q},
#             dataset_id=dataset.id,
#         )

#     print("Created a new dataset: ", dataset.name)
    
    
# from langchain.smith import RunEvalConfig, run_on_dataset

# evaluation_config = RunEvalConfig(
#     custom_evaluators=[eval_chains.values()],
#     prediction_key="result",
# )
    
# result = run_on_dataset(
#     client,
#     dataset_name,
#     create_qa_chain,
#     evaluation=evaluation_config,
#     input_mapper=lambda x: x,
# )


In [None]:
answers.append(response["answer"])