# RAG


In [8]:
import warnings
warnings.filterwarnings('ignore')

In [9]:
import torch
from tqdm.auto import tqdm

device = f'cuda:{torch.cuda.current_device()}' if torch.cuda.is_available() else 'cpu'

In [10]:
print(device)
!nvidia-smi

cuda:0
Wed Feb 28 10:52:41 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 545.23.08              Driver Version: 545.23.08    CUDA Version: 12.3     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  NVIDIA RTX A4000               On  | 00000000:00:05.0  On |                  Off |
| 41%   36C    P8              16W / 140W |   3780MiB / 16376MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA RTX A4000               On  | 00000000:00:07.0 

In [11]:
from huggingface_hub import login

In [12]:
hf_token = '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'
login(token=hf_token)

Token will not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /home/paperspace/.cache/huggingface/token
Login successful


In [13]:
from langchain.embeddings import HuggingFaceEmbeddings

In [14]:
from datasets import load_dataset, Dataset

path = '/home/paperspace/certibot/data/certibot-data.jsonl'

raw_dataset = load_dataset('json', data_files=path, split='train')
raw_dataset

Using custom data configuration default-dd3eae9dd2681203
Reusing dataset json (/home/paperspace/.cache/huggingface/datasets/json/default-dd3eae9dd2681203/0.0.0/a3e658c4731e59120d44081ac10bf85dc7e1388126b92338344ce9661907f253)


Dataset({
    features: ['topic', 'article'],
    num_rows: 97
})

In [15]:
data = raw_dataset.to_pandas()

data = data.reset_index()
data['context'] = data['topic'] + ': ' + data['article']
data['index'] = data['index'].astype((str))

dataset = Dataset.from_pandas(data)

In [16]:
# checkpoint = "Cohere/Cohere-embed-multilingual-v3.0"
checkpoint = "intfloat/multilingual-e5-large-instruct"
embed_dim = 1024

In [17]:
embedding = HuggingFaceEmbeddings(model_name=checkpoint)

You try to use a model that was created with version 2.4.0.dev0, however, your version is 2.3.1. This might cause unexpected behavior or errors. In that case, try to update to the latest version.





In [18]:
type(embedding)

langchain_community.embeddings.huggingface.HuggingFaceEmbeddings

In [23]:
import pinecone

api_key = 'a344a187-8b52-422d-97c2-96628ef67ef6'

pc = pinecone.Pinecone(api_key=api_key)

In [24]:
index_name = 'certibot-rag'

In [25]:
import time

# check if index already exists (it shouldn't if this is first time)
if index_name not in pc.list_indexes().names():
    # if does not exist, create index
    pc.create_index(
        index_name,
        dimension=embed_dim,
        metric='cosine',
        spec=pinecone.PodSpec('gcp-starter')
    )
    # wait for index to be initialized
    while not pc.describe_index(index_name).status['ready']:
        time.sleep(1)

# connect to index
index = pc.Index(index_name)
# view index stats
index.describe_index_stats()

{'dimension': 1024,
 'index_fullness': 0.00097,
 'namespaces': {'': {'vector_count': 97}},
 'total_vector_count': 97}

In [26]:
type(index)

pinecone.data.index.Index

In [14]:
batch_size = 4

In [15]:
progress_bar = tqdm(range(0, len(data), batch_size))

for i in range(0, len(data), batch_size):
  end = min(len(data), i + batch_size)
  batch = data[i:end]

  ids = batch['index']
  texts = batch['context']

  embeds = embedding.embed_documents(texts)

  metadata = [{
      'context': x['context'],
      'topic': x['topic']
      } for _, x in batch.iterrows()]

  vectors = list(zip(ids, embeds, metadata))
  index.upsert(vectors=vectors)
  progress_bar.update(1)

  0%|          | 0/25 [00:00<?, ?it/s]

# RAG functions

In [16]:
def RAG_retrieve(query:str, top_k:int=5) -> list:
  """
  Embeds a user query, retrieves top_k relevant contexts and returns them for
  use by the LLM.
  """

  query_embed = embedding.embed_query(query)
  res = index.query(vector=query_embed, top_k=top_k, include_metadata=True)
  contexts = [x['metadata']['context'] for x in res['matches']]

  return contexts

In [18]:
res = RAG_retrieve("que pense tu de backmarket")
res

['Reconditionnement en France:  CertiDeal est aujourd’hui connu comme le reconditionneur le plus français du marché. Cette réputation qui fait notre fierté, tient principalement au fait que l’ensemble de nos techniciens travaillent au sein dans notre atelier en région parisienne. Participant à cette internalisation qui nous est chère, ils reconditionnent eux-mêmes l’intégralité de nos smartphones',
 "CertiManifesto - 1: par audace, excentrisme ou par le simple plaisir de faire une brèche dans le consensus. ce positionnement est dicté par l'opportunité qui nous est offerte de pouvoir apporter des perspectives novatrices, de redessiner les contours de ce secteur justement parce qu'il est jeune et donc encore malléable, mais surtout d'offrir a nos clients une expérience toujours plus adaptée a leurs besoins. force est de constater qu'il s'agisse de nos valeurs, de nos procédés ou de nos modes opératoires, sur bien des aspects, nous naviguons a contre le courant... quitte a faire des vague

In [19]:
from transformers import AutoModelForCausalLM, AutoTokenizer


mistral_checkpoint = "mistralai/Mistral-7B-Instruct-v0.2"
gemma_checkpoint = "google/gemma-7b-it"
# model_name = "mistralai/Mixtral-8x7B-Instruct-v0.1"


mistral_tokenizer = AutoTokenizer.from_pretrained(mistral_checkpoint)

mistral_model = AutoModelForCausalLM.from_pretrained(
    mistral_checkpoint,
    torch_dtype=torch.float16,
    device_map='auto',
    )

# gemma_tokenizer = AutoTokenizer.from_pretrained(gemma_checkpoint)

# gemma_model = AutoModelForCausalLM.from_pretrained(
#     gemma_checkpoint,
#     torch_dtype=torch.float16,
#     device_map='auto',
#     )


Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

In [20]:
prompt_template_mistral = """<s>[INST]Ce qui suit est une conversation entre une IA et un humain.
Tu es un assistant pour les clients de CertiDeal. CertiDeal vends des smartphones reconditionnés.
Ci-dessous est une requête d'un utilisateur ainsi que quelques contextes pertinents.
Réponds à la question en fonction des informations contenues dans ces contexts.
Les réponses doivent être précises et relativement courtes.
Si tu ne trouve pas la réponse à la question, dis "Je ne sais pas"."""

prompt_template_gemma = """<start_of_turn>user
Ce qui suit est une conversation entre une IA et un humain.
Tu es un assistant pour les clients de CertiDeal. CertiDeal vends des smartphones reconditionnés.
Ci-dessous est une requête d'un utilisateur ainsi que quelques contextes pertinents.
Réponds à la question en fonction des informations contenues dans ces contexts.
Les réponses doivent être précises et relativement courtes.
Si tu ne trouve pas la réponse à la question, dis "Je ne sais pas". """

In [21]:
from transformers.models.gemma import GemmaForCausalLM, GemmaTokenizerFast
from transformers.models.mistral import MistralForCausalLM
from transformers.models.llama import LlamaTokenizerFast

In [31]:
def RAG_retrieve(query:str, top_k:int=5) -> list:
  """
  Embeds a user query, retrieves top_k relevant contexts and returns them for
  use by the LLM.
  """

  query_embed = embedding.embed_query(query)
  res = index.query(vector=query_embed, top_k=top_k, include_metadata=True)
  contexts = [x['metadata']['context'] for x in res['matches']]

  return contexts


def RAG_generate(query:str, contexts:list, conversation_history:list[dict], tokenizer:AutoTokenizer, model:AutoModelForCausalLM) -> str:
    
    # format retrieved contexts
    context = ""
    for i, text in enumerate(contexts):
        context += f'*{i}: {text}\n\n'
    
    history_prompt = ""
    if conversation_history != []:
        for exchange in conversation_history:
            history_prompt += f"Q: {exchange['query']}\nA: {exchange['response']}\n"

    # prompt template based on the model
    if isinstance(model, MistralForCausalLM):
        prompt = f"""Instruction du système
        {prompt_template_mistral}
        ---------------------------------------------------------------------
        Historique de la conversation:
        {history_prompt}

        Contextes pour inspiration:
        {context}
        
        Question: {query}
        Crée une réponse informative sans recopier la requête. Montre que tu as compris la demande en apportant une réponse précise et pertinente. Réponds en Français. Ne donne pas de références aux contextes.[/INST]
        """
        eos = '[/INST]'
    elif isinstance(model, GemmaForCausalLM):
        prompt = f"""{prompt_template_gemma}

        Contextes:
        {context}

        Question: {query}
        Crée une réponse informative sans recopier la requête. Montre que tu as compris la demande en apportant une réponse précise et pertinente. Réponds en Français. Ne donne pas de références aux contextes.
        <end_of_turn>
        <start_of_turn>model
        """
        eos = 'model\n'
        
    # tokenize the prompt
    inputs = tokenizer(prompt, return_tensors="pt", truncation=True)
    input_ids = inputs['input_ids'].to(device)
    attention_mask = inputs['attention_mask'].to(device)

    # generate answer
    outputs = model.generate(
        input_ids,
        attention_mask=attention_mask,
        temperature=2,
        max_new_tokens=1024,
        )
    
    # decode the output
    output = tokenizer.decode(outputs[0].to(device), skip_special_tokens=True)

    # keep the generated part
    idx = output.index(eos) + len(eos)
    answer = output[idx:].strip()

    return answer

In [32]:
conversation_history = []

In [36]:
query = "que pense tu de backmarket?"
res = RAG_retrieve(query, top_k=3)
out = RAG_generate(query=query, contexts=res, conversation_history=conversation_history, tokenizer=mistral_tokenizer, model=mistral_model)
conversation_history.append({'query':query, 'response':out})
print(out)

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


Je ne suis pas en mesure de partager ma perception personnelle de Backmarket, car je suis une IA conçue pour répondre à des questions et fournir des informations. Cependant, je peux vous dire que Backmarket est une plateforme en ligne de vente de produits d'occasion, y compris des smartphones. Ils offrent des prix compétitifs et permettent aux utilisateurs de vendre leurs propres produits. Les appareils sont examinés et certifiés avant d'être mis en vente. Si vous avez d'autres questions ou si vous souhaitez savoir plus sur CertiDeal ou nos produits, je suis heureux de vous en aider.


In [135]:
def conversation_loop():
    conversation_history = []
    while True:
        query = input("> User:")
        if query.lower() == 'exit':
            print('> Exiting the conversation...')
            break

        contexts = RAG_retrieve(query, top_k=3)
        response = RAG_generate(query, contexts, conversation_history, mistral_tokenizer, mistral_model)
        conversation_history.append({'query':query, 'response':response})

        print('> User:', query)
        print('> AI  :',  response)
        time.sleep(2)

In [136]:
conversation_loop()

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


> User: Bonjour! Je veux une suggestion pour un bon téléphone avec un budget de 400€
> AI  : Bonjour! Je suis heureux de vous aider. D'après votre budget de 400€, je vous suggère de considérer les modèles suivants :

1. iPhone 8 Plus : Ce smartphone offre une excellente qualité/prix ratio. Il est équipé d'une double caméra arrière, d'un écran haute définition et d'une batterie longue vie.
2. Samsung Galaxy A51 : Ce smartphone est équipé d'une bonne caméra principale, d'un écran de 6,5 pouces et d'une batterie de longue durée. Il offre également une design élégant et une interface utilisateur intuitif.
3. Xiaomi Mi 10T Lite : Ce smartphone offre une puissance impressionnante avec son processeur Snapdragon 750G et sa mémoire de 6 ou 8 Go. Il est également équipé d'une bonne caméra principale et d'un écran de 6,67 pouces.

Je suis sûr qu'un de ces modèles répondra à vos attentes en termes de performance et de qualité, tout en respectant votre budget. Si vous avez d'autres questions ou si 

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


> User: en fait je veux un iphone reconditionné et pas un android
> AI  : Bonjour! Vous avez demandé une suggestion d'iPhone reconditionné dans votre budget de 400€. Je vous propose les modèles suivants :

1. iPhone 8 Plus : Ce smartphone offre une excellente qualité/prix ratio. Il est équipé d'une double caméra arrière, d'un écran haute définition et d'une batterie longue vie.
2. iPhone XR : Ce smartphone offre une bonne performance et une excellente qualité/prix ratio. Il est équipé d'une bonne caméra principale, d'un écran haute définition et d'une batterie de longue durée.
3. iPhone 11 : Ce smartphone offre une excellente qualité/prix ratio avec sa caméra principale de haute qualité et son écran de 6,1 pouces.

Je suis sûr qu'un de ces modèles répondra à vos attentes en termes de performance et de qualité, tout en respectant votre budget et vous offrant un appareil iPhone reconditionné. Si vous avez d'autres questions ou si vous souhaitez savoir plus sur l'un de ces modèles, n'hési

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


> User: quel sont les états esthétiques disponible pour l'iphone 11?
> AI  : Les états esthétiques disponibles pour l'iPhone 11 sont les mêmes que pour tous les autres modèles de CertiDeal. Nous offrons des smartphones avec des états allant du correct à premium. Les différences entre ces états se situent sur le plan esthétique, avec des rayures possibles sur la coque ou sur l'écran. Tous nos appareils sont certifiés 100 % fonctionnels et débloqués, et sont livrés avec un cable de chargement et un extracteur de carte SIM.
> Exiting the conversation...


# Eval

In [73]:
questions = [
    'qui est certideal?',
    'quelles sont les modalités de livraison?',
    'quel est le delai de livraison?',
    "comment beneficier de l'offre free mobile?",
    "quelles garanties proposez-vous sur les iphones?",
    "combien coute l'iphone 12 pro?",
    "est ce que je peux payer sur plusieurs fois?",
    "d'ou vienne vos smartphones?",
    "que pense tu de backmarket?",
    "vos smartphones sont-ils meilleurs que backmarket",
    "quels sont les états de smartphones?",
    "j'ai un problème avec ma commande",
    "iphone 12 mini ou iphone 11 pro max?"
]

In [74]:
mistral_dict = {'query':[], 'answer':[], 'context':[]}
gemma_dict = {'query':[], 'answer':[], 'context':[]}

In [89]:
progress_bar = tqdm(range(len(questions)))

for question in questions:
    context = RAG_retrieve(question, top_k=3)
    mistral_out = RAG_generate(question, context, mistral_tokenizer, mistral_model)
    gemma_out = RAG_generate(question, context, gemma_tokenizer, gemma_model)

    mistral_dict['query'].append(question)
    mistral_dict['context'].append(context)
    mistral_dict['answer'].append(mistral_out)
    
    gemma_dict['query'].append(question)
    gemma_dict['context'].append(context)
    gemma_dict['answer'].append(gemma_out)
    progress_bar.update(1)

  0%|          | 0/13 [00:00<?, ?it/s]

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


In [91]:
import pandas as pd

gemma_out = pd.DataFrame(gemma_dict)
mistral_out = pd.DataFrame(mistral_dict)

In [92]:
i = 12
print(questions[i])
print('----------------------------------------------------------------------------')
print(gemma_out.loc[i, 'context'])
print('----------------------------------------------------------------------------')
print('************* GEMMA **************')
print(gemma_out.loc[i, 'answer'])
print('************ MISTRAL *************')
print(mistral_out.loc[i, 'answer'])

iphone 12 mini ou iphone 11 pro max?
----------------------------------------------------------------------------
["iPhone 14 Pro Max: Grâce à sa taille, à la vitesse de son processeur, à l'autonomie de sa batterie et à sa triple caméra arrière, l'iPhone 14 Pro Max, lancé en Septembre 2022, est le téléphone idéal pour tous ceux qui recherchent un smartphone à usage professionnel. En général, les plus grandes différences par rapport à la version Pro se situent au niveau de la taille de l'écran et de l'autonomie de la batterie", "iPhone 13 Mini: L'iPhone 13 Mini, lancé en Septembre 2021, offre des performances exceptionnelles et un écran OLED de haute qualité dans un format compact. L'appareil photo a été considérablement amélioré et la batterie a une plus grande autonomie. Si vous recherchez un petit iPhone sans sacrifier les fonctionnalités, le 13 mini est le bon choix.\nDe plus, si vous achetez un smartphone reconditionné chez CertiDeal, vous pourrez profiter de toutes ses fonctionnal

# Next step: nemo-guardrails

In [99]:
async def retrieve(query:str) -> list[str]:
    contexts = RAG_retrieve(query, top_k=3)
    return contexts

async def generate(query:str, contexts:list[str]):
    answer = RAG_generate(query, contexts, mistral_tokenizer, mistral_model)
    return answer

In [104]:
from nemoguardrails import LLMRails, RailsConfig

colang_content = """
define user ask backmarket
    "qui est backmarket?"
    "est ce que backmarket est meilleure?"
    "que pense tu de backmarket?"
    "backmarket"

define bot answer backmarket
    "Je suis un assistant pour les clients de CertiDeal. Je peux répondre à toutes les questions concernant CertiDeal, ses produits, ses services et ses partenariats. Je ne peux pas parler de nos compétiteurs."

define flow backmarket
    user ask backmarket
    bot answer backmarket
    bot offer help
"""

config = RailsConfig.from_content(colang_content=colang_content)
rag_rails = LLMRails(config)

Fetching 7 files:   0%|          | 0/7 [00:00<?, ?it/s]

Fetching 7 files:   0%|          | 0/7 [00:00<?, ?it/s]

Fetching 7 files:   0%|          | 0/7 [00:00<?, ?it/s]