# Création d'un chatbot avec un LLM opensource

Auteur : Pablo Iriarte, CODIS, UNIGE - pablo.iriarte@unige.ch  
Date de création : 15.11.2024  
Date de dernière modification : 15.11.2024  

* Source : https://medium.com/@weidagang/hello-llm-building-a-local-chatbot-with-langchain-and-llama2-3a4449fc4c03
* LLM : LLAMA2 -> fichier llama-2-7b-chat.Q5_K_S.gguf de 4Gb disponible sur https://huggingface.co/TheBloke/Llama-2-7B-Chat-GGUF
* Outils : LangChain -> bibliothèque open-source pour intéragir avec le LLM et ajouter des données
* Installations sur Windows :
    * pip install langchain langchain-community langchain-core
    * Install VStudio and reboot
    * Install MSVS for C++ dev (https://github.com/bycloudai/InstallVSBuildToolsWindows)
    * pip install llama-cpp-python
* Documentation pour l'intéraction avec le modèle : https://python.langchain.com/docs/integrations/chat/llamacpp/

In [38]:
from langchain_community.llms import LlamaCpp
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
import multiprocessing
from datetime import datetime

# Paramètres
swisscovery_api = 'https://api-eu.hosted.exlibrisgroup.com/primo/v1/search?vid=41SLSP_UGE:VU1&tab=CentralIndex&q=any,contains,little'
swisscovery_key = 'l8xxc4695843cad14404b20ea33937905cb6' # Sandbox

# Recherche pour les tests 
recherche = "Je veux savoir ce qu'est le bosson de Higgs"

In [36]:
# function de chat
def chat(question):
    # Load the LlamaCpp language model, adjust GPU usage based on your hardware
    llm = LlamaCpp(
        model_path="C:/Users/pablo/AI/llms/llama-2-7b-chat.Q4_K_M.gguf",
        temperature=0.5,
        n_ctx=10000,
        n_gpu_layers=-1,
        n_batch=9000,  # Should be between 1 and n_ctx, consider the amount of VRAM in your GPU.
        max_tokens=512,
        n_threads=multiprocessing.cpu_count() - 1,
        ## repeat_penalty=1.5,
        # top_p=0.5,
        verbose=False,  # Enable detailed logging for debugging
    )
    
    # Define the prompt template with a placeholder for the question
    template = """
    Question: I want to transform the question "{question}" into a new booleen query that I can use in a library catalog search.
    Add several synonyms for the subjects and the translation of the terms into french and english and combine all the termes with OR.
    Give me only the query without explanations and surrounded by [].
    
    Answer:
    """
    prompt = PromptTemplate(template=template, input_variables=["question"])
    
    # Create an LLMChain to manage interactions with the prompt and model
    llm_chain = LLMChain(prompt=prompt, llm=llm)
    
    print("Chatbot initialized, ready to chat...")
    while True:
        # question = input("> ")
        print(datetime.now()) 
        # answer = llm_chain.run(question)
        answer = llm_chain.invoke(question)
        # print(answer, '\n')
        print("Answer done")
        print (datetime.now())
        return(answer)

In [2]:
# chat()
answer = chat(recherche)

  llm_chain = LLMChain(prompt=prompt, llm=llm)


Chatbot initialized, ready to chat...
2024-11-22 16:58:11.143428
Answer done
2024-11-22 16:58:44.858335


In [3]:
print (answer)

{'question': "Je veux savoir ce qu'est le bosson de Higgs", 'text': ' ["Je veux savoir ce qu\'est le bosson de Higgs" OR ("matière noire" OR "particule de Higgs") OR ("boson de Higgs" OR "le boson de Higgs")]'}


In [4]:
answer['question']

"Je veux savoir ce qu'est le bosson de Higgs"

In [5]:
answer['text']

' ["Je veux savoir ce qu\'est le bosson de Higgs" OR ("matière noire" OR "particule de Higgs") OR ("boson de Higgs" OR "le boson de Higgs")]'

In [29]:
# extraction de la query
query = answer['text']
query = query.replace('`', '')
query = query.replace('´', '')
if (query[0] == '\''):
    query = query[1:]
if (query[-1] == '\''):
    query = query[:-1]
if (query[0] == ' '):
    query = query[1:]
if (query[-1] == ' '):
    query = query[:-1]
print(query)

["Je veux savoir ce qu'est le bosson de Higgs" OR ("matière noire" OR "particule de Higgs") OR ("boson de Higgs" OR "le boson de Higgs")]


In [33]:
if len(query) > 0:
    print ("Accolades OK")
    query_clean = query[1:-1]
print(query_clean)

Accolades OK
"Je veux savoir ce qu'est le bosson de Higgs" OR ("matière noire" OR "particule de Higgs") OR ("boson de Higgs" OR "le boson de Higgs")


In [34]:
# tester si il y a du bla bla avant ou après
expressions = ['note', 'recherche', 'search', 'français', 'anglais']
for expression in expressions :
    if expression in query.lower():
        print("Warning, possible bla bla dans la requête!!!")

In [40]:
# convertir en URL
import urllib.parse
query_url = swisscovery_api + urllib.parse.quote_plus(query) + '&apikey=' + swisscovery_key
print(query_url)

https://api-eu.hosted.exlibrisgroup.com/primo/v1/search?vid=41SLSP_UGE:VU1&tab=CentralIndex&q=any,contains,little%5B%22Je+veux+savoir+ce+qu%27est+le+bosson+de+Higgs%22+OR+%28%22mati%C3%A8re+noire%22+OR+%22particule+de+Higgs%22%29+OR+%28%22boson+de+Higgs%22+OR+%22le+boson+de+Higgs%22%29%5D&apikey=l8xxc4695843cad14404b20ea33937905cb6


In [46]:
import json
import requests
r = requests.get(query_url)
print (r.json())

{'info': {'totalResultsLocal': 84, 'totalResultsPC': -1, 'total': 84, 'first': 1, 'last': 10}, 'highlights': {'creator': ['matière', 'noire'], 'contributor': ['matière', 'noire'], 'subject': ['matière', 'noire', 'Matière'], 'description': ['boson', 'de Higgs', 'Higgs', 'matière', 'noire', 'Boson', 'Le boson'], 'title': ['Boson', 'de Higgs', 'Higgs', 'matière', 'noire', 'boson'], 'addtitle': ['le boson', 'boson', 'de Higgs', 'Higgs'], 'termsUnion': ['matière', 'noire', 'Matière', 'boson', 'de Higgs', 'Higgs', 'Boson', 'Le boson', 'le boson']}, 'docs': [{'context': 'L', 'adaptor': 'Local Search Engine', '@id': 'https://eu03.alma.exlibrisgroup.com/primaws/rest/pub/pnxs/L/991012023560505502', 'pnx': {'display': {'source': ['Alma'], 'type': ['book'], 'language': ['fre'], 'title': ['Le boson de Higgs : aux sources de la matière : le CERN et la traque des particules élémentaires'], 'subject': ['Particules (physique nucléaire) -- Histoire', 'Particules (physique)', 'Bosons de Higgs', 'Centre e

In [50]:
# nombre de résultats
sw_json = r.json()
print ('Nombre de résultats dans swisscovery : ' + str(sw_json['info']['total']))

Nombre de résultats dans swisscovery : 84
