In [1]:
# On importe les librairies nécessaires
import dotenv # Pour lire nos variables environnements avec nos APIs

# On importe quelques librairies de manipulation de données
import numpy as np
import pandas as pd
import re
import os

# On importe les modules nécessaires de LangChain
from langchain.chains import RetrievalQA, LLMChain
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.llms import HuggingFaceHub, HuggingFaceEndpoint
from langchain.prompts import PromptTemplate
from langchain.vectorstores import Chroma
import warnings
warnings.filterwarnings('ignore')

import datetime
import json

weekday = ["Lundi","Mardi","Mercredi","Jeudi","Vendredi","Samedi","Dimanche"]

tod_date = datetime.date.today()
week_day = weekday[datetime.date.today().weekday()]
tod_hour = datetime.datetime.now()

In [2]:
week_day

'Jeudi'

In [3]:
# On lit nos variables environnments avec nos clés APIs
import os

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv())

In [4]:
repo_id = "mistralai/Mixtral-8x7B-Instruct-v0.1"
llm = HuggingFaceHub(repo_id=repo_id, model_kwargs={"temperature": 0.5, "max_new_tokens":500})

In [5]:
os.environ["HUGGINGFACEHUB_API_TOKEN"]

'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'

In [6]:
query = "Quelle temps fera-t-il demain soir à Lyon  ?"

In [103]:
def remove_after_last_brace(text):
    # Index de la dernière accolade fermante
    last_brace_index = -1

    for i, char in enumerate(text):
        if char == '}':
            last_brace_index = i
    json_str = text[:last_brace_index+1]
    return json.loads(json_str)

In [110]:
def premier_json(chaine):
    debut_json = chaine.find('{')  # Trouver le début du premier JSON
    fin_json = chaine.find('}', debut_json) + 1  # Trouver la fin du premier JSON
    json_str = chaine[debut_json:fin_json]  # Extraire le JSON
    try:
        premier_json = json.loads(json_str)  # Charger le JSON
        return premier_json
    except json.JSONDecodeError:
        return None

## Prompt fonctionnel

In [15]:
temp1 = """[INST]
        Tu dois extraire des informations de la phrase données.

        N'invente pas, et extrait dans un JSON valide la VILLE et la DATE et l'HEURE. Si tu ne sait pas, mets 'None'.
        l'HEURE doit etre une heure valide.
        Aujourd'hui, nous sommes le {0} {1} à {2}h.

        Le JSON doit avoir ce format:
        (
        "ville":"ville",
        "date":"%Y/%m/%d",
        "heure":"HH"
        )

        ----- 
""".format(week_day,tod_date.strftime('%Y/%m/%d'),tod_hour.strftime('%H'))
temp2 = """
        Voici la requête :
            {query}

            [/INST]
        JSON:
"""

templ = temp1 + temp2

query = "Quel méteo fera-t-il à Lyon demain à 9 heure ?"

# On instancie notre template de prompt où l'on indique que nos deux variables entrantes sont le contexte (documents) et la requête (question)
promp_rag = PromptTemplate(input_variables=["query"], template=templ)
chain = LLMChain(prompt=promp_rag, llm=llm,verbose=False)
response = chain.invoke({"query": query})
answer = response["text"].split("JSON:")[1]
json_fin = remove_after_last_brace(answer)

# On le place dans une variable pour indiquer que ce sera le prompt de notre retriever
print(json_fin)

{'ville': 'Lyon', 'date': '2024/03/15', 'heure': '09'}


## Double prompt (Fonctionnel)

In [115]:
query = "Mon anniversaire est le 22 aout.Je vais le faire dans ma famille à Nice. Est-ce qu'il fera beau ?"

temp1 = f'''[INST] Tu dois extraire la Date et l'Heure approximative indiquée dans la query.
        Estime la date au besoin.
        Si tu n'es pas sûr de l'heure ou de la date, mets 'None'.
        Aujourd'hui, nous sommes le {week_day} {tod_date.strftime('%Y/%m/%d')} à {tod_hour.strftime('%H')} h.
        Le matin commence à 9 h, l'après-midi commence à 15 h et le soir à 19 h. 
        Le JSON doit avoir ce format:
        "date":"%Y/%m/%d",
        "heure":"HH"

        ----- 
        '''
temp2 = """
        Voici la query :
            {query}

            [/INST]
        Reponse_:
        """
templ_1 = temp1 + temp2

# On instancie notre template de prompt où l'on indique que nos deux variables entrantes sont le contexte (documents) et la requête (question)
promp_rag = PromptTemplate(input_variables=["query"], template=templ_1)
chain = LLMChain(prompt=promp_rag, llm=llm,verbose=False)
response = chain.invoke({"query": query})
answer = response["text"].split("Reponse_:")[1]
json_fin = remove_after_last_brace(answer)

template_2 = """[INST]
                Voici un Json :
                {json}
                Extrait l'information de la VILLE de la QUERY et ajoute le à ce JSON. ("ville":). Si tu ne sait pas, met "None".
                Renvois le JSON avec ce format : {{"date":, "heure":, "ville":}}.
                Pas besoin d'explication.
                ----- 
                Voici la query :
                {query}

                [/INST]
                Reponse_:
                """

# On le place dans une variable pour indiquer que ce sera le prompt de notre retriever
promp_rag_2 = PromptTemplate(input_variables=["query"], template=template_2)
chain_2 = LLMChain(prompt=promp_rag_2, llm=llm,verbose=False)
response_2 = chain_2.invoke({"query": query,"json":json_fin})
answer_2 = response_2["text"].split("Reponse_:")[1]
json_fin_2 = premier_json(answer_2)

print(json_fin_2)

{'date': '2024/08/22', 'heure': 'None', 'ville': 'Nice'}


In [21]:
query_liste = ["Quel méteo fera-t-il à Lyon demain à 9 heure ?",
               "Quel temps la semaine prochaine à Paris ?",
               "Il fait beau lundi prochain à vaise ?",
               "Le temps sera bon ce week end ?",
               "Il fait bon demain après-midi ?",
               "Donne moi le temps du 16 mars 2024 ?",
               "Quel temps fait-il le vendredi 15 Mars ?",
               "Mon anniversaire est le 22 aout.Je vais le faire dans ma famille à Nice. Est-ce qu'il fera beau ?"]

In [113]:
# On boucle sur la query
for id, item in enumerate(query_liste):
    response = chain.invoke({"query": item})
    answer = response["text"].split("Reponse_:")[1]
    json_fin = remove_after_last_brace(answer)
    template_2 = """[INST]
                Voici un Json :
                {json}
                Extrait l'information de la VILLE de la QUERY et ajoute le à ce JSON. ("ville":). Si tu ne sait pas, met "None".
                Renvois le JSON avec ce format : {{"date":, "heure":, "ville":}}.
                Pas besoin d'explication.
                ----- 
                Voici la query :
                {query}

                [/INST]
                Reponse_:
                """



    # On le place dans une variable pour indiquer que ce sera le prompt de notre retriever
    promp_rag_2 = PromptTemplate(input_variables=["query"], template=template_2)
    chain_2 = LLMChain(prompt=promp_rag_2, llm=llm,verbose=False)
    response_2 = chain_2.invoke({"query": item,"json":json_fin})
    answer_2 = response_2["text"].split("Reponse_:")[1]
    json_fin_2 = premier_json(answer_2)
    print(f"Query {id}:")
    print(item)
    print(json_fin)
    #print(answer_2)
    print(json_fin_2)

Query 0:
Quel méteo fera-t-il à Lyon demain à 9 heure ?
{'date': '2024/03/15', 'heure': '09'}
{'date': '2024/03/15', 'heure': '09', 'ville': 'Lyon'}
Query 1:
Quel temps la semaine prochaine à Paris ?
{'date': '2024/03/21', 'heure': 'None'}
{'date': '2024/03/21', 'heure': 'None', 'ville': 'Paris'}
Query 2:
Il fait beau lundi prochain à vaise ?
{'date': '2024/03/18', 'heure': 'None'}
{'date': '2024/03/18', 'heure': 'None', 'ville': 'Vaise'}
Query 3:
Le temps sera bon ce week end ?
{'date': '2024/03/16', 'heure': 'None'}
{'date': '2024/03/16', 'heure': 'None', 'ville': 'None'}
Query 4:
Il fait bon demain après-midi ?
{'date': '2024/03/15', 'heure': '15'}
{'date': '2024/03/15', 'heure': '15', 'ville': 'None'}
Query 5:
Donne moi le temps du 16 mars 2024 ?
{'date': '2024/03/16', 'heure': 'None'}
{'date': '2024/03/16', 'heure': 'None', 'ville': 'None'}
Query 6:
Quel temps fait-il le vendredi 15 Mars ?
{'date': '2024/03/15', 'heure': 'None'}
{'date': '2024/03/15', 'heure': 'None', 'ville': 'No

In [9]:
def clean_json(json_object,date,hour):
    tod_h = hour.strftime('%H')
    new_json = json_object
    if list(json_object.values()) == ['None','None','None']:
        return "Need to re-ask"
    if json_object["ville"] == 'None':
        new_json["ville"] = "Lyon"
    
    day_plus_five = date + datetime.timedelta(days=5)
    if json_object["heure"] < tod_h : 
        json_object["heure"] = tod_h + 1
    if (json_object["date"] > day_plus_five.strftime('%Y/%m/%d')) & (json_object["date"] != 'None'):        
        new_json["date"] = day_plus_five.strftime('%Y/%m/%d')
    
    return new_json

In [10]:
json_test = {'ville': 'Paris', 'date': '2024/03/15', 'heure': '19'}

In [11]:
new_json = clean_json(json_fin,tod_date,tod_hour)
new_json

{'ville': 'Lyon', 'date': '2024/03/18', 'heure': '18'}