In [1]:
from llama_index.llms.mistralai import MistralAI
from llama_index.core.llms import ChatMessage
from mistralai import Mistral
import os

MISTRAL_API_KEY = os.getenv("MISTRAL_API_KEY")
model = "mistral-large-latest"

client = Mistral(api_key=MISTRAL_API_KEY)

Intent detection

In [2]:
def detect_intent(user_input):
    response = client.classifiers.classify(
    model="ft:classifier:ministral-3b-latest:82f3f89c:20250422:agro-intent-clf:a0b2cfa8",
    inputs=[user_input],
    )
    scores = response.results[0]['intent'].scores
    predicted_label = max(scores, key=scores.get)

    return predicted_label

detect_intent("Comment savoir si mes tomates sont malades ?")

'disease_diagnosis'

Vector search

In [3]:
from utils import initialize_qdrant

qdrant_client = initialize_qdrant()

Loaded 143 document embeddings for technical_reports
Document embeddings loaded successfully


In [4]:
import numpy as np

def score_vector_search(query, collection_name="technical_reports"):
    query_embedding = client.embeddings.create(
        model="mistral-embed",
        inputs=[query],
    ).data[0].embedding

    response = qdrant_client.query_points(
        collection_name=collection_name,
        query=query_embedding,
        limit=30,
    )

    file_names = np.array([score.payload['file_name'].replace('.md', '') for score in response.points])
    scores_arr = np.array([score.score for score in response.points])

    unique_files = np.unique(file_names)
    scores_arr_norm = (scores_arr - np.nanmin(scores_arr)) / np.ptp(scores_arr) if np.ptp(scores_arr) > 0 else np.ones_like(scores_arr)

    max_scores_by_files = {str(file): scores_arr_norm[file_names == file].max() for file in unique_files}

    return max_scores_by_files

scores = score_vector_search("How do I know if my tomato is sick ?")
scores

{'2022_fiche-technique_environnement-2_nitrates': np.float64(0.0773110944521891),
 '2022_fiche-technique_presentation-generale': np.float64(0.6346333479492641),
 '2022_fiche-technique_sante-animaux-1_paquet-hygiene': np.float64(0.3223579544299179),
 '2022_fiche-technique_sante-animaux-3_ESST': np.float64(0.8302436619876772),
 '2022_fiche-technique_sante-animaux-4_identification': np.float64(0.11215354474649615),
 '2022_fiche-technique_sante-vegetaux-1_utilisation-PPP': np.float64(0.6059350915699976),
 '2022_fiche-technique_sante-vegetaux-2_paquet-hygiene': np.float64(0.6323755517108296),
 '2023_fiche-technique_BCAE7_rotation': np.float64(0.31559578167411906),
 '2023_fiche-technique_presentation-generale': np.float64(0.49884072436573423),
 '2023_fiche-technique_sante-vegetaux-1_utilisation-PPP': np.float64(0.9790109814903912),
 '2023_fiche-technique_sante-vegetaux-2_paquet-hygiene': np.float64(1.0),
 '2024_fiche-technique_BCAE7_rotation': np.float64(0.4036733569735661),
 '2024_fiche-tec

BM25 search

In [5]:
from utils import initialize_bm25

bm25 = initialize_bm25()

[nltk_data] Downloading package punkt to /home/estienne/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [6]:
import nltk
import os

file_names = os.listdir("../../data/txt/technical_reports")

def score_bm25(query, top_k=30):
    tokenized_query = nltk.word_tokenize(query.lower())
    scores = bm25.get_scores(tokenized_query)

    scores_dict = dict(zip(file_names, scores))
    top_files = sorted(scores_dict.items(), key=lambda x: x[1], reverse=True)[:top_k]
    scores = np.array([score for _, score in top_files])

    bm25_norm = (scores - np.nanmin(scores)) / np.ptp(scores)
    norm_scores_dict = dict(zip([file.replace('.txt', '') for file, _ in top_files], bm25_norm))
    
    return norm_scores_dict

score_bm25("How do I know if my tomato is sick ?")

{'2022_fiche-technique_environnement-1_oiseaux-sauvages-habitats': np.float64(1.0),
 '2024_fiche-technique_BCAE8_biodiversite': np.float64(0.9099175712690547),
 '2022_fiche-technique_presentation-generale': np.float64(0.8473319764353349),
 '2022_fiche-technique_environnement-2_nitrates': np.float64(0.8424240240181591),
 '2022_fiche-technique_BCAE1_bande-tampon': np.float64(0.8341761022982922),
 '2024_fiche-technique_environnement-2_nitrates': np.float64(0.8197831308667083),
 '2022_fiche-technique_sante-animaux-1_paquet-hygiene': np.float64(0.801946336433694),
 '2023_fiche-technique_BCAE1_maintien-prairies-permanentes': np.float64(0.7814109494570135),
 '2024_fiche-technique_environnement-3_oiseaux_sauvages-habitats': np.float64(0.7808655207518197),
 '2023_fiche-technique_sante-vegetaux-1_utilisation-PPP': np.float64(0.7802726174229754),
 '2023_fiche-technique_BCAE8_biodiversite': np.float64(0.7652721395275097),
 '2024_fiche-technique_presentation-generale': np.float64(0.6380179581532436

Fusion document ranking

In [7]:
def score_fusion(query,top_k=5):
    vector_scores = score_vector_search(query)
    bm25_scores = score_bm25(query)

    all_files = set(vector_scores.keys()).union(set(bm25_scores.keys()))
    fusion_scores = {file: (vector_scores.get(file, 0) + bm25_scores.get(file, 0)) / 2 for file in all_files}

    top_files = sorted(fusion_scores.items(), key=lambda x: x[-1], reverse=True)[:top_k]
    top_files_dict = {file + ".md": score for file, score in top_files}
    return top_files_dict

score_fusion("Quelle est la législation sur les OGM ?")

{'2023_fiche-technique_sante-vegetaux-2_paquet-hygiene.md': np.float64(0.76630437896629),
 '2022_fiche-technique_sante-animaux-1_paquet-hygiene.md': np.float64(0.7552018219241939),
 '2022_fiche-technique_sante-vegetaux-2_paquet-hygiene.md': np.float64(0.7081201355625364),
 '2023_fiche-technique_sante-animaux-1_paquet-hygiene.md': np.float64(0.6908456257628153),
 '2024_fiche-technique_sante-animaux-1_paquet-hygiene.md': np.float64(0.6426470134379927)}

In [8]:
def retrieve_documents(user_query):
    scores = score_fusion(user_query)
    documents = {k: v for k, v in scores.items()}
    return documents

retrieve_documents("Quelle est la législation sur les OGM ?")

{'2023_fiche-technique_sante-vegetaux-2_paquet-hygiene.md': np.float64(0.76630437896629),
 '2022_fiche-technique_sante-animaux-1_paquet-hygiene.md': np.float64(0.7552018219241939),
 '2022_fiche-technique_sante-vegetaux-2_paquet-hygiene.md': np.float64(0.7081201355625364),
 '2023_fiche-technique_sante-animaux-1_paquet-hygiene.md': np.float64(0.6908456257628153),
 '2024_fiche-technique_sante-animaux-1_paquet-hygiene.md': np.float64(0.6426470134379927)}

In [9]:
from qdrant_client.http import models

def vector_search(query, file_names, collection_name="technical_reports"):
    query_embedding = client.embeddings.create(
        model="mistral-embed",
        inputs=[query],
    ).data[0].embedding

    response = qdrant_client.query_points(
        collection_name=collection_name,
        query=query_embedding,
        limit=2,
        query_filter=models.Filter(
            must=[
                models.FieldCondition(
                    key="file_name",
                    match=models.MatchAny(any=
                        file_names
                    )
                )
            ]
        )
    )

    return response.points

import os

files = os.listdir("../../data/md/technical_reports")

vector_search("Quelle est la législation sur les OGM ?", files)

[ScoredPoint(id='cb879bba-69ad-4d8c-a815-ce791526bc09', version=0, score=0.8000970153803234, payload={'text': " est interdit, toutefois le préfet peut, par décision motivée, autoriser un agriculteur à procéder au labour de la bande tampon en raison de son infestation par une espèce invasive listée en annexe de la présente fiche ; dans tous les cas, un travail superficiel du sol est autorisé,\n- dans le cas d'une parcelle en prairie ou pâturage, le pâturage de la bande tampon est autorisé, sous réserve du respect des règles d'usage pour l'accès des animaux au cours d'eau,\n- la fauche ou le broyage sont autorisés sur une largeur maximale de 20 mètres sur les parcelles enherbées déclarées en jachère,\n- les amendements alcalins (calciques et magnésiens) sont autorisés.\n\n# GRILLE BCAE - Bandes tampons le long des cours d'eau (Métropole) \n\n| Points de contrale | Anomalies | Système d'avertissement précoce |  | Réduction |\n| :--: | :--: | :--: | :--: | :--: |\n|  |  | Applicable? | Dél

Predict plant disease

In [10]:
from plant_disease.disease_prediction import predict_from_image

def predict_image(image):    
    contents = image.read()
    results = predict_from_image(image_data=contents)
    
    return results

with open("40285dce-33de-4a59-82f4-2eb1d6d38469___RS_LB 4929.JPG", "rb") as img_file:
    result = predict_image(img_file)
result

{'prediction': np.str_('Potato___Late_blight'),
 'confidence': 99.99701976776123,
 'top_predictions': [{'disease': np.str_('Potato___Late_blight'),
   'confidence': 99.99701976776123},
  {'disease': np.str_('Tomato_Late_blight'),
   'confidence': 0.002857758227037266},
  {'disease': np.str_('Potato___Early_blight'),
   'confidence': 7.023748480605718e-05}]}

Market question agent

In [146]:
from llama_index.core.agent import ReActAgent

llm = MistralAI(model="mistral-small-latest")
weather_expert_agent = ReActAgent.from_tools([web_search_tool], llm=llm, verbose=True)

response = agent.chat("What is the transaction status and date for T1001 ?")
print(str(response))


NameError: name 'web_search_tool' is not defined

Weather expert agent

In [11]:
from llama_index.core.tools import FunctionTool
from llama_index.core.agent import ReActAgent
import requests

def get_weather(location: str) -> str:
    """Get the weather for a location."""
    if location:
        url = f"https://wttr.in/{location}?format=j1"

    else:
        url = f"https://wttr.in/?format=j1"

    response = requests.get(url)
    if response.status_code == 200:
        data = response.json()
        # wttr.in returns a dict with "current_condition" as a list of dicts
        current = data["current_condition"][0]
        weather = current["weatherDesc"][0]["value"]
        temp = current["temp_C"]
        return f"The weather in {location} is {weather} with a temperature of {temp}°C."
    else:
        return f"Could not retrieve weather for {location}."

weather_tool = FunctionTool.from_defaults(fn=get_weather)

llm = MistralAI(model="mistral-small-latest")
weather_expert_agent = ReActAgent.from_tools([weather_tool], llm=llm, verbose=True)

response = weather_expert_agent.chat("What's the weather in Paris ?")
print(str(response))


> Running step 4ccf08fa-9408-4a40-a52c-366251a8e8c2. Step input: What's the weather in Paris ?
[1;3;38;5;200mThought: The current language of the user is: English. I need to use a tool to help me answer the question.
Action: get_weather
Action Input: {'location': 'Paris'}
[0m[1;3;34mObservation: The weather in Paris is Cloudy with a temperature of 14°C.
[0m> Running step 0c8062ee-6282-4c7f-bf31-a592679b8b4e. Step input: None
[1;3;38;5;200mThought: I can answer without using any more tools. I'll use the user's language to answer
Answer: The weather in Paris is Cloudy with a temperature of 14°C.
[0mThe weather in Paris is Cloudy with a temperature of 14°C.


In [12]:
detect_intent("Puis-je utiliser des pesticides ?")

'weather_management'

Web search tool

In [13]:
from duckduckgo_search import DDGS
import re

from markdownify import markdownify

def truncate_content(content: str, max_length: int = 2000) -> str:
    if len(content) <= max_length:
        return content
    else:
        return (
            content[: max_length // 2]
            + f"\n..._This content has been truncated to stay below {max_length} characters_...\n"
            + content[-max_length // 2 :]
        )


def web_search(query, max_results=3) -> str:
    """Get the results of a web search."""
    urls = [response['href'] for response in DDGS().text(query, max_results=max_results)]
    context = ""

    for url in urls:
        response = requests.get(url, timeout=20)
        if response.status_code == 200:
            markdown_content = markdownify(response.text).strip()
            truncated_markdown_content = truncate_content(markdown_content)
            context += f"{truncated_markdown_content}\n\n"
    return str(context)

web_search_tool = FunctionTool.from_defaults(fn=web_search)
web_search_agent = ReActAgent.from_tools([web_search_tool], llm=llm, verbose=True)

web_search_agent.chat("Quel est l'évolution récente du cours du blé ?")

> Running step a3714330-edda-466b-ba30-351c4ef85682. Step input: Quel est l'évolution récente du cours du blé ?
[1;3;38;5;200mThought: The current language of the user is French. I need to use a tool to help me answer the question.
Action: web_search
Action Input: {'query': 'évolution récente du cours du blé', 'max_results': 3}
[0m[1;3;34mObservation: Cours du blé tendre : Analyse et tendances actuelles



[![logo](https://www.mondagri.fr/wp-content/uploads/2020/01/logo-mondagri-1.jpg)](https://www.mondagri.fr)




* [Monde agricole](https://www.mondagri.fr/monde-agricole/)
* [Cultures](https://www.mondagri.fr/cultures/)
* [Elevages](https://www.mondagri.fr/elevages/)
* [Engins/Matériel](https://www.mondagri.fr/engins-materiel/)
* [Agri blog](https://www.mondagri.fr/agri-blog/)

Analyse et tendances actuelles des cours du blé tendre

Les cours du blé tendre connaissent des fluctuations importantes, influencés par divers facteurs mondiaux. Cet article analyse l'évolution récente des 



In [None]:
from mistralai.models import UserMessage
from prompts import weather_expert_system_prompt, web_search_system_prompt, market_expert_system_prompt

def chat(messages):

    user_query = messages[-1].content
    chat_history = messages[:-1]

    intent = detect_intent(user_query)
    print(user_query)
    print(intent)

    if intent == 'policy_help':
        context_docs = retrieve_documents(user_query)
        context = vector_search(user_query, context_docs.keys())

        context_text = "\n\n".join([f"Nom du document :{doc.payload['file_name']}. Date du document :{doc.payload['date']}.\nContenu du document :\n{doc.payload['text']}" for doc in context])

        message = UserMessage(
            content=f"Context: {context_text}\n\nQuestion de l'utilisateur : {user_query}"
        )

        messages.append(message)

        response = client.chat.complete(
            model=model,
            messages=messages,
            max_tokens=1000,
            temperature=0.1,
        )

        return f"D'après les documents {list(context_docs.keys())} :\n\n{response.choices[0].message.content}"

    elif intent == 'market_question':
        web_search_agent = ReActAgent.from_tools([web_search_tool], llm=llm, verbose=True, context=f"{market_expert_system_prompt}")
        response = web_search_agent.chat(user_query, chat_history=chat_history)
        return str(response)

    elif intent == 'disease_diagnosis':
        return "Please upload an image of the plant leaf for diagnosis."

    elif intent == 'weather_management':
        weather_expert_agent = ReActAgent.from_tools([weather_tool], llm=llm, verbose=True, context=f"{weather_expert_system_prompt}")
        response = weather_expert_agent.chat(user_query, chat_history=chat_history)
        return str(response)
    else:
        web_search_agent = ReActAgent.from_tools([web_search_tool], llm=llm, verbose=True, context=f"{web_search_system_prompt}")
        response = web_search_agent.chat(user_query, chat_history=chat_history)
        return str(response)

chat([
    ChatMessage(
        role="user",
        content="Dois-je planter mes tomates en considérant la météo actuelle ?"
    )
])

Dois-je planter mes tomates en considérant la météo actuelle ?
weather_management
> Running step 2ae4d6ef-0d74-4969-a99c-d2d2fa437051. Step input: Dois-je planter mes tomates en considérant la météo actuelle ?
[1;3;38;5;200mThought: The current language of the user is: French. I need to use a tool to help me answer the question.
Action: get_weather
Action Input: {'location': 'France'}
[0m[1;3;34mObservation: The weather in France is Patchy rain nearby with a temperature of 9°C.
[0m> Running step 9d9545dd-23a7-47e7-9070-eb811ec22566. Step input: None
[1;3;38;5;200mThought: I can answer without using any more tools. I'll use the user's language to answer
Answer: La météo actuelle en France montre des averses de pluie par endroits avec une température de 9°C. Ce n'est pas le moment idéal pour planter des tomates, car elles préfèrent des températures plus chaudes, généralement au-dessus de 15°C, et un sol bien drainé. Attendez des conditions plus stables et plus chaudes pour planter v

"La météo actuelle en France montre des averses de pluie par endroits avec une température de 9°C. Ce n'est pas le moment idéal pour planter des tomates, car elles préfèrent des températures plus chaudes, généralement au-dessus de 15°C, et un sol bien drainé. Attendez des conditions plus stables et plus chaudes pour planter vos tomates. En attendant, vous pouvez préparer votre sol en ajoutant du compost et en assurant un bon drainage."

In [None]:
import gradio as gr

def chatbot_response(message, history):
    # Convert history and new message to the format expected by the chat function
    messages = []
    for user_msg, bot_msg in history:
        messages.append(ChatMessage(role="user", content=user_msg))
        if bot_msg:  # Check if the bot message exists
            messages.append(ChatMessage(role="assistant", content=bot_msg))
    
    # Add current message
    messages.append(ChatMessage(role="user", content=message))
    
    # Get response
    response = chat(messages)
    
    return response

# Create the Gradio interface
demo = gr.ChatInterface(
    fn=chatbot_response,
    title="Agriculture Assistant",
    description="Ask questions about agricultural policies, weather management, plant diseases, or market questions.",
    theme="default",
    examples=[
        "Quelles sont les règles pour la mise en place des bandes tampons ?",
        "Comment savoir si mes tomates sont malades ?",
        "Quel temps va-t-il faire demain à Paris ?",
    ]
)

# Launch the demo
if __name__ == "__main__":
    demo.launch()

  from .autonotebook import tqdm as notebook_tqdm
  self.chatbot = Chatbot(


* Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.


Quel est l'évolution récente du cours du blé ?


market_question
> Running step add08364-116b-49c2-9394-efb500556879. Step input: Quel est l'évolution récente du cours du blé ?


[1;3;38;5;200mThought: The current language of the user is French. I need to use a tool to help me answer the question.
Action: web_search
Action Input: {'query': 'évolution récente du cours du blé', 'max_results': 3}
[0m[1;3;34mObservation: Cours du blé tendre : Analyse et tendances actuelles



[![logo](https://www.mondagri.fr/wp-content/uploads/2020/01/logo-mondagri-1.jpg)](https://www.mondagri.fr)




* [Monde agricole](https://www.mondagri.fr/monde-agricole/)
* [Cultures](https://www.mondagri.fr/cultures/)
* [Elevages](https://www.mondagri.fr/elevages/)
* [Engins/Matériel](https://www.mondagri.fr/engins-materiel/)
* [Agri blog](https://www.mondagri.fr/agri-blog/)

Analyse et tendances actuelles des cours du blé tendre

Les cours du blé tendre connaissent des fluctuations importantes, influencés par div

# Evaluation on q&a pairs

In [19]:
import pandas as pd


questions_df = pd.read_csv("../RAG/qa_rag_eval_full.csv")
questions_df

Unnamed: 0,question,answer,file_name,folder_name,date
0,Quelle est la production française d'orge pour...,La production française d'orge pour la récolte...,"2024-10-21_Qualit@lim_orge_fourragère,_édition...",market_reports,2024-10-21
1,Quelle est la teneur moyenne en eau des grains...,La teneur moyenne en eau des grains d'orge fou...,"2024-10-21_Qualit@lim_orge_fourragère,_édition...",market_reports,2024-10-21
2,Quelle est la teneur moyenne en amidon des org...,La teneur moyenne en amidon des orges fourragè...,"2024-10-21_Qualit@lim_orge_fourragère,_édition...",market_reports,2024-10-21
3,Quel est le poids spécifique moyen des orges f...,Le poids spécifique moyen des orges fourragère...,"2024-10-21_Qualit@lim_orge_fourragère,_édition...",market_reports,2024-10-21
4,Quelle est la teneur moyenne en protéines des ...,La teneur moyenne en protéines des orges fourr...,"2024-10-21_Qualit@lim_orge_fourragère,_édition...",market_reports,2024-10-21
...,...,...,...,...,...
3045,Quelle est la quantité moyenne de blé tendre p...,"En moyenne, 34,6 millions de tonnes (Mt) de bl...",2024-12-05_Fiche_filière_-_Blé_tendre_Organisa...,market_reports,2024-12-05
3046,Quelle est la surface moyenne cultivée pour le...,"En moyenne, 4,7 millions d'hectares (Mha) de b...",2024-12-05_Fiche_filière_-_Blé_tendre_Organisa...,market_reports,2024-12-05
3047,Quelle est la part de la production de blé ten...,L'alimentation animale représente 41 % des uti...,2024-12-05_Fiche_filière_-_Blé_tendre_Organisa...,market_reports,2024-12-05
3048,Quels sont les principaux marchés d'exportatio...,Les principaux marchés d'exportation du blé te...,2024-12-05_Fiche_filière_-_Blé_tendre_Organisa...,market_reports,2024-12-05


In [30]:
questions = questions_df['question'].tolist()
len(questions)

3050

In [None]:
from tqdm import tqdm
import pandas as pd

# Process questions in smaller batches to avoid overwhelming the API
batch_size = 10
num_batches = (len(questions) + batch_size - 1) // batch_size
answers = []

for i in tqdm(range(num_batches), desc="Processing batches"):
    start_idx = i * batch_size
    end_idx = min((i + 1) * batch_size, len(questions))
    batch_questions = questions[start_idx:end_idx]
    
    batch_answers = []
    for question in tqdm(batch_questions, desc=f"Batch {i+1}/{num_batches}", leave=False):
        try:
            answer = chat([
            ChatMessage(
                role="user",
                content=question
            )
            ])
        except Exception as e:
            print(f"Error processing question: {question[:50]}... - {str(e)}")
            answer = f"ERROR: {str(e)}"
        batch_answers.append(answer)
    
    answers.extend(batch_answers)

# Create a dataframe with questions and answers
results_df = pd.DataFrame({
    'question': questions,
    'generated_answer': answers,
    'reference_answer': questions_df['answer'].values
})

# Save the results
results_df.to_csv("qa_evaluation_results.csv", index=False)



Quelle est la production française d'orge pour la récolte 2024 ?
market_question
> Running step 075fbba0-934d-49a3-8419-b1add7956ea8. Step input: Quelle est la production française d'orge pour la récolte 2024 ?
[1;3;38;5;200mThought: The current language of the user is: French. I need to use a tool to help me answer the question.
Action: web_search
Action Input: {'query': "production française d'orge récolte 2024", 'max_results': 1}
[0m[1;3;34mObservation: %PDF-1.4
%����
17 0 obj
<>
endobj
xref
17 47
0000000016 00000 n
0000001537 00000 n
0000001677 00000 n
0000001957 00000 n
0000001989 00000 n
0000002020 00000 n
0000002106 00000 n
0000002171 00000 n
0000002247 00000 n
0000006852 00000 n
0000007305 00000 n
0000008000 00000 n
0000012853 00000 n
0000013368 00000 n
0000014098 00000 n
0000019867 00000 n
0000020427 00000 n
0000021164 00000 n
0000021206 00000 n
0000022912 00000 n
0000024144 00000 n
0000025525 00000 n
0000026771 00000 n
0000028077 00000 n
0000030736 00000 n
0000031065 00000

  0%|          | 0/3050 [00:04<?, ?it/s]


KeyboardInterrupt: 