In [None]:
import warnings; warnings.simplefilter('ignore')
from IPython.display import HTML

css_adjustment = """
<style>
/* Cacher les prompts de commande */
div.prompt {display: none !important;}

/* Ajuster la largeur max des cellules de code et de markdown */
.jp-RenderedMarkdown, .jp-InputArea {
    max-width: 1500px !important; /* Assurez-vous que cela correspond √† la largeur du Markdown si n√©cessaire */
}

/* Modifier la taille de la police dans les cellules de code */
.jp-Notebook .jp-InputArea .input_area {
    font-size: 40px !important; /* Ajustez selon vos besoins */
}

/* Si vous souhaitez ajuster la taille de la police √† l'int√©rieur des blocs de code eux-m√™mes */
.jp-Notebook .jp-InputArea .input_area pre, 
.jp-Notebook .jp-InputArea .input_area code {
    font-size: 40px !important; /* Ajustez selon vos besoins */
}
</style>
"""

HTML(css_adjustment)

from IPython.display import display, HTML

# Programmer avec des LLM

## Objectif de ces Travaux Pratiques

- Courte introduction √† "comment programmer avec des LLM"
- Uniquement de la pratique (pas le temps pour la th√©orie)
- Evaluation : 
  - Projet de votre choix de programmation par des LLM
  - Note = fonction(quantite_de_travail)

## Introduction

### LangChain
- Framework Python d'int√©gration de mod√®les LLM
  - Model agnostic 
  - Cha√Ænes et Agents
  - Automatisation des prompts
  - Gestion des vectorstores, embeddings...

- Cas d‚Äôusage : chatbots (RAG), programmes embarquant des LLM, LangGraphs, multi-agents...

### Mistral AI

1. Cr√©ez un compte sur La Plateforme de Mistral AI. https://mistral.ai/

   ("Try the API" -> "S'inscrire")

   (Abonnement : Gratuit / exp√©rimental)
   
3. G√©n√©rez une cl√© API personnelle.

   (API -> Cl√©s API -> Cr√©er une nouvelle cl√© -> ...)

In [1]:
from dotenv import load_dotenv
import os

load_dotenv()  # lit le fichier .env
api_key = os.getenv("MISTRAL_API_KEY")

### Environnement virtuel

Il y aura potentiellement des biblioth√®ques √† installer, ce qui peut se faire dans un environnement virtuel python.

  $ python -m venv mon\_env
  
  $ source mon\_env/bin/activate
  
  (mon\_env) $ pip install nom\_bibliotheque

(Et pour d√©sactiver : deactivate)

### R√©f√©rences
- LangChain
  - https://python.langchain.com/docs/introduction/
  - https://www.youtube.com/@LangChain
- Mistral AI
  - https://docs.mistral.ai/
- OpenAI
  - https://platform.openai.com

## Introduction √† LangChain / Mistral

### Premi√®res invocations

In [3]:
from langchain_mistralai.chat_models import ChatMistralAI
from langchain_core.messages import HumanMessage

# Initialiser le mod√®le
llm = ChatMistralAI(model="mistral-medium-2508", 
                    temperature=0, api_key=api_key)

# Cr√©er le message utilisateur
message = HumanMessage(content="Quelle est la capitale de l'Albanie ?")

# Obtenir la r√©ponse
response = llm.invoke([message])

# Afficher la r√©ponse
print(response.content)

La capitale de l'Albanie est **Tirana**. üá¶üá±


In [3]:
# Version OpenAI
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name="gpt-4.1")
response = llm.invoke("Quelle est la capitale de l'Albanie ?")
print(response.content)

La capitale de l‚ÄôAlbanie est Tirana.


In [3]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_mistralai.chat_models import ChatMistralAI

# 1) Initialisation du mod√®le Mistral
model = ChatMistralAI(model="mistral-medium-2508", 
                      temperature=0, api_key=api_key)

# 2) Construction du prompt + parser
prompt = ChatPromptTemplate.from_template("Fais-moi une blague sur le sujet : {sujet}")
output_parser = StrOutputParser()

# 3) Cha√Ænage (LangChain Expression Language)
chain = prompt | model | output_parser

# 4) Ex√©cution
for sujet in ['pompier', 'police']:
    print(chain.invoke({"sujet": sujet}))
    print('-'*10)


Bien s√ªr ! En voici une :

**Pourquoi les pompiers ne jouent-ils jamais √† cache-cache ?**
*Parce que le bonhomme est toujours facile √† trouver !* üöíüî•

(Jeu de mots avec "le bonhomme" qui peut √©voquer le mannequin d'entra√Ænement des pompiers ou le "bonhomme" en g√©n√©ral.)

Tu veux une autre ? üòÑ
----------
Bien s√ªr ! En voici une :

**Pourquoi les policiers n‚Äôaiment-ils pas les livres ?**
*Parce qu‚Äôils pr√©f√®rent les* **couvre-feux** ! üòÑ

(Jeu de mots entre *couvre-feu* et *couverture* de livre.)

---
Tu veux une autre ? üòâ
----------


In [None]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_mistralai.chat_models import ChatMistralAI

prompt = ChatPromptTemplate.from_messages([
    ("system", "Vous √™tes un r√©dacteur de documentation technique de classe mondiale."),
    ("user", "{input}")
])

llm = ChatMistralAI(model="mistral-medium-2508", api_key=api_key)
chain = prompt | llm 
result = chain.invoke({"input": "Qu'est-ce que le mod√®le mistral-large-latest ?"})
print(result)

KeyboardInterrupt: 

In [6]:
result.usage_metadata

{'input_tokens': 38, 'output_tokens': 701, 'total_tokens': 739}

In [18]:
38/1000000*2+701*8/100000

0.056156

In [19]:
print(result.content)

Mistral-large-latest est un mod√®le de langage d√©velopp√© par Mistral AI, une soci√©t√© de pointe dans le domaine de l'intelligence artificielle. Ce mod√®le est con√ßu pour comprendre et g√©n√©rer du texte en r√©ponse √† une vari√©t√© d'entr√©es, ce qui le rend utile pour diverses applications telles que la r√©daction de documentation technique, la traduction, la g√©n√©ration de contenu, et bien plus encore.

### Caract√©ristiques principales de Mistral-large-latest :

1. **Taille et Capacit√©** :
   - Le mod√®le est de grande taille, ce qui lui permet de comprendre et de g√©n√©rer du texte de mani√®re tr√®s sophistiqu√©e.
   - Il est entra√Æn√© sur une vaste quantit√© de donn√©es textuelles, ce qui lui conf√®re une large compr√©hension du langage naturel.

2. **Polyvalence** :
   - Mistral-large-latest peut √™tre utilis√© pour une vari√©t√© de t√¢ches, y compris la r√©daction de documents techniques, la r√©ponse √† des questions, la g√©n√©ration de contenu cr√©atif, et m√™me la tradu

## Les sorties structur√©es

### Cas d'un bool√©en

In [8]:
from pydantic import BaseModel, Field
from langchain_core.prompts import ChatPromptTemplate
from langchain_mistralai.chat_models import ChatMistralAI

class Answer(BaseModel):
    answer: bool

prompt_answer = [
    ("system", "Tu es un assistant charg√© de r√©pondre un bool√©en (True ou False) √† la question d'un utilisateur."),
    ('human', "{question}")
]

prompt_answer_template = ChatPromptTemplate.from_messages(prompt_answer)
llm = ChatMistralAI(model="mistral-large-latest", temperature=0)
chain = prompt_answer_template | llm.with_structured_output(schema=Answer)

def repond(question):
    return chain.invoke({"question": question}).answer
    
for question in ["No√´l est en hiver", "Il pleut quand il pleut pas"]:
    print(question)
    reponse = repond(question)
    print(f"R√©ponse : {reponse} (type : {type(reponse)})")
    print()


No√´l est en hiver
R√©ponse : True (type : <class 'bool'>)

Il pleut quand il pleut pas
R√©ponse : False (type : <class 'bool'>)



### Cas d'une classe

In [9]:
from pydantic import BaseModel, Field
from langchain_core.prompts import ChatPromptTemplate
from langchain_mistralai.chat_models import ChatMistralAI

tasks = ["R√©pondre √† une nouvelle question", "Fournir plus d'√©l√©ments √† la question pr√©c√©dente"]

class NextTask(BaseModel):
    """Utilise toujours cet outil pour structurer ta r√©ponse to the user."""
    action: str = Field(..., 
                        enum=tasks,
                        description="La prochaine action √† mener")

prompt_message = [
    ("system", "Tu es un assistant charg√© de classifier la demande d'un utilisateur parmi une "
               "liste r√©duite d'actions √† mener en tant que chatbot. Tu dois d√©terminer la "
               "prochaine action √† mener."),
    ('human', "{text}")
]

prompt = ChatPromptTemplate.from_messages(prompt_message)
llm = ChatMistralAI(model='mistral-large-latest', temperature=0)
chain = prompt | llm.with_structured_output(schema=NextTask)

for text in ["Peux-tu m'en dire plus", "Que sont les PPV ?"]:
    print(text)
    print(chain.invoke({"text": text}))
    print()

Peux-tu m'en dire plus
action="Fournir plus d'√©l√©ments √† la question pr√©c√©dente"

Que sont les PPV ?
action='R√©pondre √† une nouvelle question'



### Cas d'un entier

In [10]:
from pydantic import BaseModel, Field
from langchain_core.prompts import ChatPromptTemplate
from langchain_mistralai.chat_models import ChatMistralAI

class TonMessage(BaseModel):
    """√âvaluation du ton du message de l'utilisateur."""
    note_ton: int = Field(
        ..., 
        ge=1,
        le=5,
        description="Note attribu√©e au ton du message : 1 pour neutre, 5 pour tr√®s aimable"
    )

prompt_message = [
    ("system", "Tu es un assistant charg√© d'√©valuer le ton d'un message donn√© par l'utilisateur. "
               "Attribue une note de 1 √† 5 au ton du message, o√π 1 signifie neutre et 5 signifie tr√®s aimable."),
    ('human', "{text}")
]

prompt = ChatPromptTemplate.from_messages(prompt_message)
llm = ChatMistralAI(model='mistral-large-latest', temperature=0)
chain = prompt | llm.with_structured_output(schema=TonMessage)

messages = [
    "Bonjour, pourrais-tu m'aider s'il te pla√Æt ?",
    "J'ai besoin de √ßa imm√©diatement.",
    "Merci beaucoup pour ton aide pr√©cieuse !"
]

for text in messages:
    print(f"Message : {text}")
    print(chain.invoke({"text": text}))
    print()

Message : Bonjour, pourrais-tu m'aider s'il te pla√Æt ?
note_ton=4

Message : J'ai besoin de √ßa imm√©diatement.
note_ton=1

Message : Merci beaucoup pour ton aide pr√©cieuse !
note_ton=5



### Pourquoi et comment forcer la sortie du LLM

In [11]:
from langchain_mistralai.chat_models import ChatMistralAI
from langchain_core.messages import HumanMessage

llm = ChatMistralAI(model="mistral-medium-latest")
message = HumanMessage(content="Peux-tu me traduire ce qui suit, en anglais ?\n\n Quelle est la capitale de l'Albanie ?")
llm.invoke([message])

AIMessage(content='The translation of "Quelle est la capitale de l\'Albanie ?" in English is:\n\n**"What is the capital of Albania?"**', additional_kwargs={}, response_metadata={'token_usage': {'prompt_tokens': 26, 'total_tokens': 56, 'completion_tokens': 30}, 'model_name': 'mistral-medium-latest', 'model': 'mistral-medium-latest', 'finish_reason': 'stop'}, id='run--c4b5c2c7-5a43-4f1d-a93e-0ed2170a7818-0', usage_metadata={'input_tokens': 26, 'output_tokens': 30, 'total_tokens': 56})

In [21]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnableLambda
from langchain_mistralai.chat_models import ChatMistralAI
from pydantic import BaseModel, Field

class Translation(BaseModel):
    original_text: str = Field(..., description="The original text before translation in another language")
    original_language: str = Field(..., description="The original language before translation")
    translated_text: str = Field(..., description="The final text after translation in another language")
    translated_language: str = Field(..., description="The language into which the translation must be done")
    
def traduit(texte, langue_source="fran√ßais", langue_cible="anglais"):
    llm = ChatMistralAI(model_name="mistral-medium-latest")
    prompt = ChatPromptTemplate.from_template("""Je souhaite que tu traduises le texte suivant du {langue_source} vers le {langue_cible}. Ta traduction doit √™tre pr√©cise, fluide et naturelle, et pr√©server parfaitement le sens original. 
    Retourne-moi la r√©ponse sous forme d'objet JSON avec les champs :
      - original_text : le texte original
      - original_language : la langue du texte original
      - translated_text : la traduction du texte
      - translated_language : la langue de la traduction

    Voici le texte √† traduire :
    ----
    {texte}""")
    output_parser = StrOutputParser()
    extract_translation = RunnableLambda(lambda translation: translation.translated_text)
    chain0 = prompt | llm.with_structured_output(Translation) | extract_translation
    return chain0.invoke({"langue_source": langue_source,
                            "langue_cible": "anglais",
                            "texte": texte      
                            })

print(traduit("Quelle est la capitale de l'Albanie"))

What is the capital of Albania


## Des sorties structur√©es aux pr√©mices d'un raisonnement

In [13]:
from pydantic import BaseModel
from langchain_core.prompts import ChatPromptTemplate
from langchain_mistralai.chat_models import ChatMistralAI

class Etape(BaseModel):
    explication: str
    sortie: str

class MathReponse(BaseModel):
    etapes: list[Etape]
    reponse_finale: str

prompt_answer = [
    ("system", "Tu es un professeur de math√©matiques tr√®s p√©dagogue."),
    ('human', "{exercice}")
]

prompt_answer_template = ChatPromptTemplate.from_messages(prompt_answer)
llm = ChatMistralAI(model="mistral-large-latest", temperature=0)
chain = prompt_answer_template | llm.with_structured_output(schema=MathReponse)

In [14]:
explications = chain.invoke({"exercice": "R√©sous  8x + 31 = 2"})
for etape in explications.etapes:
    print(f"- {etape.explication}")
    print(f"  Le r√©sultat est alors : {etape.sortie}")

print(f"Au final, on trouve : {explications.reponse_finale}")

- Soustrayons 31 des deux c√¥t√©s de l'√©quation pour isoler le terme en x.
  Le r√©sultat est alors : 8x + 31 - 31 = 2 - 31
8x = -29
- Divisons les deux c√¥t√©s par 8 pour r√©soudre x.
  Le r√©sultat est alors : 8x / 8 = -29 / 8
x = -29/8 ou x = -3,625
Au final, on trouve : x = -3,625


## Retrieval-Augmented Generation

<div style="text-align: center;">
    <img src="images/rag.png" alt="RAG">
</div>

### Embeddings et semantique

But : encoder un texte sous la forme d'un vecteur, de sorte que deux textes voisins s√©mantiquement soient encod√©s en deux vecteurs proches.

![Texte alternatif](images/vectors-and-semantics.png "Vectors")

### Embeddings : Bag of words

![Texte alternatif](images/Bag-of-words.png "BoW")

In [15]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'Demonstration text, first document',
    "Demo text, and here's a second document.",
    'And finally, this is the third document.'
]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

print("Vocabulary :", vectorizer.get_feature_names_out())
print("BoW vector:\n", X.toarray())

Vocabulary : ['and' 'demo' 'demonstration' 'document' 'finally' 'first' 'here' 'is'
 'second' 'text' 'the' 'third' 'this']
BoW vector:
 [[0 0 1 1 0 1 0 0 0 1 0 0 0]
 [1 1 0 1 0 0 1 0 1 1 0 0 0]
 [1 0 0 1 1 0 0 1 0 0 1 1 1]]


### Embeddings par transformers

In [1]:
# pip install sentence-transformers
from sentence_transformers import SentenceTransformer

sentences = ["This is an example sentence.", "Each sentence is converted into a fixed-sized vector."]

# Entra√Æn√© sur des donn√©es essentiellement anglophones.
# Con√ßu pour √™tre l√©ger et rapide, tout en gardant une bonne pr√©cision pour l‚Äôanglais.
model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
embeddings = model.encode(sentences)

for sentence, embedding in zip(sentences, embeddings):
    print(f'"{sentence}" -> {embedding[:3]}...')

print(f"Embedding size: {len(embedding)}")

RuntimeError: CUDA error: CUDA-capable device(s) is/are busy or unavailable
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.


In [None]:
from sentence_transformers import SentenceTransformer

#Entra√Æn√© avec un objectif de d√©tection de paraphrases sur un corpus multilingue.
#Performances √©quilibr√©es pour la similarit√© s√©mantique, la recherche d‚Äôinformation et la classification zero-shot en plusieurs langues.

model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
print(model.encode(["Texte √† encoder"]))

### Similarit√© s√©mantique

In [24]:
import numpy as np

def cosine_similarity(A, B):
    dot_product = np.dot(A, B)
    norm_A = np.linalg.norm(A)
    norm_B = np.linalg.norm(B)
    return dot_product / (norm_A * norm_B)

cosine_similarity(embeddings[0], embeddings[1])

np.float32(0.37034684)

### Embeddings OpenAI

In [28]:
from openai import OpenAI

openai = OpenAI()

def embed(text, model="text-embedding-3-large", dimensions=3072): #3072: dimension maximale
    return openai.embeddings.create(input = [text], model=model, dimensions=dimensions).data[0].embedding

vector1 = embed("What is Mycobacterium kansasii ?")
vector2 = embed("To sum up, we have presented a case of Mycobacterium kansasii monoarthritis of the elbow complicated with unusual clinical and radiological findings. A combination of synovectomy and multidrug antimycobacterial treatment yielded a favorable clinical course without recurrence of arthritis after 10 months of follow-up. This case emphasizes the need to consider this rare infection in the differential diagnosis of intra-articular soft tissue tumor-like lesions of the elbow even in immunocompetent patients.")
cosine_similarity(vector1, vector2)

np.float64(0.5604925298797377)

### RAG : principe de base

<div style="text-align: center;">
    <img src="images/rag2.png" alt="RAG">
</div>

In [27]:
from langchain_mistralai.chat_models import ChatMistralAI

llm = ChatMistralAI(model_name="mistral-large-latest")

query = "What is Mycobacterium kansasii ?"
context = "To sum up, we have presented a case of Mycobacterium kansasii monoarthritis of the elbow complicated with unusual clinical and radiological findings. A combination of synovectomy and multidrug antimycobacterial treatment yielded a favorable clinical course without recurrence of arthritis after 10 months of follow-up. This case emphasizes the need to consider this rare infection in the differential diagnosis of intra-articular soft tissue tumor-like lesions of the elbow even in immunocompetent patients."

text = f"""You are an expert in the Mycobacterium field. 
Answer to the following question by only using the context below.

question: {query}

context : {context}"""

response = llm.invoke(text)
print(response.content)

Mycobacterium kansasii


### Impl√©mentation d'un vectorstore

In [31]:
#pip install langchain-community langchain-openai faiss-cpu

import warnings; warnings.simplefilter('ignore')
from langchain_community.document_loaders import PyPDFLoader
from langchain_community.vectorstores import FAISS
from langchain_huggingface import HuggingFaceEmbeddings

loader = PyPDFLoader("images/Guyeux_2024.pdf")
pages = loader.load_and_split()

embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
faiss_index = FAISS.from_documents(pages, embeddings)
docs = faiss_index.similarity_search("Is there a lineage 10 in M.tuberculosis?", k=2)

In [32]:
from textwrap import shorten, fill

for doc in docs:
    print(f"Page {doc.metadata["page"]}: {fill(shorten(doc.page_content, 500), 80)}\n")

Page 3: M. africanum Lineage 10, Central Africa Conclusions Through the extensive mining
of WGS and genotyp- ing databases, we newly identified a thus far rare M.
tuberculosis complex lineage, L10 (proposed), pres- ent in central Africa. The
lineage is characterized by a new region of deletion, IS6110 insertions, and 243
SNPs, including gyrA G7901T, recN C1920096T, and dnaG C2621730T. L10 represents
a sister clade to L6, found mainly in western Africa, and L9, specifically in
eastern Africa, and [...]

Page 0: nity of Lille, Lille, France (P. Supply, C. Gaudin); London School of Hygiene
and Tropical Medicine, London, UK (J.E. Phelan, T.G. Clark, L. Rigouts, B. de
Jong); Universit√© Paris-Saclay, Saint- Aubin, France (C. Sola); Universit√© Paris
Cit√©, Paris (C. Sola) DOI: https://doi.org/10.3201/eid3003.231466 Analysis of
genome sequencing data from >100,000 genomes of Mycobacterium tuberculosis
complex using TB-Annotator software revealed a previously unknown lineage,
proposed name L1

### Version OpenAI

In [None]:
#pip install langchain-community langchain-openai faiss-cpu
from langchain_community.document_loaders import PyPDFLoader
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings

loader = PyPDFLoader("images/Guyeux_2024.pdf")
pages = loader.load_and_split()

faiss_index = FAISS.from_documents(pages, OpenAIEmbeddings())
docs = faiss_index.similarity_search("Is there a lineage 10 in M.tuberculosis?", k=2)

###¬†Text splitters

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text = '''Vous pouvez partager un article en cliquant sur les ic√¥nes de partage en haut √† droite de celui-ci. 
La reproduction totale ou partielle d‚Äôun article, sans l‚Äôautorisation √©crite et pr√©alable du Monde, est strictement interdite. 
Pour plus d‚Äôinformations, consultez nos conditions g√©n√©rales de vente. 

Comme la finance, la politique est parfois affaire d‚Äôopportunit√©s. Aux Etats-Unis, l‚Äôopposition d√©mocrate √† Donald Trump a en tout cas trouv√© un nouvel angle d‚Äôattaque apr√®s l‚Äôannonce par le pr√©sident am√©ricain d‚Äôune pause dans sa guerre commerciale : elle le soup√ßonne d‚Äôavoir manipul√© les march√©s boursiers et d‚Äôavoir ainsi favoris√© des d√©lits d‚Äôiniti√©.
Lire aussi | Article r√©serv√© √† nos abonn√©s Droits de douane : les Bourses rechutent, l‚Äôinqui√©tude s‚Äô√©tend aux emprunts d‚ÄôEtat

Le s√©nateur Adam Schiff a √©crit, jeudi 10 avril, au directeur par int√©rim du Bureau pour l‚Äô√©thique gouvernementale (Office of Government Ethics, OGE), une agence f√©d√©rale ind√©pendante, et √† Susan Wiles, la cheffe de cabinet de la Maison Blanche, pour leur demander d‚Äôouvrir une enqu√™te ¬´ urgente ¬ª afin de d√©terminer si ¬´ le pr√©sident Trump, sa famille ou d‚Äôautres membres de [son] administration ¬ª ont commis la veille des d√©lits d‚Äôiniti√© en profitant d‚Äôinformations confidentielles sur le revirement de sa politique commerciale.

'''

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=200,
    keep_separator=False,
    separators=["\n\n", "\n", ". "]
)

texts = text_splitter.create_documents([text])

for k in texts[:7]:
    print(k.page_content)
    print("="*20+'\n')


### Loaders (LangChain)

In [None]:
from langchain_community.document_loaders import YoutubeLoader

loader = YoutubeLoader.from_youtube_url(
    "https://www.youtube.com/watch?v=YcIbZGTRMjI", 
    language=['fr'],
    add_video_info=False
)

print(loader.load())

### Vectorstores

Nombreux et multiples...
 - FAISS, Chroma : faciles √† ma√Ætriser, d√©ployer...
 - Milvus : multi-embeddings, BM25, filtrage par colonne...

<div style="text-align: center;">
    <img src="images/Milvus.png" alt="RAG">
</div>

## Les agents

Un agent est un syst√®me autonome aliment√© par un mod√®le de langage (comme GPT-4) qui prend des d√©cisions sur les actions √† entreprendre en fonction des donn√©es d'entr√©e et des instructions programm√©es.

Fonction :
- Prise de d√©cision : L'agent analyse les donn√©es d'entr√©e et utilise des algorithmes et des mod√®les pour d√©cider quelle action entreprendre.
- Ex√©cution d'actions : L'agent peut effectuer diverses actions comme r√©pondre √† une question, rechercher des informations, ou interagir avec d'autres syst√®mes.

Un "agent", c'est un LLM avec des "outils" :
 - recherche sur internet,
 - calculatrice,
 - interrogation de pdf (RAG),
 - outil fait maison
 - ...

Le mieux est de faire des agents sp√©cialis√©s, et de les orchestrer ensemble.

### Des outils

#### Wikipedia

In [None]:
#%pip install --upgrade --quiet  wikipedia
from langchain.tools import WikipediaQueryRun
from langchain_community.utilities import WikipediaAPIWrapper

wikipedia = WikipediaQueryRun(api_wrapper=WikipediaAPIWrapper())
wikipedia.run("Alan Turing")

#### Tavili (recherche internet)

In [None]:
# pip install -qU langchain-tavily
# Pour une cl√© d'API : https://www.tavily.com/
from langchain_community.tools.tavily_search import TavilySearchResults

import os
os.environ["TAVILY_API_KEY"] = "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"

search = TavilySearchResults(max_results=2)
search_results = search.invoke("Quel est le temps √† Belfort ?")
print(search_results[0]['content'][:100])

### Agents LangChain

#### Ex√©cuteur d'agent (Agent Executor)

L'ex√©cuteur d'agent est un composant ou un syst√®me qui orchestre et ex√©cute les actions d√©termin√©es par l'agent.

Fonction :
 - Gestion de l'ex√©cution : Il re√ßoit les d√©cisions de l'agent, ex√©cute les actions correspondantes et g√®re la transition entre diff√©rentes √©tapes de l'ex√©cution.
 - Traitement des r√©sultats : Il collecte les r√©sultats des actions ex√©cut√©es et les transmet √† l'agent pour de nouvelles d√©cisions ou √† l'utilisateur final.

Exemple : Dans un syst√®me de recommandation, l'ex√©cuteur d'agent pourrait orchestrer l'appel √† diff√©rentes API pour recueillir les informations n√©cessaires (comme les pr√©f√©rences de l'utilisateur et les donn√©es sur les produits) et les combiner pour g√©n√©rer une recommandation.

#### Avec outil Tavily

In [None]:
from langchain import hub
from langchain.agents import create_react_agent, AgentExecutor
from langchain_core.messages import HumanMessage
from langchain_community.tools.tavily_search import TavilySearchResults
from langchain_mistralai.chat_models import ChatMistralAI

search = TavilySearchResults(max_results=2)
tools = [search]

llm = ChatMistralAI(model="mistral-large-latest", temperature=0)

prompt = hub.pull("amalnuaimi/react-mistral")
agent = create_react_agent(llm, tools, prompt)
# Ajout de max_iterations pour √©viter les boucles infinies
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True, max_iterations=5)

response = agent_executor.invoke(
    {
        'input': "Dois-je prendre un parapluie, sachant que je me rends aujourd'hui et demain √† Belfort ?",
        'chat_history': []
    })
print(response['output'])

In [None]:
#https://smith.langchain.com/hub
prompt.pretty_print()

In [None]:
# Version OpenAI
from langchain import hub
from langchain.agents import create_react_agent, AgentExecutor
from langchain_core.messages import HumanMessage
from langchain_community.tools.tavily_search import TavilySearchResults
from langchain_openai import ChatOpenAI

search = TavilySearchResults(max_results=2)
tools = [search]

llm = ChatOpenAI(model_name="gpt-4.1")

prompt = hub.pull("hwchase17/react")
agent = create_react_agent(llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

response = agent_executor.invoke(
    {
        'input': "Dois-je prendre un parapluie, sachant que je me rends aujourd'hui et demain √† Belfort ?"
    })
print(response['output'])

#### Avec outil arXiv

In [None]:
# pip install arxiv
from langchain import hub
from langchain.agents import AgentExecutor, create_react_agent, load_tools
from langchain_openai import ChatOpenAI
from langchain_mistralai.chat_models import ChatMistralAI

#llm = ChatOpenAI(temperature=0.0)
llm = ChatMistralAI(model="mistral-large-latest", temperature=0)
tools = load_tools(["arxiv"])

prompt = hub.pull("hwchase17/react")

agent = create_react_agent(llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

agent_executor.invoke({"input": "R√©sume l'article 1605.08386 en fran√ßais"})

In [None]:
prompt.pretty_print()

In [None]:
print(tools[0].name)
print(tools[0].description)

####¬†Avec Python REPL

In [None]:
from langchain.agents import create_openai_functions_agent
from langchain_experimental.tools import PythonREPLTool

tools = [PythonREPLTool()]

instructions = """You are an agent designed to write and execute python code to answer questions.
You have access to a python REPL, which you can use to execute python code.
If you get an error, debug your code and try again.
Only use the output of your code to answer the question. 
You might know the answer without running any code, but you should still run the code to get the answer.
If it does not seem like you can write code to answer the question, just return "I don't know" as the answer.
"""

base_prompt = hub.pull("langchain-ai/openai-functions-template")
prompt = base_prompt.partial(instructions=instructions)
agent = create_openai_functions_agent(ChatOpenAI(temperature=0), tools, prompt)

agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

In [None]:
agent_executor.invoke({"input": "Quel est le milli√®me nombre de Fibonacci ?"})

In [None]:
base_prompt.pretty_print()

#### Plusieurs outils

In [None]:
from langchain.agents import load_tools, create_react_agent
from langchain_openai import OpenAI

llm = OpenAI()
tools = load_tools(["llm-math", "wikipedia"], llm=llm)
prompt = hub.pull("hwchase17/react")

agent = create_react_agent(llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, 
                               tools=tools, 
                               handle_parsing_errors=True, 
                               verbose=True)

In [None]:
agent_executor.invoke({'input': "Qu'est-ce que 25% de 300?"})

###¬†Ses propres outils

In [None]:
from langchain_core.tools import tool

@tool
def multiply(first_int: int, second_int: int) -> int:
    """Multiplie deux entiers."""
    return first_int * second_int

print(multiply.name)
print(multiply.description)
print(multiply.args)

In [None]:
@tool
def add(first_int: int, second_int: int) -> int:
    "Ajoute deux entiers."
    return first_int + second_int

@tool
def exponentiate(base: int, exponent: int) -> int:
    "Calcule la puissance d'un entier donn√©."
    return base**exponent

In [None]:
from langchain import hub
from langchain.agents import AgentExecutor, create_tool_calling_agent
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name="gpt-4.1")

tools = [multiply, add, exponentiate]
prompt = hub.pull("hwchase17/openai-tools-agent")
agent = create_tool_calling_agent(llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)
agent_executor.invoke(
    {
        "input": "Porter 3 √† la puissance 5 et multiplier le r√©sultat par la somme de douze et de trois, puis √©lever le tout au carr√©."
    }
)

In [None]:
prompt.pretty_print()

### Assemblage d'agents

![Texte alternatif](images/promptulate.png "Promptulate")

## L'audio

### Text to speech

In [None]:
from openai import OpenAI

response = OpenAI().audio.speech.create(
  model="tts-1-hd",
  voice="onyx", # alloy, onyx, fable, echo
  input="Coucou, comment allez-vous ?"
)
response.with_streaming_response.method('mon_audio.mp3')

### Speech to text

In [None]:
from openai import OpenAI

OpenAI().audio.transcriptions.create(
  model="whisper-1", 
  file=open("mon_audio.mp3", "rb"),
  language="fr"
).text

In [None]:
from openai import OpenAI
from pydub import AudioSegment
import time

client = OpenAI()

song = AudioSegment.from_mp3("mon_fichier.mp3")
transcription = ''
for pas in range(0, 120, 20):
    debut, fin = pas * 60 * 1000, (pas+20) * 60 * 1000
    extrait = song[debut:fin]
    if len(extrait) > 100:
        try:
            extrait.export(f"extrait_{pas}.mp3", format="mp3")
            audio_file = open(f"extrait_{pas}.mp3", "rb")
            # Ajout d'un timeout pour √©viter les blocages
            start_time = time.time()
            result = client.audio.transcriptions.create(
                model="whisper-1", 
                file=audio_file,
                timeout=30  # 30 secondes de timeout
            )
            transcription += result.text
            print(f"Segment {pas} trait√© en {time.time() - start_time:.2f}s")
        except Exception as e:
            print(f"Erreur lors du traitement du segment {pas}: {e}")
            break

## Multimodal

In [33]:
import base64

def encode_image_to_data_url(image_path: str) -> str:
    """
    Lit l'image et renvoie une data URL pr√™te √† √™tre ins√©r√©e dans le payload.
    """
    # Lecture du fichier image
    with open(image_path, "rb") as img_file:
        image_bytes = img_file.read()  # Lecture binaire du contenu
    # Encodage base64
    b64 = base64.b64encode(image_bytes).decode("utf-8")
    # D√©tection du MIME type selon l'extension
    ext = os.path.splitext(image_path)[1].lower().lstrip(".")
    mime = f"image/{ext if ext != 'jpg' else 'jpeg'}"
    return f"data:{mime};base64,{b64}"

In [34]:
from openai import OpenAI

client = OpenAI()

data_url = encode_image_to_data_url("mon_image.png")
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {
        "role": "user",
        "content": [
            {"type": "text", "text": "Que vois-tu sur cette image ?"},
            {"type": "image_url", "image_url": {"url": data_url}}
        ]
    }
]

NameError: name 'os' is not defined

In [None]:
try:
    response = client.chat.completions.create(
        model="gpt-4.1",
        messages=messages,
        max_tokens=500,
        temperature=0.0,
        timeout=30  # 30 secondes de timeout
    )
    response.choices[0].message.content
except Exception as e:
    print(f"Erreur lors de l'appel API: {e}")
    "Erreur lors de la g√©n√©ration de la r√©ponse"