## üìåPartie 1 : Open-WebUI - Introduction aux Filtres  

## üîπ Pr√©sentation  

Open-WebUI est une interface qui permet d'interagir avec des mod√®les d'IA tout en offrant des possibilit√©s de personnalisation gr√¢ce aux filtres. Ces filtres permettent d‚Äôintercepter, modifier ou analyser les requ√™tes envoy√©es au mod√®le et les r√©ponses g√©n√©r√©es.  

Dans ce notebook, nous allons explorer la structure d‚Äôun filtre Open-WebUI √† travers un exemple minimaliste.  

---

## üèóÔ∏è Structure d'un Filtre Open-WebUI  

Un filtre est d√©fini sous forme d‚Äôune classe Python et suit une structure sp√©cifique.  

### üìú M√©tadonn√©es du Filtre  

Le fichier commence par un en-t√™te contenant des m√©tadonn√©es utiles pour identifier le filtre dans Open-WebUI :  

```python
"""
title: Example Filter
author: open-webui
author_url: https://github.com/open-webui
funding_url: https://github.com/open-webui
version: 0.1
"""
```

Cela permet notamment de pr√©ciser le cr√©ateur du filtre et sa version.

---

### üè∑Ô∏è D√©finition de la Classe `Filter`  

Le filtre est encapsul√© dans une classe `Filter`, qui peut contenir diff√©rentes m√©thodes pour interagir avec les requ√™tes et les r√©ponses.

```python
class Filter:
```

√Ä l'int√©rieur, une sous-classe `Valves` est d√©finie en tant que mod√®le `pydantic`. Cette classe pourrait √™tre utilis√©e pour g√©rer des param√®tres de configuration sp√©cifiques :  

```python
class Valves(BaseModel):
    pass
```

Puis, dans le constructeur `__init__`, on initialise cette configuration :  

```python
def __init__(self):
    self.valves = self.Valves()
```

---

### üõ†Ô∏è Fonction `inlet` : Pr√©-traitement des Requ√™tes  

La m√©thode `inlet` est ex√©cut√©e avant l‚Äôenvoi d‚Äôune requ√™te au mod√®le. Elle permet de modifier ou de valider la requ√™te avant son traitement.

```python
def inlet(self, body: dict, __user__: Optional[dict] = None) -> dict:
```

Dans cet exemple, la fonction se contente d'afficher le contenu de la requ√™te avant de la renvoyer inchang√©e :

```python
print("Start --------------------------------------------------------------------------------------------------------------------")
print(body)
print("End --------------------------------------------------------------------------------------------------------------------")
```

---

### üîÑ Fonction `stream` : Modification en Temps R√©el  

La m√©thode `stream` est utilis√©e pour intercepter et modifier les r√©ponses en streaming.

```python
def stream(self, event: dict) -> dict:
    return event
```

Ici, la fonction est pr√©sente mais ne modifie pas les donn√©es.

---

### üì§ Fonction `outlet` : Post-traitement des R√©ponses  

Enfin, la m√©thode `outlet` est ex√©cut√©e apr√®s que le mod√®le a g√©n√©r√© une r√©ponse. Elle permet de modifier ou d‚Äôanalyser la r√©ponse avant qu‚Äôelle ne soit affich√©e.

```python
def outlet(self, body: dict, __user__: Optional[dict] = None) -> dict:
    return body
```

Dans ce cas, la r√©ponse est renvoy√©e telle quelle.

---

## üìå Conclusion  

Ce filtre est un exemple minimaliste, mais il montre comment Open-WebUI permet d‚Äôintercepter les requ√™tes et les r√©ponses.  

Dans les prochaines sections, nous verrons comment ajouter des fonctionnalit√©s plus avanc√©es, comme l'enrichissement des requ√™tes, l'analyse des r√©ponses ou encore l'int√©gration avec des API externes. üöÄ

In [None]:
"""
title: Example Filter
author: open-webui
author_url: https://github.com/open-webui
funding_url: https://github.com/open-webui
version: 0.1
"""

from pydantic import BaseModel
from typing import Optional


class Filter:
    class Valves(BaseModel):
        pass

    def __init__(self):
        # Indicates custom file handling logic. This flag helps disengage default routines in favor of custom
        # implementations, informing the WebUI to defer file-related operations to designated methods within this class.
        # Alternatively, you can remove the files directly from the body in from the inlet hook
        # self.file_handler = True

        # Initialize 'valves' with specific configurations. Using 'Valves' instance helps encapsulate settings,
        # which ensures settings are managed cohesively and not confused with operational flags like 'file_handler'.
        self.valves = self.Valves()
        pass

    def inlet(self, body: dict, __user__: Optional[dict] = None) -> dict:
        # Modify the request body or validate it before processing by the chat completion API.
        # This function is the pre-processor for the API where various checks on the input can be performed.
        # It can also modify the request before sending it to the API.

        print(
            "Start --------------------------------------------------------------------------------------------------------------------",
        )
        print(body)
        print(
            "End --------------------------------------------------------------------------------------------------------------------"
        )

        return body

    def stream(self, event: dict) -> dict:
        # This is where you modify streamed chunks of model output.
        return event

    def outlet(self, body: dict, __user__: Optional[dict] = None) -> dict:
        # Modify or analyze the response body after processing by the API.
        # This function is the post-processor for the API, which can be used to modify the response
        # or perform additional checks and analytics.
        return body


In [None]:
body = {'stream': True, 'model': 'quera', 'messages': [{'role': 'user', 'content': 'Qui es-tu ?'}], 'features': {'image_generation': False, 'code_interpreter': False, 'web_search': False}, 'metadata': {'user_id': 'a5a4926c-cddf-4d45-97d5-474419409df4', 'chat_id': '96ca8631-ee9f-4ce9-aeb1-8aca3bd5dac2', 'message_id': '57248f10-099c-4b04-b069-282dca1c1608', 'session_id': 'zsKeLaVlnyVS5klLAAAD', 'tool_ids': None, 'files': None, 'features': {'image_generation': False, 'code_interpreter': False, 'web_search': False}, 'variables': {'{{USER_NAME}}': 'K√©vin Duranty', '{{USER_LOCATION}}': 'Unknown', '{{CURRENT_DATETIME}}': '2025-03-11 16:04:31', '{{CURRENT_DATE}}': '2025-03-11', '{{CURRENT_TIME}}': '16:04:31', '{{CURRENT_WEEKDAY}}': 'Tuesday', '{{CURRENT_TIMEZONE}}': 'Europe/Paris', '{{USER_LANGUAGE}}': 'fr-FR'}, 'model': {'id': 'quera', 'name': 'Quera', 'object': 'model', 'created': 1741701880, 'owned_by': 'ollama', 'info': {'id': 'quera', 'user_id': 'a5a4926c-cddf-4d45-97d5-474419409df4', 'base_model_id': 'mistral:7b', 'name': 'Quera', 'params': {'system': "Tu es l'assistant de Quera."}, 'meta': {'profile_image_url': '/static/favicon.png', 'description': None, 'capabilities': {'vision': True, 'citations': True}, 'suggestion_prompts': [{'content': 'Qui es-tu ?'}], 'tags': [], 'toolIds': ['gettime', 'tools'], 'filterIds': ['fonction_1']}, 'access_control': {'read': {'group_ids': [], 'user_ids': []}, 'write': {'group_ids': [], 'user_ids': []}}, 'is_active': True, 'updated_at': 1741701880, 'created_at': 1741701880}, 'preset': True, 'actions': []}, 'direct': False}}

body

{'stream': True,
 'model': 'quera',
 'messages': [{'role': 'user', 'content': 'Qui es-tu ?'}],
 'features': {'image_generation': False,
  'code_interpreter': False,
  'web_search': False},
 'metadata': {'user_id': 'a5a4926c-cddf-4d45-97d5-474419409df4',
  'chat_id': '96ca8631-ee9f-4ce9-aeb1-8aca3bd5dac2',
  'message_id': '57248f10-099c-4b04-b069-282dca1c1608',
  'session_id': 'zsKeLaVlnyVS5klLAAAD',
  'tool_ids': None,
  'files': None,
  'features': {'image_generation': False,
   'code_interpreter': False,
   'web_search': False},
  'variables': {'{{USER_NAME}}': 'K√©vin Duranty',
   '{{USER_LOCATION}}': 'Unknown',
   '{{CURRENT_DATETIME}}': '2025-03-11 16:04:31',
   '{{CURRENT_DATE}}': '2025-03-11',
   '{{CURRENT_TIME}}': '16:04:31',
   '{{CURRENT_WEEKDAY}}': 'Tuesday',
   '{{CURRENT_TIMEZONE}}': 'Europe/Paris',
   '{{USER_LANGUAGE}}': 'fr-FR'},
  'model': {'id': 'quera',
   'name': 'Quera',
   'object': 'model',
   'created': 1741701880,
   'owned_by': 'ollama',
   'info': {'id': 'qu

In [2]:
import requests
from bs4 import BeautifulSoup

        
response = requests.get("https://www.lachainemeteo.com/meteo-france/ville-325/previsions-meteo-saint-denis-aujourdhui")
soup = BeautifulSoup(response.text, "html.parser")
temp = soup.find(class_="quarter-temperature").find(class_="tempe").text

temp

'10¬∞'

In [None]:
# Modification du corps de la demande

body["messages"] = [
                {
                    "role": "system",
                    "content": f"Tu es l'assistant de IRAE. La temp√©rature √† Paris est de {temp} degr√©s",
                },  
                    ] + body["messages"]

## üöÄ Partie 2 : Int√©gration de ChromaDB pour le RAG  

Dans cette section, nous int√©grons **ChromaDB**, une base de donn√©es vectorielle qui permettra de r√©cup√©rer du contenu pertinent en fonction des requ√™tes des utilisateurs.  

### üì¶ Installation et Importation de ChromaDB  

D'abord, nous devons installer ChromaDB :  

```python
!pip install chromadb
```

Ensuite, nous importons la biblioth√®que :  

```python
import chromadb
```

---


Nous utilisons un **client ChromaDB** en mode persistant pour stocker ces documents :  

```python
client = chromadb.PersistentClient(path="./chromadb")
```

Nous cr√©ons ensuite une **collection** pour stocker ces documents :  

```python
collection = client.create_collection("all-my-documents")
```

Nous ajoutons les documents √† la collection avec des **m√©tadonn√©es** et des **IDs uniques** :  

```python
collection.add(
    documents=docs,
    metadatas=[{"source": "notion"}, {"source": "google-docs"}, {"source": "google-docs"}, {"source": "google-docs"}, {"source": "google-docs"}],
    ids=["doc1", "doc2", "doc3", "doc4", "doc5"],
)
```

---

### üîç Recherche d'Informations  

Nous pouvons maintenant interroger la base pour r√©cup√©rer les **documents les plus pertinents** en fonction d'une requ√™te :  

```python
results = collection.query(
    query_texts=["Je veux en savoir plus sur la cuisine et la gastronomie."],
    n_results=2
)
```

Le syst√®me retourne les **deux documents les plus pertinents** li√©s √† la gastronomie.

---

In [1]:
import chromadb

# Liste des documents
docs = [
    """Vous √™tes un expert en gastronomie, passionn√© par la richesse culinaire du monde entier. Vous ma√Ætrisez l'histoire des plats, les techniques de cuisine, les accords mets et vins, ainsi que les sp√©cificit√©s des terroirs. Vous √™tes capable d'expliquer l'importance de la cuisine dans la culture d'un pays et de proposer des conseils pour d√©couvrir de nouvelles saveurs.""",

    """Vous √™tes un scientifique curieux et engag√© dans la d√©couverte du monde. Vous comprenez les fondements des grandes r√©volutions scientifiques et technologiques et savez expliquer des concepts complexes de mani√®re accessible. Vous vous int√©ressez √† l'intelligence artificielle, √† la biotechnologie et √† l'exploration spatiale, tout en mettant en avant l'importance de la recherche et du questionnement permanent.""",

    """Vous √™tes un passionn√© de culture, conscient de son r√¥le fondamental dans la soci√©t√©. Vous explorez les diff√©rentes formes d'expression artistique, de la peinture √† la litt√©rature, en passant par le cin√©ma et la musique. Vous valorisez le m√©tissage culturel et comprenez l'importance de pr√©server et c√©l√©brer le patrimoine mondial.""",

    """Vous √™tes un analyste du sport et de ses enjeux. Vous comprenez les r√®gles, les strat√©gies et l'impact du sport sur la soci√©t√©. Vous mettez en avant les valeurs qu'il porte, comme la discipline, le respect et l'esprit d'√©quipe. Vous pouvez commenter l'actualit√© sportive, analyser des performances et expliquer pourquoi le sport est un puissant vecteur d'union et de motivation.""",

    """Vous √™tes un expert en √©checs, passionn√© par la strat√©gie et la logique. Vous ma√Ætrisez les ouvertures, les tactiques et les finales. Vous savez expliquer les principes fondamentaux du jeu et analyser des parties. Vous vous int√©ressez √©galement √† l'impact de l'intelligence artificielle sur les √©checs et partagez des conseils pour progresser et affiner sa pens√©e strat√©gique.""",
]


# setup Chroma in-memory, for easy prototyping. Can add persistence easily!
client = chromadb.PersistentClient(path="./chromadb")

# Create collection. get_collection, get_or_create_collection, delete_collection also available!
collection = client.get_or_create_collection("all-my-documents")

# Add docs to the collection. Can also update and delete. Row-based API coming soon!
collection.add(
    documents=docs, # we handle tokenization, embedding, and indexing automatically. You can skip that and add your own embeddings as well
    metadatas=[{"source": "notion"}, {"source": "google-docs"}, {"source": "google-docs"}, {"source": "google-docs"}, {"source": "google-docs"}], # filter on these!
    ids=["doc1", "doc2", "doc3", "doc4", "doc5"], # unique for each doc
)

# Query/search 2 most similar results. You can also .get by id
results = collection.query(
    query_texts=["Je veux en savoir plus sur la cuisine et la gastronomie."],
    n_results=2,
    # where={"metadata_field": "is_equal_to_this"}, # optional filter
    # where_document={"$contains":"search_string"}  # optional filter
)

results

{'ids': [['doc1', 'doc3']],
 'embeddings': None,
 'documents': [["Vous √™tes un expert en gastronomie, passionn√© par la richesse culinaire du monde entier. Vous ma√Ætrisez l'histoire des plats, les techniques de cuisine, les accords mets et vins, ainsi que les sp√©cificit√©s des terroirs. Vous √™tes capable d'expliquer l'importance de la cuisine dans la culture d'un pays et de proposer des conseils pour d√©couvrir de nouvelles saveurs.",
   "Vous √™tes un passionn√© de culture, conscient de son r√¥le fondamental dans la soci√©t√©. Vous explorez les diff√©rentes formes d'expression artistique, de la peinture √† la litt√©rature, en passant par le cin√©ma et la musique. Vous valorisez le m√©tissage culturel et comprenez l'importance de pr√©server et c√©l√©brer le patrimoine mondial."]],
 'uris': None,
 'data': None,
 'metadatas': [[{'source': 'notion'}, {'source': 'google-docs'}]],
 'distances': [[0.49239534955773984, 1.1958780244524794]],
 'included': [<IncludeEnum.distances: 'distances

Voici une liste des principales fonctionnalit√©s de **ChromaDB** :

### **Gestion des collections**
1. **Cr√©er une collection** ‚Üí `get_or_create_collection(name)`
2. **Obtenir une collection existante** ‚Üí `get_collection(name)`
3. **Lister toutes les collections disponibles** ‚Üí `list_collections()`
4. **Supprimer une collection** ‚Üí `delete_collection(name)`

---

### **Ajout et gestion des documents**
5. **Ajouter des documents** ‚Üí `collection.add(documents, metadatas, ids)`
6. **Mettre √† jour des documents** ‚Üí `collection.update(documents, metadatas, ids)`
7. **Supprimer des documents** ‚Üí `collection.delete(ids=["doc1", "doc2"])`

---

### **Recherches et filtrage**
8. **Effectuer une recherche vectorielle** ‚Üí `collection.query(query_texts, n_results)`
9. **Rechercher un document par ID** ‚Üí `collection.get(ids=["doc1", "doc2"])`
10. **Filtrer les r√©sultats par m√©tadonn√©es** ‚Üí `collection.query(where={"source": "notion"})`
11. **Rechercher des documents contenant une certaine cha√Æne de caract√®res** ‚Üí `collection.query(where_document={"$contains":"cuisine"})`

---

### **Affichage des donn√©es**
12. **Afficher toutes les collections** ‚Üí `client.list_collections()`
13. **Afficher le contenu d'une collection** ‚Üí `collection.get()`
14. **Afficher les embeddings des documents** (si fournis par l'utilisateur) ‚Üí `collection.get(ids=["doc1"])`

---

### **Personnalisation et gestion avanc√©e**
15. **Ajouter des embeddings personnalis√©s** ‚Üí `collection.add(embeddings=[...])`
16. **Cr√©er un index pour optimiser les recherches** (automatique)
17. **Utilisation de Chroma en m√©moire ou avec persistance** ‚Üí `PersistentClient(path="./chromadb")`
18. **Exporter/importer une collection** (enregistrer et restaurer la base)
19. **Utiliser ChromaDB avec d'autres bases de donn√©es** (ex: Postgres)
20. **G√©rer plusieurs clients en parall√®le** avec des instances diff√©rentes de `PersistentClient` ou `EphemeralClient`.


In [None]:
import chromadb


# Connexion √† une base de don√©es : chromadb.PersistentClient('./chromadb')

client = 

In [None]:
# Cr√©ation d'une collection : get_or_create_collection('my-documents') ou get_collection / create_collection

collection1 = 

In [None]:
# Affichage des collections : list_collections()



['my-documents', 'all-my-documents']

In [24]:
import numpy as np
# Ajout d'un document
collection1.add(
    ids=['doc1', 'doc2'], 
    documents=['Assistant Gastronomique', 'Assistant Scientifique'],
    embeddings=[np.random.randn(384), np.random.randn(384)],
    metadatas=[{'source': 'Google'}, {'source': 'Redit'}]
)


Insert of existing embedding ID: doc1
Insert of existing embedding ID: doc2
Add of existing embedding ID: doc1
Add of existing embedding ID: doc2


In [None]:
# Affichage des documents : .get()


{'ids': ['doc1', 'doc2'],
 'embeddings': None,
 'documents': ['Je suis un expert automobile.', 'Je suis un expert sportif.'],
 'uris': None,
 'data': None,
 'metadatas': [{'source': 'Google'}, {'source': 'Redit'}],
 'included': [<IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}

In [None]:
# Affichage d'un document : .get('doc1')



{'ids': ['doc1'],
 'embeddings': None,
 'documents': ['Je suis un expert automobile.'],
 'uris': None,
 'data': None,
 'metadatas': [{'source': 'Google'}],
 'included': [<IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}

In [None]:
# Affichage d'un document avec son embeddings : .get('doc1', include=['embeddings'])



{'ids': ['doc1'],
 'embeddings': array([[ 0.10653909, -1.14838254,  0.10571589,  0.16204447,  0.09505343,
         -1.02150345,  1.36759818, -1.36392868, -1.0397222 , -1.99083042,
          1.32853425, -2.61071539, -0.15217154,  1.82050335, -0.14518479,
         -1.7371397 ,  0.60504377,  0.43025333,  0.72564501,  1.11067748,
          1.50074613, -0.09912055, -1.81967926,  0.90005434,  0.23138323,
         -0.56845689,  2.1967566 , -0.09563335,  0.40354887,  0.24612612,
          0.14018826, -2.41611528,  2.02524638,  0.50218934, -0.10336103,
          0.31745216,  1.11828697, -0.27591869,  0.83906227,  0.32711264,
         -2.47377896,  0.10135801, -0.15993938,  0.69958818,  0.17445105,
         -1.64930499,  0.79338062,  1.97316539,  0.15549493, -1.42406249,
          1.29341459, -0.37630987,  0.51155216,  0.32620585,  0.10757399,
         -1.48077464, -1.13434792,  0.64838946,  1.45393801,  0.29260305,
          0.38160831, -0.35049978, -1.01387644, -1.92130232,  2.01229024,
      

In [27]:
# Modifier un document
collection1.update(
    ids=["doc1", "doc2"],
    embeddings=[np.random.randn(384),   np.random.randn(384)],
    documents=["Je suis un expert automobile.",     "Je suis un expert sportif."],

)

collection1.get()

{'ids': ['doc1', 'doc2'],
 'embeddings': None,
 'documents': ['Je suis un expert automobile.', 'Je suis un expert sportif.'],
 'uris': None,
 'data': None,
 'metadatas': [{'source': 'Google'}, {'source': 'Redit'}],
 'included': [<IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}

In [29]:
# Recherche d'un document
result = collection.query(
    query_texts=["Je veux en savoir plus sur la cuisine et la gastronomie."],
    n_results=2,
    # where={"metadata_field": "is_equal_to_this"}, # optional filter
    # where_document={"$contains":"search_string"}  # optional filter
)
result


{'ids': [['doc2', 'doc1']],
 'embeddings': None,
 'documents': [['Je suis un expert sportif.',
   'Je suis un expert automobile.']],
 'uris': None,
 'data': None,
 'metadatas': [[{'source': 'Redit'}, {'source': 'Google'}]],
 'distances': [[337.81103515625, 392.0573425292969]],
 'included': [<IncludeEnum.distances: 'distances'>,
  <IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}

In [7]:
import numpy as np
result = collection.query(
    #query_texts=["Je veux en savoir plus sur la cuisine et la gastronomie."],
    query_embeddings=np.random.randn(384),
    n_results=2,
    #where={"source": "Redit"}, # optional filter
    where_document={"$contains":"sport"}  # optional filter
)
result

{'ids': [['doc4']],
 'embeddings': None,
 'documents': [["Vous √™tes un analyste du sport et de ses enjeux. Vous comprenez les r√®gles, les strat√©gies et l'impact du sport sur la soci√©t√©. Vous mettez en avant les valeurs qu'il porte, comme la discipline, le respect et l'esprit d'√©quipe. Vous pouvez commenter l'actualit√© sportive, analyser des performances et expliquer pourquoi le sport est un puissant vecteur d'union et de motivation."]],
 'uris': None,
 'data': None,
 'metadatas': [[{'source': 'google-docs'}]],
 'distances': [[417.2927617074699]],
 'included': [<IncludeEnum.distances: 'distances'>,
  <IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}