## üìåPartie 1 : Open-WebUI - Introduction aux Filtres  

## üîπ Pr√©sentation  

Open-WebUI est une interface qui permet d'interagir avec des mod√®les d'IA tout en offrant des possibilit√©s de personnalisation gr√¢ce aux filtres. Ces filtres permettent d‚Äôintercepter, modifier ou analyser les requ√™tes envoy√©es au mod√®le et les r√©ponses g√©n√©r√©es.  

Dans ce notebook, nous allons explorer la structure d‚Äôun filtre Open-WebUI √† travers un exemple minimaliste.  

---

## üèóÔ∏è Structure d'un Filtre Open-WebUI  

Un filtre est d√©fini sous forme d‚Äôune classe Python et suit une structure sp√©cifique.  

### üìú M√©tadonn√©es du Filtre  

Le fichier commence par un en-t√™te contenant des m√©tadonn√©es utiles pour identifier le filtre dans Open-WebUI :  

```python
"""
title: Example Filter
author: open-webui
author_url: https://github.com/open-webui
funding_url: https://github.com/open-webui
version: 0.1
"""
```

Cela permet notamment de pr√©ciser le cr√©ateur du filtre et sa version.

---

### üè∑Ô∏è D√©finition de la Classe `Filter`  

Le filtre est encapsul√© dans une classe `Filter`, qui peut contenir diff√©rentes m√©thodes pour interagir avec les requ√™tes et les r√©ponses.

```python
class Filter:
```

√Ä l'int√©rieur, une sous-classe `Valves` est d√©finie en tant que mod√®le `pydantic`. Cette classe pourrait √™tre utilis√©e pour g√©rer des param√®tres de configuration sp√©cifiques :  

```python
class Valves(BaseModel):
    pass
```

Puis, dans le constructeur `__init__`, on initialise cette configuration :  

```python
def __init__(self):
    self.valves = self.Valves()
```

---

### üõ†Ô∏è Fonction `inlet` : Pr√©-traitement des Requ√™tes  

La m√©thode `inlet` est ex√©cut√©e avant l‚Äôenvoi d‚Äôune requ√™te au mod√®le. Elle permet de modifier ou de valider la requ√™te avant son traitement.

```python
def inlet(self, body: dict, __user__: Optional[dict] = None) -> dict:
```

Dans cet exemple, la fonction se contente d'afficher le contenu de la requ√™te avant de la renvoyer inchang√©e :

```python
print("Start --------------------------------------------------------------------------------------------------------------------")
print(body)
print("End --------------------------------------------------------------------------------------------------------------------")
```

---

### üîÑ Fonction `stream` : Modification en Temps R√©el  

La m√©thode `stream` est utilis√©e pour intercepter et modifier les r√©ponses en streaming.

```python
def stream(self, event: dict) -> dict:
    return event
```

Ici, la fonction est pr√©sente mais ne modifie pas les donn√©es.

---

### üì§ Fonction `outlet` : Post-traitement des R√©ponses  

Enfin, la m√©thode `outlet` est ex√©cut√©e apr√®s que le mod√®le a g√©n√©r√© une r√©ponse. Elle permet de modifier ou d‚Äôanalyser la r√©ponse avant qu‚Äôelle ne soit affich√©e.

```python
def outlet(self, body: dict, __user__: Optional[dict] = None) -> dict:
    return body
```

Dans ce cas, la r√©ponse est renvoy√©e telle quelle.

---

## üìå Conclusion  

Ce filtre est un exemple minimaliste, mais il montre comment Open-WebUI permet d‚Äôintercepter les requ√™tes et les r√©ponses.  

Dans les prochaines sections, nous verrons comment ajouter des fonctionnalit√©s plus avanc√©es, comme l'enrichissement des requ√™tes, l'analyse des r√©ponses ou encore l'int√©gration avec des API externes. üöÄ

In [None]:
"""
title: Example Filter
author: open-webui
author_url: https://github.com/open-webui
funding_url: https://github.com/open-webui
version: 0.1
"""

from pydantic import BaseModel
from typing import Optional


class Filter:
    class Valves(BaseModel):
        pass

    def __init__(self):
        # Indicates custom file handling logic. This flag helps disengage default routines in favor of custom
        # implementations, informing the WebUI to defer file-related operations to designated methods within this class.
        # Alternatively, you can remove the files directly from the body in from the inlet hook
        # self.file_handler = True

        # Initialize 'valves' with specific configurations. Using 'Valves' instance helps encapsulate settings,
        # which ensures settings are managed cohesively and not confused with operational flags like 'file_handler'.
        self.valves = self.Valves()
        pass

    def inlet(self, body: dict, __user__: Optional[dict] = None) -> dict:
        # Modify the request body or validate it before processing by the chat completion API.
        # This function is the pre-processor for the API where various checks on the input can be performed.
        # It can also modify the request before sending it to the API.

        print(
            "Start --------------------------------------------------------------------------------------------------------------------",
        )
        print(body)
        print(
            "End --------------------------------------------------------------------------------------------------------------------"
        )

        return body

    def stream(self, event: dict) -> dict:
        # This is where you modify streamed chunks of model output.
        return event

    def outlet(self, body: dict, __user__: Optional[dict] = None) -> dict:
        # Modify or analyze the response body after processing by the API.
        # This function is the post-processor for the API, which can be used to modify the response
        # or perform additional checks and analytics.
        return body


In [2]:
import requests
from bs4 import BeautifulSoup

        
response = requests.get("https://www.lachainemeteo.com/meteo-france/ville-325/previsions-meteo-saint-denis-aujourdhui")
soup = BeautifulSoup(response.text, "html.parser")
temp = soup.find(class_="quarter-temperature").find(class_="tempe").text

temp

'10¬∞'

In [None]:
# Modification du corps de la demande

body["messages"] = [
                        {
                                    "role": "system",
                                    "content": f"Tu es l'assistant de IRAE. La temp√©rature √† Paris est de {temp} degr√©s",
                        },  
                    ] + body["messages"]

## üöÄ Partie 2 : Int√©gration de ChromaDB pour le RAG  

Dans cette section, nous int√©grons **ChromaDB**, une base de donn√©es vectorielle qui permettra de r√©cup√©rer du contenu pertinent en fonction des requ√™tes des utilisateurs.  

### üì¶ Installation et Importation de ChromaDB  

D'abord, nous devons installer ChromaDB :  

```python
!pip install chromadb
```

Ensuite, nous importons la biblioth√®que :  

```python
import chromadb
```

---

### üìÑ Cr√©ation d'une Base de Connaissances  

Nous stockons un ensemble de documents dans la base ChromaDB. Ces documents repr√©sentent des connaissances sp√©cialis√©es sur diff√©rents sujets.  

```python
docs = [
    """Vous √™tes un expert en gastronomie, passionn√© par la richesse culinaire du monde entier. Vous ma√Ætrisez l'histoire des plats, les techniques de cuisine, les accords mets et vins, ainsi que les sp√©cificit√©s des terroirs. Vous √™tes capable d'expliquer l'importance de la cuisine dans la culture d'un pays et de proposer des conseils pour d√©couvrir de nouvelles saveurs.""",

    """Vous √™tes un scientifique curieux et engag√© dans la d√©couverte du monde. Vous comprenez les fondements des grandes r√©volutions scientifiques et technologiques et savez expliquer des concepts complexes de mani√®re accessible. Vous vous int√©ressez √† l'intelligence artificielle, √† la biotechnologie et √† l'exploration spatiale, tout en mettant en avant l'importance de la recherche et du questionnement permanent.""",

    """Vous √™tes un passionn√© de culture, conscient de son r√¥le fondamental dans la soci√©t√©. Vous explorez les diff√©rentes formes d'expression artistique, de la peinture √† la litt√©rature, en passant par le cin√©ma et la musique. Vous valorisez le m√©tissage culturel et comprenez l'importance de pr√©server et c√©l√©brer le patrimoine mondial.""",

    """Vous √™tes un analyste du sport et de ses enjeux. Vous comprenez les r√®gles, les strat√©gies et l'impact du sport sur la soci√©t√©. Vous mettez en avant les valeurs qu'il porte, comme la discipline, le respect et l'esprit d'√©quipe. Vous pouvez commenter l'actualit√© sportive, analyser des performances et expliquer pourquoi le sport est un puissant vecteur d'union et de motivation.""",

    """Vous √™tes un expert en √©checs, passionn√© par la strat√©gie et la logique. Vous ma√Ætrisez les ouvertures, les tactiques et les finales. Vous savez expliquer les principes fondamentaux du jeu et analyser des parties. Vous vous int√©ressez √©galement √† l'impact de l'intelligence artificielle sur les √©checs et partagez des conseils pour progresser et affiner sa pens√©e strat√©gique.""",
]
```

Nous utilisons un **client ChromaDB** en mode persistant pour stocker ces documents :  

```python
client = chromadb.PersistentClient(path="./chromadb")
```

Nous cr√©ons ensuite une **collection** pour stocker ces documents :  

```python
collection = client.create_collection("all-my-documents")
```

Nous ajoutons les documents √† la collection avec des **m√©tadonn√©es** et des **IDs uniques** :  

```python
collection.add(
    documents=docs,
    metadatas=[{"source": "notion"}, {"source": "google-docs"}, {"source": "google-docs"}, {"source": "google-docs"}, {"source": "google-docs"}],
    ids=["doc1", "doc2", "doc3", "doc4", "doc5"],
)
```

---

### üîç Recherche d'Informations  

Nous pouvons maintenant interroger la base pour r√©cup√©rer les **documents les plus pertinents** en fonction d'une requ√™te :  

```python
results = collection.query(
    query_texts=["Je veux en savoir plus sur la cuisine et la gastronomie."],
    n_results=2
)
```

Le syst√®me retourne les **deux documents les plus pertinents** li√©s √† la gastronomie.

---

In [1]:
import chromadb

# Liste des documents
docs = [
    """Vous √™tes un expert en gastronomie, passionn√© par la richesse culinaire du monde entier. Vous ma√Ætrisez l'histoire des plats, les techniques de cuisine, les accords mets et vins, ainsi que les sp√©cificit√©s des terroirs. Vous √™tes capable d'expliquer l'importance de la cuisine dans la culture d'un pays et de proposer des conseils pour d√©couvrir de nouvelles saveurs.""",

    """Vous √™tes un scientifique curieux et engag√© dans la d√©couverte du monde. Vous comprenez les fondements des grandes r√©volutions scientifiques et technologiques et savez expliquer des concepts complexes de mani√®re accessible. Vous vous int√©ressez √† l'intelligence artificielle, √† la biotechnologie et √† l'exploration spatiale, tout en mettant en avant l'importance de la recherche et du questionnement permanent.""",

    """Vous √™tes un passionn√© de culture, conscient de son r√¥le fondamental dans la soci√©t√©. Vous explorez les diff√©rentes formes d'expression artistique, de la peinture √† la litt√©rature, en passant par le cin√©ma et la musique. Vous valorisez le m√©tissage culturel et comprenez l'importance de pr√©server et c√©l√©brer le patrimoine mondial.""",

    """Vous √™tes un analyste du sport et de ses enjeux. Vous comprenez les r√®gles, les strat√©gies et l'impact du sport sur la soci√©t√©. Vous mettez en avant les valeurs qu'il porte, comme la discipline, le respect et l'esprit d'√©quipe. Vous pouvez commenter l'actualit√© sportive, analyser des performances et expliquer pourquoi le sport est un puissant vecteur d'union et de motivation.""",

    """Vous √™tes un expert en √©checs, passionn√© par la strat√©gie et la logique. Vous ma√Ætrisez les ouvertures, les tactiques et les finales. Vous savez expliquer les principes fondamentaux du jeu et analyser des parties. Vous vous int√©ressez √©galement √† l'impact de l'intelligence artificielle sur les √©checs et partagez des conseils pour progresser et affiner sa pens√©e strat√©gique.""",
]


# setup Chroma in-memory, for easy prototyping. Can add persistence easily!
client = chromadb.PersistentClient(path="./chromadb")

# Create collection. get_collection, get_or_create_collection, delete_collection also available!
collection = client.create_collection("all-my-documents")

# Add docs to the collection. Can also update and delete. Row-based API coming soon!
collection.add(
    documents=docs, # we handle tokenization, embedding, and indexing automatically. You can skip that and add your own embeddings as well
    metadatas=[{"source": "notion"}, {"source": "google-docs"}, {"source": "google-docs"}, {"source": "google-docs"}, {"source": "google-docs"}], # filter on these!
    ids=["doc1", "doc2", "doc3", "doc4", "doc5"], # unique for each doc
)

# Query/search 2 most similar results. You can also .get by id
results = collection.query(
    query_texts=["Je veux en savoir plus sur la cuisine et la gastronomie."],
    n_results=2,
    # where={"metadata_field": "is_equal_to_this"}, # optional filter
    # where_document={"$contains":"search_string"}  # optional filter
)

results

{'ids': [['doc1', 'doc3']],
 'embeddings': None,
 'documents': [["Vous √™tes un expert en gastronomie, passionn√© par la richesse culinaire du monde entier. Vous ma√Ætrisez l'histoire des plats, les techniques de cuisine, les accords mets et vins, ainsi que les sp√©cificit√©s des terroirs. Vous √™tes capable d'expliquer l'importance de la cuisine dans la culture d'un pays et de proposer des conseils pour d√©couvrir de nouvelles saveurs.",
   "Vous √™tes un passionn√© de culture, conscient de son r√¥le fondamental dans la soci√©t√©. Vous explorez les diff√©rentes formes d'expression artistique, de la peinture √† la litt√©rature, en passant par le cin√©ma et la musique. Vous valorisez le m√©tissage culturel et comprenez l'importance de pr√©server et c√©l√©brer le patrimoine mondial."]],
 'uris': None,
 'data': None,
 'metadatas': [[{'source': 'notion'}, {'source': 'google-docs'}]],
 'distances': [[0.49239534955773984, 1.1958780244524794]],
 'included': [<IncludeEnum.distances: 'distances