# RAG Pipeline

This notebook is our pipeline to transform the various websites around CS to text and put them in the vector store.

In [1]:
import chromadb
from chromadb.utils.embedding_functions import Bm25EmbeddingFunction, DefaultEmbeddingFunction, HuggingFaceEmbeddingFunction
from chromadb import Documents, EmbeddingFunction, Embeddings
from dotenv import load_dotenv
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
import os 

load_dotenv()

True

In [2]:
URL = "https://api.infomaniak.com/1/ai/models"
headers = {
  'Authorization': f'Bearer {os.getenv("API_TOKEN")}',
  'Content-Type': 'application/json',
}
req = requests.request("GET", url = URL , headers = headers)
res = req.json()

info_df = pd.DataFrame(res["data"])
info_df[info_df["type"] == "embedding"]

Unnamed: 0,id,name,type,documentation_link,description,info_status,logo_url,last_updated_at,max_token_input,version,meta
6,12,bge_multilingual_gemma2,embedding,https://developer.infomaniak.com/docs/api/post...,Bge Multilingual Gemma2,coming_soon,https://storage4.infomaniak.com/ai-tools/publi...,2024-12-04,8000.0,1.0,{'is_beta': False}
7,13,mini_lm_l12_v2,embedding,https://developer.infomaniak.com/docs/api/post...,All MiniLM L12 v2,coming_soon,https://storage4.infomaniak.com/ai-tools/publi...,2024-12-04,128.0,2.0,{'is_beta': False}


## 1. Data Processing: Conver HTML to Text

using beautifulSoup and simple get request, we collect the data from websites.

In [3]:
# needed to pretend I am a normal user ;)
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'
}

def url_to_string(url: str) -> str:
    if not url.startswith("https://"):
        url = "https://" + url
    
    res = requests.get(url, headers=HEADERS)
    res.raise_for_status()

    soup = BeautifulSoup(res.text, "html.parser")
    site_text = " ".join([text for text in soup.stripped_strings])
    return site_text


demo_url = "www.orientation.ch/dyn/show/1900?id=152"
site_text = url_to_string(demo_url)

print("Number of chars:", len(site_text))
print("Number of words:", len(site_text.split()))

Number of chars: 30161
Number of words: 3883


In [4]:
df = pd.read_csv("../data/links.csv")

df = df.drop(columns="verified")

url_list = df["url"].to_list()
url_text_list = [url_to_string(url) for url in url_list]

assert len(df["url"]) == len(url_text_list), "not the same number of sites and web pages scraped!"

In [5]:
df["url_text"] = url_text_list
df.head()

Unnamed: 0,title,url,type,url_text
0,informaticien cfc suisse,www.orientation.ch/dyn/show/1900?id=152,apprentissage,Informaticien CFC / Informaticienne CFC - orie...
1,école techniques des métiers de Lausanne,https://www.etml.ch/formation/em/informaticien...,école professionelle,Apprentissage d'informaticien·ne - ETML Nous u...
2,école des métiers Fribourg,https://emf.ch/formation/informaticien-ne-cfc,école professionelle,Informaticien-ne CFC · Ecole des Métiers Fribo...
3,centre professionel du Nord Vaudois,https://www.cpnv.ch/formations/ecole-metiers/i...,école professionelle,Informaticien-ne CFC - CPNV Aller au contenu M...
4,université de fribourg,www.unifr.ch/inf/fr/informatique,université,Informatique | Département d'informatique | U...


In [9]:
PRODUCT_ID = os.getenv("PRODUCT_ID")
API_TOKEN = os.getenv("API_TOKEN")

BASE_URL = f"https://api.infomaniak.com/1/ai/{PRODUCT_ID}/openai/chat/completions"
HEADERS = {
    "Authorization": f"Bearer {API_TOKEN}",
    "Content-Type": "application/json"
}

def summarize_documents(document: str) -> str:
    messages = [
            {"role": "system", "content": "ton objectif est de résumer et condenser ces sites web en 400 à 500 mots. Tu dois éxtraire les informations importantes qui décrivent les différentes professions, formations, critères d'entrées et diplomes obtenus. N'oublie pas l'âge et public cibles de ces différentes formations. Ces résumés seront ensuite utilisé dans un RAG pour un autre LLM. Donne moi directement le résumé, n'utilise pas de formatage"},
            {"role": "user", "content": document},
    ]
    
    payload = {
            "model": "qwen3",
            "messages": messages,
            "temperature": 0.4,
            #"max_tokens": 1000,
    }
    
    resp = requests.post(url=BASE_URL, json=payload, headers=HEADERS)
    result = resp.json()
    return result["choices"][0]["message"]["content"]

In [10]:
total = len(df)

docs = []
for idx in df.index:
    print(f"[{idx + 1}|{total}]")
    
    row = df.iloc[idx]
    input_seq = ": ".join(row.loc[["title", "url_text"]].to_list())

    out = summarize_documents(input_seq)
    docs.append(out)

[1|25]
[2|25]
[3|25]
[4|25]
[5|25]
[6|25]
[7|25]
[8|25]
[9|25]
[10|25]
[11|25]
[12|25]
[13|25]
[14|25]
[15|25]
[16|25]
[17|25]
[18|25]
[19|25]
[20|25]
[21|25]
[22|25]
[23|25]
[24|25]
[25|25]


In [14]:
df["text_summary"] = docs

In [15]:
df.head()

Unnamed: 0,title,url,type,url_text,text_summary
0,informaticien cfc suisse,www.orientation.ch/dyn/show/1900?id=152,apprentissage,Informaticien CFC / Informaticienne CFC - orie...,L’informaticien CFC ou informaticienne CFC est...
1,école techniques des métiers de Lausanne,https://www.etml.ch/formation/em/informaticien...,école professionelle,Apprentissage d'informaticien·ne - ETML Nous u...,L’École technique des métiers de Lausanne (ETM...
2,école des métiers Fribourg,https://emf.ch/formation/informaticien-ne-cfc,école professionelle,Informaticien-ne CFC · Ecole des Métiers Fribo...,L’École des Métiers de Fribourg (EMF) propose ...
3,centre professionel du Nord Vaudois,https://www.cpnv.ch/formations/ecole-metiers/i...,école professionelle,Informaticien-ne CFC - CPNV Aller au contenu M...,Le Centre professionnel du Nord Vaudois (CPNV)...
4,université de fribourg,www.unifr.ch/inf/fr/informatique,université,Informatique | Département d'informatique | U...,L’Université de Fribourg propose un cursus com...


In [55]:
df.to_csv("../data/processed-links.csv", header=True, index=False)

# 2. RAG Benchmark

First two models are on infomaniak.
The rest we will need to train ourselves by getting the model with a GPU.

|evaluate? | Model name | Link |
|:--------:|------------|------|
| |MiniLM L12 v2 | https://developer.infomaniak.com/docs/api/post/1/ai/%7Bproduct_id%7D/openai/v1/embeddings |
| X |BGE Multilingual Gemma 2 | https://developer.infomaniak.com/docs/api/post/1/ai/%7Bproduct_id%7D/openai/v1/embeddings |
| X | paraphrase-multilingual-MiniLM-L12-v2 | https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 |
| X | paraphrase-multilingual-mpnet-base-v2 | https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2 |
| X | distiluse-base-multilingual-cased-v2 | https://huggingface.co/sentence-transformers/distiluse-base-multilingual-cased-v2 |
|  | Alibaba-NLP/gte-Qwen2-1.5B-instruct | https://huggingface.co/Alibaba-NLP/gte-Qwen2-1.5B-instruct |
| X | BM25 | chromadb through `fastembed` | 

In [16]:
DB_PATH = "../data/"

client = chromadb.PersistentClient(path=DB_PATH)
# ensure the DB is available
print("hearbeat:", client.heartbeat())

ids: list[str] = df["title"].to_list()
# switch here for the column you want to use
documents: list[str] = df["text_summary"].to_list()
metadatas: list[dict[str, str]] = df.loc[:, ["title", "type", "url"]].to_dict("records")

hearbeat: 1760225376563814004


## Infomaniak Model: MultiLingual Gemma 2 and MiniLM-L12-v2

The latter is english only, we should not evaluate it.

In [None]:
PRODUCT_ID = os.getenv("PRODUCT_ID")
API_TOKEN = os.getenv("API_TOKEN")

URL = f"https://api.infomaniak.com/1/ai/{PRODUCT_ID}/openai/v1/embeddings"

headers = {
  'Authorization': f"Bearer {API_TOKEN}",
  'Content-Type': 'application/json',
}

payload = {
    "input": documents,
    "model": "bge_multilingual_gemma2",
    "mode": "index",
}

req = requests.post(url=URL , json=payload, headers=headers)
res = req.json()
print(req.status_code)

assert len(documents) == len(res["data"])

In [None]:
PRODUCT_ID = os.getenv("PRODUCT_ID")
API_TOKEN = os.getenv("API_TOKEN")


class MultinligualGemma2(EmbeddingFunction):
    def __init__(self) -> None:
        self.model_name = "bge_multilingual_gemma2"
        self.url = f"https://api.infomaniak.com/1/ai/{PRODUCT_ID}/openai/v1/embeddings"
        self.headers = {
          'Authorization': f"Bearer {API_TOKEN}",
          'Content-Type': 'application/json',
        }
        
    def __call__(self, input_data: Documents) -> Embeddings:
        payload = {
            "input": input_data,
            "model": self.model_name,
        }

        req = requests.post(url=self.url, json=payload, headers=self.headers)
        res = req.json()
        data = res["data"]
        embeddings = [np.array(x["embedding"]) for x in data]
        
        return embeddings


# Do not evaluate this one
class MiniLML12V2(EmbeddingFunction):
    def __init__(self) -> None:
        self.model_name = "mini_lm_l12_v2"
        self.url = f"https://api.infomaniak.com/1/ai/{PRODUCT_ID}/openai/v1/embeddings"
        self.headers = {
          'Authorization': f"Bearer {API_TOKEN}",
          'Content-Type': 'application/json',
        }
        
    def __call__(self, input_data: Documents) -> Embeddings:
        payload = {
            "input": input_data,
            "model": self.model_name,
        }

        req = requests.post(url=self.url, json=payload, headers=self.headers)
        res = req.json()
        data = res["data"]
        embeddings = [np.array(x["embedding"]) for x in data]
        
        return embeddings

In [None]:
multilingual_gemma2_collection = client.get_or_create_collection(
    name="multilingual-gemma2",
    embedding_function=MultinligualGemma2()
)

print(multilingual_gemma2_collection)
print(multilingual_gemma2_collection._embedding_function)

In [None]:
df.head()

In [None]:
multilingual_gemma2_collection.add(
    ids=ids,
    metadatas=metadatas,
    documents=documents,
)

In [None]:
multilingual_gemma2_collection.count()

In [None]:
results = multilingual_gemma2_collection.query(
    query_texts=["j'aimerais faire l'université"],
    n_results=5,
)   

results["ids"]

## BM25 

In [None]:
bm_25_collection = client.get_or_create_collection(
    name="bm25",
    embedding_function=Bm25EmbeddingFunction()
)

print(bm_25_collection)
print(bm_25_collection._embedding_function)

In [None]:
ids: list[str] = df["title"].to_list() #df.index.astype("str").to_list()
documents: list[str] = df["url_text"].to_list()

# NOT WOKRING: WHY?
bm_25_collection.add(
    ids=ids,
    documents=documents,
)

## Sentence Transformer

For all the HugginFace model.

In [20]:
from sentence_transformers import SentenceTransformer

# model we are interested in 
mini_lm_l12 = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2" # 118M
mpnet_base = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2" # 278M
distule_base = "sentence-transformers/distiluse-base-multilingual-cased-v2" # 135M

In [21]:
%%time
model = SentenceTransformer(mini_lm_l12)
print(model)

  from .autonotebook import tqdm as notebook_tqdm


SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False, 'architecture': 'BertModel'})
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)


In [None]:
%%time

sentences = ["yet another sequence to test the model", "This is a long sentence to demo how fast the model is and see if we can run it on CPU or maybe we need GPU?"]
embeddings = model.encode(sentences)

In [43]:
documents[1]

'L’École technique des métiers de Lausanne (ETML) propose une formation en apprentissage d’informaticien·ne, destinée à des jeunes âgés d’au moins 15 ans, généralement après la fin de la scolarité obligatoire. Cette formation professionnelle initiale dure 4 ans et combine enseignement théorique à l’école et pratique en entreprise, aboutissant à l’obtention d’un Certificat fédéral de capacité (CFC). Le métier d’informaticien·ne couvre plusieurs spécialisations : développement d’applications, exploitation et infrastructure, ou informaticien·ne d’entreprise, chacune régie par une ordonnance SEFRI spécifique (depuis 2021-2022). Les apprenti·e·s apprennent à planifier, installer, mettre en service et entretenir des systèmes informatiques, des logiciels, des réseaux et des équipements, tout en assurant le support aux utilisateurs. Ils doivent aussi intégrer les aspects ergonomiques et de santé au travail. Le métier s’exerce dans des entreprises variées : banques, assurances, administrations,

In [41]:
[len(d.split()) for d in documents]a

[336,
 297,
 338,
 319,
 353,
 316,
 354,
 416,
 380,
 375,
 291,
 344,
 312,
 360,
 318,
 281,
 343,
 327,
 358,
 340,
 363,
 344,
 356,
 352,
 386]

In [22]:
class SentenceTransformerFunction(EmbeddingFunction):
    def __init__(self, model_name: str) -> None:
        self.model_name = model_name
        self.model = SentenceTransformer(self.model_name)
        
    def __call__(self, input_data: Documents) -> Embeddings:
        embeddings = self.model.encode(input_data)
        return embeddings

In [23]:
mini_lm_l12_collection = client.get_or_create_collection(
    name="mini_lm_l12",
    embedding_function=SentenceTransformerFunction(mini_lm_l12),
)

print(mini_lm_l12_collection)
print(mini_lm_l12_collection._embedding_function)

Collection(name=mini_lm_l12)
<__main__.SentenceTransformerFunction object at 0x7023123834d0>


In [27]:
%%time

mini_lm_l12_collection.add(
    ids=ids,
    metadatas=metadatas,
    documents=documents,
)

CPU times: user 2.51 s, sys: 105 ms, total: 2.62 s
Wall time: 767 ms


In [44]:
results = mini_lm_l12_collection.query(
    query_texts=["faire un apprentissage cfc en informatique"],
    n_results=10,
)   

results["ids"]

[['haute école spécialisée de suisse occidentale sion apprentissage en informatique',
  'centre professionel du Nord Vaudois',
  "haute école d'ingénierie et de gestion du canton de vaud informatique logiciel",
  'université de fribourg',
  "haute école d'ingénierie et de gestion du canton de vaud réseaux et systèmes",
  'liebherr',
  'école des métiers Fribourg',
  'transport public fribourgeois (TPF)',
  'école techniques des métiers de Lausanne',
  'informatique université de genève']]

In [37]:
results = mini_lm_l12_collection.query(
    query_texts=["j'aimerais faire des hautes études"],
    n_results=10,
)   

results["ids"]

[['haute école spécialisée de suisse occidentale sion',
  'université de fribourg',
  'informatique université de genève',
  'école polytechnique fédérale de lausanne ',
  "haute école d'ingénierie et de gestion du canton de vaud réseaux et systèmes",
  "haute école d'ingénierie et de gestion du canton de vaud informatique logiciel",
  'liebherr',
  'bcv',
  'vaudoise',
  '42 lausanne']]

In [36]:
results = mini_lm_l12_collection.query(
    query_texts=["les études universitaires m'intéresse"],
    n_results=10,
)   

results["ids"]

[['université de fribourg',
  'informatique université de genève',
  'haute école spécialisée de suisse occidentale sion',
  'école polytechnique fédérale de lausanne ',
  "haute école d'ingénierie et de gestion du canton de vaud réseaux et systèmes",
  "haute école d'ingénierie et d'architecture fribourg",
  'liebherr',
  "haute école d'ingénierie et de gestion du canton de vaud informatique logiciel",
  'vaudoise',
  '42 lausanne']]

# Benchmark the Models

In [46]:
BASIC_QA_PROMPT = """\
Le document contextuel est présenté ci-dessous :
---------------------
{context_str}
---------------------

Compte tenu des informations contextuelles et en l'absence de connaissances préalables,
générez uniquement des questions basées sur la requête ci-dessous.

Vous êtes enseignant/professeur. Votre tâche consiste à préparer \
{num_questions_per_chunk} questions pour un prochain \
quiz/examen. Les questions doivent être de nature variée \
à travers le document. Limitez les questions aux \
informations contextuelles fournies.
"""
def generate_qa():
    input_seq = BASIC_QA_PROMPT.format(context_str=document, num_questions_per_chunk=1)

In [None]:
documents