In [93]:
import os
import requests
from dotenv import load_dotenv

# Charger la cl√© API depuis .env pour √©viter de l'exposer dans le notebook
load_dotenv()
api_key = os.getenv("OPENROUTER_API_KEY")
if not api_key:
    raise ValueError("Merci d'ajouter OPENROUTER_API_KEY dans ton fichier .env avant d'ex√©cuter ce notebook.")

# üîç Prompt de test
prompt = "1+2=???."

# Corps de la requ√™te
payload = {
    "model": "gpt-4o-mini",
    "messages": [
        {"role": "system", "content": "Tu es un assistant francophone."},
        {"role": "user", "content": prompt}
    ],
    "temperature": 0.5,
    "max_tokens": 500
}

# Envoi de la requ√™te √† OpenRouter
response = requests.post(
    "https://openrouter.ai/api/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {api_key}",
        "Content-Type": "application/json"
    },
    json=payload
)

# V√©rification et affichage
if response.ok:
    data = response.json()
    print("=== R√©ponse du mod√®le ===\n")
    print(data["choices"][0]["message"]["content"])
else:
    print(f"‚ùå Erreur {response.status_code}: {response.text}")

=== R√©ponse du mod√®le ===

1 + 2 = 3.


## RAG project

## step 1:  Collecte des donn√©es

In [38]:
from PyPDF2 import PdfReader

reader = PdfReader("Cours_IA_et_Applications_S1.pdf")
text = " ".join(page.extract_text() for page in reader.pages)


## step 2 : Preprocess and Split Documents

In [39]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
chunks = text_splitter.split_text(text)

## step 3 :  Create Embeddings

In [40]:
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('all-MiniLM-L6-v2')
embeddings = model.encode(chunks)

'(ReadTimeoutError("HTTPSConnectionPool(host='huggingface.co', port=443): Read timed out. (read timeout=10)"), '(Request ID: baa8fdeb-7efb-4cab-93c6-81211350eb6b)')' thrown while requesting HEAD https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2/resolve/main/./modules.json
Retrying in 1s [Retry 1/5].


## 5 Store Vectors in a Vector Database

In [41]:
import faiss
import numpy as np

dimension = len(embeddings[0])
index = faiss.IndexFlatL2(dimension)
index.add(np.array(embeddings).astype('float32'))
index.ntotal

31

## 5 Build Retrieval Logic

In [78]:
query_embedding = model.encode(["expliquer D√©fis de l‚ÄôIA dans le cours"])
D, I = index.search(np.array(query_embedding).astype('float32'), k=5)
retrieved_chunks = [chunks[i] for i in I[0]]

## Step 6: Generate Answer with LLM

In [89]:
# Suppose these are the retrieved chunks
# retrieved_chunks = [
#     "Introduction √† l'IA et ses applications",
#     "Apprentissage automatique de base"
# ]

# Combine chunks + user question
prompt = f"Voici des informations du cours :\n" + "\n".join(retrieved_chunks) + "\n\nQuestion : apartir de ces informations, donner un resume  ?"

payload = {
    "model": "gpt-4o-mini",
    "messages": [
        {"role": "system", "content": "Tu es un expert en IA et science des donn√©es."},
        {"role": "user", "content": prompt}
    ],
    "temperature": 0.5,
    "max_tokens": 200
}
response = requests.post(
    "https://openrouter.ai/api/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {api_key}",
        "Content-Type": "application/json"
    },
    json=payload
)

In [88]:
retrieved_chunks

['√óPr√©sence en cours/TD/TP (corps et esprit)\n√óRespecter le droit des autres √† √©couter : pas de bavardage en classe !\n\uf0fcMobiliser toutes les sources d‚Äôapprentissage : √©couter, prendre des notes, etc.\n\uf0fcQuestions √† volont√© (cours/TD/TP) !\n\uf0fcFaire les devoirs et les rendre dans les d√©lais\n 21/09/2025 IA et Applications 4El√©ment 1 : IA et Applications: ~3H30 de cours : Cours \nEl√©ment 2: Projet: ~1H50 de TP (par groupe) :  R√©ponse aux questions, travail sur PCOrganisation et Evaluation\nEl√©ment 1 :',
 'triste?Pourquoi vous\nsentez -vous triste\nJe suis au travail Travail: parlez un \npeu de votre travailparlez un peu de \nvotre travail\nJe suis triste parce \nque j‚Äôai √©chou√© \nmon examen.? ? 21/09/2025 IA et Applications 15D√©finition et Contexte\n1950 1960 -1970 1980 -1990\nAlan Turing (1950) : Test \nde Turing ‚Üí une \nmachine est dite \nintelligente si un \nhumain ne peut pas \ndistinguer ses r√©ponses \nde celles d‚Äôun autre \nhumain dans une \ncon

In [None]:
# V√©rification et affichage
if response.ok:
    data = response.json()
    print("=== R√©ponse du mod√®le ===\n")
    print(data["choices"][0]["message"]["content"])
else:
    print(f"‚ùå Erreur {response.status_code}: {response.text}")

=== R√©ponse du mod√®le ===

Le cours sur l'Intelligence Artificielle (IA) et ses applications se d√©roule en plusieurs √©l√©ments, incluant des cours th√©oriques et des travaux pratiques. Les √©tudiants sont encourag√©s √† √™tre pr√©sents et attentifs, √† respecter les autres, √† poser des questions et √† rendre leurs devoirs √† temps. 

Le premier √©l√©ment du cours se concentre sur les bases de l'IA, en commen√ßant par la d√©finition de l'intelligence selon Alan Turing, qui a introduit le Test de Turing en 1950. Ce test d√©termine si une machine peut √™tre consid√©r√©e comme intelligente si ses r√©ponses ne peuvent √™tre distingu√©es de celles d'un humain. L'IA symbolique est √©galement abord√©e, avec des exemples tels que le General Problem Solver (GPS) et le chatbot ELIZA, qui simule une interaction psychoth√©rapeutique.

Les √©tudiants apprendront √† d√©finir un probl√®me d'IA supervis√©e, en pr√©cisant l'objectif principal, les


In [None]:
# =====================================================
# 1Ô∏è‚É£ Imports et configuration
# =====================================================
import os
from dotenv import load_dotenv
from PyPDF2 import PdfReader

from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA
from langchain.retrievers import EnsembleRetriever
from langchain.retrievers import BM25Retriever

load_dotenv()

# üîë Cl√© OpenRouter
OPENROUTER_API_KEY = os.getenv("OPENROUTER_API_KEY")
if not OPENROUTER_API_KEY:
    raise ValueError("Merci de mettre ta cl√© OPENROUTER_API_KEY dans le fichier .env")
# =====================================================
# 2Ô∏è‚É£ Chargement et extraction de tous les cours PDF
# =====================================================
folder_path = "data/"  # dossier contenant tous les PDFs
raw_documents = []

for filename in os.listdir(folder_path):
    if filename.lower().endswith(".pdf"):
        pdf_path = os.path.join(folder_path, filename)
        reader = PdfReader(pdf_path)
        page_texts = []
        for page in reader.pages:
            content = (page.extract_text() or "").replace("\n", " ").strip()
            if content:
                page_texts.append(content)
        full_text = " ".join(page_texts)
        if full_text:
            raw_documents.append({"text": full_text, "metadata": {"source": filename}})

if not raw_documents:
    raise ValueError("Aucun texte extrait des PDFs. V√©rifie que le dossier data/ contient des fichiers PDF lisibles.")

print(f"‚úÖ {len(raw_documents)} cours PDF exploitables.")
# =====================================================
# 3Ô∏è‚É£ D√©coupage des textes en chunks pour le retrieval
# =====================================================
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=350,
    chunk_overlap=120
)

documents = []
for item in raw_documents:
    splitted_docs = text_splitter.create_documents([item["text"]], metadatas=[item["metadata"]])
    for idx, doc in enumerate(splitted_docs):
        doc.metadata["chunk_index"] = idx
    documents.extend(splitted_docs)

if not documents:
    raise ValueError("Aucun chunk g√©n√©r√©. V√©rifie les textes extraits.")
print(f"‚úÖ Total chunks index√©s : {len(documents)}")
# =====================================================
# 4Ô∏è‚É£ Cr√©ation des embeddings multilingues normalis√©s
# =====================================================
embedding_model = HuggingFaceEmbeddings(
    model_name="intfloat/multilingual-e5-large",
    encode_kwargs={"normalize_embeddings": True}
)

vectorstore = FAISS.from_documents(documents, embedding_model)
print("‚úÖ Index FAISS construit avec embeddings e5.")
# =====================================================
# 5Ô∏è‚É£ Configurer un retriever hybride (cosinus + BM25)
# =====================================================
dense_retriever = vectorstore.as_retriever(
    search_type="mmr",  # Maximum Marginal Relevance pour diversit√©
    search_kwargs={"k": 3, "fetch_k": 4}
)

sparse_retriever = BM25Retriever.from_documents(documents)
sparse_retriever.k = 8

hybrid_retriever = EnsembleRetriever(
    retrievers=[dense_retriever, sparse_retriever],
    weights=[0.65, 0.35]
)
# =====================================================
# 6Ô∏è‚É£ Configurer le mod√®le GPT-4o-mini via OpenRouter
# =====================================================
llm = ChatOpenAI(
    model_name="gpt-4o-mini",
    temperature=0.4,  # temp√©rature plus basse pour des r√©ponses plus factuelles
    openai_api_key=OPENROUTER_API_KEY,
    openai_api_base="https://openrouter.ai/api/v1",
    default_headers={
        "HTTP-Referer": "https://github.com/your-user/your-repo",
        "X-Title": "RAG Notebook",
    }
)

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=hybrid_retriever,
    return_source_documents=True,
    chain_type="stuff"
)
# =====================================================
# 7Ô∏è‚É£ Exemple : rechercher un chapitre et g√©n√©rer une r√©ponse
# =====================================================
query = "Expliquer les principaux d√©fis de l‚Äôintelligence artificielle"

result = qa_chain(query)

print("=== R√©ponse du mod√®le ===\n")
print(result["result"])

print("\n=== Sources utilis√©es ===\n")
for i, doc in enumerate(result["source_documents"]):
    print(f"--- Source {i} ({doc.metadata.get('source')}, chunk {doc.metadata.get('chunk_index')}) ---")
    print(doc.page_content[:300], "...\n")
# =====================================================
# 8Ô∏è‚É£ Exemple : g√©n√©rer un mini quiz en fran√ßais
# =====================================================
query_quiz = """
G√©n√®re 5 questions de quiz avec leurs r√©ponses √† partir des passages pertinents
des cours sur l‚Äôintelligence artificielle.
"""

result_quiz = qa_chain(query_quiz)

print("=== Quiz g√©n√©r√© ===\n")
print(result_quiz["result"])

‚úÖ 1 cours PDF exploitables.
‚úÖ Total chunks index√©s : 61


modules.json:   0%|          | 0.00/387 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/57.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/690 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/418 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/280 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/201 [00:00<?, ?B/s]

‚úÖ Index FAISS construit avec embeddings e5.


ImportError: Could not import rank_bm25, please install with `pip install rank_bm25`.

In [105]:
dense_retriever = vectorstore.as_retriever(
    search_type="mmr",  # Maximum Marginal Relevance pour diversit√©
    search_kwargs={"k": 3, "fetch_k": 4}
)
sparse_retriever = BM25Retriever.from_documents(documents)
sparse_retriever.k = 3

hybrid_retriever = EnsembleRetriever(
    retrievers=[dense_retriever, sparse_retriever],
    weights=[0.65, 0.35]
)
# =====================================================
# 6Ô∏è‚É£ Configurer le mod√®le GPT-4o-mini via OpenRouter
# =====================================================
llm = ChatOpenAI(
    model_name="gpt-4o-mini",
    temperature=0.4,  # temp√©rature plus basse pour des r√©ponses plus factuelles
    openai_api_key=OPENROUTER_API_KEY,
    openai_api_base="https://openrouter.ai/api/v1",
    default_headers={
        "HTTP-Referer": "https://github.com/your-user/your-repo",
        "X-Title": "RAG Notebook",
    }
)

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=hybrid_retriever,
    return_source_documents=True,
    chain_type="stuff"
)
# =====================================================
# 7Ô∏è‚É£ Exemple : rechercher un chapitre et g√©n√©rer une r√©ponse
# =====================================================
query = "donner 5 principaux d√©fis de l‚Äôintelligence artificielle"

result = qa_chain(query)

print("=== R√©ponse du mod√®le ===\n")
print(result["result"])

print("\n=== Sources utilis√©es ===\n")
for i, doc in enumerate(result["source_documents"]):
    print(f"--- Source {i} ({doc.metadata.get('source')}, chunk {doc.metadata.get('chunk_index')}) ---")
    print(doc.page_content[:300], "...\n")
# =====================================================
# 8Ô∏è‚É£ Exemple : g√©n√©rer un mini quiz en fran√ßais
# =====================================================
# query_quiz = """
# G√©n√®re 5 questions de quiz avec leurs r√©ponses √† partir des passages pertinents
# des cours sur l‚Äôintelligence artificielle.
# """

# result_quiz = qa_chain(query_quiz)

# print("=== Quiz g√©n√©r√© ===\n")
# print(result_quiz["result"])

=== R√©ponse du mod√®le ===

Les cinq principaux d√©fis de l'intelligence artificielle sont :

1. **Qualit√© et quantit√© des donn√©es** : L'IA n√©cessite des donn√©es propres, compl√®tes et repr√©sentatives pour fonctionner efficacement. Des donn√©es biais√©es ou incompl√®tes peuvent tromper les mod√®les.

2. **Co√ªt computationnel et √©nerg√©tique** : Certains mod√®les d'IA n√©cessitent des ressources mat√©rielles et √©nerg√©tiques importantes, ce qui peut limiter leur accessibilit√© et leur durabilit√©.

3. **Difficult√©s li√©es aux donn√©es ou √† l‚Äôenvironnement** : Les environnements changeants ou les donn√©es instables peuvent poser des d√©fis pour le d√©ploiement et l'efficacit√© des syst√®mes d'IA.

4. **Limites de l‚ÄôIA pour r√©soudre des probl√®mes complexes** : L'IA peut avoir des difficult√©s √† traiter des probl√®mes qui n√©cessitent une compr√©hension profonde ou des jugements nuanc√©s.

5. **Exploitation de failles dans la prise de d√©cision automatis√©e** : Les syst√

In [102]:

# =====================================================
# 7Ô∏è‚É£ Exemple : rechercher un chapitre et g√©n√©rer une r√©ponse
# =====================================================
query = "Expliquer les principaux d√©fis de l‚Äôintelligence artificielle"

result = qa_chain(query)

print("=== R√©ponse du mod√®le ===\n")
print(result["result"])

print("\n=== Sources utilis√©es ===\n")
for i, doc in enumerate(result["source_documents"]):
    print(f"--- Source {i} ({doc.metadata.get('source')}, chunk {doc.metadata.get('chunk_index')}) ---")
    print(doc.page_content[:300], "...\n")
# =====================================================
# 8Ô∏è‚É£ Exemple : g√©n√©rer un mini quiz en fran√ßais
# =====================================================
query_quiz = """
G√©n√®re 5 questions de quiz avec leurs r√©ponses √† partir des passages pertinents
des cours sur l‚Äôintelligence artificielle.
"""

result_quiz = qa_chain(query_quiz)

print("=== Quiz g√©n√©r√© ===\n")
print(result_quiz["result"])

=== R√©ponse du mod√®le ===

Les principaux d√©fis de l'intelligence artificielle incluent :

1. **Qualit√© et quantit√© des donn√©es** : L'IA d√©pend fortement de donn√©es propres, compl√®tes et pertinentes. Des donn√©es de mauvaise qualit√© peuvent entra√Æner des r√©sultats erron√©s.

2. **Limites de l'IA** : Les mod√®les peuvent √©chouer √† g√©n√©raliser sur des donn√©es nouvelles ou inattendues, ce qui peut limiter leur efficacit√© dans des situations r√©elles.

3. **Explicabilit√© et interpr√©tabilit√©** : Les mod√®les complexes, comme les r√©seaux de neurones profonds, sont souvent consid√©r√©s comme des "bo√Ætes noires", rendant difficile la compr√©hension des d√©cisions qu'ils prennent. Cela peut poser des probl√®mes, notamment dans des domaines critiques comme la sant√©.

4. **Co√ªt computationnel et √©nerg√©tique** : Certains mod√®les d'IA n√©cessitent des ressources mat√©rielles et √©nerg√©tiques importantes, ce qui peut √™tre un obstacle √† leur d√©ploiement √† grande √©che