In [1]:
import os
from pathlib import Path
import requests
import psycopg
from psycopg import Cursor
from dotenv import load_dotenv
from tqdm import tqdm
import ollama


In [2]:
load_dotenv(".env")  # optional, if you store DB URL in .env

# PostgreSQL connection string
DB_CONNECTION_STR = os.getenv("DATABASE_URL") or "postgresql://postgres:chaima@localhost:5432/chatbot_rag"

# Paths
PROJECT_ROOT = Path(r"C:\Users\chaym\Desktop\projet_Ai\Chatbot-RAG")
DATA_DIR = PROJECT_ROOT / "data" / "TRANS_TXT"
conversation_file_path = DATA_DIR / "017_00000012.txt"

if not DATA_DIR.is_dir():
    raise FileNotFoundError(f"DATA_DIR '{DATA_DIR}' not found.")

# Ollama configuration
OLLAMA_URL = "http://localhost:11434"
OLLAMA_EMBED_MODEL = "nomic-embed-text" # Embedding model
OLLAMA_GEN_MODEL = "gemma3:1b"

In [None]:
#Split into lines (sentences) =>Each line becomes one embedding vector.
def create_conversation_list(file_path: str) -> list[str]:
    """Read text file and filter out line prefixes and empty lines."""
    with open(file_path, "r", encoding="latin-1") as file:
        text = file.read()
        text_list = text.split("\n")
        filtered_list = [
            line.removeprefix("     ")
            for line in text_list
            if not line.startswith("<") and line.strip() != ""
        ]
    return filtered_list


In [None]:

#def calculate_embeddings(corpus:str,client: OpenAI)->list[float]:
 #  embeddings=client.embeddings.create(input=corpus,model=model,encoding_format="float").data
  #  return embeddings[0].embedding  

def calculate_embeddings(text: str) -> list[float]:
    """Generate embeddings using Ollama local API."""
    payload = {"model": OLLAMA_EMBED_MODEL, "prompt": text}
    resp = requests.post(f"{OLLAMA_URL}/api/embeddings", json=payload)
    if resp.status_code == 200:
        return resp.json()["embedding"]
    else:
        raise Exception(f"Ollama embedding error: {resp.text}")


In [None]:

def save_embedding(corpus: str, embedding: list[float], cursor):
    cursor.execute(
        """INSERT INTO embeddings (corpus, embedding) VALUES (%s, %s)""",
        (corpus, embedding)
    )

  

In [6]:
##définir une fonnction similar_corpus qui prend en entrée un texte et renvoie les textes similaires dans la base de données
#..à compléter
#def similar_corpus(input_corpus:str, client:OpenAI, db_connection_str:str)->tuple[int, str,list[float]]:     
# -------------------------
# introduire une requête pour interroger
# -------------------------
def similar_corpus(input_text: str, db_connection_str: str, top_k: int = 5):
    """Return top_k similar documents to input_text."""
    query_embedding = calculate_embeddings(input_text)
    with psycopg.connect(db_connection_str) as conn:
        with conn.cursor() as cur:
            cur.execute("""
                SELECT 
                    id,
                    corpus,
                    1 - (embedding <=> %s::vector) AS similarity
                FROM embeddings
                ORDER BY similarity DESC
                LIMIT %s;
            """, (query_embedding, top_k))
            results = cur.fetchall()
    return results

    

In [7]:
with psycopg.connect(DB_CONNECTION_STR) as conn:
    conn.autocommit = True
    with conn.cursor() as cur:

        # Drop old table if exists
        cur.execute("DROP TABLE IF EXISTS embeddings;")

        # Enable pgvector extension
        cur.execute("CREATE EXTENSION IF NOT EXISTS vector;")

        # Create table
        cur.execute("""
            CREATE TABLE IF NOT EXISTS embeddings (
                id SERIAL PRIMARY KEY,
                corpus TEXT,
                embedding VECTOR(768)
            );
        """)

        # Load conversation and compute embeddings
        corpus_list = create_conversation_list(conversation_file_path)
        print(f"Found {len(corpus_list)} lines to embed.")

        for idx, corpus in enumerate(tqdm(corpus_list, desc="Inserting embeddings")):
            embedding = calculate_embeddings(corpus)
            save_embedding(corpus, embedding, cur)

        conn.commit()
        print("All embeddings inserted successfully!")


Found 43 lines to embed.


Inserting embeddings: 100%|██████████| 43/43 [01:37<00:00,  2.27s/it]

All embeddings inserted successfully!





In [12]:
#The user question is ALSO converted into a vector.
request="Existe-t-il des stages de perfectionnement en anglais et en espagnol ?"
results = similar_corpus(request, DB_CONNECTION_STR)

print("\n--- Résultats similaires ---")
for r in results:
    print(f"ID: {r[0]}\nTexte: {r[1]}\nSimilarité: {r[2]:.4f}\n")



--- Résultats similaires ---
ID: 5
Texte: c: e c'est pour savoir si la fac pendant l'été e a des professeurs ou des des gens qui font des stages de de perfectionnement en anglais et en espagnol
Similarité: 0.8272

ID: 15
Texte: h: en anglais ou en espagnol pendant l'été
Similarité: 0.7816

ID: 13
Texte: h: et elle souhaiterais se perfectionner
Similarité: 0.7323

ID: 25
Texte: c: son espagnol
Similarité: 0.7060

ID: 17
Texte: h: oui alors e la fac de e de lettre et de langues se trouve à Lorient donc il faudrait plutôt  voir avec Lorient pour e savoir si ils organisent des stages mais en tout cas fac est fermée du 23 juillet au 23 août
Similarité: 0.7042



Generates a response using Ollama LLM

In [9]:
# ---------------------------
# Generate RAG response
# ---------------------------
def generate_rag_response(question: str, db_connection_str: str) -> str:
    # 1. Retrieve similar docs
    similar_docs = similar_corpus(question, db_connection_str, top_k=3)
    context = "\n\n---\n\n".join([doc[1] for doc in similar_docs])

    # 2. Build prompt
    prompt = f"""Tu es un assistant qui répond aux questions basées UNIQUEMENT sur les documents fournis.

Documents de référence:
{context}

Question: {question}

Réponds de manière précise en te basant sur les documents. Si l'information n'y est pas, dis-le clairement."""

    # 3. Generate answer with Ollama LLM
    payload = {"model": OLLAMA_GEN_MODEL, "prompt": prompt, "stream": False}
    resp = requests.post(f"{OLLAMA_URL}/api/generate", json=payload)
    if resp.status_code == 200:
        return resp.json()["response"]
    else:
        raise Exception(f"Ollama LLM error: {resp.text}")



In [None]:
question = "Est-ce que la faculté est ouverte pendant l’été ?"
answer = generate_rag_response(question, DB_CONNECTION_STR)
print("\n--- Question ---")
print(question)
print("\n--- Answer ---")
print(answer)
 




--- Question ---
Est-ce que la faculté est ouverte pendant l’été ?

--- Answer ---
Oui, la faculté est ouverte pendant l’été.


In [14]:
question = "Où se trouve l’organisme English Connection ?"

answer = generate_rag_response(question, DB_CONNECTION_STR)
print("\n--- Question ---")
print(question)
print("\n--- Answer ---")
print(answer)


--- Question ---
Où se trouve l’organisme English Connection ?

--- Answer ---
Selon le document « h : je ne sais pas oh vous allez trouver ça dans le dans l'annuaire hein », l'organisme English Connection se trouve dans l'annuaire.
