# Chatbot RAG avec PostgreSQL, pgvector et Groq

Ce notebook impl√©mente un syst√®me RAG (Retrieval Augmented Generation) utilisant :
- **PostgreSQL** avec **pgvector** pour le stockage vectoriel
- **Sentence-Transformers** pour les embeddings gratuits
- **Groq API** pour la g√©n√©ration de r√©ponses (gratuit)
- **psycopg3** pour la connexion √† PostgreSQL

##  Installation et Import des biblioth√®ques

In [None]:
import sys
import subprocess

packages = [
    'psycopg[binary]',
    'pgvector',
    'sentence-transformers',
    'groq',
    'python-dotenv',
    'numpy',
    'pandas'
]

print("Installation des packages en cours...")
for package in packages:
    try:
        subprocess.check_call([sys.executable, '-m', 'pip', 'install', '-q', package])
        print(f"‚úì {package} install√©")
    except Exception as e:
        print(f"‚úó Erreur pour {package}: {e}")

print("\n‚úì Installation termin√©e !")

Installation des packages en cours...
‚úì psycopg[binary] install√©
‚úì pgvector install√©
‚úì sentence-transformers install√©
‚úì groq install√©
‚úì python-dotenv install√©
‚úì numpy install√©
‚úì pandas install√©

‚úì Installation termin√©e !


## Imports et Configuration

In [None]:
import psycopg
from psycopg import sql
import numpy as np
import pandas as pd
from sentence_transformers import SentenceTransformer
from groq import Groq
import os
from dotenv import load_dotenv
import requests
from bs4 import BeautifulSoup

# Charger les variables d'environnement
load_dotenv('../src/.env')

print("‚úì Biblioth√®ques import√©es avec succ√®s")

  from .autonotebook import tqdm as notebook_tqdm


‚úì Biblioth√®ques import√©es avec succ√®s


##  Connexion √† PostgreSQL

In [None]:
try:
    conn.close()
    print("‚úì Ancienne connexion ferm√©e")
except:
    print("Connexion d√©j√† ferm√©e")


DB_CONFIG = {
    'host': os.getenv('DB_HOST', 'localhost'),
    'port': os.getenv('DB_PORT', '5432'),
    'dbname': os.getenv('DB_NAME', 'rag_chatbot'),
    'user': os.getenv('DB_USER', 'postgres'),
    'password': os.getenv('DB_PASSWORD', ''),
    'autocommit': True 
}

conn = psycopg.connect(**DB_CONFIG)
print("‚úì Nouvelle connexion cr√©√©e (autocommit=True)")
print("‚úì La transaction est maintenant propre")
print("\n" + "="*80)
print(" ‚úì Vous pouvez maintenant ex√©cuter les cellules suivantes")
print("="*80)

‚ö†Ô∏è Connexion d√©j√† ferm√©e
‚úì Nouvelle connexion cr√©√©e (autocommit=True)
‚úì La transaction est maintenant propre

‚úÖ Vous pouvez maintenant ex√©cuter les cellules suivantes


##  Activer l'extension pgvector

In [None]:
with conn.cursor() as cur:
    try:
        cur.execute("CREATE EXTENSION IF NOT EXISTS vector;")
        conn.commit()
        print("‚úì Extension pgvector activ√©e")
    except Exception as e:
        print(f"‚úó Erreur: {e}")
        conn.rollback()

‚úì Extension pgvector activ√©e


##  Cr√©er la table pour les dialogues

In [None]:
print("\nüîÑ Cr√©ation de la table 'dialogues'...")

with conn.cursor() as cur:
    # Supprimer l'ancienne table si elle existe
    cur.execute("DROP TABLE IF EXISTS dialogues CASCADE;")
    
    # Cr√©er la nouvelle table
    cur.execute("""
        CREATE TABLE dialogues (
            id SERIAL PRIMARY KEY,
            dialogue_id VARCHAR(50),
            contenu TEXT NOT NULL,
            embedding vector(384)
        );
    """)
    
    # Cr√©er un index pour acc√©l√©rer les recherches vectorielles
    cur.execute("""
        CREATE INDEX ON dialogues USING ivfflat (embedding vector_cosine_ops)
        WITH (lists = 100);
    """)

print("‚úì Table 'dialogues' cr√©√©e avec succ√®s")
print("  - Colonnes: id, dialogue_id, contenu, embedding (vector 384)")


üîÑ Cr√©ation de la table 'dialogues'...
‚úì Table 'dialogues' cr√©√©e avec succ√®s
  - Colonnes: id, dialogue_id, contenu, embedding (vector 384)


## Charger le mod√®le d'embedding multilingue

In [7]:
# Charger le mod√®le d'embedding multilingue
print("\nüîÑ Chargement du mod√®le d'embedding...")
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

print("‚úì Mod√®le 'paraphrase-multilingual-MiniLM-L12-v2' charg√© (384 dimensions)")
print("  Ce mod√®le est optimis√© pour le fran√ßais et 115 autres langues")


üîÑ Chargement du mod√®le d'embedding...
‚úì Mod√®le 'paraphrase-multilingual-MiniLM-L12-v2' charg√© (384 dimensions)
  Ce mod√®le est optimis√© pour le fran√ßais et 115 autres langues


## Lire les dialogues depuis data/

In [None]:
from pathlib import Path
import re

print("\nüìÇ LECTURE DES DIALOGUES\n")

data_dir = Path("../data")
tous_dialogues = []
dialogue_ids = []

for filepath in sorted(data_dir.glob("*.txt")):
    print(f"üìÑ Lecture de {filepath.name}...")
    
    with open(filepath, 'r', encoding='latin-1') as f:
        contenu = f.read()

    # S√©parer les dialogues par des lignes vides multiples
    dialogues_bruts = re.split(r'\n\n+', contenu)
    
    count = 0
    for i, dialogue in enumerate(dialogues_bruts):
        dialogue = dialogue.strip()
        
        # Garder seulement les dialogues avec au moins 100 caract√®res
        if dialogue and len(dialogue) > 100:
            tous_dialogues.append(dialogue)
            dialogue_id = f"{filepath.stem}_part{i+1}"
            dialogue_ids.append(dialogue_id)
            count += 1
    
    print(f"   ‚úì {count} dialogues extraits")

print(f"\n{'='*80}")
print(f" TOTAL: {len(tous_dialogues)} dialogues charg√©s")
print(f"{'='*80}")

# Aper√ßu du premier dialogue
if tous_dialogues:
    print("\n Aper√ßu du 1er dialogue:")
    print("-" * 80)
    print(tous_dialogues[0][:300] + "...")
    print("-" * 80)

# Statistiques
longueurs = [len(d) for d in tous_dialogues]
print(f"\n Statistiques:")
print(f"   - Nombre de dialogues: {len(tous_dialogues)}")
print(f"   - Longueur moyenne: {sum(longueurs) / len(longueurs):.0f} caract√®res")
print(f"   - Dialogue le plus court: {min(longueurs)} caract√®res")
print(f"   - Dialogue le plus long: {max(longueurs)} caract√®res")



üìÇ LECTURE DES DIALOGUES

üìÑ Lecture de 017_00000012.txt...
   ‚úì 1 dialogues extraits
üìÑ Lecture de 018_00000013.txt...
   ‚úì 1 dialogues extraits
üìÑ Lecture de 019_00000014.txt...
   ‚úì 1 dialogues extraits
üìÑ Lecture de 020_00000015.txt...
   ‚úì 1 dialogues extraits
üìÑ Lecture de 022_00000017.txt...
   ‚úì 1 dialogues extraits
üìÑ Lecture de 023_00000018.txt...
   ‚úì 1 dialogues extraits
üìÑ Lecture de 024_00000019.txt...
   ‚úì 1 dialogues extraits
üìÑ Lecture de 027_0000001c.txt...
   ‚úì 1 dialogues extraits
üìÑ Lecture de 028_0000001d.txt...
   ‚úì 1 dialogues extraits
üìÑ Lecture de 029_0000001e.txt...
   ‚úì 1 dialogues extraits
üìÑ Lecture de 030_0000001f.txt...
   ‚úì 1 dialogues extraits
üìÑ Lecture de 037_00000026.txt...
   ‚úì 1 dialogues extraits
üìÑ Lecture de 038_00000027.txt...
   ‚úì 1 dialogues extraits
üìÑ Lecture de 045_0000002e.txt...
   ‚úì 1 dialogues extraits
üìÑ Lecture de 047_00000030.txt...
   ‚úì 1 dialogues extraits
üìÑ Lectur

## G√©n√©rer les embeddings

In [13]:
# G√©n√©rer les embeddings pour tous les dialogues
print("\n" + "="*80)
print("üîÑ G√âN√âRATION DES EMBEDDINGS")
print("="*80)

print(f"\nMod√®le: paraphrase-multilingual-MiniLM-L12-v2")
print(f"Dialogues √† encoder: {len(tous_dialogues)}\n")

embeddings = model.encode(
    tous_dialogues,
    batch_size=16,
    show_progress_bar=True,
    normalize_embeddings=True  # Normalisation pour am√©liorer la similarit√© cosinus
)

print(f"\n‚úì {len(embeddings)} embeddings g√©n√©r√©s")
print(f"‚úì Shape: {embeddings.shape}")
print(f"‚úì Type: {embeddings.dtype}")


üîÑ G√âN√âRATION DES EMBEDDINGS

Mod√®le: paraphrase-multilingual-MiniLM-L12-v2
Dialogues √† encoder: 40



Batches: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 3/3 [00:01<00:00,  1.53it/s]


‚úì 40 embeddings g√©n√©r√©s
‚úì Shape: (40, 384)
‚úì Type: float32





##  Ins√©rer dans PostgreSQL

In [14]:
# Ins√©rer les dialogues dans PostgreSQL
from pgvector.psycopg import register_vector

print("\n" + "="*80)
print("üíæ INSERTION DANS POSTGRESQL")
print("="*80)

# Enregistrer le type vector
register_vector(conn)
print("\n‚úì Type 'vector' enregistr√©\n")

# Ins√©rer les dialogues
print("Insertion en cours...")
with conn.cursor() as cur:
    for i, (dialogue_id, dialogue, emb) in enumerate(zip(dialogue_ids, tous_dialogues, embeddings), 1):
        # Conversion en float Python natifs
        emb_list = [float(x) for x in emb]
        
        cur.execute(
            "INSERT INTO dialogues (dialogue_id, contenu, embedding) VALUES (%s, %s, %s)",
            (dialogue_id, dialogue, emb_list)
        )
        
        if i % 10 == 0:
            print(f"   ‚úì {i}/{len(tous_dialogues)} dialogues ins√©r√©s...")

print(f"\n‚úÖ {len(tous_dialogues)} dialogues ins√©r√©s avec succ√®s!")

# V√©rification finale
with conn.cursor() as cur:
    cur.execute("SELECT COUNT(*) FROM dialogues;")
    count = cur.fetchone()[0]
    print(f"‚úì V√©rification: {count} dialogues dans la base")


üíæ INSERTION DANS POSTGRESQL

‚úì Type 'vector' enregistr√©

Insertion en cours...
   ‚úì 10/40 dialogues ins√©r√©s...
   ‚úì 20/40 dialogues ins√©r√©s...
   ‚úì 30/40 dialogues ins√©r√©s...
   ‚úì 40/40 dialogues ins√©r√©s...

‚úÖ 40 dialogues ins√©r√©s avec succ√®s!
‚úì V√©rification: 40 dialogues dans la base


## D√©finir la fonction de recherche

In [15]:
# Fonction de recherche de dialogues similaires
def search_similar_dialogues(query, top_k=3):
    """
    Recherche les dialogues les plus similaires √† la requ√™te
    """
    # G√©n√©rer l'embedding de la requ√™te avec normalisation
    query_embedding = model.encode(query, normalize_embeddings=True)
    
    # Convertir en float Python natifs
    embedding_list = [float(x) for x in query_embedding]
    
    # Rechercher dans la base avec similarit√© cosinus
    with conn.cursor() as cur:
        cur.execute("""
            SELECT id, dialogue_id, contenu, 1 - (embedding <=> %s::vector) AS similarity
            FROM dialogues
            ORDER BY similarity DESC
            LIMIT %s;
        """, (embedding_list, top_k))
        
        results = cur.fetchall()
    
    return results

print("‚úì Fonction search_similar_dialogues d√©finie")

‚úì Fonction search_similar_dialogues d√©finie


 ## Tester la recherche

In [19]:
# Test de recherche
print("\n" + "="*80)
print("üß™ TEST DE RECHERCHE")
print("="*80)

test_queries = [
    "Comment saluer un client au d√©but de l'appel ?",
   
]

for query in test_queries:
    print(f"\n‚ùì Query: '{query}'")
    results = search_similar_dialogues(query, top_k=3)
    
    print()
    for i, (doc_id, dialogue_id, text, similarity) in enumerate(results, 1):
        # Indicateur de qualit√©
        if similarity > 0.7:
            indicator = "üü¢ EXCELLENT"
        elif similarity > 0.5:
            indicator = "üü° BON"
        elif similarity > 0.3:
            indicator = "üü† MOYEN"
        else:
            indicator = "üî¥ FAIBLE"
        
        print(f"  {i}. {indicator} [Score: {similarity:.3f}]")
        print(f"     ID: {dialogue_id}")
        print(f"     Extrait: {text[:100]}...\n")


üß™ TEST DE RECHERCHE

‚ùì Query: 'Comment saluer un client au d√©but de l'appel ?'

  1. üü° BON [Score: 0.659]
     ID: 022_00000017_part1
     Extrait: <01> hotesse
     h: U B S bonjour
<02> client
     c: oui bonjour est-ce que je pourrais avoir mons...

  2. üü° BON [Score: 0.585]
     ID: 023_00000018_part1
     Extrait: <01> hotesse
     h: U B S bonjour
<02> client
     c: oui bonjour excusez moi de vous d√©ranger est ...

  3. üü° BON [Score: 0.582]
     ID: 087_00000058_part1
     Extrait: <01> hotesse
     h: U B S bonjour
<02> client
     c: oui bonjour madame j'aurais voulu parler √† Pr...



## Configuration de Groq API

In [20]:
# Configuration de Groq
groq_api_key = os.getenv('GROQ_API_KEY')

if not groq_api_key:
    print("‚ö† GROQ_API_KEY non trouv√©e dans le fichier .env")
    print("  Obtenez votre cl√© gratuite sur: https://console.groq.com")
else:
    client = Groq(api_key=groq_api_key)
    print("‚úì Client Groq initialis√©")
    print("  Mod√®le: llama-3.3-70b-versatile")

‚úì Client Groq initialis√©
  Mod√®le: llama-3.3-70b-versatile


##   Fonction RAG compl√®te

In [22]:
# Fonction RAG compl√®te pour dialogues
def rag_chatbot_dialogues(user_question, top_k=3):
    """
    Chatbot RAG utilisant Groq pour r√©pondre bas√© sur des dialogues
    """
    # 1. Rechercher les dialogues pertinents
    print(f"üîç Recherche de dialogues pertinents...")
    similar_dialogues = search_similar_dialogues(user_question, top_k=top_k)
    
    if not similar_dialogues:
        print("‚ö†Ô∏è Aucun dialogue trouv√©!")
        return "D√©sol√©, je n'ai pas trouv√© de dialogue pertinent dans ma base."
    
    # 2. Cr√©er le contexte
    context = "\n\n".join([dialogue[2] for dialogue in similar_dialogues])
    print(f"‚úì {len(similar_dialogues)} dialogues trouv√©s\n")
    
    # Afficher les dialogues trouv√©s
    print("Dialogues pertinents:")
    for i, (doc_id, dialogue_id, text, similarity) in enumerate(similar_dialogues, 1):
        print(f"  {i}. [Similarit√©: {similarity:.3f}] {dialogue_id}")
        print(f"     {text[:80]}...")
    print()
    
    # 3. Cr√©er le prompt avec contexte
    prompt = f"""Tu es un assistant intelligent qui r√©pond aux questions en te basant sur des dialogues de conversations t√©l√©phoniques.

Contexte (dialogues de conversations):
{context}

Question: {user_question}

R√©ponds de mani√®re claire et concise en fran√ßais, en t'appuyant sur les informations contenues dans les dialogues."""

    # 4. Appeler Groq pour g√©n√©rer la r√©ponse
    print("ü§ñ G√©n√©ration de la r√©ponse avec Groq...")
    try:
        chat_completion = client.chat.completions.create(
            messages=[{"role": "user", "content": prompt}],
            model="llama-3.3-70b-versatile",
            temperature=0.7,
            max_tokens=500,
        )
        
        response = chat_completion.choices[0].message.content
        return response
    
    except Exception as e:
        return f"Erreur lors de la g√©n√©ration: {e}"

print("‚úì Fonction rag_chatbot_dialogues d√©finie")

‚úì Fonction rag_chatbot_dialogues d√©finie


## Test final du chatbot

In [25]:
# Test du chatbot RAG sur dialogues
question = "Comment saluer un client au d√©but de l'appel ?"

print("="*70)
print(f"Question: {question}")
print("="*70)

response = rag_chatbot_dialogues(question)

print("\n" + "="*70)
print("R√©ponse:")
print("="*70)
print(response)
print("="*70)

Question: Comment saluer un client au d√©but de l'appel ?
üîç Recherche de dialogues pertinents...
‚úì 3 dialogues trouv√©s

Dialogues pertinents:
  1. [Similarit√©: 0.659] 022_00000017_part1
     <01> hotesse
     h: U B S bonjour
<02> client
     c: oui bonjour est-ce que je...
  2. [Similarit√©: 0.585] 023_00000018_part1
     <01> hotesse
     h: U B S bonjour
<02> client
     c: oui bonjour excusez moi d...
  3. [Similarit√©: 0.582] 087_00000058_part1
     <01> hotesse
     h: U B S bonjour
<02> client
     c: oui bonjour madame j'aura...

ü§ñ G√©n√©ration de la r√©ponse avec Groq...

R√©ponse:
Pour saluer un client au d√©but de l'appel, il suffit de dire "bonjour" comme indiqu√© dans les dialogues, par exemple : "U B S bonjour".


##  Fermeture de la connexion

In [None]:
# Fermer la connexion
conn.close()
print("‚úì Connexion PostgreSQL ferm√©e")