In [44]:
import psycopg
import os
from dotenv import load_dotenv

# Charger les variables d'environnement
load_dotenv()

# Param√®tres de connexion
db_params = {
    'host': os.getenv('DB_HOST'),
    'port': os.getenv('DB_PORT'),
    'dbname': os.getenv('DB_NAME'),
    'user': os.getenv('DB_USER'),
    'password': os.getenv('DB_PASSWORD')
}

# Test de connexion
try:
    conn = psycopg.connect(**db_params)
    print("‚úÖ Connexion r√©ussie √† PostgreSQL!")
    print(f"Version PostgreSQL: {conn.info.server_version}")
    conn.close()
except Exception as e:
    print(f"‚ùå Erreur de connexion: {e}")

‚úÖ Connexion r√©ussie √† PostgreSQL!
Version PostgreSQL: 170007


In [45]:
import psycopg
from pgvector.psycopg import register_vector
from sentence_transformers import SentenceTransformer
from transformers import pipeline
import os
from dotenv import load_dotenv
import numpy as np

print("‚úÖ Imports r√©ussis!")

‚úÖ Imports r√©ussis!


In [46]:
# Charger variables d'environnement
load_dotenv()

# Configuration PostgreSQL
DB_CONFIG = {
    'dbname': os.getenv('DB_NAME', 'rag_chatbot'),
    'user': os.getenv('DB_USER', 'postgres'),
    'password': os.getenv('DB_PASSWORD'),
    'host': os.getenv('DB_HOST', 'localhost'),
    'port': os.getenv('DB_PORT', '5433')
}

print("‚úÖ Configuration charg√©e!")
print(f"Base: {DB_CONFIG['dbname']} sur port {DB_CONFIG['port']}")

‚úÖ Configuration charg√©e!
Base: rag_chatbot sur port 5433


In [47]:
# Connexion
try:
    conn = psycopg.connect(**DB_CONFIG)
    register_vector(conn)
    print("‚úÖ Connexion PostgreSQL r√©ussie!")
    print(f"Version: {conn.info.server_version}")
except Exception as e:
    print(f"‚ùå Erreur: {e}")

‚úÖ Connexion PostgreSQL r√©ussie!
Version: 170007


In [48]:
# V√©rifier que pgvector est activ√©
conn.rollback()

with conn.cursor() as cur:
    cur.execute("""
        SELECT name, default_version
        FROM pg_available_extensions
        WHERE name = 'vector';
    """)
    row = cur.fetchone()

if row:
    print(f"‚úÖ pgvector disponible (version par d√©faut : {row[1]})")
else:
    print("‚ùå pgvector NON disponible")


‚úÖ pgvector disponible (version par d√©faut : 0.8.1)


In [49]:
conn.rollback()

with conn.cursor() as cur:
    cur.execute("CREATE EXTENSION IF NOT EXISTS vector;")
    conn.commit()
    print("‚úÖ pgvector activ√© dans la base")


‚úÖ pgvector activ√© dans la base


In [50]:
#Charger le mod√®le d‚Äôembeddings
from sentence_transformers import SentenceTransformer

print("üì• Chargement du mod√®le d'embedding...")
model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')
print("‚úÖ Mod√®le charg√©!")

# Test rapide
test_emb = model.encode("Test")
print(f"Dimension embedding: {len(test_emb)}")


üì• Chargement du mod√®le d'embedding...
‚úÖ Mod√®le charg√©!
Dimension embedding: 768


In [51]:
# Cr√©er la table pour stocker les embeddings
conn.rollback()

with conn.cursor() as cur:
    cur.execute("""
        CREATE TABLE IF NOT EXISTS embeddings (
            id SERIAL PRIMARY KEY,
            corpus TEXT NOT NULL,
            embedding VECTOR(768)  -- Dimension du mod√®le all-mpnet-base-v2
        )
    """)
    conn.commit()
    print("‚úÖ Table 'embeddings' cr√©√©e!")

# V√©rifier le nombre d'entr√©es
with conn.cursor() as cur:
    cur.execute("SELECT COUNT(*) FROM embeddings")
    count = cur.fetchone()[0]
    print(f"üìä Nombre d'entr√©es actuelles : {count}")

‚úÖ Table 'embeddings' cr√©√©e!
üìä Nombre d'entr√©es actuelles : 0


In [52]:
import glob

# Chemin vers les fichiers du corpus
CORPUS_PATH = "../data/TRANS_TXT/*.txt"

# Lister les fichiers
fichiers = glob.glob(CORPUS_PATH)

if not fichiers:
    print("‚ö†Ô∏è ATTENTION : Aucun fichier trouv√©!")
    print(f"üìÅ V√©rifie que le corpus est dans : {CORPUS_PATH}")
else:
    print(f"‚úÖ {len(fichiers)} fichiers trouv√©s!")
    print(f"üìÑ Premiers fichiers :")
    for f in fichiers[:5]:
        print(f"  - {os.path.basename(f)}")

‚úÖ 41 fichiers trouv√©s!
üìÑ Premiers fichiers :
  - 017_00000012.txt
  - 018_00000013.txt
  - 019_00000014.txt
  - 020_00000015.txt
  - 022_00000017.txt


In [53]:
import time

print("üöÄ D√©but du chargement du corpus...\n")

documents_inseres = 0

for i, filepath in enumerate(fichiers, 1):
    try:
        # Lire le fichier
        with open(filepath, "r", encoding="utf-8", errors="ignore") as f:
            text = f.read()
        
        # Ignorer les fichiers trop courts
        if len(text.strip()) < 50:
            print(f"‚è≠Ô∏è [{i}/{len(fichiers)}] Fichier ignor√© (trop court)")
            continue
        
        # G√©n√©rer l'embedding avec sentence-transformers
        embedding = model.encode(text, convert_to_numpy=True)
        embedding_list = embedding.tolist()
        
        # Ins√©rer dans la base
        with conn.cursor() as cur:
            cur.execute("""
                INSERT INTO embeddings (corpus, embedding)
                VALUES (%s, %s)
            """, (text, embedding_list))
        
        conn.commit()
        documents_inseres += 1
        
        print(f"‚úÖ [{i}/{len(fichiers)}] {os.path.basename(filepath)} - {len(text)} caract√®res")
        
        # Pause pour ne pas surcharger
        time.sleep(0.3)
        
    except Exception as e:
        print(f"‚ùå Erreur avec {filepath}: {e}")
        conn.rollback()
        continue

print(f"\n‚úÖ Chargement termin√©! {documents_inseres} documents ins√©r√©s.")

# V√©rifier le total
with conn.cursor() as cur:
    cur.execute("SELECT COUNT(*) FROM embeddings")
    total = cur.fetchone()[0]
    print(f"üìä Total d'entr√©es dans la base : {total}")

üöÄ D√©but du chargement du corpus...

‚úÖ [1/41] 017_00000012.txt - 2539 caract√®res
‚úÖ [2/41] 018_00000013.txt - 455 caract√®res
‚úÖ [3/41] 019_00000014.txt - 748 caract√®res
‚úÖ [4/41] 020_00000015.txt - 578 caract√®res
‚úÖ [5/41] 022_00000017.txt - 1187 caract√®res
‚úÖ [6/41] 023_00000018.txt - 786 caract√®res
‚úÖ [7/41] 024_00000019.txt - 5276 caract√®res
‚úÖ [8/41] 027_0000001c.txt - 2175 caract√®res
‚úÖ [9/41] 028_0000001d.txt - 5172 caract√®res
‚úÖ [10/41] 029_0000001e.txt - 442 caract√®res
‚úÖ [11/41] 030_0000001f.txt - 335 caract√®res
‚úÖ [12/41] 037_00000026.txt - 764 caract√®res
‚úÖ [13/41] 038_00000027.txt - 1681 caract√®res
‚úÖ [14/41] 045_0000002e.txt - 423 caract√®res
‚úÖ [15/41] 047_00000030.txt - 2542 caract√®res
‚úÖ [16/41] 048_00000031.txt - 1615 caract√®res
‚úÖ [17/41] 052_00000035.txt - 353 caract√®res
‚úÖ [18/41] 053_00000036.txt - 1032 caract√®res
‚úÖ [19/41] 054_00000037.txt - 1861 caract√®res
‚úÖ [20/41] 055_00000038.txt - 445 caract√®res
‚úÖ [21/41] 057_000

In [54]:
from pgvector.psycopg import Vector

def search_similar(query_text, top_k=5):
    """
    Recherche les documents les plus similaires √† la requ√™te.
    
    Args:
        query_text (str): Texte de la requ√™te
        top_k (int): Nombre de r√©sultats √† retourner
        
    Returns:
        list: Liste de tuples (id, corpus, distance)
    """
    # G√©n√©rer l'embedding de la requ√™te
    query_embedding = model.encode(query_text, convert_to_numpy=True)
    query_vector = Vector(query_embedding.tolist())
    
    # Rechercher les documents similaires
    with conn.cursor() as cur:
        cur.execute("""
            SELECT id, corpus, embedding <-> %s AS distance
            FROM embeddings
            ORDER BY distance
            LIMIT %s
        """, (query_vector, top_k))
        return cur.fetchall()

print("‚úÖ Fonction de recherche d√©finie!")

‚úÖ Fonction de recherche d√©finie!


In [55]:
# Test de recherche
query = "Bonjour, je cherche des informations"

print(f"üîé Requ√™te : {query}\n")

results = search_similar(query, top_k=3)

print(f"üìä {len(results)} r√©sultats trouv√©s :\n")

for i, (doc_id, corpus, distance) in enumerate(results, 1):
    print(f"{'='*80}")
    print(f"üèÜ R√©sultat {i}")
    print(f"üìç ID: {doc_id} | üìè Distance: {distance:.4f}")
    print(f"üìÑ Extrait:\n{corpus[:250]}...\n")

üîé Requ√™te : Bonjour, je cherche des informations

üìä 3 r√©sultats trouv√©s :

üèÜ R√©sultat 1
üìç ID: 24 | üìè Distance: 0.9505
üìÑ Extrait:
<01> hotesse
     h: U B S bonjour
<02> client
     c: oui bonjour madame j'aurais voulu avoir des renseignements pour e l'() l'inscription en A E S administration conomique et sociale
<03> hotesse
     h: Nom oui [pi] oui conservez je vais vous pass...

üèÜ R√©sultat 2
üìç ID: 25 | üìè Distance: 0.9638
üìÑ Extrait:
<01> hotesse
     h: U B S bonjour
<02> client
     c: bonjour ici Prnom Nom est ce que je pourrais avoir Prnom2 Nom2 s'il vous plait
<03> hotesse
     h: # oui
...

üèÜ R√©sultat 3
üìç ID: 35 | üìè Distance: 0.9762
üìÑ Extrait:
<01> hotesse
     h: U B S bonjour
<02> client
     c: oui bonjour e j'aurais voulu savoir je postule pour e donc j'tais en licence d'conomie  Rennes #  Vannes pardon [pf] cette anne
<03> hotesse
     h: oui
<04> client
     c: et donc je postule pou...



In [57]:
# Cr√©er la table pour stocker les embeddings
conn.rollback()

with conn.cursor() as cur:
    cur.execute("""
        CREATE TABLE IF NOT EXISTS embeddings (
            id SERIAL PRIMARY KEY,
            corpus TEXT NOT NULL,
            embedding VECTOR(768)
        )
    """)
    conn.commit()
    print("‚úÖ Table 'embeddings' cr√©√©e!")

# V√©rifier
with conn.cursor() as cur:
    cur.execute("SELECT COUNT(*) FROM embeddings")
    count = cur.fetchone()[0]
    print(f"üìä Nombre d'entr√©es actuelles : {count}")

‚úÖ Table 'embeddings' cr√©√©e!
üìä Nombre d'entr√©es actuelles : 40


In [58]:
import glob

CORPUS_PATH = "../data/TRANS_TXT/*.txt"
fichiers = glob.glob(CORPUS_PATH)

if not fichiers:
    print("‚ö†Ô∏è ATTENTION : Aucun fichier trouv√©!")
else:
    print(f"‚úÖ {len(fichiers)} fichiers trouv√©s!")
    for f in fichiers[:5]:
        print(f"  - {os.path.basename(f)}")
```

**‚Üí Ex√©cute cette cellule et dis-moi combien de fichiers sont trouv√©s !**

---

## üö® **PROBL√àME POTENTIEL : Chemin du Corpus**

Dans ton `.env`, tu as :
```
DB_PORT=5433
```

Mais est-ce que ton corpus est bien dans :
```
C:\Users\hp\CHATBOT-RAG\data\TRANS_TXT\

SyntaxError: invalid character '‚Üí' (U+2192) (91635150.py, line 14)

The history saving thread hit an unexpected error (OperationalError('database or disk is full')).History will not be written to the database.
