In [6]:
# Import des biblioth√®ques n√©cessaires
import numpy as np
import pandas as pd
import psycopg2
import psycopg2.extras
import os
import time
from dotenv import load_dotenv
from sentence_transformers import SentenceTransformer
import requests
import glob

# Charger les variables d'environnement
load_dotenv('../src/.env')

# D√©clarer les variables n√©cessaires
data_folder_path = "C:\\Users\\USER\\Desktop\\ChatBot Rag\\Chatbot-RAG\\data"

# Initialiser le mod√®le d'embeddings local (gratuit, pas de quota!)
print("üîÑ Chargement du mod√®le d'embeddings local...")
embedding_model = SentenceTransformer('all-MiniLM-L6-v2')  # Mod√®le l√©ger et performant (384 dimensions)
print("‚úÖ Mod√®le d'embeddings charg√©!")

# Configuration Groq (GRATUIT - ULTRA RAPIDE - GROS QUOTAS!)
GROQ_API_KEY = os.getenv('GROQ_API_KEY')
GROQ_URL = "https://api.groq.com/openai/v1/chat/completions"
GROQ_MODEL = "llama-3.1-8b-instant"  # Ultra rapide: ~500 tokens/sec!
print(f"‚úÖ Groq configur√© avec {GROQ_MODEL}")

# Configuration de la connexion √† la base de donn√©es
DB_CONFIG = {
    'host': os.getenv('DB_HOST', 'localhost'),
    'port': os.getenv('DB_PORT', '5432'),
    'dbname': os.getenv('DB_NAME', 'rag_chatbot'),
    'user': os.getenv('DB_USER', 'postgres'),
    'password': os.getenv('DB_PASSWORD')
}

db_connection_str = f"dbname={DB_CONFIG['dbname']} user={DB_CONFIG['user']} password={DB_CONFIG['password']} host={DB_CONFIG['host']} port={DB_CONFIG['port']}"


def create_conversation_list_from_folder(folder_path: str) -> list[str]:
    """Charge et nettoie tous les fichiers .txt du dossier"""
    all_conversations = []
    encodings = ['utf-8', 'latin-1', 'iso-8859-1', 'cp1252']
    
    # R√©cup√©rer tous les fichiers .txt
    txt_files = glob.glob(os.path.join(folder_path, "*.txt"))
    print(f"üìÅ {len(txt_files)} fichiers .txt trouv√©s dans {folder_path}\n")
    
    for file_path in txt_files:
        file_name = os.path.basename(file_path)
        print(f"üìÑ Chargement de {file_name}...", end=" ")
        
        for encoding in encodings:
            try:
                with open(file_path, "r", encoding=encoding) as file:
                    text = file.read()
                    text_list = text.split("\n")
                    filtered_list = [chaine.removeprefix("     ") for chaine in text_list if chaine and not chaine.startswith("<")]
                    all_conversations.extend(filtered_list)
                    print(f"‚úÖ {len(filtered_list)} conversations ({encoding})")
                    break
            except UnicodeDecodeError:
                continue
        else:
            print(f"‚ùå Impossible de d√©coder")
    
    print(f"\nüéâ Total: {len(all_conversations)} conversations charg√©es depuis {len(txt_files)} fichiers!")
    return all_conversations

def create_conversation_list(file_path: str) -> list[str]:
    """Charge et nettoie le fichier de conversation (version ancienne - un seul fichier)"""
    encodings = ['utf-8', 'latin-1', 'iso-8859-1', 'cp1252']
    
    for encoding in encodings:
        try:
            with open(file_path, "r", encoding=encoding) as file:
                text = file.read()
                text_list = text.split("\n")
                filtered_list = [chaine.removeprefix("     ") for chaine in text_list if chaine and not chaine.startswith("<")]
                print(f"‚úÖ {len(filtered_list)} conversations charg√©es (encoding: {encoding})")
                return filtered_list
        except UnicodeDecodeError:
            continue
    
    raise ValueError(f"Impossible de d√©coder le fichier {file_path} avec les encodages test√©s: {encodings}")
    
def calculate_embeddings(corpus: str) -> list[float]:
    """Calcule les embeddings pour un texte donn√© avec Sentence Transformers (LOCAL - GRATUIT)"""
    # Plus besoin de d√©lai - c'est local et gratuit!
    embedding = embedding_model.encode(corpus, convert_to_numpy=True)
    return embedding.tolist()

def save_embedding(corpus: str, embedding: list[float], cursor) -> None:
    """Sauvegarde le corpus et son embedding dans la base de donn√©es"""
    cursor.execute('''INSERT INTO embeddings (corpus, embedding) VALUES (%s, %s)''', (corpus, embedding)) 

def parse_postgres_array(array_string):
    """Parse PostgreSQL array string to list of floats - handles both FLOAT8[] and pgvector formats"""
    if isinstance(array_string, list):
        return array_string
    
    if isinstance(array_string, str):
        # Handle pgvector format: "[0.1,0.2,0.3]" 
        if array_string.startswith('[') and array_string.endswith(']'):
            cleaned = array_string.strip('[]')
            return [float(x) for x in cleaned.split(',')]
        
        # Handle FLOAT8[] format: "{0.1,0.2,0.3}"
        if array_string.startswith('{') and array_string.endswith('}'):
            cleaned = array_string.strip('{}')
            return [float(x) for x in cleaned.split(',')]
    
    return array_string
    
def cosine_distance(vec1: list[float], vec2: list[float]) -> float:
    """Calcule la distance cosinus entre deux vecteurs"""
    # Parse arrays if they are strings
    if isinstance(vec2, str):
        vec2 = parse_postgres_array(vec2)
    
    vec1_np = np.array(vec1, dtype=np.float64)
    vec2_np = np.array(vec2, dtype=np.float64)
    
    dot_product = np.dot(vec1_np, vec2_np)
    norm1 = np.linalg.norm(vec1_np)
    norm2 = np.linalg.norm(vec2_np)
    
    if norm1 == 0 or norm2 == 0:
        return 1.0
    
    similarity = dot_product / (norm1 * norm2)
    return 1 - similarity  # Distance = 1 - similarit√©
    
def similar_corpus(input_corpus: str, db_connection_str: str, top_k: int = 5) -> list[tuple]:
    """Trouve les corpus similaires dans la base de donn√©es"""
    # Calculer l'embedding de l'input avec Sentence Transformers (local)
    input_embedding = embedding_model.encode(input_corpus, convert_to_numpy=True).tolist()
    
    with psycopg2.connect(db_connection_str) as conn:
        with conn.cursor() as cur:
            # R√©cup√©rer tous les embeddings
            cur.execute("SELECT id, corpus, embedding FROM embeddings")
            all_results = cur.fetchall()
            
            # Calculer les distances en Python
            results_with_distance = []
            for id, corpus, embedding in all_results:
                distance = cosine_distance(input_embedding, embedding)
                results_with_distance.append((distance, id, corpus, embedding))
            
            # Trier par distance et prendre les top_k
            results_with_distance.sort(key=lambda x: x[0])
            top_results = [(id, corpus, embedding) for _, id, corpus, embedding in results_with_distance[:top_k]]
            
            return top_results

def generate_response(query: str, context: list[str]) -> str:
    """G√©n√®re une r√©ponse avec Groq (GRATUIT - ULTRA RAPIDE!)"""
    
    prompt = f"""Tu es un assistant sp√©cialis√© dans l'analyse de conversations universitaires.
R√©ponds UNIQUEMENT avec les informations du contexte. Si l'info n'est pas dans le contexte, dis-le.

Contexte: {' '.join(context)}

Question: {query}

R√©ponse courte en fran√ßais:"""
    
    try:
        start_time = time.time()
        
        response = requests.post(
            GROQ_URL,
            headers={
                "Authorization": f"Bearer {GROQ_API_KEY}",
                "Content-Type": "application/json"
            },
            json={
                "model": GROQ_MODEL,
                "messages": [{"role": "user", "content": prompt}],
                "temperature": 0.7,
                "max_tokens": 200  # R√©ponses courtes
            },
            timeout=10  # Groq est ultra rapide, 10s suffit
        )
        response.raise_for_status()
        
        result = response.json()
        elapsed = time.time() - start_time
        
        answer = result['choices'][0]['message']['content']
        print(f"‚ö° Temps de r√©ponse: {elapsed:.2f}s")
        
        return answer
        
    except requests.exceptions.HTTPError as e:
        if e.response.status_code == 429:
            return "‚ùå Quota Groq atteint. Attendez 1 minute."
        return f"‚ùå Erreur HTTP: {e.response.status_code}"
    except Exception as e:
        return f"‚ùå Erreur: {str(e)}"


üîÑ Chargement du mod√®le d'embeddings local...
‚úÖ Mod√®le d'embeddings charg√©!
‚úÖ Groq configur√© avec llama-3.1-8b-instant
‚úÖ Mod√®le d'embeddings charg√©!
‚úÖ Groq configur√© avec llama-3.1-8b-instant


## Cr√©ation de la table et insertion des donn√©es

In [7]:
# Connexion √† la base de donn√©es et cr√©ation de la table
with psycopg2.connect(db_connection_str) as conn:
    conn.autocommit = True
    with conn.cursor() as cur:
        # Supprimer la table si elle existe
        cur.execute("""DROP TABLE IF EXISTS embeddings""")
        print("üóëÔ∏è  Table 'embeddings' supprim√©e (si existante)")
        
        # Cr√©er l'extension pgvector (optionnel)
        try:
            cur.execute("""CREATE EXTENSION IF NOT EXISTS vector""")
            print("‚úÖ Extension pgvector activ√©e")
            use_pgvector = True
        except:
            print("‚ö†Ô∏è  pgvector non disponible, utilisation de FLOAT8[]")
            use_pgvector = False
        
        # Cr√©er la table - all-MiniLM-L6-v2 produit des embeddings de dimension 384
        if use_pgvector:
            cur.execute("""CREATE TABLE IF NOT EXISTS embeddings (
                        id SERIAL PRIMARY KEY, 
                        corpus TEXT,
                        embedding VECTOR(384),
                        created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
                        )""")
        else:
            cur.execute("""CREATE TABLE IF NOT EXISTS embeddings (
                        id SERIAL PRIMARY KEY, 
                        corpus TEXT,
                        embedding FLOAT8[],
                        created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
                        )""")
        
        print("‚úÖ Table 'embeddings' cr√©√©e avec succ√®s!")
        
        # Charger et ins√©rer les conversations depuis TOUS les fichiers .txt
        try:
            print("\n" + "="*80)
            print("üöÄ CHARGEMENT DE TOUS LES FICHIERS .TXT")
            print("="*80 + "\n")
            
            corpus_list = create_conversation_list_from_folder(folder_path=data_folder_path)
            
            print("\n" + "="*80)
            print("üíæ INSERTION DES EMBEDDINGS DANS LA BASE DE DONN√âES")
            print("="*80 + "\n")
       
            for i, corpus in enumerate(corpus_list, 1):
                try:
                    embedding = calculate_embeddings(corpus=corpus) 
                    save_embedding(corpus=corpus, embedding=embedding, cursor=cur)
                    
                    # Afficher la progression tous les 10 √©l√©ments
                    if i % 10 == 0 or i == len(corpus_list):
                        print(f"‚úÖ [{i}/{len(corpus_list)}] Corpus ins√©r√©s ({(i/len(corpus_list)*100):.1f}%)")
                        
                except Exception as e:
                    print(f"‚ùå Erreur lors de l'insertion du corpus {i}: {e}")
                
            conn.commit()
            print("\n" + "="*80)
            print(f"üéâ {len(corpus_list)} EMBEDDINGS SAUVEGARD√âS AVEC SUCC√àS!")
            print("="*80)
            
        except FileNotFoundError:
            print(f"‚ö†Ô∏è  Dossier {data_folder_path} non trouv√©")
            print("üí° Insertion de donn√©es de test √† la place...")
            
            # Donn√©es de test
            test_data = [
                "Ceci est un exemple de texte pour le RAG",
                "PostgreSQL est un syst√®me de base de donn√©es relationnel",
                "Le chatbot utilise des embeddings pour la recherche s√©mantique"
            ]
            
            for corpus in test_data:
                try:
                    embedding = calculate_embeddings(corpus=corpus)
                    save_embedding(corpus=corpus, embedding=embedding, cursor=cur)
                except Exception as e:
                    print(f"‚ùå Erreur test data: {e}")
            
            conn.commit()
            print(f"‚úÖ {len(test_data)} embeddings de test ins√©r√©s!")


üóëÔ∏è  Table 'embeddings' supprim√©e (si existante)
‚úÖ Extension pgvector activ√©e
‚úÖ Table 'embeddings' cr√©√©e avec succ√®s!

üöÄ CHARGEMENT DE TOUS LES FICHIERS .TXT

üìÅ 41 fichiers .txt trouv√©s dans C:\Users\USER\Desktop\ChatBot Rag\Chatbot-RAG\data

üìÑ Chargement de 017_00000012.txt... ‚úÖ 43 conversations (latin-1)
üìÑ Chargement de 018_00000013.txt... ‚úÖ 9 conversations (latin-1)
üìÑ Chargement de 019_00000014.txt... ‚úÖ 12 conversations (latin-1)
üìÑ Chargement de 020_00000015.txt... ‚úÖ 13 conversations (latin-1)
üìÑ Chargement de 022_00000017.txt... ‚úÖ 23 conversations (latin-1)
üìÑ Chargement de 023_00000018.txt... ‚úÖ 14 conversations (latin-1)
üìÑ Chargement de 024_00000019.txt... ‚úÖ 104 conversations (latin-1)
üìÑ Chargement de 027_0000001c.txt... ‚úÖ 35 conversations (latin-1)
üìÑ Chargement de 028_0000001d.txt... ‚úÖ 104 conversations (latin-1)
üìÑ Chargement de 029_0000001e.txt... ‚úÖ 8 conversations (latin-1)
üìÑ Chargement de 030_0000001f.txt..

## Requ√™te de recherche s√©mantique

In [8]:
# Test de recherche s√©mantique et g√©n√©ration de r√©ponse
query = "Comment valider mon inscription universitaire?"

print(f"üîç Recherche pour: '{query}'\n")

# 1. Trouver les corpus similaires
results = similar_corpus(input_corpus=query, db_connection_str=db_connection_str, top_k=3)

print(f"üìä Top {len(results)} r√©sultats similaires:\n")
context = []
for i, (id, corpus, embedding) in enumerate(results, 1):
    print(f"{i}. [ID: {id}]")
    print(f"   Texte: {corpus}")
    print("-" * 80)
    context.append(corpus)

# 2. G√©n√©rer une r√©ponse avec le LLM
print("\nü§ñ G√©n√©ration de la r√©ponse...\n")
response = generate_response(query=query, context=context)

print("="*80)
print(f"R√âPONSE G√âN√âR√âE :\n{response}")
print("="*80)


üîç Recherche pour: 'Comment valider mon inscription universitaire?'

üìä Top 3 r√©sultats similaires:

1. [ID: 1047]
   Texte: h: inscription administrative oui
--------------------------------------------------------------------------------
2. [ID: 1046]
   Texte: c: des inscriptions voil√† oui
--------------------------------------------------------------------------------
3. [ID: 447]
   Texte: h: voil√† c'est le Service Universitaire de l'Information et de l'Orientation parce que ici vous √™tes √† l'accueil de la fac de droit donc e
--------------------------------------------------------------------------------

ü§ñ G√©n√©ration de la r√©ponse...

üìä Top 3 r√©sultats similaires:

1. [ID: 1047]
   Texte: h: inscription administrative oui
--------------------------------------------------------------------------------
2. [ID: 1046]
   Texte: c: des inscriptions voil√† oui
--------------------------------------------------------------------------------
3. [ID: 447]
   Texte: h:

## Test avec diff√©rentes requ√™tes

In [9]:
# Tester diff√©rentes questions pertinentes aux conversations d'inscription universitaire
questions = [
    "Comment valider mon inscription?",
    "Que faire si je ne vois pas ma validation d'inscription?",
    "Quelle est la proc√©dure pour confirmer mon bac?",
    "Comment contacter le service d'inscription?",
    "Quels sont les d√©lais pour la pr√©-inscription?"
]

for i, question in enumerate(questions, 1):
    print(f"\n{'='*80}")
    print(f"QUESTION {i}: {question}")
    print('='*80)
    
    # Recherche s√©mantique
    results = similar_corpus(input_corpus=question, db_connection_str=db_connection_str, top_k=3)
    
    # Extraire le contexte
    context = [corpus for _, corpus, _ in results]
    
    # G√©n√©rer la r√©ponse avec OpenRouter
    try:
        response = generate_response(query=question, context=context)
        print(f"\nü§ñ R√âPONSE:\n{response}")
    except Exception as e:
        print(f"‚ùå Erreur: {e}")
    
    print("\nüìö Sources utilis√©es:")
    for j, (id, corpus, _) in enumerate(results, 1):
        print(f"  {j}. [ID: {id}] {corpus[:80]}...")
    
    print(f"\n‚è≥ Pause de 3 secondes avant la prochaine requ√™te...")
    time.sleep(3)  # Pause pour √©viter les rate limits

print("\n" + "="*80)
print("‚úÖ Test termin√©!")



QUESTION 1: Comment valider mon inscription?
‚ö° Temps de r√©ponse: 0.49s

ü§ñ R√âPONSE:
Je ne dispose pas d'informations suffisantes pour r√©pondre √† votre question. Vous avez mentionn√© un souci avec une inscription, mais je ne sais pas de quelle mani√®re. Voulez-vous plus d'informations ou peut-√™tre expliquer votre probl√®me ?

üìö Sources utilis√©es:
  1. [ID: 1047] h: inscription administrative oui...
  2. [ID: 1046] c: des inscriptions voil√† oui...
  3. [ID: 258] h: un souci avec une inscription...

‚è≥ Pause de 3 secondes avant la prochaine requ√™te...
‚ö° Temps de r√©ponse: 0.49s

ü§ñ R√âPONSE:
Je ne dispose pas d'informations suffisantes pour r√©pondre √† votre question. Vous avez mentionn√© un souci avec une inscription, mais je ne sais pas de quelle mani√®re. Voulez-vous plus d'informations ou peut-√™tre expliquer votre probl√®me ?

üìö Sources utilis√©es:
  1. [ID: 1047] h: inscription administrative oui...
  2. [ID: 1046] c: des inscriptions voil√† oui...
  3. [ID:

In [10]:
# V√©rifier toutes les donn√©es stock√©es
with psycopg2.connect(db_connection_str) as conn:
    with conn.cursor() as cur:
        cur.execute("SELECT COUNT(*) FROM embeddings")
        count = cur.fetchone()[0]
        print(f"üìä Nombre total d'enregistrements: {count}\n")
        
        cur.execute("SELECT id, corpus, created_at FROM embeddings LIMIT 10")
        rows = cur.fetchall()
        
        print("üìù Aper√ßu des 10 premiers enregistrements:\n")
        for row in rows:
            print(f"ID: {row[0]}")
            print(f"Corpus: {row[1][:100]}..." if len(row[1]) > 100 else f"Corpus: {row[1]}")
            print(f"Cr√©√© le: {row[2]}")
            print("-" * 80)


üìä Nombre total d'enregistrements: 1062

üìù Aper√ßu des 10 premiers enregistrements:

ID: 1
Corpus: h: U B S bonjour
Cr√©√© le: 2025-12-03 11:06:12.020737
--------------------------------------------------------------------------------
ID: 2
Corpus: c: oui bonjour e j'appelle je sais pas si j'appelle au bon endroit e
Cr√©√© le: 2025-12-03 11:06:12.020737
--------------------------------------------------------------------------------
ID: 3
Corpus: h: je vous √©coute
Cr√©√© le: 2025-12-03 11:06:12.020737
--------------------------------------------------------------------------------
ID: 4
Corpus: c: c'est pour
Cr√©√© le: 2025-12-03 11:06:12.020737
--------------------------------------------------------------------------------
ID: 9
Corpus: c: ce serait pour ma fille
Cr√©√© le: 2025-12-03 11:06:12.020737
--------------------------------------------------------------------------------
ID: 5
Corpus: c: e c'est pour savoir si la fac pendant l'√©t√© e a des professeurs ou des des gens 