In [11]:
"""
Notebook : Setup et test du Vector Store FAISS
Objectif : Cr√©er l'index vectoriel pour acc√©l√©rer le matching
"""

# ========================================
# CELLULE 1 : Imports et setup
# ========================================

import sys
sys.path.append('../src')

import json
from pathlib import Path
from vector_store import JobVectorStore, create_vector_store_from_dataset, load_vector_store
import time

print("‚úÖ Imports termin√©s")

‚úÖ Imports termin√©s


In [12]:
# ========================================
# CELLULE 2 : Charger les offres d'emploi
# ========================================

jobs_path = Path("../data/jobs/jobs_dataset.json")

if not jobs_path.exists():
    print("‚ùå Fichier jobs_dataset.json introuvable")
    print("üí° Ex√©cutez d'abord 04_job_generation.ipynb")
else:
    with open(jobs_path, 'r', encoding='utf-8') as f:
        jobs_data = json.load(f)
    
    # V√©rifier la structure du fichier
    if isinstance(jobs_data, dict):
        # Si c'est un dictionnaire (organis√© par cat√©gorie)
        print(f"‚úÖ Jobs dataset charg√© (structure par cat√©gorie)")
        print(f"üìÇ Cat√©gories : {list(jobs_data.keys())}")
        
        # Aplatir en une seule liste
        jobs = []
        for category, job_list in jobs_data.items():
            if isinstance(job_list, list):
                jobs.extend(job_list)
        
        print(f"‚úÖ {len(jobs)} offres charg√©es au total\n")
        
    elif isinstance(jobs_data, list):
        # Si c'est d√©j√† une liste
        jobs = jobs_data
        print(f"‚úÖ {len(jobs)} offres charg√©es\n")
    else:
        print("‚ùå Format de fichier JSON non reconnu")
        jobs = []
    
    # Afficher un exemple
    if jobs:
        print(f"üìã Exemple d'offre :")
        print(json.dumps(jobs[0], indent=2, ensure_ascii=False))
    else:
        print("‚ö†Ô∏è Aucune offre trouv√©e dans le fichier")

‚úÖ Jobs dataset charg√© (structure par cat√©gorie)
üìÇ Cat√©gories : ['metadata', 'jobs']
‚úÖ 25 offres charg√©es au total

üìã Exemple d'offre :
{
  "job_id": "job_001",
  "category": "ml_engineer",
  "title": "Junior ML Engineer",
  "company": "AI Startup Paris",
  "location": "Toulouse, France",
  "type": "CDI",
  "experience": "0-2 ans",
  "salary": "35-45K‚Ç¨",
  "description": "Nous recherchons un Junior ML Engineer passionn√© pour rejoindre notre √©quipe R&D.\n\nResponsabilit√©s :\n- D√©velopper des mod√®les de Machine Learning (classification, r√©gression)\n- Entra√Æner et optimiser des r√©seaux de neurones avec PyTorch\n- D√©ployer des mod√®les en production avec Docker\n- Participer aux revues de code et √† l'am√©lioration continue\n\nStack technique :\n- Python, PyTorch, scikit-learn\n- Docker, Git\n- FastAPI pour les APIs\n- PostgreSQL",
  "requirements": [
    "Python (numpy, pandas, scikit-learn)",
    "Machine Learning basics (supervised learning)",
    "Git et GitHub

le code Lit le fichier jobs_dataset.json. Si les offres sont organis√©es par cat√©gorie (dict), elle les fusionne en une liste unique. 

Les offres charg√©es ici seront index√©es par FAISS dans la Cellule 3  /// FAISS est la  biblioth√®que d√©velopp√©e par Facebook (Meta)  pour la recherche de similarit√© ultra-rapide dans des vecteurs de grande dimension 

In [13]:
# ========================================
# CELLULE 3 : Cr√©er et entra√Æner le Vector Store (option A avec all-mpnet-base-v2	Dimensions : 768)
# ========================================

print("üî® Cr√©ation du Vector Store FAISS...")
print("‚è±Ô∏è Temps estim√© : 30-60 secondes\n")

start_time = time.time()

# Cr√©er vector store
vector_store = JobVectorStore(model_name="all-mpnet-base-v2")

# Construire index
vector_store.build_index(jobs)

elapsed = time.time() - start_time

print(f"\n‚úÖ Index cr√©√© en {elapsed:.1f} secondes")
print(f"üìä Statistiques : {vector_store.get_stats()}")

üî® Cr√©ation du Vector Store FAISS...
‚è±Ô∏è Temps estim√© : 30-60 secondes



Loading weights:   0%|          | 0/199 [00:00<?, ?it/s]

MPNetModel LOAD REPORT from: sentence-transformers/all-mpnet-base-v2
Key                     | Status     |  | 
------------------------+------------+--+-
embeddings.position_ids | UNEXPECTED |  | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.


üî® Construction de l'index FAISS pour 25 offres...
üìä G√©n√©ration des embeddings...


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

üîß Cr√©ation de l'index FAISS...
‚úÖ Index construit : 25 offres index√©es

‚úÖ Index cr√©√© en 14.7 secondes
üìä Statistiques : {'status': 'trained', 'total_jobs': 25, 'dimension': 768, 'model': 'all-mpnet-base-v2'}


- Charge le mod√®le Sentence-Transformers (all-mpnet-base-v2) pour cr√©er des embeddings
- Pour chaque offre :
** Combine titre + description ‚Üí "Data Scientist. Python, ML, TensorFlow..."
** Transforme ce texte en vecteur de 768 dimensions (embedding)

- Cr√©e un index FAISS qui stocke ces 25 vecteurs de mani√®re optimis√©e
- Normalise les vecteurs pour calculer la similarit√© cosinus

In [14]:
# ========================================
# CELLULE 4 : Test de recherche (CV exemple)
# ========================================

# Charger un CV de test
cv_text_path = Path("cv_text_pdfplumber.txt")

if cv_text_path.exists():
    with open(cv_text_path, 'r', encoding='utf-8') as f:
        cv_text = f.read()
    
    print("‚úÖ CV de test charg√©\n")
    
    # Recherche rapide
    print("üîç Recherche des 10 offres les plus pertinentes...")
    
    start_search = time.time()
    results = vector_store.search(cv_text, top_k=10, min_score=0.3)
    search_time = time.time() - start_search
    
    print(f"‚ö° Recherche termin√©e en {search_time:.3f} secondes\n")
    
    # Afficher r√©sultats
    print(f"üéØ TOP {len(results)} R√âSULTATS :\n")
    for i, job in enumerate(results, 1):
        print(f"{i}. {job['title']} - {job['company']}")
        print(f"   Score FAISS : {job['faiss_score_percent']:.1f}%")
        print(f"   Localisation : {job['location']}")
        print()

else:
    print("‚ö†Ô∏è Pas de CV de test trouv√©")
    print("üí° Utilisez 01_cv_parser.ipynb pour g√©n√©rer cv_text_pdfplumber.txt")

‚úÖ CV de test charg√©

üîç Recherche des 10 offres les plus pertinentes...
‚ö° Recherche termin√©e en 3.192 secondes

üéØ TOP 10 R√âSULTATS :

1. Junior ML Engineer - AI Startup Paris
   Score FAISS : 41.0%
   Localisation : Toulouse, France

2. Data Scientist - Finance - FinTech Solutions
   Score FAISS : 38.2%
   Localisation : Toulouse, France

3. Senior ML Engineer - BigTech France
   Score FAISS : 37.9%
   Localisation : Remote France

4. SRE Engineer - ScaleOps
   Score FAISS : 37.6%
   Localisation : Paris, France

5. MLOps Engineer - DataCorp
   Score FAISS : 35.8%
   Localisation : Lyon, France

6. ML Engineer - Computer Vision - VisionTech
   Score FAISS : 35.6%
   Localisation : Paris (Hybrid)

7. Senior Python Developer - Enterprise Tech
   Score FAISS : 35.3%
   Localisation : Paris (Hybrid)

8. Python Developer - Data Engineering - BigData Corp
   Score FAISS : 33.3%
   Localisation : Bordeaux, France

9. Full Stack JavaScript Developer - Digital Agency
   Score FAISS 

- Transforme ton CV en vecteur (embedding)
- Compare ce vecteur avec les 25 offres stock√©es dans FAISS
- Retourne les 10 offres les plus similaires avec un score de 0 √† 100%

Pourquoi c'est rapide ?

* Sans FAISS : Il faudrait calculer 25 embeddings √† chaque recherche (~30s)
* Avec FAISS : Les embeddings sont d√©j√† calcul√©s, on fait juste une comparaison (~0.5s)

cette cellule Utilise l'index de la Cellule 3 pour chercher. Les r√©sultats seront compar√©s dans la Cellule 7.

In [15]:
# ========================================
# CELLULE 5 : Sauvegarder l'index
# ========================================

# Cr√©er dossier models/
models_dir = Path("../models")
models_dir.mkdir(exist_ok=True)

# Sauvegarder
index_path = models_dir / "faiss_jobs.index"
metadata_path = models_dir / "faiss_jobs_metadata.pkl"

vector_store.save(str(index_path), str(metadata_path))

print(f"\n‚úÖ Vector Store sauvegard√© !")
print(f"üìÅ Index : {index_path}")
print(f"üìÅ M√©tadonn√©es : {metadata_path}")
print(f"üíæ Taille index : {index_path.stat().st_size / 1024:.1f} KB")

‚úÖ Index sauvegard√© : ../models/faiss_jobs.index
‚úÖ M√©tadonn√©es sauvegard√©es : ../models/faiss_jobs_metadata.pkl
üìå Mod√®le utilis√© : all-mpnet-base-v2 (768 dimensions)

‚úÖ Vector Store sauvegard√© !
üìÅ Index : ../models/faiss_jobs.index
üìÅ M√©tadonn√©es : ../models/faiss_jobs_metadata.pkl
üíæ Taille index : 75.0 KB


Ce qu'elle fait :

* Sauvegarde l'index FAISS sur le disque (fichier .index)
* Sauvegarde les m√©tadonn√©es (titres, entreprises, etc.) dans un fichier .pkl

Pourquoi c'est important ?

* Sans sauvegarde : Tu dois recalculer les embeddings √† chaque fois (30-60s)
* Avec sauvegarde : Tu charges l'index en 2 secondes et c'est pr√™t !


Ces fichiers seront recharg√©s dans la Cellule 6 et utilis√©s par l'API plus tard.

In [16]:
# ========================================
# CELLULE 6 : Test de chargement (AUTO-D√âTECTION)
# ========================================

print("üîÑ Test de rechargement de l'index...\n")

# üÜï Plus besoin de sp√©cifier le mod√®le !
# Il sera automatiquement d√©tect√© depuis les m√©tadonn√©es
vs_loaded = JobVectorStore()

# Charger index sauvegard√©
vs_loaded.load(str(index_path), str(metadata_path))

print(f"‚úÖ Index recharg√© : {vs_loaded.get_stats()}")

# Test recherche rapide
if cv_text_path.exists():
    start = time.time()
    results_loaded = vs_loaded.search(cv_text, top_k=5)
    elapsed = time.time() - start
    
    print(f"\n‚ö° Recherche avec index charg√© : {elapsed:.3f}s")
    print(f"üéØ {len(results_loaded)} r√©sultats retourn√©s")
else:
    print("‚ö†Ô∏è Pas de CV pour tester")

üîÑ Test de rechargement de l'index...



Loading weights:   0%|          | 0/199 [00:00<?, ?it/s]

MPNetModel LOAD REPORT from: sentence-transformers/all-mpnet-base-v2
Key                     | Status     |  | 
------------------------+------------+--+-
embeddings.position_ids | UNEXPECTED |  | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.


‚úÖ Index charg√© : 25 offres
üìå Mod√®le final : all-mpnet-base-v2 (768 dimensions)
‚úÖ Index recharg√© : {'status': 'trained', 'total_jobs': 25, 'dimension': 768, 'model': 'all-mpnet-base-v2'}

‚ö° Recherche avec index charg√© : 2.046s
üéØ 5 r√©sultats retourn√©s


Ce qu'elle fait :

    Cr√©e un nouveau vector store (vide)
    Charge l'index sauvegard√© dans la Cellule 5
    Teste une recherche pour v√©rifier que tout fonctionne

Pourquoi ce test ?

    V√©rifie que la sauvegarde a bien march√©
    Simule ce qui se passera dans l'API (charger un index existant)

In [17]:
# ========================================
# CELLULE 7 : Comparaison de performances
# ========================================

print("\n" + "="*60)
print("üìä COMPARAISON DE PERFORMANCES")
print("="*60)

if cv_text_path.exists():
    # M√©thode 1 : Sans FAISS (matching classique - simulation)
    print("\nüê¢ M√©thode classique (sans FAISS)")
    print("   Temps estim√© : ~30-60 secondes")
    print("   Raison : Calcul embeddings + comparaison pour chaque offre")
    
    # M√©thode 2 : Avec FAISS
    print("\n‚ö° M√©thode FAISS (avec index)")
    start = time.time()
    faiss_results = vector_store.search(cv_text, top_k=25)
    faiss_time = time.time() - start
    
    print(f"   Temps r√©el : {faiss_time:.3f} secondes")
    print(f"   Gain : ~{60/faiss_time:.0f}x plus rapide !")
    
    print("\n‚úÖ FAISS est LA solution pour scaler √† 100+ offres")

else:
    print("\n‚ö†Ô∏è Pas de CV pour tester les performances")


üìä COMPARAISON DE PERFORMANCES

üê¢ M√©thode classique (sans FAISS)
   Temps estim√© : ~30-60 secondes
   Raison : Calcul embeddings + comparaison pour chaque offre

‚ö° M√©thode FAISS (avec index)
   Temps r√©el : 3.455 secondes
   Gain : ~17x plus rapide !

‚úÖ FAISS est LA solution pour scaler √† 100+ offres


Ce qu'elle fait :

    Mesure le temps de recherche avec FAISS
    Compare avec le temps sans FAISS (estim√© √† 30-60s)
    Calcule le gain de performance

In [18]:
# ========================================
# CELLULE 8 : VALIDATION FINALE
# ========================================

print("\n" + "="*60)
print(" VALIDATION - VECTOR STORE FAISS")
print("="*60)

checks = {
    "‚úÖ Index FAISS cr√©√©": vector_store.is_trained,
    "‚úÖ Index sauvegard√© sur disque": index_path.exists(),
    "‚úÖ M√©tadonn√©es sauvegard√©es": metadata_path.exists(),
    "‚úÖ Rechargement fonctionne": vs_loaded.is_trained,
    "‚úÖ Recherche rapide (<1s)": 'faiss_time' in locals() and faiss_time < 1.0,
    "‚úÖ R√©sultats pertinents": len(results) > 0 if 'results' in locals() else False
}

for check, passed in checks.items():
    status = check if passed else check.replace("‚úÖ", "‚ùå")
    print(status)

score = sum(checks.values())
total = len(checks)

print(f"\nüìä SCORE : {score}/{total} ({score/total*100:.0f}%)")

if score == total:
    print("\nüéâ VECTOR STORE OP√âRATIONNEL !")
    print("üëâ Prochaine √©tape : Int√©grer FAISS dans l'API")
else:
    print("\n‚ö†Ô∏è Quelques ajustements n√©cessaires")

print("\nüí° Utilisation dans l'API :")
print("```python")
print("from vector_store import load_vector_store")
print("vs = load_vector_store()")
print("results = vs.search(cv_text, top_k=10)")
print("```")


 VALIDATION - VECTOR STORE FAISS
‚úÖ Index FAISS cr√©√©
‚úÖ Index sauvegard√© sur disque
‚úÖ M√©tadonn√©es sauvegard√©es
‚úÖ Rechargement fonctionne
‚ùå Recherche rapide (<1s)
‚úÖ R√©sultats pertinents

üìä SCORE : 5/6 (83%)

‚ö†Ô∏è Quelques ajustements n√©cessaires

üí° Utilisation dans l'API :
```python
from vector_store import load_vector_store
vs = load_vector_store()
results = vs.search(cv_text, top_k=10)
```


In [19]:
# ========================================
# CELLULE 9 : Test de compatibilit√© multi-mod√®les
# ========================================

print("üß™ TEST DE COMPATIBILIT√â MULTI-MOD√àLES")
print("="*60)

# Test 1 : Charger avec le m√™me mod√®le (normal)
print("\nüìå Test 1 : Chargement avec mod√®le identique")
vs_test1 = JobVectorStore(model_name="all-mpnet-base-v2")
vs_test1.load(str(index_path), str(metadata_path))
print(f"‚úÖ Test 1 r√©ussi\n")

# Test 2 : Charger avec un mod√®le diff√©rent (auto-correction)
print("üìå Test 2 : Chargement avec mod√®le diff√©rent (auto-correction)")
vs_test2 = JobVectorStore(model_name="all-MiniLM-L6-v2")  # Mod√®le diff√©rent
vs_test2.load(str(index_path), str(metadata_path))  # Doit auto-corriger
print(f"‚úÖ Test 2 r√©ussi : mod√®le auto-corrig√© en {vs_test2.model_name}\n")

# Test 3 : Fonction load_vector_store (sans sp√©cifier le mod√®le)
print("üìå Test 3 : Chargement via fonction utilitaire")
vs_test3 = load_vector_store(str(index_path), str(metadata_path))
print(f"‚úÖ Test 3 r√©ussi : {vs_test3.model_name} charg√© automatiquement\n")

print("üéâ Tous les tests de compatibilit√© pass√©s !")

üß™ TEST DE COMPATIBILIT√â MULTI-MOD√àLES

üìå Test 1 : Chargement avec mod√®le identique


Loading weights:   0%|          | 0/199 [00:00<?, ?it/s]

MPNetModel LOAD REPORT from: sentence-transformers/all-mpnet-base-v2
Key                     | Status     |  | 
------------------------+------------+--+-
embeddings.position_ids | UNEXPECTED |  | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.


‚úÖ Index charg√© : 25 offres
üìå Mod√®le final : all-mpnet-base-v2 (768 dimensions)
‚úÖ Test 1 r√©ussi

üìå Test 2 : Chargement avec mod√®le diff√©rent (auto-correction)


Loading weights:   0%|          | 0/103 [00:00<?, ?it/s]

BertModel LOAD REPORT from: sentence-transformers/all-MiniLM-L6-v2
Key                     | Status     |  | 
------------------------+------------+--+-
embeddings.position_ids | UNEXPECTED |  | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.


‚ö†Ô∏è Mod√®le diff√©rent d√©tect√© !
   - Index sauvegard√© avec : all-mpnet-base-v2 (768 dim)
   - Mod√®le actuel : all-MiniLM-L6-v2 (384 dim)
üîÑ Chargement du mod√®le correct...


Loading weights:   0%|          | 0/199 [00:00<?, ?it/s]

MPNetModel LOAD REPORT from: sentence-transformers/all-mpnet-base-v2
Key                     | Status     |  | 
------------------------+------------+--+-
embeddings.position_ids | UNEXPECTED |  | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.


‚úÖ Mod√®le recharg√© : all-mpnet-base-v2
‚úÖ Index charg√© : 25 offres
üìå Mod√®le final : all-mpnet-base-v2 (768 dimensions)
‚úÖ Test 2 r√©ussi : mod√®le auto-corrig√© en all-mpnet-base-v2

üìå Test 3 : Chargement via fonction utilitaire


Loading weights:   0%|          | 0/199 [00:00<?, ?it/s]

MPNetModel LOAD REPORT from: sentence-transformers/all-mpnet-base-v2
Key                     | Status     |  | 
------------------------+------------+--+-
embeddings.position_ids | UNEXPECTED |  | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.


‚úÖ Index charg√© : 25 offres
üìå Mod√®le final : all-mpnet-base-v2 (768 dimensions)
‚úÖ Test 3 r√©ussi : all-mpnet-base-v2 charg√© automatiquement

üéâ Tous les tests de compatibilit√© pass√©s !
