In [1]:
# %% [markdown]
# # üóÇÔ∏è Indexation FAISS des Offres d'Emploi
# 
# **Objectif** : Cr√©er un index FAISS pour recherche rapide et scalable
# 
# **Pipeline** :
# 1. Charger les offres depuis `jobs_dataset.json`
# 2. Cr√©er l'index FAISS avec embeddings
# 3. Tester la recherche
# 4. Sauvegarder l'index

# %%
import sys
sys.path.append('..')

import json
from pathlib import Path
from src.vector_store import JobVectorStore

# %%
# 1. CHARGEMENT DES OFFRES
print("="*60)
print("üìÇ CHARGEMENT DES OFFRES")
print("="*60)

jobs_path = Path('../data/jobs/jobs_dataset.json')

if not jobs_path.exists():
    raise FileNotFoundError(
        f"Dataset d'offres introuvable : {jobs_path}\n"
        "Ex√©cutez d'abord le notebook 04_job_generation.ipynb"
    )

with open(jobs_path, 'r', encoding='utf-8') as f:
    dataset = json.load(f)
    jobs = dataset['jobs']

print(f"\n‚úÖ {len(jobs)} offres charg√©es")
print(f"üìä Cat√©gories : {set(job['category'] for job in jobs)}")

# Afficher un exemple
print(f"\nüìÑ Exemple d'offre :")
example = jobs[0]
print(f"   ID : {example['job_id']}")
print(f"   Titre : {example['title']}")
print(f"   Entreprise : {example['company']}")
print(f"   Description : {example['description'][:100]}...")
print(f"   Requirements : {example['requirements'][:3]}...")

üìÇ CHARGEMENT DES OFFRES

‚úÖ 25 offres charg√©es
üìä Cat√©gories : {'frontend_developer', 'python_developer', 'ml_engineer', 'devops_engineer', 'data_scientist'}

üìÑ Exemple d'offre :
   ID : job_001
   Titre : Junior ML Engineer
   Entreprise : AI Startup Paris
   Description : Nous recherchons un Junior ML Engineer passionn√© pour rejoindre notre √©quipe R&D.

Responsabilit√©s :...
   Requirements : ['Python (numpy, pandas, scikit-learn)', 'Machine Learning basics (supervised learning)', 'Git et GitHub']...


In [2]:
# %%
# 2. CR√âATION DE L'INDEX FAISS
print("\n" + "="*60)
print("üî® CONSTRUCTION DE L'INDEX FAISS")
print("="*60)

# Initialiser le vector store
vector_store = JobVectorStore(model_name='all-mpnet-base-v2')

# Construire l'index
vector_store.build_index(jobs, index_type='flat')

# Statistiques
stats = vector_store.get_stats()
print(f"\nüìä Statistiques de l'index :")
print(f"   Offres index√©es : {stats['total_jobs']}")
print(f"   Mod√®le : {stats['model_name']}")
print(f"   Dimensions : {stats['dimension']}")


üî® CONSTRUCTION DE L'INDEX FAISS
‚úÖ JobVectorStore initialis√© avec all-mpnet-base-v2 (768 dimensions)

üî® Construction de l'index FAISS...
   Nombre d'offres : 25
   Type d'index : flat
   G√©n√©ration des embeddings...


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

‚úÖ Index construit avec succ√®s !
   Total d'offres index√©es : 25

üìä Statistiques de l'index :
   Offres index√©es : 25
   Mod√®le : all-mpnet-base-v2
   Dimensions : 768


In [3]:
# %%
# 3. TEST DE RECHERCHE
print("\n" + "="*60)
print("üîç TEST DE RECHERCHE")
print("="*60)

# Test 1 : Profil ML Engineer Junior
print("\nüß™ Test 1 : Profil ML Engineer Junior")
cv_skills_ml = ["Python", "Machine Learning", "TensorFlow", "Docker", "FastAPI", "scikit-learn"]
results_ml = vector_store.search(cv_skills_ml, top_k=5)

for i, (job, score) in enumerate(results_ml, 1):
    print(f"\n#{i} - Score FAISS : {score:.2f}%")
    print(f"   üìã {job['title']}")
    print(f"   üè¢ {job['company']}")
    print(f"   üìç {job['location']}")
    print(f"   üíº Exp√©rience : {job['experience']}")
    print(f"   üîß Requirements : {', '.join(job['requirements'][:5])}")

# Test 2 : Profil Data Scientist
print("\n" + "-"*60)
print("üß™ Test 2 : Profil Data Scientist")
cv_skills_ds = ["Python", "R", "SQL", "Pandas", "Matplotlib", "Statistics", "A/B Testing"]
results_ds = vector_store.search(cv_skills_ds, top_k=5)

for i, (job, score) in enumerate(results_ds, 1):
    print(f"\n#{i} - Score FAISS : {score:.2f}%")
    print(f"   üìã {job['title']}")
    print(f"   üè¢ {job['company']}")
    print(f"   üîß Requirements : {', '.join(job['requirements'][:5])}")

# Test 3 : Profil DevOps
print("\n" + "-"*60)
print("üß™ Test 3 : Profil DevOps")
cv_skills_devops = ["Docker", "Kubernetes", "AWS", "Terraform", "Jenkins", "CI/CD"]
results_devops = vector_store.search(cv_skills_devops, top_k=5)

for i, (job, score) in enumerate(results_devops, 1):
    print(f"\n#{i} - Score FAISS : {score:.2f}%")
    print(f"   üìã {job['title']}")
    print(f"   üè¢ {job['company']}")
    print(f"   üîß Requirements : {', '.join(job['requirements'][:5])}")



üîç TEST DE RECHERCHE

üß™ Test 1 : Profil ML Engineer Junior

#1 - Score FAISS : 54.41%
   üìã Junior ML Engineer
   üè¢ AI Startup Paris
   üìç Toulouse, France
   üíº Exp√©rience : 0-2 ans
   üîß Requirements : Python (numpy, pandas, scikit-learn), Machine Learning basics (supervised learning), Git et GitHub, Docker (notions de base), Anglais technique (lecture documentation)

#2 - Score FAISS : 53.37%
   üìã MLOps Engineer
   üè¢ DataCorp
   üìç Lyon, France
   üíº Exp√©rience : 2-4 ans
   üîß Requirements : MLOps (CI/CD pour ML), Docker, Kubernetes, Python, Cloud (AWS ou GCP), Git, GitLab/GitHub Actions

#3 - Score FAISS : 49.72%
   üìã ML Engineer - Computer Vision
   üè¢ VisionTech
   üìç Paris (Hybrid)
   üíº Exp√©rience : 1-3 ans
   üîß Requirements : Deep Learning (CNNs, architectures modernes), PyTorch ou TensorFlow, Computer Vision (OpenCV, PIL), Python avanc√©, Git, Docker

#4 - Score FAISS : 47.64%
   üìã Senior ML Engineer
   üè¢ BigTech France
   üì

In [4]:
# %%
# 4. ANALYSE DE LA DISTRIBUTION DES SCORES
print("\n" + "="*60)
print("üìä ANALYSE DE LA DISTRIBUTION")
print("="*60)

import numpy as np

all_scores = [score for _, score in results_ml + results_ds + results_devops]

print(f"\nüìà Statistiques des scores FAISS :")
print(f"   Moyenne : {np.mean(all_scores):.2f}%")
print(f"   M√©diane : {np.median(all_scores):.2f}%")
print(f"   Min : {np.min(all_scores):.2f}%")
print(f"   Max : {np.max(all_scores):.2f}%")
print(f"   √âcart-type : {np.std(all_scores):.2f}%")


üìä ANALYSE DE LA DISTRIBUTION

üìà Statistiques des scores FAISS :
   Moyenne : 41.49%
   M√©diane : 44.46%
   Min : 18.61%
   Max : 60.16%
   √âcart-type : 12.51%


In [None]:
# %%
# 5. SAUVEGARDE DE L'INDEX
print("\n" + "="*60)
print("üíæ SAUVEGARDE DE L'INDEX")
print("="*60)

# Cr√©er le dossier de destination
index_dir = Path('../data/faiss_index')
index_dir.mkdir(parents=True, exist_ok=True)

# Chemins de sauvegarde
index_path = index_dir / 'jobs.index'
metadata_path = index_dir / 'jobs_metadata.pkl'

# Sauvegarder
vector_store.save(
    index_path=str(index_path),
    metadata_path=str(metadata_path)
)

print(f"\n‚úÖ Index FAISS pr√™t pour l'API !")
print(f"   Index : {index_path}")
print(f"   Metadata : {metadata_path}")
print(f"   Taille index : {index_path.stat().st_size / 1024:.1f} KB")
print(f"   Taille metadata : {metadata_path.stat().st_size / 1024:.1f} KB")

# %%
# 6. V√âRIFICATION DU CHARGEMENT
print("\n" + "="*60)
print("üîÑ V√âRIFICATION DU CHARGEMENT")
print("="*60)

# Cr√©er un nouveau vector store
vector_store_test = JobVectorStore(model_name='all-mpnet-base-v2')

# Charger l'index
vector_store_test.load(
    index_path=str(index_path),
    metadata_path=str(metadata_path)
)

# Test de recherche
test_skills = ["Python", "FastAPI", "Docker"]
test_results = vector_store_test.search(test_skills, top_k=3)

print(f"\n‚úÖ Test de recherche apr√®s chargement :")
for i, (job, score) in enumerate(test_results, 1):
    print(f"   #{i} - {job['title']} ({score:.2f}%)")

print("\nüéâ Index FAISS op√©rationnel !")


üíæ SAUVEGARDE DE L'INDEX
‚úÖ Index sauvegard√© : ..\data\faiss_index\jobs.index
‚úÖ Metadata sauvegard√©es : ..\data\faiss_index\jobs_metadata.pkl

‚úÖ Index FAISS pr√™t pour l'API !
   Index : ..\data\faiss_index\jobs.index
   Metadata : ..\data\faiss_index\jobs_metadata.pkl
   Taille index : 75.0 KB
   Taille metadata : 18.3 KB

üîÑ V√âRIFICATION DU CHARGEMENT
‚úÖ JobVectorStore initialis√© avec all-mpnet-base-v2 (768 dimensions)
‚úÖ Index charg√© : 25 offres
‚úÖ Metadata charg√©es : 25 offres

‚úÖ Test de recherche apr√®s chargement :
   #1 - Python Developer Junior (51.86%)
   #2 - Backend Developer Python (50.07%)
   #3 - Python Developer - Data Engineering (41.52%)

üéâ Index FAISS op√©rationnel !
