In [None]:
import requests
import json
import os
import numpy as np
from openai import OpenAI
from typing import List, Dict
import time

# Première API pour récupérer tous les ids récents

In [None]:
def search_offers(limit=100, skip=0):
    # URL de l'API
    url = "https://civiweb-api-prd.azurewebsites.net/api/Offers/search"

    # Corps de la requête (payload)
    payload = {
        "limit": limit,
        "skip": skip,
        "latest": ["true"],
        "method": ["null"],
        "activitySectorId": [],
        "missionsTypesIds": [],
        "missionsDurations": [],
        "gerographicZones": [],
        "countriesIds": [],
        "studiesLevelId": [],
        "companiesSizes": [],
        "specializationsIds": [],
        "entreprisesIds": [0],
        "missionStartDate": None,
        "query": None
    }

    # Headers
    headers = {
        "Content-Type": "application/json"
    }

    # Effectuer la requête POST
    response = requests.post(url, json=payload, headers=headers)
    # Vérifier le code de statut
    response.raise_for_status()
    # Afficher le résultat
    print(f"Code de statut: {response.status_code}")
        
    return response.json()

search_offers(2,0)
    

Code de statut: 200


{'result': [{'id': 230682,
   'organizationName': 'DEMGY NORMANDIE',
   'missionTitle': 'ERP SYSTEMS ANALYST (H/F)',
   'missionDuration': 6,
   'viewCounter': 43,
   'candidateCounter': 2,
   'missionType': 'VIE',
   'missionTypeEn': 'VIE',
   'organizationPresentation': None,
   'organizationUrlImage': '',
   'organizationImage': None,
   'organizationPathImage': None,
   'pathImage': '',
   'image': None,
   'activitySectorN1': 'INDUSTRIES CHIMIQUES ET PLASTURGIE',
   'activitySectorN2': None,
   'activitySectorN3': None,
   'activitySectorN1Id': 100008,
   'ca': None,
   'effectif': 0,
   'organizationCountryCounter': '',
   'organizationExpertise': None,
   'cityAffectationId': 0,
   'cityName': 'TACOMA (WA)',
   'cityNameEn': 'TACOMA (WA)',
   'activitySectorOfferId': 8,
   'levelStudyIds': '4',
   'specializations': [{'specializationId': 29,
     'specializationParentId': 212,
     'specializationLabel': 'Informatique industrielle',
     'specializationLabelEn': 'Industrial Comp

# Appelle par Id

In [44]:
def get_offer_details(offer_id):
    url = f"https://civiweb-api-prd.azurewebsites.net/api/Offers/details/{offer_id}"
    # Headers (optionnel pour un GET simple)
    headers = {
        "Accept": "application/json"
    }
    # Effectuer la requête GET
    response = requests.get(url, headers=headers)
    # Vérifier le code de statut
    response.raise_for_status()
    print("   Récupération des données réussies")
    return response.json()

get_offer_details(230682)

    

   Récupération des données réussies


{'id': 230682,
 'organizationName': 'DEMGY NORMANDIE',
 'missionTitle': 'ERP SYSTEMS ANALYST (H/F)',
 'missionDuration': 6,
 'viewCounter': 71,
 'candidateCounter': 3,
 'missionType': 'VIE',
 'missionTypeEn': 'VIE',
 'organizationPresentation': '',
 'organizationUrlImage': '',
 'organizationImage': None,
 'organizationPathImage': None,
 'pathImage': '',
 'image': None,
 'activitySectorN1': 'INDUSTRIES CHIMIQUES ET PLASTURGIE',
 'activitySectorN2': None,
 'activitySectorN3': None,
 'activitySectorN1Id': 100008,
 'ca': '19027',
 'effectif': 159,
 'organizationCountryCounter': '',
 'organizationExpertise': None,
 'cityAffectationId': -1,
 'cityName': 'TACOMA (WA)',
 'cityNameEn': 'TACOMA (WA)',
 'activitySectorOfferId': 8,
 'levelStudyIds': None,
 'specializations': None,
 'missionDescription': 'Présentation de la société :\n\nDEMGY Pacific est une entreprise américaine spécialisée dans la fabrication de pièces plastiques et métalliques pour l’aéronautique. Basée à Tacoma (Washington), el

## Fonction pour clean les données manquantes (appelés directment dans la création des chunks)

In [None]:
def clean_offer_data(offer_data):
    print("   Nettoyage des données")
    """Nettoie et complète les données manquantes"""
    return {
        "reference": offer_data.get("reference", "N/A"),
        "organizationName": offer_data.get("organizationName", "Entreprise non spécifiée"),
        "missionTitle": offer_data.get("missionTitle", "Titre non spécifié"),
        "missionDescription": offer_data.get("missionDescription", "Description non disponible"),
        "missionProfile": offer_data.get("missionProfile", "Profil non spécifié"),
        "countryName": offer_data.get("countryName", "Pays non spécifié"),
        "cityName": offer_data.get("cityName", "Ville non spécifiée"),
        "activitySectorN1": offer_data.get("activitySectorN1", "Secteur non spécifié"),
        "missionDuration": offer_data.get("missionDuration", "Durée non spécifiée"),
        "indemnite": offer_data.get("indemnite", "Non spécifié"),
        "missionStartDate": offer_data.get("missionStartDate", "Date non spécifiée"),
        "contactEmail": offer_data.get("contactEmail", "Email non disponible"),
        "missionType": offer_data.get("missionType", "Type non spécifié")
    }

# Création des chunks pour notre RAG

In [45]:

def create_chunks_for_rag(offer_data):
    """Crée 2 chunks optimisés pour le RAG"""
    chunks = []

    # 1. Nettoyer les données brutes
    cleaned_offer = clean_offer_data(offer_data)

    # 2. Extraire les métadonnées depuis les données nettoyées
    common_metadata = {
        "offer_id": cleaned_offer.get("reference"),  
        "company": cleaned_offer.get("organizationName"),
        "title": cleaned_offer.get("missionTitle"),
        "country": cleaned_offer.get("countryName"),
        "city": cleaned_offer.get("cityName"),
        "sector": cleaned_offer.get("activitySectorN1"),
        "duration_months": cleaned_offer.get("missionDuration"),
        "salary_eur": cleaned_offer.get("indemnite"),
        "start_date": cleaned_offer.get("missionStartDate"),
        "contact_email": cleaned_offer.get("contactEmail"),
        "mission_type": cleaned_offer.get("missionType")
    }

    
    
    # CHUNK 1: Description de la mission
    chunk1_content = f"""Offre VIE {offer_data.get('reference')} - {offer_data.get('missionTitle')}
    Entreprise: {offer_data.get('organizationName')}
    Localisation: {offer_data.get('cityName')}, {offer_data.get('countryName')}
    Secteur d'activité: {offer_data.get('activitySectorN1')}
    Durée: {offer_data.get('missionDuration')} mois
    Indemnité: {offer_data.get('indemnite')} € par mois
    Description de la mission: {offer_data.get('missionDescription', 'Non spécifiée')}"""

    chunks.append({
        "content": chunk1_content,
        "metadata": {
            **common_metadata,
            "chunk_type": "mission_description",
            "chunk_id": f"{offer_data.get('id')}_desc"
        }
    })
    
    # CHUNK 2: Profil recherché
    chunk2_content = f"""Offre VIE {offer_data.get('reference')} - {offer_data.get('missionTitle')}
    Entreprise: {offer_data.get('organizationName')}
    Localisation: {offer_data.get('cityName')}, {offer_data.get('countryName')}
    Secteur: {offer_data.get('activitySectorN1')}
    Profil recherché: {offer_data.get('missionProfile', 'Non spécifié')}"""

    chunks.append({
        "content": chunk2_content,
        "metadata": {
            **common_metadata,
            "chunk_type": "candidate_profile",
            "chunk_id": f"{offer_data.get('id')}_profile"
        }
    })
    
    return chunks

# Create the embeding of the data 

In [None]:
# Configuration OpenAI
api_key = os.environ.get("API_KEY_OPENAI")
client = OpenAI(api_key=api_key)

In [17]:
def get_text_embedding(text: str) -> List[float]:
    """
    Crée un embedding pour un texte avec OpenAI
    
    Args:
        text: Le texte à embedder
        
    Returns:
        Liste de floats représentant l'embedding
    """
    response = client.embeddings.create(
        input=text,
        model="text-embedding-3-small"  # 1536 dimensions, $0.02/1M tokens
    )
    return response.data[0].embedding

In [None]:


def create_embeddings_batch(chunks: List[Dict], batch_size: int = 100) -> List[Dict]:
    """
    Crée les embeddings pour tous les chunks avec traitement par batch
    
    Args:
        chunks: Liste des chunks à embedder
        batch_size: Nombre de chunks à traiter par batch (max 100 pour OpenAI)
        
    Returns:
        Liste des chunks enrichis avec leurs embeddings
    """
    enriched_chunks = []
    
    for i in range(0, len(chunks), batch_size):
        batch = chunks[i:i + batch_size]
        print(f"Traitement du batch {i//batch_size + 1} ({len(batch)} chunks)...")
        
        # Extraire les contenus textuels
        texts = [chunk["content"] for chunk in batch]
        
        # Créer les embeddings en batch (plus efficace)
        response = client.embeddings.create(
            input=texts,
            model="text-embedding-3-small"
        )
        
        # Associer chaque embedding à son chunk
        for j, chunk in enumerate(batch):
            enriched_chunk = chunk.copy()
            enriched_chunk["embedding"] = response.data[j].embedding
            enriched_chunks.append(enriched_chunk)
        
        # Rate limiting (optionnel mais recommandé)
        time.sleep(0.1)
    
    print(f"✅ {len(enriched_chunks)} embeddings créés")
    return enriched_chunks




# Let's save our chunks and embeddings

In [None]:
def save_to_json(data, filename):
    """Sauvegarde les données en JSON"""
    with open(filename, 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=2)
    print(f"✅ Données sauvegardées dans {filename}")

# Let's call everything

In [46]:
print("="*80)
print("PIPELINE RAG - OFFRES VIE")
print("="*80)

# ÉTAPE 1: Rechercher les offres
print("\n[1/5] Recherche des offres VIE...")
offers_response = search_offers(limit=2)  # Ajustez la limite selon vos besoins

# La structure de retour peut varier, adaptez selon l'API
# Supposons que l'API retourne une liste d'IDs ou d'objets simplifiés
offer_ids = []
offer_ids = [item.get("id") for item in offers_response["result"] if item.get("id") is not None]

print(f"✅ {len(offer_ids)} offres trouvées")

# ÉTAPE 2: Récupérer les détails et créer les chunks
print("\n[2/5] Récupération des détails et création des chunks...")
all_chunks = []
    


for i, offer_id in enumerate(offer_ids[:10], 1):  # Limitez pour le test
    try:
        print(f"  Traitement offre {i}/{min(10, len(offer_ids))}: {offer_id}")
        offer_details = get_offer_details(offer_id)
        chunks = create_chunks_for_rag(offer_details)
        all_chunks.extend(chunks)
        time.sleep(0.2)  # Rate limiting pour l'API Civiweb
    except Exception as e:
        print(f"  ⚠️  Erreur pour l'offre {offer_id}: {e}")
        continue
    
    print(f"✅ {len(all_chunks)} chunks créés\n")

# ÉTAPE 3: Créer les embeddings
print("\n[3/5] Création des embeddings OpenAI...")
chunks_with_embeddings = create_embeddings_batch(all_chunks)


print("\n[4/5] Sauvegarde des données...")
save_to_json(chunks_with_embeddings, "vie_rag_data.json")



PIPELINE RAG - OFFRES VIE

[1/5] Recherche des offres VIE...
Code de statut: 200
✅ 2 offres trouvées

[2/5] Récupération des détails et création des chunks...
  Traitement offre 1/2: 230682
   Récupération des données réussies
   Nettoyage des données
✅ 2 chunks créés

  Traitement offre 2/2: 230189
   Récupération des données réussies
   Nettoyage des données
✅ 4 chunks créés


[3/5] Création des embeddings OpenAI...
Traitement du batch 1 (4 chunks)...
✅ 4 embeddings créés

[4/5] Sauvegarde des données...
✅ Données sauvegardées dans vie_rag_data.json


In [None]:
# PIPELINE COMPLET
def main():
    print("="*80)
    print("PIPELINE RAG - OFFRES VIE")
    print("="*80)
    
    # ÉTAPE 1: Rechercher les offres
    print("\n[1/5] Recherche des offres VIE...")
    offers_response = search_offers(limit=2)  # Ajustez la limite selon vos besoins
    
    offer_ids = []
    offer_ids = [item.get("id") for item in offers_response["result"] if item.get("id") is not None]
    
    print(f"✅ {len(offer_ids)} offres trouvées")
    
    # ÉTAPE 2: Récupérer les détails et créer les chunks
    print("\n[2/5] Récupération des détails et création des chunks...")
    all_chunks = []
    
    for i, offer_id in enumerate(offer_ids[:10], 1):  # Limitez pour le test
        try:
            print(f"  Traitement offre {i}/{min(10, len(offer_ids))}: {offer_id}")
            offer_details = get_offer_details(offer_id)
            chunks = create_chunks_for_rag(offer_details)
            all_chunks.extend(chunks)
            time.sleep(0.2)  # Rate limiting pour l'API Civiweb
        except Exception as e:
            print(f"  ⚠️  Erreur pour l'offre {offer_id}: {e}")
            continue
    
    print(f"✅ {len(all_chunks)} chunks créés")
    
    # ÉTAPE 3: Créer les embeddings
    print("\n[3/5] Création des embeddings OpenAI...")
    chunks_with_embeddings = create_embeddings_batch(all_chunks)
    
    # ÉTAPE 4: Sauvegarder
    print("\n[4/5] Sauvegarde des données...")
    save_to_json(chunks_with_embeddings, "vie_rag_data.json")
    save_embeddings_numpy(chunks_with_embeddings, "vie_embeddings.npz")
    
    # ÉTAPE 5: Statistiques
    print("\n[5/5] Statistiques finales")
    print("="*80)
    print(f"Nombre d'offres traitées: {len(offer_ids[:10])}")
    print(f"Nombre de chunks: {len(chunks_with_embeddings)}")
    print(f"Dimension des embeddings: {len(chunks_with_embeddings[0]['embedding'])}")
    
    # Calculer la taille totale
    total_tokens = sum(len(c['content']) // 4 for c in chunks_with_embeddings)
    print(f"Tokens estimés: ~{total_tokens:,}")
    print(f"Coût estimé: ~${(total_tokens / 1_000_000) * 0.02:.4f}")
    print("="*80)
    
    return chunks_with_embeddings

if __name__ == "__main__":
    # Vérifier que la clé API est configurée
    if not api_key:
        print("❌ Erreur: Variable d'environnement API_KEY_OPENAI non définie")
        exit(1)
    
    # Lancer le pipeline
    chunks_with_embeddings = main()
    
    print("\n✅ Pipeline terminé avec succès!")
    print("\nPour charger les embeddings plus tard:")
    print("  data = load_embeddings('vie_embeddings.npz')")
    print("  embeddings = data['embeddings']")
    print("  metadata = data['metadata']")

# Now let's ask a question and embed it

In [34]:
question = "Je veux faire du code informatique"

In [35]:
question_embeddings = np.array([get_text_embedding(question)])

[Embedding(embedding=[0.008000576868653297, -0.01830236241221428, -0.030118415132164955, -0.04225639998912811, 0.04662035033106804, -0.042375631630420685, -0.0085073197260499, 0.04015788808465004, -0.07545104622840881, 0.006706892047077417, 0.019673548638820648, -0.00341604370623827, -0.013640327379107475, -0.05265357345342636, 0.01080256700515747, 0.011625279672443867, -0.0016975888283923268, -0.02057972550392151, 0.026112165302038193, 0.008560975082218647, 0.027376042678952217, -0.045594941824674606, 0.028830692172050476, -0.007583259139209986, 0.031859226524829865, -0.03369542583823204, 0.028544532135128975, 0.01796850934624672, 0.022630544379353523, 0.00398538401350379, -0.004602418281137943, -0.02446674183011055, -0.048170387744903564, -0.006534003186970949, 0.030690737068653107, -0.0466918908059597, 0.009169066324830055, 0.005177720449864864, 0.045141853392124176, 0.014641890302300453, -0.0007981201051734388, -0.01554806623607874, 0.07492641359567642, -0.04399720951914787, -0.007

# Comparison bewtween our embedding vector and our embedding question

In [36]:
from sklearn.metrics.pairwise import cosine_similarity
def find_closest_embedding(
    question_embeddings: np.array,
    text_embeddings: np.ndarray,
    top_n: int = 3,
) -> tuple[np.ndarray, np.ndarray]:

    # Calculer les similarités avec tous les embeddings
    similarites = cosine_similarity(question_embeddings, text_embeddings)[0]

    # Récupérer les top_n index et scores
    top_index = np.argsort(similarites)[-top_n:][::-1]  # Tri décroissant
    top_scores = similarites[top_index]

    return top_scores, top_index

In [37]:
top_scores, top_index = find_closest_embedding(question_embeddings, text_embeddings)

top_results = []

print("Top 3 embeddings les plus proches:")
for score, idx in zip(top_scores, top_index):
    print(f"- Embedding {idx}: Score = {score:.4f}")
    print(chunks[idx])
    top_results.append(chunks[idx])

Top 3 embeddings les plus proches:
- Embedding 6: Score = 0.4480
Citez trois langages de programmation populaires.
- Embedding 7: Score = 0.4421
Trois langages de programmation populaires sont Python, JavaScript et Java. Python est souvent utilisé pour l'analyse de données et l'IA, tandis que JavaScript domine le développement web.
- Embedding 21: Score = 0.3828
Un algorithme est une suite finie d'instructions permettant de résoudre un problème ou d'accomplir une tâche. Les algorithmes sont au cœur de l'informatique et des mathématiques.


# We Use a LLM to answer our question using the closest embedding

In [39]:
# Concaténer les top-N segments en un seul contexte
context = "\n".join(top_results)
prompt = f"Contexte :\n{context}\n\nQuestion : {question}\nRéponse :"


response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "Tu es un assistant spécialisé dans la recherche d'information à partir de documents fournis. Tes réponses doivent absolument provenir du contexte fourni."},
        {"role": "user", "content": prompt}
    ]
)

print(response.choices[0].message.content)

Vous pouvez commencer par apprendre un des langages de programmation populaires comme Python, JavaScript ou Java. Python est souvent recommandé pour les débutants, surtout si vous vous intéressez à l'analyse de données ou à l'IA, tandis que JavaScript est essentiel pour le développement web.
