# R√©cup√®re 5 offres d'emplois sur hellowork √† partir d'un mot cl√© (ici : Data Analyst)

In [None]:
import time
import pandas as pd
import urllib.parse
import re  # Import n√©cessaire pour le nettoyage des espaces
from selenium import webdriver
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.by import By

# --- 1. FONCTION DE NETTOYAGE (NOUVEAU) ---
def clean_text(text):
    """
    Nettoie le texte pour garantir qu'il tient sur une seule ligne.
    - Remplace les sauts de ligne (\n, \r) par des espaces.
    - Supprime les espaces multiples inutiles.
    """
    if not isinstance(text, str):
        return str(text) if text is not None else ""
    
    # Remplace les retours √† la ligne par un espace simple
    text = text.replace('\n', ' ').replace('\r', ' ')
    
    # Remplace les suites d'espaces (ex: "  ") par un seul espace
    text = re.sub(r'\s+', ' ', text)
    
    return text.strip()

# --- 2. FONCTION POUR S√âPARER LE TEXTE ---
def extract_mission_profil(full_text):
    """
    Essaie de couper le texte en deux parties : Missions et Profil.
    Renvoie les textes nettoy√©s (sans sauts de ligne).
    """
    if not full_text:
        return "", ""

    text_lower = full_text.lower()
    
    profil_keywords = ["profil", "ce que nous recherchons", "votre profil", "comp√©tences", "pr√©-requis", "attendus"]
    
    split_index = -1
    for keyword in profil_keywords:
        idx = text_lower.find(keyword)
        if idx != -1:
            # On √©vite de couper si le mot cl√© est au tout d√©but (ex: titre)
            if idx > len(full_text) * 0.1: 
                split_index = idx
                break
    
    if split_index != -1:
        missions = full_text[:split_index]
        profil = full_text[split_index:]
    else:
        missions = full_text
        profil = "Non identifi√© sp√©cifiquement (voir colonne Missions)"
        
    # IMPORTANT : On nettoie le texte avant de le renvoyer
    return clean_text(missions), clean_text(profil)

# --- 3. FONCTION PRINCIPALE ---
def get_jobs_detailed_hellowork(keyword, num_jobs=10):
    print(f"üöÄ D√©marrage de la recherche approfondie pour : {keyword}...")
    
    encoded_keyword = urllib.parse.quote_plus(keyword)
    url = f"https://www.hellowork.com/fr-fr/emploi/recherche.html?k={encoded_keyword}"
    
    options = Options()
    options.add_argument("--start-maximized")
    # User agent pour √©viter d'√™tre bloqu√© trop vite
    options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36")
    options.add_argument("--disable-blink-features=AutomationControlled")
    
    driver = webdriver.Edge(options=options)
    all_jobs_data = []
    
    try:
        # --- PHASE 1 : R√âCUP√âRATION DES LIENS ET DU LIEU ---
        print("1Ô∏è‚É£  PHASE 1 : R√©cup√©ration des liens et des lieux...")
        driver.get(url)
        time.sleep(4)
        
        # Gestion des cookies
        try:
            buttons = driver.find_elements(By.TAG_NAME, "button")
            for btn in buttons:
                if "continuer sans" in btn.text.lower() or "refuser" in btn.text.lower():
                    btn.click()
                    break
            time.sleep(1)
        except: pass

        potential_jobs = driver.find_elements(By.CSS_SELECTOR, "ul > li")
        job_links = []
        
        for card in potential_jobs:
            if len(job_links) >= num_jobs:
                break
            try:
                if card.find_elements(By.TAG_NAME, "h3"):
                    link_elem = card.find_element(By.TAG_NAME, "a")
                    link = link_elem.get_attribute("href")
                    
                    # Titre
                    raw_title = card.find_element(By.TAG_NAME, "h3").text.split('\n')[0]
                    
                    # Extraction Entreprise et Lieu via le texte brut de la carte
                    txt_lines = card.text.split('\n')
                    
                    # L'entreprise est souvent en 2√®me ligne
                    raw_company = txt_lines[1] if len(txt_lines) > 1 else "N/A"
                    if raw_company == raw_title and len(txt_lines) > 2: 
                         raw_company = txt_lines[2]

                    # Le lieu est souvent en 3√®me ligne
                    raw_location = "N/A"
                    if len(txt_lines) > 2:
                        potential_loc = txt_lines[2]
                        if len(potential_loc) < 50: 
                            raw_location = potential_loc
                    
                    # On stocke les versions nettoy√©es
                    job_links.append({
                        "Poste": clean_text(raw_title),
                        "Entreprise": clean_text(raw_company),
                        "Lieu": clean_text(raw_location),
                        "Lien": link
                    })
            except:
                continue
                
        print(f"‚úÖ {len(job_links)} liens trouv√©s. Passage √† l'extraction d√©taill√©e.")
        
        # --- PHASE 2 : VISITE DE CHAQUE PAGE ---
        print("2Ô∏è‚É£  PHASE 2 : Analyse d√©taill√©e des annonces (Missions/Profil)...")
        
        for index, job in enumerate(job_links):
            print(f"   ‚è≥ Traitement {index + 1}/{len(job_links)} : {job['Poste']}...")
            
            try:
                driver.get(job['Lien'])
                time.sleep(3) 
                
                full_desc = ""
                try:
                    sections = driver.find_elements(By.TAG_NAME, "section")
                    # On prend la section avec le plus de texte, souvent la description
                    longest_section = max(sections, key=lambda x: len(x.text) if x.text else 0)
                    full_desc = longest_section.text
                except:
                    full_desc = driver.find_element(By.TAG_NAME, "body").text

                # Extraction et nettoyage via la fonction modifi√©e
                missions, profil = extract_mission_profil(full_desc)
                
                all_jobs_data.append({
                    "Poste": job['Poste'],
                    "Entreprise": job['Entreprise'],
                    "Lieu": job['Lieu'],
                    "Missions": missions,  # D√©j√† nettoy√© par extract_mission_profil
                    "Profil_Recherche": profil, # D√©j√† nettoy√© par extract_mission_profil
                    "Lien": job['Lien']
                })
                
            except Exception as e:
                print(f"   ‚ùå Erreur sur ce lien : {e}")
                job_fallback = job.copy()
                job_fallback["Missions"] = "Erreur extraction"
                job_fallback["Profil_Recherche"] = "Erreur extraction"
                all_jobs_data.append(job_fallback)

    except Exception as e:
        print(f"‚ùå Erreur critique : {e}")
        
    finally:
        driver.quit()
        print("‚úÖ Termin√©.")

    return pd.DataFrame(all_jobs_data)

# --- EXECUTION ET SAUVEGARDE ---
if __name__ == "__main__":
    # Lancer le scraping
    df_details = get_jobs_detailed_hellowork("Data Analyst", 5)

    # Affichage de contr√¥le
    pd.set_option('display.max_colwidth', 50)
    print("\nAper√ßu des donn√©es :")
    print(df_details[["Poste", "Lieu", "Missions"]].head())

    # Export CSV "PROPRE"
    nom_fichier = "hellowork_detailed_jobs_clean2.csv"
    
    # encoding='utf-8-sig' est important pour qu'Excel lise bien les accents
    # index=False √©vite d'avoir une colonne de num√©ros de ligne (0, 1, 2...)
    df_details.to_csv(nom_fichier, index=False, encoding='utf-8-sig', sep=',')
    
    print(f"\nüìÅ Fichier CSV propre g√©n√©r√© : {nom_fichier}")

# Reformule les annonce grace √† Qwen 2.5 1.5B 

In [None]:
import pandas as pd
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

# 1. Configuration du mod√®le
model_name = "Qwen/Qwen2.5-1.5B-Instruct"

print(f"Chargement du mod√®le {model_name}...")
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# 2. Chargement des donn√©es
try:
    df = pd.read_csv('hellowork_detailed_jobs_clean2.csv')
    print(f"CSV charg√© : {len(df)} offres trouv√©es.")
except FileNotFoundError:
    print("Erreur : Fichier CSV non trouv√©.")
    exit()

# Liste pour stocker les r√©sultats au fur et √† mesure
resumes_stockes = []

# 3. Boucle avec Streaming
print("\n=== D√âBUT DE LA G√âN√âRATION EN DIRECT ===\n")

# On utilise un iterrows() pour traiter ligne par ligne
for index, row in df.iterrows():
    
    # Affichage visuel pour s√©parer les offres dans le terminal
    print(f"\n\n--- Traitement de l'offre {index + 1}/{len(df)} : {row['Poste']} chez {row['Entreprise']} ---")
    print("R√âPONSE EN DIRECT : ", end="", flush=True)

    prompt = f"""Tu es un expert en recrutement. Analyse l'offre d'emploi ci-dessous et g√©n√®re un r√©sum√© structur√©.
    
    Donn√©es de l'offre :
    - Poste : {row['Poste']}
    - Entreprise : {row['Entreprise']}
    - Lieu : {row['Lieu']}
    - Missions : {row['Missions']}
    - Profil Recherch√© : {row['Profil_Recherche']}




    G√©n√®re la r√©ponse uniquement sous ce format strict :
    RESUME_MATCHING:
    - Type de profil recherch√©
    - comp√©tences cl√©s: [Liste]
    - Soft_Skills: [Liste]
    - Seniority: [Niveau]
    - Core_Mission: [Phrase r√©sum√©e]
    """

    messages = [
        {"role": "system", "content": "Tu es un assistant utile."},
        {"role": "user", "content": prompt}
    ]

    text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

    # C'est ici que la magie op√®re : Le Streamer
    # skip_prompt=True permet de ne pas r√©-afficher le prompt, juste la r√©ponse de l'IA
    streamer = TextStreamer(tokenizer, skip_prompt=True)

    generated_ids = model.generate(
        **model_inputs,
        max_new_tokens=500,
        temperature=0.1,
        do_sample=True,
        streamer=streamer # <--- On active l'affichage en direct ici
    )
    
    # On doit quand m√™me d√©coder le r√©sultat pour le sauvegarder dans le CSV
    generated_ids = [
        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]
    response_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
    
    # Nettoyage et stockage dans la liste
    clean_response = response_text.replace('RESUME_MATCHING:', '').strip()

    # --- MODIFICATION ICI ---
    # Remplacement des sauts de ligne (\n) par un s√©parateur unique (" | ")
    # Cela permet d'avoir tout le r√©sum√© sur une seule ligne physique dans le CSV
    clean_response_oneline = clean_response.replace('\n', ' | ').replace('\r', '')

    resumes_stockes.append(clean_response_oneline)

# 4. Sauvegarde finale
df['Resume_IA'] = resumes_stockes
df.to_csv('offres_resumees_qwen_live.csv', index=False)
print("\n\n=== TERMIN√â : Fichier sauvegard√© ===")

# Transforme un CV pdf en .txt

In [None]:
import pdfplumber
import re
import os
from typing import Optional

# --- CONFIGURATION ---
# Remplace par le chemin exact de ton fichier
CHEMIN_PDF = "cv Qu√©nel.pdf" 
# ---------------------

def nettoyer_texte_avance(texte: str) -> str:
    """
    Nettoie les artefacts courants d'extraction PDF :
    - Recolle les lettres espac√©es (ex: "L a n g u e s" -> "Langues")
    - Supprime les sauts de ligne excessifs
    - Normalise les espaces
    """
    if not texte:
        return ""

    # 1. Correction du "Kerning" (Lettres espac√©es : L a n g u e s ou 0 6 1 1...)
    # Cette regex cherche une s√©quence de lettres/chiffres isol√©s s√©par√©s par un espace
    def replacer_lettres_isolees(match):
        return match.group(0).replace(" ", "")
    
    # Motif : (Caract√®re + Espace) r√©p√©t√© au moins 3 fois, suivi d'un caract√®re
    texte = re.sub(r'(?:\b[A-Za-z0-9√Ä-√ø]\s){3,}[A-Za-z0-9√Ä-√ø]\b', replacer_lettres_isolees, texte)

    # 2. Remplacer les sauts de ligne multiples par un seul saut
    texte = re.sub(r'\n\s*\n', '\n\n', texte)

    # 3. Remplacer les espaces multiples (horizontaux) par un seul espace
    texte = re.sub(r'[ \t]+', ' ', texte)

    return texte.strip()

def extraire_cv_pro(chemin_fichier: str) -> Optional[str]:
    """
    Extrait le texte d'un CV en respectant au mieux la mise en page (colonnes).
    Utilise pdfplumber pour une pr√©cision professionnelle.
    """
    # V√©rification de l'existence du fichier
    if not os.path.exists(chemin_fichier):
        print(f"‚ùå Erreur : Le fichier '{chemin_fichier}' est introuvable.")
        return None

    texte_global = ""
    
    try:
        print(f"üîÑ Traitement de '{chemin_fichier}' avec pdfplumber...")
        
        with pdfplumber.open(chemin_fichier) as pdf:
            if not pdf.pages:
                print("‚ö†Ô∏è Le PDF semble vide.")
                return None

            for i, page in enumerate(pdf.pages):
                # extract_text() de pdfplumber g√®re mieux les colonnes que pypdf
                texte_page = page.extract_text(x_tolerance=2, y_tolerance=2)
                
                if texte_page:
                    texte_global += f"\n--- PAGE {i+1} ---\n"
                    texte_global += nettoyer_texte_avance(texte_page)
                else:
                    print(f"‚ö†Ô∏è Page {i+1} : Aucun texte s√©lectionnable (image scan ?).")

        print("‚úÖ Extraction termin√©e avec succ√®s.")
        return texte_global

    except Exception as e:
        print(f"‚ùå Une erreur critique est survenue : {e}")
        return None

# --- EX√âCUTION ---

# Appel de la fonction
contenu_cv = extraire_cv_pro(CHEMIN_PDF)

# Affichage du r√©sultat si l'extraction a fonctionn√©
if contenu_cv:
    print("\n" + "="*40)
    print("      APER√áU DU CONTENU EXTRAIT")
    print("="*40 + "\n")
    print(contenu_cv)
    
    # Optionnel : Sauvegarde dans un fichier texte pour v√©rification
    with open("resultat_cv_quenel.txt", "w", encoding="utf-8") as f:
        f.write(contenu_cv)
    print("\nüíæ Le r√©sultat a √©galement √©t√© sauvegard√© dans 'resultat_cv_celyann.txt'.")

# Reformule le cv avec Qwen 2.5 1.5B

In [None]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
import os

# Configuration du mod√®le
MODEL_ID = "Qwen/Qwen2.5-1.5B-Instruct"

def get_device():
    """D√©termine le meilleur p√©riph√©rique disponible (CUDA, MPS ou CPU)."""
    if torch.cuda.is_available(): return "cuda"
    if torch.backends.mps.is_available(): return "mps"
    return "cpu"

def synthesize_cv_for_matching(file_path):
    # 1. Lecture du fichier
    if not os.path.exists(file_path):
        print(f"Erreur : Le fichier '{file_path}' est introuvable.")
        return None
    
    with open(file_path, 'r', encoding='utf-8') as f:
        cv_content = f.read()

    print("Chargement du mod√®le en cours... (cela peut prendre quelques secondes)")
    
    # 2. Chargement du mod√®le et du tokenizer
    device = get_device()
    tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
    model = AutoModelForCausalLM.from_pretrained(MODEL_ID, device_map=device)

    # Streamer pour l'affichage en direct
    streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

    # 3. LE PROMPT "SYNTH√àSE & MATCHING"
    system_prompt = """Tu es un assistant de synth√®se RH.
    Ta fonction est de transformer les informations professionnelles d'un CV en une fiche de comp√©tences standardis√©e.
    Tu dois reformuler le contenu pour qu'il soit totalement neutre et g√©n√©rique.
    Remplace syst√©matiquement l'identit√© du candidat par le terme : "Candidat".
    Concentre-toi uniquement sur les savoir-faire, les dipl√¥mes et l'exp√©rience m√©tier."""

    # ON INVERSE : Le CV est maintenant tout en haut
    user_prompt = f"""
    DOCUMENT √Ä ANALYSER :
    ---
    {cv_content}
    ---

    INSTRUCTIONS :
    A partir du texte ci-dessus, extrais et classe les informations professionnelles.
    Remplis STRICTEMENT le mod√®le ci-dessous.
    Ne r√©p√®te pas le texte original. Arr√™te-toi apr√®s la section 5.

    MODELE √Ä REMPLIR :

    ### 1. Synth√®se du Profil
    **Intitul√© du poste** : [Indiquer le m√©tier principal ici]
    **Resum√©** : Candidat exp√©riment√© dans le domaine de [Indiquer le secteur].

    ### 2. Comp√©tences Techniques (Hard Skills)
    [Lister les logiciels, outils et techniques m√©tier]

    ### 3. Qualit√©s Professionnelles (Soft Skills)
    [Lister les qualit√©s humaines et relationnelles]

    ### 4. Analyse de l'Exp√©rience
    **Niveau** : [Junior / Confirm√© / Senior]
    **Secteurs dominants** : [Indiquer les industries]
    **Atouts cl√©s** : [Lister les points forts professionnels]

    ### 5. Formation Acad√©mique
    [Lister uniquement les dipl√¥mes et certificats obtenus]
    """
    messages = [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_prompt}
    ]

    # 4. Formatage
    text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    model_inputs = tokenizer([text], return_tensors="pt").to(device)

    print("\n=== D√âBUT DE LA SYNTH√àSE (STREAMING) ===\n")

    # 5. G√©n√©ration
    generated_ids = model.generate(
        **model_inputs,
        max_new_tokens=1000,   # Une synth√®se est plus courte qu'une r√©√©criture compl√®te
        temperature=0.2,       # Temp√©rature basse pour √™tre factuel
        top_p=0.9,
        repetition_penalty=1.1, # √âvite de r√©p√©ter les m√™mes comp√©tences
        streamer=streamer
    )

    generated_ids = [
        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]
    full_response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

    return full_response

# ... (Tout le code pr√©c√©dent reste identique) ...

def save_to_txt(content, filename):
    """Sauvegarde le contenu dans un fichier texte."""
    try:
        with open(filename, "w", encoding="utf-8") as f:
            f.write(content)
        print(f"\n[OK] R√©sultat sauvegard√© dans : {filename}")
    except Exception as e:
        print(f"\n[ERREUR] Impossible de sauvegarder le fichier : {e}")

# --- Test et Sauvegarde ---
if __name__ == "__main__":
    # 1. D√©finition des fichiers
    fichier_entree = "resultat_cv_celyann.txt"
    fichier_sortie = "synthese_finale_celyan.txt"  # Nom du fichier de sortie
    
    # 2. Lancement de l'analyse
    # Le texte s'affiche en direct gr√¢ce au Streamer
    resultat_final = synthesize_cv_for_matching(fichier_entree)
    
    # 3. Sauvegarde dans le fichier .txt
    save_to_txt(resultat_final, fichier_sortie)
    
    print("\n=== TRAITEMENT ET SAUVEGARDE TERMIN√âS ===")


# calcul la similarit√© cosinus √† partir d'embedding g√©n√©r√© avec bge-m3

In [None]:
import pandas as pd
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity

def match_cv_jobs():
    # 1. Chargement du mod√®le demand√©
    print("Chargement du mod√®le 'BAAI/bge-m3'...")
    model = SentenceTransformer('BAAI/bge-m3')

    # 2. Lecture des fichiers
    try:
        # Lecture du CV
        with open('resultat_cv_celyann.txt', 'r', encoding='utf-8') as f:
            cv_text = f.read()
        
        # Lecture des annonces
        df_jobs = pd.read_csv('offres_resumees_qwen_live.csv')
        df_jobs = df_jobs.fillna('') # Remplacer les NaN par des cha√Ænes vides
    except Exception as e:
        print(f"Erreur de lecture des fichiers : {e}")
        return

    # 3. Pr√©paration des donn√©es (MODIFI√â)
    # On combine uniquement : Poste + Entreprise + Resume_IA
    print("Pr√©paration des donn√©es avec les colonnes : Poste, Entreprise, Resume_IA...")
    
    df_jobs['text_complet'] = (
        df_jobs['Poste'].astype(str) + " " + 
        df_jobs['Entreprise'].astype(str) + " " + 
        df_jobs['Resume_IA'].astype(str)
    )

    print(f"Vectorisation de {len(df_jobs)} offres en cours...")

    # 4. Vectorisation (Embeddings)
    # Le mod√®le transforme le texte en vecteurs num√©riques
    cv_vector = model.encode([cv_text])
    job_vectors = model.encode(df_jobs['text_complet'].tolist())

    # 5. Calcul de similarit√©
    scores = cosine_similarity(cv_vector, job_vectors)[0]
        
    # Ajout du score (en pourcentage)
    df_jobs['match_score'] = scores * 100
    
    # 6. Classement des r√©sultats
    df_result = df_jobs.sort_values(by='match_score', ascending=False)
    
    # Affichage des meilleurs r√©sultats
    # J'ai ajout√© 'Resume_IA' √† l'affichage pour que tu puisses v√©rifier la pertinence
    cols_to_show = ['Poste', 'Entreprise', 'match_score', 'Resume_IA', 'Lien']
    
    print("\n--- TOP 5 OFFRES CORRESPONDANTES ---")
    # On limite l'affichage de Resume_IA aux 100 premiers caract√®res pour la lisibilit√© console
    pd.set_option('display.max_colwidth', 100) 
    print(df_result[cols_to_show].head(5).to_string(index=False))
    
    # Sauvegarde
    output_filename = 'resultats_matching_resume_ia.csv'
    df_result.to_csv(output_filename, index=False)
    print(f"\nLes r√©sultats complets ont √©t√© sauvegard√©s dans '{output_filename}'")

if __name__ == "__main__":
    match_cv_jobs()