### Version simple (compter le nombre de mots de l'offre dans le CV)

In [32]:
import re
import os
from docx import Document
from collections import Counter
from nltk.corpus import stopwords
import nltk
import pandas as pd
pd.set_option('display.max_colwidth', None)

# T√©l√©chargement des stopwords fran√ßais si n√©cessaire
nltk.download('stopwords')
stop_fr = set(stopwords.words('french'))

def lire_docx(path):
    """Extrait le texte brut d'un fichier Word (.docx)."""
    doc = Document(path)
    full_text = [p.text for p in doc.paragraphs]
    return "\n".join(full_text)

# --- Nettoyage de texte ---
def nettoyer_texte(texte: str) -> str:
    """Met en minuscules et supprime caract√®res sp√©ciaux."""
    texte = texte.lower()
    texte = re.sub(r"[^a-z√†√¢√ß√©√®√™√´√Æ√Ø√¥√ª√π√º√ø√±√¶≈ì0-9\s]", " ", texte)
    texte = re.sub(r"\s+", " ", texte)
    return texte.strip()

# --- Extraction des mots cl√©s d'une offre (stop words exclus) ---
def extraire_mots_cles_offre(offre_text: str):
    """
    Retourne la liste des mots cl√©s uniques de l'offre apr√®s nettoyage
    et suppression des stop words fran√ßais.
    """
    texte = nettoyer_texte(offre_text)
    mots = texte.split()
    # Exclusion des stop words
    mots_cles = [mot for mot in mots if mot not in stop_fr]
    return list(set(mots_cles))  # mots uniques

# --- Score de correspondance CV vs offre ---
def score_cv_offre(cv_text: str, offre_text: str):
    """
    Calcule un score de correspondance CV vs offre bas√© √† la fois sur la pr√©sence 
    et la fr√©quence des mots-cl√©s de l'offre dans le CV.

    Contrairement √† la version simple, cette fonction prend en compte plusieurs 
    occurrences d'un mot-cl√© dans le CV tout en limitant l'impact d'un mot tr√®s 
    r√©p√©t√© gr√¢ce √† `max_occurrences`.

    Algorithme :
    1. Nettoyage du texte du CV (minuscules, suppression de ponctuation, etc.).
    2. S√©paration du texte en mots et comptage des occurrences de chaque mot via Counter.
    3. Extraction des mots-cl√©s uniques de l'offre (apr√®s nettoyage).
    4. Pour chaque mot-cl√© de l'offre, ajouter au score le nombre d‚Äôoccurrences 
       pr√©sentes dans le CV, limit√© par `max_occurrences` pour √©viter qu‚Äôun mot
       unique r√©p√©t√© 100 fois domine le score.
    5. Normalisation : le score total est divis√© par le score maximum possible 
       (nombre de mots-cl√©s * max_occurrences) pour obtenir un pourcentage.
    
    Arguments :
    - cv_text (str) : texte complet du CV.
    - offre_text (str) : texte complet de l'offre.
    - max_occurrences (int, optionnel) : nombre maximal d‚Äôoccurrences par mot-cl√©
      comptabilis√©es pour le score (d√©faut 2).

    Retour :
    - score_pct (float) : pourcentage de correspondance entre le CV et l'offre, 
      bas√© sur la diversit√© et la fr√©quence des mots-cl√©s.

    Exemple :
    >>> score_cv_frequence(cv_text, offre_text)
    62.5
    """
    cv_clean = nettoyer_texte(cv_text)
    cv_mots = set(cv_clean.split())

    mots_cles = extraire_mots_cles_offre(offre_text)
    # print("mots_cles:", mots_cles)

    nb_trouves = sum(1 for mot in mots_cles if mot in cv_mots)
    Score = nb_trouves / len(mots_cles) if mots_cles else 0

    return Score * 100  # Score en pourcentage

def score_cv_frequence(cv_text: str, offre_text: str, max_occurrences=2):
    """
    Score bas√© sur la pr√©sence et la fr√©quence des mots-cl√©s contrairement √†
    la fonction pr√©cedente.
    max_occurrences limite l'impact d'un mot r√©p√©t√©.
    """
    cv_clean = nettoyer_texte(cv_text)
    cv_mots = cv_clean.split()
    cv_counts = Counter(cv_mots)

    mots_cles = extraire_mots_cles_offre(offre_text)

    score_total = 0
    for mot in mots_cles:
        score_total += min(cv_counts.get(mot, 0), max_occurrences)

    max_score = len(mots_cles) * max_occurrences
    score_pct = (score_total / max_score) * 100 if max_score > 0 else 0

    return score_pct

offre = """
Dans le cadre de sa mission d‚Äôexploitation et de valorisation des donn√©es m√©dicales, la DIDM fait face √† un besoin croissant de donn√©es fiables. C‚Äôest pourquoi un nouveau poste est cr√©√©.
Vous viendrez compl√©ter une √©quipe compos√©e d‚Äôune Charg√©e d‚Äô√©tudes et d√©veloppements √† 50 % et d‚Äôun Responsable Etudes et D√©veloppements. Sous la responsabilit√© de ce dernier, vos missions seront les suivantes :
Construire des pipelines de donn√©es pour alimenter la BI et l‚Äôanalytique.
Mod√©liser et structurer les flux, tables et sch√©mas
Garantir la qualit√©, la fiabilit√© et la s√©curit√© des donn√©es
D√©velopper de nouveaux datasets pour la BI de la DIDM
Mettre en place des standards de d√©veloppement et de bonnes pratiques
Assurer le support et la r√©solution des incidents sur votre p√©rim√®tre...

Votre bo√Æte √† outils
Excellente ma√Ætrise de SQL (Oracle) et solide exp√©rience en R
Connaissances en Julia, Java ou Scala appr√©ci√©es
Pratique des outils de versioning (Git, Bitbucket, Github)
Exp√©rience avec un outil ETL, id√©alement Talend
Une premi√®re approche de la dataviz (Tableau, QlikView) est un atout
"""

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\eupho\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


#### Crit√®res = pr√©sence ou absence de mot-cl√© (osef de la fr√©quence)

In [None]:
# Test sur un CV individuel
# Lis un CV .docx
cv_text = lire_docx("test.docx")

Score = score_cv_offre(cv_text, offre)
print(f"Score de correspondance : {Score:.1f} %")

Score de correspondance : 46.6 %


In [None]:
# Test sur plusieurs CV 
# Faire une boucle sur les CV dans le dossier CVs
dossier_cvs = "CVs"
all_scores = {}
for nom_fichier in os.listdir(dossier_cvs):
    # Lis un CV .docx
    cv_text = lire_docx(f"./{dossier_cvs}/{nom_fichier}")

    Score = score_cv_offre(cv_text, offre)
    all_scores[nom_fichier] = Score
    print(f"Score de correspondance pour {nom_fichier} : {Score:.1f} %")

Score de correspondance pour CV - Laurent D._14_01_2024.docx : 42.0 %
Score de correspondance pour CV_AnaA_20250226.docx : 31.8 %
Score de correspondance pour CV_CSA_NRJBI_20251016.docx : 28.4 %
Score de correspondance pour NRJBI_CEC_CV_Senior.docx : 17.0 %
Score de correspondance pour NRJBI_CEC_CV_Senior_data_engineer_gemini-2.0-flash_enhanced.docx : 9.1 %
Score de correspondance pour NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-flash-lite_enhanced.docx : 20.5 %
Score de correspondance pour NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-flash_enhanced.docx : 29.5 %
Score de correspondance pour NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-pro_enhanced.docx : 39.8 %
Score de correspondance pour NRJBI_CV_EMO_202510_revisionElise.docx : 23.9 %
Score de correspondance pour NRJBI_ERE_CV - 20250930.docx : 35.2 %
Score de correspondance pour NRJBI_ERE_CV - 20250930_data_engineer_gemini-2.5-flash-lite_enhanced.docx : 34.1 %
Score de correspondance pour NRJBI_ERE_CV - 20250930_data_engineer_gemin

In [None]:
# Convertir all_scores en DataFrame pandas pour analyse ult√©rieure
df_scores = pd.DataFrame(list(all_scores.items()), columns=['Fichier', 'Score'])

# Tri par ordre croissant du Score
df_scores = df_scores.sort_values(by='Score', ascending=False)
df_scores

Unnamed: 0,Fichier,Score
14,test.docx,46.590909
0,CV - Laurent D._14_01_2024.docx,42.045455
7,NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-pro_enhanced.docx,39.772727
13,NRJBI_ERE_CV - 20250930_data_engineer_gemini-2.5-pro_enhanced.docx,38.636364
11,NRJBI_ERE_CV - 20250930_data_engineer_gemini-2.5-flash_enhanced.docx,37.5
12,NRJBI_ERE_CV - 20250930_data_engineer_gemini-2.5-flash_enhanced_surligne.docx,37.5
9,NRJBI_ERE_CV - 20250930.docx,35.227273
10,NRJBI_ERE_CV - 20250930_data_engineer_gemini-2.5-flash-lite_enhanced.docx,34.090909
1,CV_AnaA_20250226.docx,31.818182
6,NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-flash_enhanced.docx,29.545455


In [None]:
# Tri par ordre alphab√©tique des fichiers
df_scores = df_scores.sort_values(by='Fichier', ascending=True)
df_scores

Unnamed: 0,Fichier,Score
0,CV - Laurent D._14_01_2024.docx,42.045455
1,CV_AnaA_20250226.docx,31.818182
2,CV_CSA_NRJBI_20251016.docx,28.409091
3,NRJBI_CEC_CV_Senior.docx,17.045455
4,NRJBI_CEC_CV_Senior_data_engineer_gemini-2.0-flash_enhanced.docx,9.090909
5,NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-flash-lite_enhanced.docx,20.454545
6,NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-flash_enhanced.docx,29.545455
7,NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-pro_enhanced.docx,39.772727
8,NRJBI_CV_EMO_202510_revisionElise.docx,23.863636
9,NRJBI_ERE_CV - 20250930.docx,35.227273


In [27]:
# Affichage par ordre croissant pour chaque groupe de CVs communs (CV original + CV am√©lior√©s)
# Liste connue des fichiers originaux
original_files = [
    "NRJBI_CEC_CV_Senior.docx",
    "NRJBI_ERE_CV - 20250930.docx",
    "NRJBI_CV_EMO_202510_revisionElise.docx",
]

# Extraire juste le nom sans extension pour faciliter la recherche
original_bases = [f.rsplit('.', 1)[0] for f in original_files]

# Trouver √† quel original correspond chaque fichier
def find_base(Fichier):
    for base in original_bases:
        if Fichier.startswith(base):  # on compare le d√©but du nom
            return base
    return Fichier  # si aucun match, on garde le nom lui-m√™me

df_scores["base_name"] = df_scores["Fichier"].apply(find_base)

# S'il manque l'extension .docx dans base_name, on l'ajoute pour correspondre aux cl√©s originales
df_scores["base_name"] = df_scores["base_name"].apply(lambda x: x + ".docx" if not x.endswith(".docx") else x)

# Trier : d‚Äôabord par base_name, puis par Score d√©croissant
df_sorted = df_scores.sort_values(["base_name", "Score"], ascending=[True, False]).reset_index(drop=True)

# On cr√©e un dictionnaire base_name -> score original
original_score_dict = df_scores.set_index("Fichier").loc[original_files, "Score"].to_dict()

# Ajouter la colonne original_score √† tous les fichiers selon leur base_name
df_sorted["original_score"] = df_sorted["base_name"].map(original_score_dict)

# Calculer le gain par rapport √† l‚Äôoriginal
df_sorted["gain_vs_original"] = df_sorted["Score"] - df_sorted["original_score"]

# Cr√©er une colonne bool√©enne : True si c'est le CV original
df_sorted["is_original"] = df_sorted["Fichier"].isin(original_files)

# Trier : d'abord par base_name, puis par is_original (True en premier), puis par Score d√©croissant
df_sorted = df_sorted.sort_values(
    by=["base_name", "is_original", "Score"],
    ascending=[True, False, False]
).reset_index(drop=True)

# Supprimer la colonne temporaire si n√©cessaire
df_sorted = df_sorted.drop(columns="is_original")

# Affichage lisible
for base, group in df_sorted.groupby("base_name"):
    print(f"\nüìÑ {base}")
    for _, r in group.iterrows():
        gain = f"(+{r['gain_vs_original']:.2f})" if r['gain_vs_original'] > 0 else f"({r['gain_vs_original']:.2f})"
        print(f"   {r['Fichier']:<80} {r['Score']:6.2f} {gain}")


üìÑ CV - Laurent D._14_01_2024.docx
   CV - Laurent D._14_01_2024.docx                                                   42.05 (nan)

üìÑ CV_AnaA_20250226.docx
   CV_AnaA_20250226.docx                                                             31.82 (nan)

üìÑ CV_CSA_NRJBI_20251016.docx
   CV_CSA_NRJBI_20251016.docx                                                        28.41 (nan)

üìÑ NRJBI_CEC_CV_Senior.docx
   NRJBI_CEC_CV_Senior.docx                                                          17.05 (0.00)
   NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-pro_enhanced.docx                    39.77 (+22.73)
   NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-flash_enhanced.docx                  29.55 (+12.50)
   NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-flash-lite_enhanced.docx             20.45 (+3.41)
   NRJBI_CEC_CV_Senior_data_engineer_gemini-2.0-flash_enhanced.docx                   9.09 (-7.95)

üìÑ NRJBI_CV_EMO_202510_revisionElise.docx
   NRJBI_CV_EMO_202510_revisionElise.d

In [24]:
df_sorted

Unnamed: 0,Fichier,Score,base_name,original_score,gain_vs_original
0,CV - Laurent D._14_01_2024.docx,42.045455,CV - Laurent D._14_01_2024.docx,,
1,CV_AnaA_20250226.docx,31.818182,CV_AnaA_20250226.docx,,
2,CV_CSA_NRJBI_20251016.docx,28.409091,CV_CSA_NRJBI_20251016.docx,,
3,NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-pro_enhanced.docx,39.772727,NRJBI_CEC_CV_Senior,,
4,NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-flash_enhanced.docx,29.545455,NRJBI_CEC_CV_Senior,,
5,NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-flash-lite_enhanced.docx,20.454545,NRJBI_CEC_CV_Senior,,
6,NRJBI_CEC_CV_Senior.docx,17.045455,NRJBI_CEC_CV_Senior,,
7,NRJBI_CEC_CV_Senior_data_engineer_gemini-2.0-flash_enhanced.docx,9.090909,NRJBI_CEC_CV_Senior,,
8,NRJBI_CV_EMO_202510_revisionElise.docx,23.863636,NRJBI_CV_EMO_202510_revisionElise,,
9,NRJBI_ERE_CV - 20250930_data_engineer_gemini-2.5-pro_enhanced.docx,38.636364,NRJBI_ERE_CV - 20250930,,


In [21]:
df_scores

Unnamed: 0,Fichier,Score,base_name
0,CV - Laurent D._14_01_2024.docx,42.045455,CV - Laurent D._14_01_2024.docx
1,CV_AnaA_20250226.docx,31.818182,CV_AnaA_20250226.docx
2,CV_CSA_NRJBI_20251016.docx,28.409091,CV_CSA_NRJBI_20251016.docx
3,NRJBI_CEC_CV_Senior.docx,17.045455,NRJBI_CEC_CV_Senior
4,NRJBI_CEC_CV_Senior_data_engineer_gemini-2.0-flash_enhanced.docx,9.090909,NRJBI_CEC_CV_Senior
5,NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-flash-lite_enhanced.docx,20.454545,NRJBI_CEC_CV_Senior
6,NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-flash_enhanced.docx,29.545455,NRJBI_CEC_CV_Senior
7,NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-pro_enhanced.docx,39.772727,NRJBI_CEC_CV_Senior
8,NRJBI_CV_EMO_202510_revisionElise.docx,23.863636,NRJBI_CV_EMO_202510_revisionElise
9,NRJBI_ERE_CV - 20250930.docx,35.227273,NRJBI_ERE_CV - 20250930


#### Crit√®res = pr√©sence ou absence + fr√©quence de mot-cl√©s

In [30]:
# Test sur plusieurs CV 
# Faire une boucle sur les CV dans le dossier CVs
dossier_cvs = "CVs"
all_scores = {}
for nom_fichier in os.listdir(dossier_cvs):
    # Lis un CV .docx
    cv_text = lire_docx(f"./{dossier_cvs}/{nom_fichier}")
    Score = score_cv_frequence(cv_text, offre, max_occurrences=3)
    all_scores[nom_fichier] = Score
    print(f"Score de correspondance pour {nom_fichier} : {Score:.1f} %")

Score de correspondance pour CV - Laurent D._14_01_2024.docx : 29.5 %
Score de correspondance pour CV_AnaA_20250226.docx : 22.3 %
Score de correspondance pour CV_CSA_NRJBI_20251016.docx : 16.7 %
Score de correspondance pour NRJBI_CEC_CV_Senior.docx : 12.1 %
Score de correspondance pour NRJBI_CEC_CV_Senior_data_engineer_gemini-2.0-flash_enhanced.docx : 3.8 %
Score de correspondance pour NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-flash-lite_enhanced.docx : 14.8 %
Score de correspondance pour NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-flash_enhanced.docx : 20.1 %
Score de correspondance pour NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-pro_enhanced.docx : 25.0 %
Score de correspondance pour NRJBI_CV_EMO_202510_revisionElise.docx : 17.0 %
Score de correspondance pour NRJBI_ERE_CV - 20250930.docx : 22.3 %
Score de correspondance pour NRJBI_ERE_CV - 20250930_data_engineer_gemini-2.5-flash-lite_enhanced.docx : 19.7 %
Score de correspondance pour NRJBI_ERE_CV - 20250930_data_engineer_gemin

In [31]:
# Affichage par ordre croissant pour chaque groupe de CVs communs (CV original + CV am√©lior√©s)
# Liste connue des fichiers originaux
original_files = [
    "NRJBI_CEC_CV_Senior.docx",
    "NRJBI_ERE_CV - 20250930.docx",
    "NRJBI_CV_EMO_202510_revisionElise.docx",
]

# Extraire juste le nom sans extension pour faciliter la recherche
original_bases = [f.rsplit('.', 1)[0] for f in original_files]

# Trouver √† quel original correspond chaque fichier
def find_base(Fichier):
    for base in original_bases:
        if Fichier.startswith(base):  # on compare le d√©but du nom
            return base
    return Fichier  # si aucun match, on garde le nom lui-m√™me

df_scores["base_name"] = df_scores["Fichier"].apply(find_base)

# S'il manque l'extension .docx dans base_name, on l'ajoute pour correspondre aux cl√©s originales
df_scores["base_name"] = df_scores["base_name"].apply(lambda x: x + ".docx" if not x.endswith(".docx") else x)

# Trier : d‚Äôabord par base_name, puis par Score d√©croissant
df_sorted = df_scores.sort_values(["base_name", "Score"], ascending=[True, False]).reset_index(drop=True)

# On cr√©e un dictionnaire base_name -> score original
original_score_dict = df_scores.set_index("Fichier").loc[original_files, "Score"].to_dict()

# Ajouter la colonne original_score √† tous les fichiers selon leur base_name
df_sorted["original_score"] = df_sorted["base_name"].map(original_score_dict)

# Calculer le gain par rapport √† l‚Äôoriginal
df_sorted["gain_vs_original"] = df_sorted["Score"] - df_sorted["original_score"]

# Cr√©er une colonne bool√©enne : True si c'est le CV original
df_sorted["is_original"] = df_sorted["Fichier"].isin(original_files)

# Trier : d'abord par base_name, puis par is_original (True en premier), puis par Score d√©croissant
df_sorted = df_sorted.sort_values(
    by=["base_name", "is_original", "Score"],
    ascending=[True, False, False]
).reset_index(drop=True)

# Supprimer la colonne temporaire si n√©cessaire
df_sorted = df_sorted.drop(columns="is_original")

# Affichage lisible
for base, group in df_sorted.groupby("base_name"):
    print(f"\nüìÑ {base}")
    for _, r in group.iterrows():
        gain = f"(+{r['gain_vs_original']:.2f})" if r['gain_vs_original'] > 0 else f"({r['gain_vs_original']:.2f})"
        print(f"   {r['Fichier']:<80} {r['Score']:6.2f} {gain}")


üìÑ CV - Laurent D._14_01_2024.docx
   CV - Laurent D._14_01_2024.docx                                                   42.05 (nan)

üìÑ CV_AnaA_20250226.docx
   CV_AnaA_20250226.docx                                                             31.82 (nan)

üìÑ CV_CSA_NRJBI_20251016.docx
   CV_CSA_NRJBI_20251016.docx                                                        28.41 (nan)

üìÑ NRJBI_CEC_CV_Senior.docx
   NRJBI_CEC_CV_Senior.docx                                                          17.05 (0.00)
   NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-pro_enhanced.docx                    39.77 (+22.73)
   NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-flash_enhanced.docx                  29.55 (+12.50)
   NRJBI_CEC_CV_Senior_data_engineer_gemini-2.5-flash-lite_enhanced.docx             20.45 (+3.41)
   NRJBI_CEC_CV_Senior_data_engineer_gemini-2.0-flash_enhanced.docx                   9.09 (-7.95)

üìÑ NRJBI_CV_EMO_202510_revisionElise.docx
   NRJBI_CV_EMO_202510_revisionElise.d

### Version tout le CV offre transform√©s en vecteurs

In [23]:
# --- REQUIREMENTS ---
# pip install scikit-learn nltk
# ---------------------------------------------

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import nltk, os, re
from docx import Document

# T√©l√©chargement du stopword fran√ßais
nltk.download('stopwords')
from nltk.corpus import stopwords
stop_fr = stopwords.words('french')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\eupho\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [None]:
# --- Fonctions ---

def lire_docx(path):
    """Extrait le texte brut d'un fichier Word (.docx)."""
    doc = Document(path)
    full_text = [p.text for p in doc.paragraphs]
    return "\n".join(full_text)

def nettoyer_texte(texte: str) -> str:
    """Nettoie et normalise un texte fran√ßais."""
    texte = texte.lower()
    texte = re.sub(r"[^a-z√†√¢√ß√©√®√™√´√Æ√Ø√¥√ª√π√º√ø√±√¶≈ì0-9\s]", " ", texte)
    texte = re.sub(r"\s+", " ", texte)
    texte = re.sub(r"\d+", " ", texte)  # supprime tous les nombres
    return texte.strip()

def score_cv_contre_offre(cv_text, offre_text):
    """Calcule le Score TF-IDF entre un CV unique et l'offre."""
    # Nettoyage des textes
    cv_clean = nettoyer_texte(cv_text)
    offre_clean = nettoyer_texte(offre_text)

    # TF-IDF
    vectorizer = CountVectorizer(stop_words=stop_fr, ngram_range=(1,1))
    count_words = vectorizer.fit_transform([offre_clean, cv_clean])

    # Vecteurs
    offre_vec = count_words[0:1]
    cv_vec = count_words[1:2]

    # Similarit√© cosinus
    Score = cosine_similarity(offre_vec, cv_vec)[0][0]
    return Score

In [None]:
# Lis l'offre
offre_text = """Dans le cadre de sa mission d‚Äôexploitation et de valorisation des donn√©es m√©dicales, 
la DIDM fait face √† un besoin croissant de donn√©es fiables. Vous viendrez compl√©ter une √©quipe...
Excellente ma√Ætrise de SQL (Oracle) et solide exp√©rience en R...
Pratique des outils de versioning (Git, Bitbucket, Github)
Exp√©rience avec un outil ETL, id√©alement Talend
Une premi√®re approche de la dataviz (Tableau, QlikView) est un atout."""

# Lis un CV .docx
cv_text = lire_docx("test.docx")

# Calcul du Score
Score = score_cv_contre_offre(cv_text, offre_text)
print(f"Score de correspondance : {Score*100:.1f} %")

Score de correspondance : 38.9 %


In [47]:
cv_text

'Ing√©nieur Data / D√©veloppeur BI ‚Äì Sp√©cialisation donn√©es m√©dicales\nEmail : jean.dupont@example.com\nT√©l√©phone : 06 45 89 22 77\n\nProfil\nData engineer exp√©riment√© dans l‚Äôexploitation, la fiabilit√© et la valorisation de donn√©es m√©dicales.\nHabitu√© √† mod√©liser des flux de donn√©es, construire des pipelines ETL complexes sous Talend et SQL (Oracle), et √† assurer la qualit√©, la s√©curit√© et la tra√ßabilit√© des donn√©es pour des environnements analytiques et d√©cisionnels (BI, tableaux de bord, reporting).\n\nComp√©tences cl√©s\nLangages : SQL (Oracle, PostgreSQL), R, Java, Scala, Julia (bases)\nOutils ETL / Data Pipeline : Talend, Airflow, DataStage\nBusiness Intelligence : Tableau, QlikView, Power BI\nVersioning : Git, Bitbucket, GitHub\nData Modeling : conception de sch√©mas, mod√©lisation de tables, int√©gration de donn√©es h√©t√©rog√®nes\nQualit√© & S√©curit√© : validation des datasets, contr√¥les de coh√©rence, gestion des acc√®s et anonymisation\nBonnes prat

In [18]:
scores

array([0.07637796, 0.27880457])

In [None]:
#Scoring CV hors fonction
"""Calcule le Score TF-IDF entre un CV unique et l'offre."""
# Nettoyage des textes
cv_clean = nettoyer_texte(cv_text)
offre_clean = nettoyer_texte(offre_text)

# TF-IDF
vectorizer = CountVectorizer(stop_words=stop_fr, ngram_range=(1,1))
count_words = vectorizer.fit_transform([offre_clean, cv_clean])

# Vecteurs
offre_vec = count_words[0:1]
cv_vec = count_words[1:2]

# Similarit√© cosinus
Score = cosine_similarity(offre_vec, cv_vec)[0][0]
print("Score:", Score)

score: 0.3672651915581337


In [37]:
print(vectorizer.get_feature_names_out())

['acc√®s' 'advanced' 'airflow' 'alimenter' 'analyste' 'analytique'
 'analytiques' 'anglais' 'anonymisation' 'approche' 'assurer' 'atout'
 'aujourd' 'autres' 'avanc√©' 'bases' 'bash' 'besoin' 'bi' 'bitbucket'
 'bonnes' 'bord' 'business' 'cadre' 'certification' 'cl√©s' 'cnil' 'code'
 'coh√©rence' 'com' 'complexes' 'compl√©ter' 'comp√©tences' 'conception'
 'construction' 'construire' 'contraintes' 'contr√¥le' 'contr√¥les'
 'croissant' 'data' 'datasets' 'datastage' 'dataviz' 'didm'
 'documentation' 'donn√©es' 'dupont' 'd√©cisionnels' 'd√©partement'
 'd√©veloppement' 'd√©veloppeur' 'email' 'engineer' 'engineering' 'entrep√¥t'
 'environnements' 'etl' 'example' 'excel' 'excellente' 'expert'
 'exploitation' 'exp√©rience' 'exp√©riment√©' 'face' 'fait' 'fiabilit√©'
 'fiables' 'flux' 'formation' 'foundations' 'france' 'fran√ßais' 'garantir'
 'gestion' 'git' 'github' 'habitu√©' 'hui' 'h√©t√©rog√®nes' 'h√¥pital'
 'id√©alement' 'incidents' 'information' 'informatique' 'ing√©nieur'
 'integration' 'in

In [28]:
print(offre_clean)

dans le cadre de sa mission d exploitation et de valorisation des donn√©es m√©dicales la didm fait face √† un besoin croissant de donn√©es fiables vous viendrez compl√©ter une √©quipe excellente ma√Ætrise de sql oracle et solide exp√©rience en r pratique des outils de versioning git bitbucket github exp√©rience avec un outil etl id√©alement talend une premi√®re approche de la dataviz tableau qlikview est un atout


In [16]:
offre_vec

<1x1164 sparse matrix of type '<class 'numpy.float64'>'
	with 181 stored elements in Compressed Sparse Row format>

In [None]:
count_words

<3x1164 sparse matrix of type '<class 'numpy.float64'>'
	with 1285 stored elements in Compressed Sparse Row format>

In [14]:
cleaned

['dans le cadre de sa mission d exploitation et de valorisation des donn√©es m√©dicales la didm fait face √† un besoin croissant de donn√©es fiables c est pourquoi un nouveau poste est cr√©√© vous viendrez compl√©ter une √©quipe compos√©e d une charg√©e d √©tudes et d√©veloppements √† 50 et d un responsable etudes et d√©veloppements sous la responsabilit√© de ce dernier vos missions seront les suivantes construire des pipelines de donn√©es pour alimenter la bi et l analytique mod√©liser et structurer les flux tables et sch√©mas garantir la qualit√© la fiabilit√© et la s√©curit√© des donn√©es d√©velopper de nouveaux datasets pour la bi de la didm mettre en place des standards de d√©veloppement et de bonnes pratiques assurer le support et la r√©solution des incidents sur votre p√©rim√®tre votre bo√Æte √† outils excellente ma√Ætrise de sql oracle et solide exp√©rience en r connaissances en julia java ou scala appr√©ci√©es pratique des outils de versioning git bitbucket github exp√©rience 

In [12]:
print(len(cv_texts))

2


In [11]:
print(len(documents))

3


In [10]:
documents

['Dans le cadre de sa mission d‚Äôexploitation et de valorisation des donn√©es m√©dicales, la DIDM fait face √† un besoin croissant de donn√©es fiables. C‚Äôest pourquoi un nouveau poste est cr√©√©.\nVous viendrez compl√©ter une √©quipe compos√©e d‚Äôune Charg√©e d‚Äô√©tudes et d√©veloppements √† 50 % et d‚Äôun Responsable Etudes et D√©veloppements. Sous la responsabilit√© de ce dernier, vos missions seront les suivantes :\nConstruire des pipelines de donn√©es pour alimenter la BI et l‚Äôanalytique.\nMod√©liser et structurer les flux, tables et sch√©mas\nGarantir la qualit√©, la fiabilit√© et la s√©curit√© des donn√©es\nD√©velopper de nouveaux datasets pour la BI de la DIDM\nMettre en place des standards de d√©veloppement et de bonnes pratiques\nAssurer le support et la r√©solution des incidents sur votre p√©rim√®tre...\n\nVotre bo√Æte √† outils\nExcellente ma√Ætrise de SQL (Oracle) et solide exp√©rience en R\nConnaissances en Julia, Java ou Scala appr√©ci√©es\nPratique des outils de v