# Transformation de CV en Dossier de Comp√©tences

Ce notebook pr√©sente un pipeline complet pour transformer un CV en dossier de comp√©tences.

Les √©tapes comprennent :

- **Extraction de texte** : Soit via une extraction native (PDF s√©lectionnable) ou par OCR (PaddleOCR).
- **Extraction OCR-Free** : Utilisation du mod√®le Donut pour extraire des informations directement depuis l‚Äôimage.
- **Conversion JSON** : Transformation de la sortie JSON en un format lisible par l‚Äôhumain.
- **Calcul de similarit√©** : Comparaison des comp√©tences extraites avec un ensemble id√©al.
- **Extraction NER** : Utilisation de Camembert pour la reconnaissance d‚Äôentit√©s (extraction de comp√©tences, langues, etc.).


In [1]:
# Imports n√©cessaires
import fitz  # PyMuPDF
import pytesseract
from PIL import Image, ImageDraw, ImageFont
import numpy as np
import cv2
from langdetect import detect
from paddleocr import PaddleOCR
import json

# Pour l'approche OCR-Free avec Donut
from transformers import DonutProcessor, VisionEncoderDecoderModel

# Pour NER avec Camembert
from transformers import pipeline, CamembertTokenizer

# Configurez le chemin de Tesseract (√† adapter selon votre environnement)
pytesseract.pytesseract.tesseract_cmd = r"C:\Users\mathi\anaconda3\Lib\site-packages\pytesseract\tesseract.exe"

ModuleNotFoundError: No module named 'fitz'

## 1. D√©tection de la langue d'une image

Cette fonction utilise Tesseract pour extraire le texte depuis une image, puis `langdetect` pour d√©terminer la langue.

**Exemple toy :** Nous cr√©ons une image simple contenant du texte.

In [None]:
def detect_language_from_image(image):
    # Extraction de texte avec Tesseract (rapide)
    text = pytesseract.image_to_string(image, lang="eng+fra")
    
    if text.strip():
        try:
            detected_lang = detect(text)
            print(f"üîç Detected Language: {detected_lang}")  # Debug
            if detected_lang.startswith("fr"):
                return "fr"
            elif detected_lang.startswith("en"):
                return "en"
        except Exception as e:
            print(f"Erreur de d√©tection de langue: {e}")
            return "unknown"
    return "unknown"

**Toy Example 1 ‚Äì D√©tection de la langue :**

Cr√©ons une image contenant du texte en fran√ßais.

In [None]:
# Cr√©ation d'une image blanche avec du texte
toy_img = Image.new('RGB', (300, 100), color=(255, 255, 255))
draw = ImageDraw.Draw(toy_img)
# Utilisation d'une police par d√©faut (si disponible)
try:
    font = ImageFont.truetype("arial.ttf", 20)
except IOError:
    font = None
draw.text((10, 40), "Bonjour, comment √ßa va ?", fill=(0, 0, 0), font=font)

lang_toy = detect_language_from_image(toy_img)
print("Langue d√©tect√©e (toy):", lang_toy)

## 2. Extraction de texte via OCR avec PaddleOCR

Cette fonction extrait le texte d'un PDF en utilisant PaddleOCR.

**Remarque :** Pour cet exemple, un PDF r√©el est n√©cessaire. Ici, nous pr√©sentons la fonction.

$$\text{Exemple : } \text{extract\_text\_with\_paddleocr(pdf\_path)}$$

In [None]:
def extract_text_with_paddleocr(pdf_path):
    extracted_text = ""
    with fitz.open(pdf_path) as pdf:
        if len(pdf) == 0:
            print("Erreur: Le PDF est vide ou corrompu.")
            return ""
        
        for page_num, page in enumerate(pdf, start=1):
            zoom = 2.0  # Augmentation de la r√©solution pour l'OCR
            mat = fitz.Matrix(zoom, zoom)
            pix = page.get_pixmap(matrix=mat, alpha=False)
            img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
            
            # D√©tection de la langue de la page
            lang = detect_language_from_image(img)
            
            # S√©lection du mod√®le PaddleOCR en fonction de la langue d√©tect√©e
            if lang == "fr":
                print("üá´üá∑ Utilisation de PaddleOCR en mode fran√ßais...")
                ocr = PaddleOCR(use_angle_cls=True, lang="latin", use_gpu=False)
            else:
                print("üá¨üáß Utilisation de PaddleOCR en mode anglais...")
                ocr = PaddleOCR(use_angle_cls=True, lang="en", use_gpu=False)
            
            # Ex√©cution de l'OCR avec PaddleOCR
            ocr_result = ocr.ocr(np.array(img), det=True, rec=True, cls=True)
            extracted_text += f"\n--- Page {page_num} (OCR) ---\n"
            
            if ocr_result and isinstance(ocr_result, list) and ocr_result[0]:
                for line in ocr_result[0]:
                    if isinstance(line, list) and len(line) > 1:
                        text_tuple = line[1]
                        if isinstance(text_tuple, tuple) and len(text_tuple) > 0:
                            text_value = text_tuple[0]
                            if isinstance(text_value, str):
                                extracted_text += text_value + "\n"
            else:
                extracted_text += "\n[Pas de texte d√©tect√© sur cette page]\n"
    return extracted_text

## 3. Pipeline d'extraction du PDF

Cette fonction d√©termine si l'extraction native du texte depuis le PDF (via PyMuPDF) est possible.
Si le texte extrait est insuffisant (moins de 100 caract√®res), elle utilise l'OCR avec PaddleOCR.

$$\text{Si } |text| > 100 \text{ alors extraction native, sinon utilisation de l'OCR.}$$

In [None]:
def extraction_pipeline(pdf_path):
    # Extraction native via PyMuPDF
    text_native = ""
    with fitz.open(pdf_path) as pdf:
        for page in pdf:
            text_native += page.get_text()
    
    if len(text_native.strip()) > 100:
        print("Extraction native r√©ussie, utilisation du texte extrait.")
        return text_native
    else:
        print("Extraction native insuffisante, utilisation de l'OCR.")
        return extract_text_with_paddleocr(pdf_path)

## 4. Extraction OCR-Free avec Donut

Utilisation du mod√®le Donut pour extraire des informations directement depuis l'image, sans passer par un OCR explicite.

**√âtapes :**
1. Charger le mod√®le et le processor.
2. Convertir la premi√®re page du PDF en image.
3. Extraire le contenu via Donut.

$$\text{Donut output : une cha√Æne JSON structur√©e.}$$

In [None]:
# Chargement du mod√®le Donut
donut_model = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base")
donut_processor = DonutProcessor.from_pretrained("naver-clova-ix/donut-base")

def extract_with_donut(pdf_path):
    # Traitement de la premi√®re page du PDF
    with fitz.open(pdf_path) as pdf:
        page = pdf[0]
        zoom = 2.0
        mat = fitz.Matrix(zoom, zoom)
        pix = page.get_pixmap(matrix=mat, alpha=False)
        image = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
    
    pixel_values = donut_processor(image, return_tensors="pt").pixel_values
    outputs = donut_model.generate(pixel_values)
    decoded_output = donut_processor.tokenizer.decode(outputs[0], skip_special_tokens=True)
    return decoded_output

## 5. Conversion du JSON en format lisible

Cette fonction prend en entr√©e une cha√Æne JSON (par exemple, la sortie du mod√®le Donut) et la convertit en un texte format√© pour une lecture humaine.

$$\text{Conversion : JSON } \to \text{ texte lisible.}$$

In [None]:
def json_to_human_readable(json_output):
    try:
        data = json.loads(json_output)
    except json.JSONDecodeError:
        print("Erreur: La sortie n'est pas un JSON valide.")
        return json_output  # Retourne la cha√Æne brute si le JSON n'est pas valide
    
    # Formatage du JSON de mani√®re lisible
    readable = ""
    # On suppose que le JSON a une structure type dossier de comp√©tences.
    if "skills_portfolio" in data:
        portfolio = data["skills_portfolio"]
        if "personal_info" in portfolio:
            info = portfolio["personal_info"]
            readable += f"Nom: {info.get('name', 'N/A')}\n"
            readable += f"R√©sidence: {info.get('residence', 'N/A')}\n\n"
        if "professional_experience" in portfolio:
            readable += "Exp√©rience professionnelle:\n"
            for exp in portfolio["professional_experience"]:
                readable += f"- Entreprise: {exp.get('company', 'N/A')}, Dur√©e: {exp.get('duration', 'N/A')}\n"
                readable += f"  Contexte: {exp.get('context', '')}\n"
                readable += f"  R√©alisations: {exp.get('achievements', '')}\n\n"
        if "education" in portfolio:
            readable += "Formation:\n"
            for edu in portfolio["education"]:
                readable += f"- {edu.get('degree', 'N/A')} ({edu.get('period', 'N/A')}) √† {edu.get('school', 'N/A')}\n"
            readable += "\n"
        if "languages" in portfolio:
            readable += "Langues:\n"
            for lang in portfolio["languages"]:
                readable += f"- {lang.get('name', 'N/A')} ({lang.get('level', 'N/A')})\n"
            readable += "\n"
        if "skills" in portfolio:
            readable += "Comp√©tences techniques:\n"
            readable += ", ".join(portfolio["skills"]) + "\n\n"
        if "similarity_score" in portfolio:
            readable += f"Score de similarit√©: {portfolio['similarity_score']}\n"
    else:
        # Sinon, on retourne le JSON format√© avec indentations
        readable = json.dumps(data, indent=4, ensure_ascii=False)
    return readable

## 6. Calcul de Similarit√© entre comp√©tences

La fonction ci-dessous calcule le score de similarit√© entre les comp√©tences d'un candidat et un ensemble id√©al.

L'√©quation utilis√©e est :  
$$\text{Score} = \frac{n}{N} \times 100$$  

o√π $n$ est le nombre de comp√©tences communes et $N$ le nombre total de comp√©tences id√©ales.

**Toy Example :**

```python
score = compute_similarity({"Python", "R"}, {"Python", "R", "SQL"})
# R√©sultat attendu : environ 66.67%
```

In [None]:
def compute_similarity(candidate_skills, ideal_skills):
    common_skills = candidate_skills.intersection(ideal_skills)
    score = (len(common_skills) / len(ideal_skills)) * 100
    return round(score, 2)

## 7. Utilisation de Camembert pour la NER

Cette section montre comment utiliser le mod√®le Camembert NER pour extraire des entit√©s du texte.

Nous d√©finissons d'abord quelques listes pr√©d√©finies de comp√©tences, langues, soft skills, dipl√¥mes, secteurs et notions math√©matiques.

Ensuite, la fonction `extract_ner` applique le mod√®le Camembert sur le texte (apr√®s normalisation avec `.title()`)
et cat√©gorise chaque entit√© en fonction des listes.

$$\text{Camembert NER : } \text{ Texte } \to \text{ Entit√©s cat√©goris√©es}$$

In [None]:
# Listes pr√©d√©finies
competences = {
    "Python", "R", "Java", "C++", "SQL", "JavaScript", "Docker", "Kubernetes", "Excel", "Power BI", "Git",
    "Tensorflow", "Pytorch", "Scikit-Learn", "Numpy", "Scipy", "Matplotlib", "Pandas", "AWS", "Linux", "TCP/IP",
    "PostgreSQL", "Scrum", "JIRA", "CI/CD", "Machine Learning", "Deep Learning", "Reinforcement Learning", "NLP", "Computer Vision",
    "MySQL", "MongoDB", "NoSQL", "Spark", "Hadoop"
}

langues = { "Fran√ßais", "Anglais", "Espagnol", "Allemand", "Chinois", "Russe", "Arabe", "Italien", "Portugais"}

soft_skills = {
    "Leadership", "Communication", "Esprit D'√©quipe", "Adaptabilit√©", "Cr√©ativit√©",
    "Autonomie", "R√©solution De Probl√®mes", "Gestion Du Temps", "Esprit Analytique", 
    "Gestion Du Stress", "Organisation", "Initiative", "Planification", "Proactivit√©",
    "Gestion De Projet", "Coordination", "Collaboration", "Gestion De Conflit", "Vulgarisation",
    "Pr√©sentation Orale", "Discipline", "Empathie", "Tol√©rance", "Confiance En Soi", "Pers√©v√©rance",
    "Curiosit√©", "Polyvalence", "M√©moire", "Esprit Critique"
}

diplomes_certif = {
    "BTS", "DUT", "Licence", "Master", "Doctorat", "PhD", "MBA", 
    "TOEIC", "TOEFL", "IELTS", "Certifi√© AWS", "PMP", "Scrum Master", 
    "Cisco CCNA", "Microsoft Azure", "Google Cloud Professional", 
    "Coursera Deep Learning", "MITx Machine Learning"
}

secteurs = {
    "Finance", "Banque", "Assurance", "Sant√©", "Pharmaceutique", "Biotechnologies", "A√©ronautique", "A√©rospatial", "D√©fense",  
    "Automobile", "T√©l√©communications", "√ânergie", "Nucl√©aire", "√ânergies Renouvelables", "Transport", "Ferroviaire", "Maritime",  
    "E-commerce", "Grande Distribution", "√âducation", "Cybers√©curit√©", "Automatisation", "Robotique", "Informatique", "Cloud Computing", 
    "Big Data", "Intelligence Artificielle", "Domotique", "Agroalimentaire", "Environnement",  
    "Luxe", "Mode", "M√©dias", "Jeux Vid√©o"
}

maths_algo = {
    "Statistiques", "Probabilit√©s", "Test D'Hypoth√®ses", "Estimation", "R√©gression", "S√©ries Temporelles",  
    "Optimisation", "Programmation Lin√©aire", "Optimisation Combinatoire", "Programmation Dynamique", "Optimisation Convexe",
    "Descente De Gradient", "Algorithmes D'Optimisation Stochastique", "Graphes", "R√©seaux", "Th√©orie Des Graphes",  
    "Algorithmes De Tri", "Algorithmes Sur Les Graphes", "Programmation Parall√®le", "Analyse Num√©rique", "√âquations Diff√©rentielles", 
    "Approximation Num√©rique", "Interpolation", "Monte-Carlo", "Int√©gration Num√©rique", "Transform√©e De Fourier", "Processus Markoviens",  
    "Algorithmes EM", "Traitement D'Images", "Analyse Topologique Des Donn√©es", "Cryptographie", "Th√©orie Des Nombres"
}

def extract_ner(text):
    # Charger le mod√®le Camembert NER
    tokenizer = CamembertTokenizer.from_pretrained("Jean-Baptiste/camembert-ner")
    ner = pipeline("ner", model="Jean-Baptiste/camembert-ner", tokenizer=tokenizer, grouped_entities=True)
    
    # Normalisation du texte
    text_capitalized = text.title()
    
    results = ner(text_capitalized)
    
    # Initialiser les listes pour chaque cat√©gorie
    comp = []
    lang_list = []
    soft = []
    dipl = []
    sect = []
    math = []
    
    # Parcourir les r√©sultats et cat√©goriser les entit√©s
    for entity in results:
        word = entity["word"]
        entity_type = entity["entity_group"]
        score = entity["score"]
        
        if word in competences:
            entity_type = "COMPETENCE"
            comp.append(word)
        if word in langues:
            entity_type = "LANGUE"
            lang_list.append(word)
        if word in soft_skills:
            entity_type = "SOFT SKILL"
            soft.append(word)
        if word in diplomes_certif:
            entity_type = "DIPLOME"
            dipl.append(word)
        if word in secteurs:
            entity_type = "SECTEUR"
            sect.append(word)
        if word in maths_algo:
            entity_type = "MATHS/ALGO"
            math.append(word)
            
        print(f"{word} -> {entity_type} ({score:.2f})")
    
    return {
        "competences": comp,
        "langues": lang_list,
        "soft_skills": soft,
        "diplomes_certif": dipl,
        "secteurs": sect,
        "maths_algo": math
    }

**Toy Example 2 ‚Äì Extraction NER avec Camembert :**

Nous utilisons un petit texte toy qui contient des comp√©tences connues.

In [None]:
toy_text = "Python and Machine Learning are key skills. I also know R and SQL."
ner_toy = extract_ner(toy_text)
print("R√©sultats NER (toy):")
print(ner_toy)

## 8. Tests et Exemples compl√©mentaires

Voici quelques exemples suppl√©mentaires pour illustrer les fonctions qui ne n√©cessitent pas de fichiers externes.

**Toy Example ‚Äì Calcul de similarit√© :**

```python
score = compute_similarity({"Python", "R"}, {"Python", "R", "SQL"})
# R√©sultat attendu : environ 66.67%
```

In [None]:
toy_candidate_skills = {"Python", "R"}
toy_ideal_skills = {"Python", "R", "SQL"}
similarity_toy = compute_similarity(toy_candidate_skills, toy_ideal_skills)
print("Score de similarit√© (toy) :", similarity_toy, "%")

**Toy Example ‚Äì Conversion JSON en format lisible :**

Nous utilisons un JSON toy repr√©sentant un dossier de comp√©tences.

In [None]:
toy_json = """
{
    "skills_portfolio": {
        "personal_info": {
            "name": "Alice Dupont",
            "residence": "Lyon, France"
        },
        "professional_experience": [
            {
                "duration": "2020-2022",
                "company": "Startup X",
                "context": "D√©veloppement d'applications Python",
                "achievements": "Cr√©ation d'un prototype innovant"
            }
        ],
        "education": [
            {
                "period": "2015-2018",
                "degree": "Licence en Informatique",
                "school": "Universit√© de Lyon"
            }
        ],
        "languages": [
            {"name": "French", "level": "Natif"}
        ],
        "skills": ["Python", "Machine Learning"],
        "similarity_score": "75%"
    }
}
"""
readable_toy = json_to_human_readable(toy_json)
print("Conversion JSON (toy) -> Lisible:")
print(readable_toy)

## 9. Fonction Main ‚Äì Pipeline complet

La fonction principale int√®gre l'ensemble du pipeline et affiche les r√©sultats.

**Remarque :** Pour les fonctions d'extraction de PDF (extraction_pipeline et extract_with_donut),
un chemin vers un PDF r√©el est n√©cessaire. Les exemples toy pr√©sent√©s ci-dessus montrent les autres parties du pipeline.

In [None]:
def main():
    # Chemin vers un PDF r√©el (√† adapter)
    pdf_path = "C:\\Users\\mathi\\Desktop\\Mathis_Chabaud_CV.pdf"
    
    print("=== D√©but du pipeline d'extraction ===")
    
    # Extraction via pipeline (texte natif ou OCR)
    text_output = extraction_pipeline(pdf_path)
    print("=== Texte extrait ===")
    print(text_output)
    
    # Extraction OCR-Free avec Donut
    donut_result = extract_with_donut(pdf_path)
    print("=== Donut Output ===")
    print(donut_result)
    
    # Conversion de la sortie JSON en format lisible
    print("=== Conversion JSON -> Lisible ===")
    readable = json_to_human_readable(donut_result)
    print(readable)
    
    # Extraction NER via Camembert sur le texte extrait
    print("=== Extraction NER via Camembert ===")
    ner_res = extract_ner(text_output)
    print("Entit√©s extraites:")
    print(ner_res)
    
    # Calcul de similarit√© (exemple)
    ideal_skills = {"Python", "R", "SQL", "Machine Learning", "Big Data",
                    "Deep Learning", "Statistics", "Data Visualization",
                    "Time Series Analysis", "Cloud Computing", "Docker",
                    "Apache Spark", "Hadoop"}
    candidate_skills = {"Python", "R", "SQL", "Machine Learning"}
    similarity = compute_similarity(candidate_skills, ideal_skills)
    print("Score de similarit√© (exemple) :", similarity, "%")
    
if __name__ == '__main__':
    main()