In [5]:
!pip install pytesseract pillow python-docx
!pip install PyMuPDF
!pip install langdetect

Collecting langdetect
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m981.5/981.5 kB[0m [31m12.2 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: langdetect
  Building wheel for langdetect (setup.py) ... [?25l[?25hdone
  Created wheel for langdetect: filename=langdetect-1.0.9-py3-none-any.whl size=993222 sha256=72b01e47f48620cefb51efeb1a6e36f588c1dfce8533f219ce334db37b1b3444
  Stored in directory: /root/.cache/pip/wheels/0a/f2/b2/e5ca405801e05eb7c8ed5b3b4bcf1fcabcd6272c167640072e
Successfully built langdetect
Installing collected packages: langdetect
Successfully installed langdetect-1.0.9


In [6]:
import os
import fitz  # PyMuPDF pour les PDF
import pytesseract  # OCR pour les images et PDF scannés
from PIL import Image
from docx import Document
import langdetect  # Détection de la langue
import unicodedata

# Chemin vers Tesseract (nécessaire sous Windows, à adapter)
# pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

def detect_language(text):
    """Détecte la langue du texte (français ou anglais principalement)"""
    try:
        lang = langdetect.detect(text)
        return "fra" if lang == "fr" else "eng"
    except:
        return "eng"  # Par défaut anglais si la détection échoue

def clean_text(text):
    """Nettoyer le texte extrait"""
    return unicodedata.normalize("NFKD", text).strip()

def extract_text_from_pdf(pdf_path):
    """Extraction de texte depuis un PDF (textuel ou scanné)"""
    doc = fitz.open(pdf_path)
    text = ""

    for page in doc:
        extracted_text = page.get_text("text")
        if extracted_text.strip():  # Si on a du texte lisible
            text += extracted_text + "\n"
        else:  # Si le PDF est scanné, utiliser OCR
            image = page.get_pixmap()
            img = Image.frombytes("RGB", [image.width, image.height], image.samples)

            # Détecter la langue et utiliser OCR avec la bonne langue
            ocr_text = pytesseract.image_to_string(img, lang="eng+fra")
            text += ocr_text + "\n"

    return clean_text(text)

def extract_text_from_image(image_path):
    """Extraction de texte depuis une image"""
    img = Image.open(image_path)
    text = pytesseract.image_to_string(img, lang="eng+fra")
    return clean_text(text)

def extract_text_from_docx(docx_path):
    """Extraction de texte depuis un fichier Word"""
    doc = Document(docx_path)
    return clean_text("\n".join([para.text for para in doc.paragraphs]))

def extract_text_from_cv(cv_path):
    """Détecte le format et extrait le texte"""
    ext = cv_path.lower().split(".")[-1]

    if ext == "pdf":
        text = extract_text_from_pdf(cv_path)
    elif ext in ["jpg", "jpeg", "png", "tiff"]:
        text = extract_text_from_image(cv_path)
    elif ext in ["docx"]:
        text = extract_text_from_docx(cv_path)
    else:
        return "⚠️ Format non supporté !"

    # Détecter la langue et retourner le texte
    detected_lang = detect_language(text)
    print(f"Langue détectée : {detected_lang}")  # Pour vérifier la langue détectée
    return text

# **🔹 TEST AVEC UN FICHIER**
cv_file = "/content/CV_PFE_TARIK_ISMAIL_CV.pdf"  # Remplace par le chemin de ton fichier
extracted_text = extract_text_from_cv(cv_file)
print(extracted_text)

Langue détectée : fra
FORMATION 
2023- Présent : 
Master en Ingénierie Informatique et 
Analyse de données 
Faculté des Sciences El Jadida 
2022- 2023 : 
Licence en Génie Informatique 
Faculté des Sciences et Techniques de Settat 
2022- 2023 : 
Deust en Math Informatique Physique 
Faculté des Sciences et Techniques de Settat 
2019 - 2020 : 
Baccalauréat en Sciences Physique 
option français 
Lycée Oulad Hriz El Gharbiya 
COMPÉTENCES 
 
Développement web : PHP, Laravel, JEE, 
Spring Boot, Micro services, HTML, CSS, 
Bootstrap, JavaScript, Node.js, Express.js, 
React.js et Flask. 
Développement mobile : React Native. 
Bases de données : SQL, PL/SQL et MongoDB. 
Programmation : C, Java et Python. 
Conception et modélisation : Design Patterns, 
Merise, UML, Scrum. 
Analyse de données: Machine Learning, Deep 
Learning et Big Data. 
Gestion de version et Collaboration : Git, 
GitHub. 
Conteneurisation : Docker et Kubernetes. 
LANGUES 
Arabe : Maternelle 
Français : Courant 
