In [5]:
import os
import fitz  # PyMuPDF pour PDF
from docx import Document  # python-docx pour Word
from pptx import Presentation  # python-pptx pour PowerPoint
import json

def extract_text_from_pdf(pdf_path):
    """Extraction du texte d'un fichier PDF."""
    doc = fitz.open(pdf_path)
    text = "\n".join([page.get_text("text") for page in doc])
    return text

def extract_text_from_docx(docx_path):
    """Extraction du texte d'un fichier Word (DOCX)."""
    doc = Document(docx_path)
    text = "\n".join([para.text for para in doc.paragraphs])
    return text

def extract_text_from_pptx(pptx_path):
    """Extraction du texte d'un fichier PowerPoint (PPTX)."""
    prs = Presentation(pptx_path)
    text = "\n".join([shape.text for slide in prs.slides for shape in slide.shapes if hasattr(shape, "text")])
    return text

def convert_folder_to_json(folder_path, output_folder=r"C:\Users\PC\Desktop\ProjetSD"):
    """Convertit tous les fichiers PDF, DOCX et PPTX d'un dossier en JSON."""
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    for file_name in os.listdir(folder_path):
        file_path = os.path.join(folder_path, file_name)
        file_extension = file_name.split('.')[-1].lower()

        if file_extension not in ["pdf", "docx", "pptx"]:
            continue  # Ignorer les fichiers non pris en charge

        data = {"titre": file_name, "contenu": ""}
        if file_extension == "pdf":
            data["contenu"] = extract_text_from_pdf(file_path)
        elif file_extension == "docx":
            data["contenu"] = extract_text_from_docx(file_path)
        elif file_extension == "pptx":
            data["contenu"] = extract_text_from_pptx(file_path)

        output_json_path = os.path.join(output_folder, f"{file_name}.json")
        with open(output_json_path, "w", encoding="utf-8") as f:
            json.dump(data, f, indent=4, ensure_ascii=False)

        print(f"✅ JSON créé : {output_json_path}")

# PYTHON_DATA 
convert_folder_to_json(r"C:\Users\PC\Desktop\ProjetSD\PYTHON_DATA")


✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\1- Introduction-2022.pdf.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\2-Elements de bases(variables-Opérateurs-Entrée-Sortie 2021.pdf.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\3-Structures-Repetitives 2021[Enregistré automatiquement].pdf.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\Cours de Python-1.pdf.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\Cours de Python-2.pdf.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\Cours de Python-3.pdf.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\Cours de Python-4.pdf.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\Cours de Python-5.pdf.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\Cours de Python-6.pdf.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\Cours de Python-7.pdf.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\Cours de Python.pdf.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\courspython3.pdf.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\des-bases-de-donnees-en-python-avec-

In [6]:
import os
import fitz  # PyMuPDF pour PDF
from docx import Document  # python-docx pour Word
from pptx import Presentation  # python-pptx pour PowerPoint
import json

def extract_text_from_pdf(pdf_path):
    """Extraction du texte d'un fichier PDF."""
    doc = fitz.open(pdf_path)
    text = "\n".join([page.get_text("text") for page in doc])
    return text

def extract_text_from_docx(docx_path):
    """Extraction du texte d'un fichier Word (DOCX)."""
    doc = Document(docx_path)
    text = "\n".join([para.text for para in doc.paragraphs])
    return text

def extract_text_from_pptx(pptx_path):
    """Extraction du texte d'un fichier PowerPoint (PPTX)."""
    prs = Presentation(pptx_path)
    text = "\n".join([shape.text for slide in prs.slides for shape in slide.shapes if hasattr(shape, "text")])
    return text

def convert_folder_to_json(folder_path, output_folder=r"C:\Users\PC\Desktop\ProjetSD\DATA_JAVA_JSON"):
    """Convertit tous les fichiers PDF, DOCX et PPTX d'un dossier en JSON."""
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    for file_name in os.listdir(folder_path):
        file_path = os.path.join(folder_path, file_name)
        file_extension = file_name.split('.')[-1].lower()

        if file_extension not in ["pdf", "docx", "pptx"]:
            continue  # Ignorer les fichiers non pris en charge

        data = {"titre": file_name, "contenu": ""}
        if file_extension == "pdf":
            data["contenu"] = extract_text_from_pdf(file_path)
        elif file_extension == "docx":
            data["contenu"] = extract_text_from_docx(file_path)
        elif file_extension == "pptx":
            data["contenu"] = extract_text_from_pptx(file_path)

        output_json_path = os.path.join(output_folder, f"{file_name}.json")
        with open(output_json_path, "w", encoding="utf-8") as f:
            json.dump(data, f, indent=4, ensure_ascii=False)

        print(f"✅ JSON créé : {output_json_path}")

# JAVA_DATA 
convert_folder_to_json(r"C:\Users\PC\Desktop\ProjetSD\JAVA_DATA")


✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\DATA_JAVA_JSON\CH_1JAVA.pptx.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\DATA_JAVA_JSON\CH_2_POO avec Java_partie_1.pptx.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\DATA_JAVA_JSON\CH_2_POO avec Java_partie_2.pptx.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\DATA_JAVA_JSON\CH_3_Paradigmes avancés de la POO en Java_partie_1.pptx.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\DATA_JAVA_JSON\CH_3_Paradigmes avancés de la POO en Java_partie_21.pdf.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\DATA_JAVA_JSON\CH_3_Paradigmes avancés de la POO en Java_partie_22.docx.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\DATA_JAVA_JSON\CH_3_Paradigmes avancés de la POO en Java_partie_22.pdf.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\DATA_JAVA_JSON\CH_3_Paradigmes avancés de la POO en Java_partie_23.pdf.json
✅ JSON créé : C:\Users\PC\Desktop\ProjetSD\DATA_JAVA_JSON\CH_3_Paradigmes avancés de la POO en Java_partie_3.pdf.json
✅ JSON créé : C:\