In [None]:
from docling.document_converter import DocumentConverter

converter = DocumentConverter()

# --------------------------------------------------------------
# Basic PDF extraction
# --------------------------------------------------------------

result = converter.convert("pages_risque (4).pdf")

document = result.document
markdown_output = document.export_to_markdown()
json_output = document.export_to_dict()

print(markdown_output)

In [12]:
%env GOOGLE_API_KEY=AIzaSyCUpPO7Qqj-cquXEmcvafcNv9WFnxF4rt4

#KEEEEEEY


env: GOOGLE_API_KEY=AIzaSyCUpPO7Qqj-cquXEmcvafcNv9WFnxF4rt4


In [23]:
import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from PyPDF2 import PdfMerger

# ========= CONFIGURATION =========
BASE_URL = "https://cihbank.ma"
START_URL = "https://cihbank.ma/espace-financier/resultats-financiers"
OUTPUT_DIR = "rapports_CIH"
os.makedirs(OUTPUT_DIR, exist_ok=True)

# ========= FONCTIONS =========

def get_soup(url):
    print(f"🔎 Lecture de la page : {url}")
    response = requests.get(url)
    return BeautifulSoup(response.content, "html.parser")

def extract_pdf_links(soup):
    links = []
    buttons = []
    years=soup.find_all("div",class_="accordion__copy")
    #print(years[0])
    for year in years:
        #print(year.find("div",class_="box-button"))
        buttons.append(year.find_all("div",class_="box-button")[0].find("button"))
    for button in buttons:
        onclick = button.get("onclick", "")
        if "window.location.href=" in onclick and ".pdf" in onclick:
            partial_url = onclick.split("'")[1]
            full_url = BASE_URL + partial_url
            links.append(full_url)
            #print("PDF trouvé :", full_url)
    return links

def download_pdfs(pdf_urls):
    merger = PdfMerger()
    year=2024
    for url in pdf_urls:
        filename = f"rapport_{year}.pdf"
        year=year-1
        #path = os.path.join(OUTPUT_DIR, filename)
        path = OUTPUT_DIR + "/" + filename
        
        if not os.path.exists(path):
            print(f"⬇️  Téléchargement : {filename}")
            response = requests.get(url, stream=True)
            with open(path, "wb") as f:
                for chunk in response.iter_content(chunk_size=8192):
                    f.write(chunk)
            merger.append(path)
        else:
            print(f"✅ Déjà présent : {filename}")
            merger.append(path)
    merged_path = os.path.join(OUTPUT_DIR, "merged_report.pdf")
    merger.write(merged_path)
    merger.close()
    print(f"✅ Rapport fusionné enregistré sous : {merged_path}")

# ========= Implémentaion =========

soup= get_soup(START_URL)
pdf_links = extract_pdf_links(soup)


download_pdfs(pdf_links)


🔎 Lecture de la page : https://cihbank.ma/espace-financier/resultats-financiers
⬇️  Téléchargement : rapport_2024.pdf
⬇️  Téléchargement : rapport_2023.pdf
⬇️  Téléchargement : rapport_2022.pdf
⬇️  Téléchargement : rapport_2021.pdf
⬇️  Téléchargement : rapport_2020.pdf
⬇️  Téléchargement : rapport_2019.pdf
⬇️  Téléchargement : rapport_2018.pdf
⬇️  Téléchargement : rapport_2017.pdf
⬇️  Téléchargement : rapport_2016.pdf
⬇️  Téléchargement : rapport_2015.pdf
⬇️  Téléchargement : rapport_2014.pdf
⬇️  Téléchargement : rapport_2013.pdf
✅ Rapport fusionné enregistré sous : rapports_CIH\merged_report.pdf


In [24]:
import fitz  # PyMuPDF

def extraire_pages_avec_mots(pdf_path, mots_cles=None, save_to=None):
    if mots_cles is None:
        mots_cles = ["risque de crédit","risque de marché","risque de liquidité","risque opérationnel"]  # mot par défaut

    doc = fitz.open(pdf_path)
    pages_conservees = []

    for i, page in enumerate(doc):
        texte = page.get_text().lower()
        if any(mot.lower() in texte for mot in mots_cles):
            pages_conservees.append(page)

    if save_to and pages_conservees:
        nouveau_doc = fitz.open()
        for page in pages_conservees:
            nouveau_doc.insert_pdf(doc, from_page=page.number, to_page=page.number)
        nouveau_doc.save(save_to)
        print(f"PDF filtré enregistré dans : {save_to}")
        nouveau_doc.close()

    doc.close()
    return pages_conservees

# Exemple d'utilisation
pdf_source = "rapports_CIH\merged_report.pdf"
pdf_filtré = "rapports_CIH\merged_report_filtré.pdf"
pages = extraire_pages_avec_mots(pdf_source, save_to=pdf_filtré)

print(f"{len(pages)} pages contiennent la liste des mots")


PDF filtré enregistré dans : rapports_CIH\merged_report_filtré.pdf
82 pages contiennent la liste des mots


In [25]:
"""
Advanced PDF Processing with Gemini

Dependencies:
    - google-generativeai >= 0.3.0
    - python-dotenv
    - pymupdf (fitz)

Environment Setup:
    - Requires: GOOGLE_API_KEY in .env file
"""

import os
import fitz  # PyMuPDF
import google.generativeai as genai
from dotenv import load_dotenv

# Charger les variables d'environnement depuis un fichier .env
load_dotenv()
GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")

if not GOOGLE_API_KEY:
    raise ValueError("GOOGLE_API_KEY not set in environment variables")

# Configurer Gemini
genai.configure(api_key=GOOGLE_API_KEY)

# Charger le modèle (ex: gemini 1.5 flash)
model = genai.GenerativeModel("models/gemini-2.5-flash-preview-04-17")

# Prompt d'extraction
prompt = """Extract all the text content, including both plain text and tables, from the 
provided document or image. Maintain the original structure, including headers, 
paragraphs, and any content preceding or following the table. Format the table in 
Markdown format, preserving numerical data and relationships. Ensure no text is excluded."""

def extraction():
    file_path = "rapports_CIH\merged_report_filtré.pdf"
    pdf = fitz.open(file_path)
    output = ""
    for i, page in enumerate(pdf):
        print(f"\n--- 📄 Traitement de la page {i+1} ---")

        # Créer un PDF temporaire contenant une seule page
        temp_doc = fitz.open()
        temp_doc.insert_pdf(pdf, from_page=i, to_page=i)
        pdf_bytes = temp_doc.write()
        temp_doc.close()

        try:
            response = model.generate_content([
                {"mime_type": "application/pdf", "data": pdf_bytes},
                {"text": prompt}
            ])
            print(response.text)
            output+= response.text
        except Exception as e:
            print(f"❌ Erreur lors du traitement de la page {i+1} : {e}")
    return output

output= extraction()


--- 📄 Traitement de la page 1 ---
800
www.cihbank.ma
Description de la nature d'activité de chaque portefeuille stratégie, intention de gestion, catégories
d'instruments utilisés;
Analyse des opérations de cession;
Analyse des indicateurs de performance de l'activité. Cette grille d'analyse est renseignée par portefeuilles
homogènes.
Dépréciation des actifs sous IFRS9
Le modèle de dépréciation prévoit d'une part, l'anticipation des pertes en se basant sur les pertes attendues
(ECL) et d'autre part, la prise en compte de prévisions macro-économiques dans la détermination des
paramètres de risque (Forward looking).
Le périmètre d'application du modèle de dépréciation d'IFRS 9 concerne l'ensemble des prêts et des créances
de la banque (Bilan et Hors Bilan) comptabilisés au coût amorti. Ainsi, le périmètre d'application de la norme
IFRS 9 pour le CIH concerne :
• Les créances envers la clientèle
• Les créances envers les établissements bancaires
• Le portefeuille titres
S'agissant des cré

In [35]:
"""
Dependencies:
    - docling: For PDF content extraction
    - langchain_ollama: For local LLM integration
    - langchain_huggingface: For text embeddings
    - langchain_community: For vector store operations
    - langchain.text_splitter: For text chunking
    - langchain.chains: For QA chain implementation
    - langchain.prompts: For prompt templating

Models Used:
    - Embeddings: sentence-transformers/all-MiniLM-L12-v2
    - Question Answering: llama3.1 8B (via Ollama)
"""
import os
from typing import List
from docling.document_converter import DocumentConverter  # For PDF content extraction
#from langchain_ollama.llms import OllamaLLM  # Local LLM integration
from langchain_community.llms import HuggingFaceHub
from langchain.text_splitter import RecursiveCharacterTextSplitter  # For text chunking
from langchain_huggingface import HuggingFaceEmbeddings  # For text embeddings
from langchain_community.vectorstores import FAISS  # Vector database
from langchain.chains import RetrievalQA  # For question-answering pipeline
from langchain.prompts import PromptTemplate  # For customizing LLM prompts
from langchain_google_genai import ChatGoogleGenerativeAI

import csv
import re

def save_markdown_table_to_csv(markdown_table: str, csv_path: str):
    lines = markdown_table.strip().split("\n")
    if len(lines) < 3:
        print("Le tableau Markdown semble incomplet.")
        return

    headers = [col.strip() for col in lines[0].split("|") if col.strip()]
    rows = [
        [cell.strip() for cell in row.split("|") if cell.strip()]
        for row in lines[2:]
    ]

    with open(csv_path, "w", newline='', encoding='utf-8') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(headers)
        writer.writerows(rows)

    print(f"\n✅ Tableau sauvegardé dans {csv_path}")


"""def extract_pdf_content(file_path) -> str:
    converter = DocumentConverter()
    result = converter.convert(file_path)
    return result.document.export_to_markdown()
"""
def create_vector_store(texts: List[str]) -> FAISS:
    # Initialize sentence transformer model for text embeddings
    embeddings = HuggingFaceEmbeddings(
        model_name="sentence-transformers/all-MiniLM-L12-v2"
    )
    vector_store = FAISS.from_texts(texts, embeddings)
    return vector_store

def get_qa_chain(vector_store):
    # Initialize local LLM using Ollama
    #llm = OllamaLLM(model="llama3.1",  base_url="http://localhost:12345")
    llm = ChatGoogleGenerativeAI(
    model="gemini-2.5-flash-preview-04-17",
    google_api_key=os.environ["GOOGLE_API_KEY"],
    temperature=0.7
)
    # do not introduct the answer, only the answer.
    # Define custom prompt template for better QA responses
    prompt_template = """
        Use the following pieces of context to answer the question at the end.

        Check context very carefully and reference and try to make sense of that before responding.
        If you don't know the answer, just say you don't know.
        Don't try to make up an answer.
        Answer must be to the point.
        Think step-by-step.
        do not introduct the answer, only the answer.

        Context: {context}

        Question: {question}

        Answer:"""

    PROMPT = PromptTemplate(
        template=prompt_template, input_variables=["context", "question"]
    )


    # Configure QA chain with retrieval and prompt settings
    qa_chain = RetrievalQA.from_chain_type(
        llm=llm,
        chain_type="stuff",  # Combines all retrieved docs into single context
        retriever=vector_store.as_retriever(search_kwargs={"k": 100}),  # Retrieve top 3 relevant chunks
        chain_type_kwargs={"prompt": PROMPT},
        return_source_documents=True,  # Include source documents in response
    )
    return qa_chain

def main():
    """
    Main function to orchestrate the PDF processing and QA pipeline

    Workflow:
    1. Extract content from PDF
    2. Split content into manageable chunks
    3. Create vector store with embeddings
    4. Set up QA chain and process questions
    """
    # STEP 1: Extract PDF content as text using Claude 3.5 Sonnet API
    # Different PDF types for testing
    #file_path = project_root+"/input/sample-1.pdf" # Table in pdf
    #file_path = project_root+"/input/sample-2.pdf" # Image based simple table in pdf
    #file_path = project_root+"/input/sample-3.pdf" # Image based complex table in pdf
    file_path = "BOULKADI_CV.pdf"  # Complex PDF with text and tables in images
    #file_path = project_root+"/input/sample-5.pdf"  # Multi-column Texts
    prompt_template = """
        Use the following pieces of context to answer the question at the end.

        Check context very carefully and reference and try to make sense of that before responding.
        If you don't know the answer, just say you don't know.
        Don't try to make up an answer.
        Answer must be to the point.
        Think step-by-step.
        do not introduct the answer, only the answer.

        Context: {context}

        Question: {question}

        Answer:"""

    PROMPT = PromptTemplate(
        template=prompt_template, input_variables=["context", "question"]
    )

    llm = ChatGoogleGenerativeAI(
    model="gemini-2.5-flash-preview-04-17",
    google_api_key=os.environ["GOOGLE_API_KEY"],
    temperature=0.7)


    #structured_content = extract_pdf_content(file_path)
    structured_content = output
    # Output extracted content to output.txt
    os.makedirs("output", exist_ok=True)
    with open("output\output_text1.txt", 'w', encoding='utf-8') as file:
        file.write(structured_content)

    # STEP 2: Split extracted PDF text into smaller chunks for processing
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=9500,  # Maximum chunk size in characters
        chunk_overlap=100,  # Overlap between chunks to maintain context
        is_separator_regex=False
    )
    text_chunks = text_splitter.split_text(output)

    # STEP 3: Create vector store with embeddings for semantic search
    vector_store = create_vector_store(text_chunks)

    # STEP 4: Initialize QA chain for processing questions
    qa_chain = get_qa_chain(vector_store)
    
  
    question = """Tu es un expert en analyse de rapports financiers.

À partir du texte fourni, extrait uniquement les **valeurs et les unités** des indicateurs suivants, en te basant uniquement sur les données explicites du texte (ne pas inventer) :

- Risques de Crédit pondérés
- Risques de Marché pondérés
- Risques Opérationnels pondérés
- Total des Actifs Pondérés
- Année

Présente les résultats sous forme de tableau Markdown avec exactement les colonnes suivantes :

| Année | Risques de Crédit pondérés | Risques de Marché pondérés | Risques Opérationnels pondérés | Total des Actifs Pondérés |
|-------|-----------------------------|-----------------------------|--------------------------------|----------------------------|

Répond uniquement avec le tableau Markdown sans introduction ni explication, sans écrire Markdown au début, donner les valeurs numériques en DH.
Si, tu connais pas une valeur, remplacer par 0, je te rappelle une autre fois donner les valeurs en dh.
Sans écrire Markdown au début.
balayer tous les années. """
    #Donne-moi un tableau avec le classement, prénom, compétences et domaine de la personne.Tu dois renvoyer **uniquement** un tableau au format Markdown, avec les colonnes suivantes :| Classement | Prénom | Compétences | Domaine |
    #print(f"\nQuestion: {question}")
    response = qa_chain.invoke({"query": question})
    print(f" {response['result']}")#\nAnswer:
    markdown_result = response["result"]
    save_markdown_table_to_csv(markdown_result, "output\output_result1.csv")

if __name__ == "__main__":
    main()

 | Année | Risques de Crédit pondérés | Risques de Marché pondérés | Risques Opérationnels pondérés | Total des Actifs Pondérés |
|-------|-----------------------------|-----------------------------|--------------------------------|----------------------------|
| 2013  | 18675000000                 | 140000000                   | 2400000000                     | 21215000000                |
| 2014  | 19741100000                 | 135105000                   | 2667000000                     | 22543205000                |
| 2015  | 20876065000                 | 300107000                   | 2725853000                     | 23902025000                |
| 2016  | 22920065000                 | 163123000                   | 2779818000                     | 25863000000                |
| 2017  | 27755201000                 | 144879000                   | 2890314000                     | 30790394000                |
| 2018  | 40946363000                 | 1172925000                  | 38361210