In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import os
os.chdir('/content/drive/MyDrive/GraphRAG_fiscal')

In [None]:
from dotenv import load_dotenv
import os

load_dotenv('/content/drive/MyDrive/GraphRAG_fiscal/cles.env')

api_key = os.getenv("OPENAI_API_KEY")

In [4]:
!pip install openai
!pip install PyPDF2

Collecting PyPDF2
  Downloading pypdf2-3.0.1-py3-none-any.whl.metadata (6.8 kB)
Downloading pypdf2-3.0.1-py3-none-any.whl (232 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.6/232.6 kB[0m [31m8.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: PyPDF2
Successfully installed PyPDF2-3.0.1


In [6]:
!pip install langchain-text-splitters

Collecting langchain-text-splitters
  Downloading langchain_text_splitters-1.0.0-py3-none-any.whl.metadata (2.6 kB)
Downloading langchain_text_splitters-1.0.0-py3-none-any.whl (33 kB)
Installing collected packages: langchain-text-splitters
Successfully installed langchain-text-splitters-1.0.0


In [None]:
import PyPDF2
from langchain_text_splitters import RecursiveCharacterTextSplitter

def load_cgi(pdf_path):  # cgi: Code Général des Impôts
    with open(pdf_path, 'rb') as file:
        reader = PyPDF2.PdfReader(file)
        text = ""
        for page in reader.pages:
            text += page.extract_text()
    return text


def split(text):
    splitter = RecursiveCharacterTextSplitter(
        separators=["\nArticle"],
        chunk_size=1000,
        chunk_overlap=200
    )
    return splitter.split_text(text)

In [None]:
txt = load_cgi('cgi-2025-fr.pdf')
segments = split(txt)
segments[1]

"Article premier. - Définition  \n \n    L'impôt sur les sociétés s’applique sur l'ensemble des produits, \nbénéfices et revenus prévus aux articles 4 et  8 ci-dessous, des sociétés et \nautres personnes morales visées à l’article 2 ci -après."

In [None]:
len(segments)

455

In [None]:
from openai import OpenAI
import json
import csv
from typing import List, Dict, Any

class Extracteur:


    def __init__(self, api_key: str = None, model: str = None):


        self.api_key = api_key
        
        self.client = OpenAI(api_key=self.api_key)
        self.model = model



        self.entity_types = [
            "LOI_FISCALE", "IMPOT", "TAUX", "CONTRIBUABLE",
            "REGIME_FISCAL", "OBLIGATION", "DECLARATION", "EXONERATION",
            "DEDUCTION", "ORGANISME", "DATE_LIMITE", "SANCTION",
            "SECTEUR_ACTIVITE", "SEUIL"
        ]

        self.relation_types = [
            "REGIT_PAR", "SOUMIS_A", "APPLIQUE_TAUX", "BENEFICIE_DE",
            "DOIT_DECLARER", "ECHEANCE", "ADMINISTRE_PAR", "SANCTIONNE_PAR",
            "REMPLACE", "CONDITIONNE", "CALCULE_PAR", "CONCERNE"
        ]

    def extraction_prompt(self, text: str) -> str:

        return  f"""Tu es un expert en fiscalité marocaine. Analyse le texte suivant et extrais toutes les entités fiscales pertinentes ainsi que leurs relations, sans te limiter à des catégories pré-définies.

                TEXTE À ANALYSER:
                {text}

                INSTRUCTIONS:
                1. Identifie toutes les entités fiscales dans le texte.
                2. Détermine le type de chaque entité de manière descriptive (ex: impôt, taxe, contribution, etc.).
                3. Identifie toutes les relations entre les entités (ex: "lié à", "applicable sur", "calculé à partir de", etc.).
                4. Extrait les attributs pertinents (montants, pourcentages, dates, délais, etc.).

                Réponds UNIQUEMENT avec un JSON valide suivant ce format exact:
                {{
                "relations": [
                    {{
                    "source_id": "entite_1",
                    "source_text": "texte source",
                    "target_id": "entite_2",
                    "target_text": "texte cible",
                    "type": "TYPE_RELATION",
                    "description": "description"
                    }}
                ]
                }}"""

    def extract(self, text: str) -> Dict[str, Any]:

        response = self.client.chat.completions.create(
            model=self.model,
            messages=[
                {"role": "system", "content": "Tu es un expert en droit fiscal marocain."},
                {"role": "user", "content": self.extraction_prompt(text)}
            ],
            temperature=0.1,
            response_format={"type": "json_object"}
        )
        return json.loads(response.choices[0].message.content)




    def save_relations(self, relations: List[Dict], filename: str = "relations_fiscales.csv"):


        fieldnames = ["source_id", "source_text", "target_id", "target_text", "type", "description"]

        with open(filename, 'w', newline='', encoding='utf-8') as csvfile:
            writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
            writer.writeheader()

            for relation in relations:
                row = {
                    "source_id": relation.get("source_id", relation.get("source", "")),
                    "source_text": relation.get("source_text", ""),
                    "target_id": relation.get("target_id", relation.get("target", "")),
                    "target_text": relation.get("target_text", ""),
                    "type": relation.get("type", ""),
                    "description": relation.get("description", "")
                }
                writer.writerow(row)




In [10]:
extracteur = Extracteur(
    api_key=api_key,
    model="gpt-4o-mini"
)

In [None]:
import time
toutes_relations = []

for i in range(50):
    result = extracteur.extract(segments[i])

    for relation in result.get("relations", []):
        relation["chunk"] = i + 1
        toutes_relations.append(relation)

    time.sleep(2)

extracteur.save_relations(toutes_relations, "relations_extraites_OpenAI.csv")


In [None]:
extracteur.extract(segments[0])

{'relations': [{'source_id': 'entite_1',
   'source_text': 'Code Général des Impôts',
   'target_id': 'entite_2',
   'target_text': 'loi de finances n° 43-06',
   'type': 'institué par',
   'description': 'Le Code Général des Impôts est institué par la loi de finances n° 43-06.'},
  {'source_id': 'entite_2',
   'source_text': 'loi de finances n° 43-06',
   'target_id': 'entite_3',
   'target_text': 'Dahir n° 1-06-232',
   'type': 'promulguée par',
   'description': 'La loi de finances n° 43-06 est promulguée par le Dahir n° 1-06-232.'},
  {'source_id': 'entite_4',
   'source_text': 'impôt sur les sociétés (I.S)',
   'target_id': 'entite_5',
   'target_text': 'impôt sur le revenu (I.R)',
   'type': 'mesures fiscales en matière de',
   'description': "Des mesures fiscales ont été introduites en matière d'impôt sur les sociétés et d'impôt sur le revenu."},
  {'source_id': 'entite_4',
   'source_text': 'impôt sur les sociétés (I.S)',
   'target_id': 'entite_6',
   'target_text': 'Taxe sur 

In [None]:
import pandas as pd
df = pd.read_csv('relations_extraites_OpenAI.csv')

In [17]:
df.head()

Unnamed: 0,source_id,source_text,target_id,target_text,type,description
0,entite_1,Code Général des Impôts,entite_2,loi de finances n° 43-06,institué par,Le Code Général des Impôts est institué par la...
1,entite_2,loi de finances n° 43-06,entite_3,Dahir n° 1-06-232,promulguée par,La loi de finances n° 43-06 est promulguée par...
2,entite_4,impôt sur les sociétés (I.S),entite_5,impôt sur le revenu (I.R),mesures fiscales en matière de,Des mesures fiscales ont été introduites en ma...
3,entite_4,impôt sur les sociétés (I.S),entite_6,Taxe sur la valeur ajoutée (T.V.A),mesures fiscales en matière de,Des mesures fiscales ont été introduites en ma...
4,entite_4,impôt sur les sociétés (I.S),entite_7,Droits d'enregistrement (D.E),mesures fiscales en matière de,Des mesures fiscales ont été introduites en ma...
