In [1]:
from llmsherpa.readers import LayoutPDFReader
from pdfminer.high_level import extract_pages
from pdfminer.layout import *
import math

llmsherpa_api_url = "https://readers.llmsherpa.com/api/document/developer/parseDocument?renderFormat=all&useNewIndentParser=true"
pdf_url = "Kheops-agent/civil-code.pdf"
pdf_reader = LayoutPDFReader(llmsherpa_api_url)
doc = pdf_reader.read_pdf(pdf_url)

In [2]:
for item in doc.json:
    print(item)

{'block_class': 'cls_0', 'block_idx': 0, 'level': 0, 'page_idx': 0, 'sentences': ["Code civil Titre préliminaire : De la publication, des effets et de l'application des lois en général"], 'tag': 'para'}
{'block_class': 'cls_1', 'block_idx': 1, 'level': 1, 'page_idx': 0, 'sentences': ['Article 1'], 'tag': 'header'}
{'block_class': 'cls_2', 'block_idx': 2, 'level': 2, 'page_idx': 0, 'sentences': ["Les lois et, lorsqu'ils sont publiés au Journal officiel de la République française, les actes administratifs entrent en vigueur à la date qu'ils fixent ou, à défaut, le lendemain de leur publication.", "Toutefois, l'entrée en vigueur de celles de leurs dispositions dont l'exécution nécessite des mesures d'application est reportée à la date d'entrée en vigueur de ces mesures."], 'tag': 'para'}
{'block_class': 'cls_2', 'block_idx': 3, 'level': 2, 'page_idx': 0, 'sentences': ["En cas d'urgence, entrent en vigueur dès leur publication les lois dont le décret de promulgation le prescrit et les acte

In [3]:
for section in doc.sections():
    print(section.title)

Article 1
Article 2
Article 3
Article 4
Article 6
Article 6-1
Article 6-2
Code civil
Livre Ier : Des personnes Titre Ier : Des droits civils
Article 7
Article 8
Article 9
Article 9-1
Article 11
Article 14
Article 15
Chapitre II : Du respect du corps humain
Article 16
Article 16-1-1
Article 16-2
Article 16-3
Article 16-4
Article 16-6
Article 16-7
Article 16-8
Article 16-8-1
Chapitre III : De l'examen des caractéristiques génétiques d'une personne et de l'identification d'une personne par ses empreintes génétiques
Article 16-10
Article 16-11
Article 16-12
Chapitre IV : De l'utilisation des techniques d'imagerie cérébrale
Article 16-14
Livre Ier : Des personnes Titre Ier bis : De la nationalité française Chapitre Ier : Dispositions générales
Article 17
Article 17-1
Article 17-2
Article 17-3
Article 17-4
Article 17-5
Article 17-6
Article 17-7
Article 17-8
Article 17-9
Article 17-10
Article 17-11
Article 17-12
Chapitre II : De la nationalité française d'origine Section 1 : Des Français par 

In [4]:
for section in doc.sections():
    for line in section.paragraphs():
        print(line.sentences)

["Les lois et, lorsqu'ils sont publiés au Journal officiel de la République française, les actes administratifs entrent en vigueur à la date qu'ils fixent ou, à défaut, le lendemain de leur publication.", "Toutefois, l'entrée en vigueur de celles de leurs dispositions dont l'exécution nécessite des mesures d'application est reportée à la date d'entrée en vigueur de ces mesures."]
["En cas d'urgence, entrent en vigueur dès leur publication les lois dont le décret de promulgation le prescrit et les actes administratifs pour lesquels le Gouvernement l'ordonne par une disposition spéciale."]
['Les dispositions du présent article ne sont pas applicables aux actes individuels.']
["La loi ne dispose que pour l'avenir ; elle n'a point d'effet rétroactif."]
['Les lois de police et de sûreté obligent tous ceux qui habitent le territoire.']
['Les immeubles, même ceux possédés par des étrangers, sont régis par la loi française.']
["Les lois concernant l'état et la capacité des personnes régissent 

In [5]:
def extract_text_by_fontsize(pdf_url):
    extracted_text = ""
    curr_font = None
    curr_size = None
    font_attr = []

    for page_layout in extract_pages(pdf_url):
        for element in page_layout:
            for line in element:
                thisline = []
                if isinstance(line, LTTextLine):
                    for char in line:
                        if isinstance(char, LTChar):
                            ft = char.fontname
                            sz = math.ceil(char.size)

                            if ft != curr_font or sz != curr_size:
                                thisline.append(ft)
                                thisline.append(sz)

                                font_attr.append(thisline)
                                #print(thisline)

                                curr_font = ft
                                curr_size = sz                
                        break
    return font_attr

pdf_text = extract_text_by_fontsize(pdf_url)


In [6]:
pdf_text

[['Times-Bold', 16],
 ['Times-Bold', 14],
 ['Times-Roman', 11],
 ['Times-Bold', 14],
 ['Times-Roman', 11],
 ['Times-Bold', 14],
 ['Times-Roman', 11],
 ['Times-Bold', 14],
 ['Times-Roman', 11],
 ['Times-Bold', 14],
 ['Times-Roman', 8],
 ['Times-Roman', 11],
 ['Times-Bold', 14],
 ['Times-Roman', 11],
 ['Times-Bold', 14],
 ['Times-Roman', 11],
 ['Times-Bold', 14],
 ['Times-Roman', 11],
 ['Times-Roman', 8],
 ['Times-Bold', 16],
 ['Times-Bold', 14],
 ['Times-Roman', 11],
 ['Times-Bold', 14],
 ['Times-Roman', 11],
 ['Times-Bold', 14],
 ['Times-Roman', 11],
 ['Times-Bold', 14],
 ['Times-Roman', 11],
 ['Times-Bold', 14],
 ['Times-Roman', 8],
 ['Times-Roman', 11],
 ['Times-Bold', 14],
 ['Times-Roman', 11],
 ['Times-Bold', 14],
 ['Times-Roman', 11],
 ['Times-Bold', 14],
 ['Times-Roman', 11],
 ['Times-Bold', 16],
 ['Times-Bold', 14],
 ['Times-Roman', 11],
 ['Times-Bold', 14],
 ['Times-Roman', 11],
 ['Times-Roman', 8],
 ['Times-Roman', 11],
 ['Times-Bold', 14],
 ['Times-Roman', 11],
 ['Times-Bold'

In [7]:
for page_layout in extract_pages(pdf_url):
    for element in page_layout:
        print(element.bbox)

(263.63700732, 768.3569999700001, 331.63700732, 784.3569999700001)
(56.692, 713.9570022600001, 533.1239999999998, 749.15699921)
(56.692, 680.86200293, 108.394, 694.86200293)
(56.692, 594.0469995100001, 530.5060000000002, 644.6470056200001)
(56.692, 544.44699341, 534.3340000000002, 568.6470056200001)
(56.692, 508.04699951, 408.04300000000006, 519.04699951)
(56.692, 470.06201513999997, 108.394, 484.06201513999997)
(56.692, 422.8469873, 349.49000000000007, 433.8469873)
(56.692, 373.26199683, 108.394, 387.26199683)
(56.692, 326.04699951, 379.9270000000001, 337.04699951)
(56.692, 289.64700562, 433.6620000000002, 300.64700562)
(56.692, 253.24701172, 534.6090000000003, 264.24701172)
(56.692, 215.26202734000003, 108.394, 229.26202734000003)
(56.692, 154.84698729999997, 537.2050000000003, 179.04699951000003)
(56.692, 105.26202734000005, 108.394, 119.26202734000005)
(160.88100299, 70.34599996999998, 434.3930029899999, 78.34599996999998)
(56.692, 646.39700464, 58.692, 654.39700464)
(56.692, 581.9

In [68]:
from pdfminer import textwrap

def classify_text(text, font_name, font_size, y):
  # Implement your classification rules here based on font_name, font_size, and y (position)
  if "Bold" in font_name and font_size > 14:
    return "Title"
  elif "Bold" in font_name and font_size > 12 and y > prev_y + 50:  # Adjust threshold based on your PDFs
    return "Title"
  else:
    return "Paragraph"

def process_pdf(pdf_path):
  # Use pdfminer.layout to extract text and layout information
  for page_layout in extract_pages(pdf_url):
    for element in page_layout:
      if isinstance(element, textwrap.TextWrapper):
        text = element.get_text().strip()
        font_name = element.char_styles[0][1].font.name
        font_size = element.char_styles[0][1].font.size
        y = element.bbox[1]  # Get Y coordinate of bounding box
        category = classify_text(text, font_name, font_size, y)
        # Do something with the classified text and category
        print(f"Text: {text}, Category: {category}")

# Example usage
pdf_path = "your_pdf.pdf"
process_pdf(pdf_path)

['Times-Bold', 16]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-Roman', 8]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Roman', 8]
['Times-Bold', 16]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-Roman', 8]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Bold', 16]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Roman', 8]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-Roman', 11]
['Times-Bold', 14]
['Times-R

In [None]:
from IPython.core.display import display, HTML
selected_section = None
# find a section in the document by title
for section in doc.sections():
    if section.title == 'SEPTEMBER Provence-9.jpg':
        selected_section = section
        break
# use include_children=True and recurse=True to fully expand the section.
# include_children only returns at one sublevel of children whereas recurse goes through all the descendants
HTML(section.to_html(include_children=True, recurse=True))