In [11]:
from pdfminer.high_level import extract_pages
from pdfminer.layout import *
import textwrap
import math

pdf_url = "civil-code.pdf"

In [None]:
def concat_strings(input_list):
    result_list = []
    temp_string = ""
    prev_attributes = None

    for item in input_list:
        text, font, size, float_val = item
        attributes = (font, size, float_val)

        if attributes == prev_attributes:
            temp_string += " " + text
        else:
            if temp_string:
                result_list.append([temp_string.strip()] + list(prev_attributes))
            temp_string = text
            prev_attributes = attributes

    # Append the last concatenated string
    if temp_string:
        result_list.append([temp_string.strip()] + list(prev_attributes))

    return result_list

In [55]:
def extract_text_by_fontsize(pdf_url):
    extracted_text = ""
    curr_font = None
    curr_size = None
    font_attr = []

    for page_layout in extract_pages(pdf_url):
        for element in page_layout:
            for line in element:
                thisline = []
                if isinstance(line, LTTextLine):
                    for char in line:
                        if isinstance(char, LTChar):
                            ft = char.fontname
                            sz = math.ceil(char.size)
                            x = char.bbox[0]

                            #if ft != curr_font or sz != curr_size:

                            l = line.get_text()
                            thisline.append(l[:-1])
                            thisline.append(ft)
                            thisline.append(sz)
                            thisline.append(x)
                            font_attr.append(thisline)
                            #print(thisline)

                                #curr_font = ft
                                #curr_size = sz                
                        break

    result_list = concat_strings(font_attr)
    return result_list

pdf_text = extract_text_by_fontsize(pdf_url)


In [56]:
pdf_text

[['Code civil', 'Times-Bold', 16, 263.63700732],
 ["Titre préliminaire : De la publication, des effets et de l'application des lois en général",
  'Times-Bold',
  16,
  56.692],
 ['Article 1', 'Times-Bold', 14, 56.692],
 ["Les lois et, lorsqu'ils sont publiés au Journal officiel de la République française, les actes administratifs entrent en vigueur à la date qu'ils fixent ou, à défaut, le lendemain de leur publication. Toutefois, l'entrée en vigueur de celles de leurs dispositions dont l'exécution nécessite des mesures d'application est reportée à la date d'entrée en vigueur de ces mesures. En cas d'urgence, entrent en vigueur dès leur publication les lois dont le décret de promulgation le prescrit et les actes administratifs pour lesquels le Gouvernement l'ordonne par une disposition spéciale. Les dispositions du présent article ne sont pas applicables aux actes individuels.",
  'Times-Roman',
  11,
  56.692],
 ['Article 2', 'Times-Bold', 14, 56.692],
 ["La loi ne dispose que pour l'

In [26]:
for page_layout in extract_pages(pdf_url):
    for element in page_layout:
        print(element.bbox)

(263.63700732, 768.3569999700001, 331.63700732, 784.3569999700001)
(56.692, 713.9570022600001, 533.1239999999998, 749.15699921)
(56.692, 680.86200293, 108.394, 694.86200293)
(56.692, 594.0469995100001, 530.5060000000002, 644.6470056200001)
(56.692, 544.44699341, 534.3340000000002, 568.6470056200001)
(56.692, 508.04699951, 408.04300000000006, 519.04699951)
(56.692, 470.06201513999997, 108.394, 484.06201513999997)
(56.692, 422.8469873, 349.49000000000007, 433.8469873)
(56.692, 373.26199683, 108.394, 387.26199683)
(56.692, 326.04699951, 379.9270000000001, 337.04699951)
(56.692, 289.64700562, 433.6620000000002, 300.64700562)
(56.692, 253.24701172, 534.6090000000003, 264.24701172)
(56.692, 215.26202734000003, 108.394, 229.26202734000003)
(56.692, 154.84698729999997, 537.2050000000003, 179.04699951000003)
(56.692, 105.26202734000005, 108.394, 119.26202734000005)
(160.88100299, 70.34599996999998, 434.3930029899999, 78.34599996999998)
(56.692, 646.39700464, 58.692, 654.39700464)
(56.692, 581.9

KeyboardInterrupt: 

In [61]:
def classify_text(font_name, font_size, x):
  # Classification rules here based on font_name, font_size, and y (position)
  if ("Bold" in font_name or x > 100) and font_size > 14:
    return "Title"
  elif "Bold" in font_name and font_size > 13:
    return "Section"
  elif font_size > 8:
    return "Paragraph"
  else:
    return "Footer"

def process_pdf(pdf_path):

  text_categories = []
  for line_attr in pdf_text:
    
    attr = []
    text = line_attr[0]
    font_name = line_attr[1]
    font_size = line_attr[2]
    x = line_attr[3]
    category = classify_text(font_name, font_size, x)
    
    attr.append(text)
    attr.append(category)
    text_categories.append(attr)

  return text_categories

text_categories = process_pdf(pdf_url)
text_categories

[['Code civil', 'Title'],
 ["Titre préliminaire : De la publication, des effets et de l'application des lois en général",
  'Title'],
 ['Article 1', 'Section'],
 ["Les lois et, lorsqu'ils sont publiés au Journal officiel de la République française, les actes administratifs entrent en vigueur à la date qu'ils fixent ou, à défaut, le lendemain de leur publication. Toutefois, l'entrée en vigueur de celles de leurs dispositions dont l'exécution nécessite des mesures d'application est reportée à la date d'entrée en vigueur de ces mesures. En cas d'urgence, entrent en vigueur dès leur publication les lois dont le décret de promulgation le prescrit et les actes administratifs pour lesquels le Gouvernement l'ordonne par une disposition spéciale. Les dispositions du présent article ne sont pas applicables aux actes individuels.",
  'Paragraph'],
 ['Article 2', 'Section'],
 ["La loi ne dispose que pour l'avenir ; elle n'a point d'effet rétroactif.",
  'Paragraph'],
 ['Article 3', 'Section'],
 ["