<a href="https://colab.research.google.com/github/drfperez/openair/blob/main/Cdu.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [15]:

# Instal·lació de les llibreries necessàries
!pip install PyPDF2 reportlab

import re
from PyPDF2 import PdfReader
from reportlab.lib.pagesizes import A4
from reportlab.pdfgen import canvas
from google.colab import files

def extract_valid_cdu(pdf_path):
    """
    Extreu només els valors vàlids de la darrera columna (CDU) del PDF.
    Només inclou codis amb estructura vàlida (alfanumèrics amb punts, parèntesis, etc.).
    """
    reader = PdfReader(pdf_path)
    cdu_codes = []

    # Patró per identificar codis CDU vàlids
    cdu_pattern = re.compile(r"^[A-Za-z]?\d{1,3}(\.\d+)?(\([A-Za-z0-9]+\))?$")

    for page in reader.pages:
        text = page.extract_text()
        lines = text.split("\n")
        for line in lines:
            # Divideix cada línia en columnes per espais múltiples o tabulacions
            columns = line.split("  ")  # Doble espai com a separador de columnes
            if len(columns) > 1:  # Només processa línies amb almenys dues columnes
                last_column = columns[-1].strip()  # Agafa la darrera columna
                # Comprova si la darrera columna coincideix amb el patró de CDU vàlid
                if cdu_pattern.match(last_column):
                    cdu_codes.append(last_column)

    return cdu_codes

def generate_cdu_pdf(cdu_codes, output_path):
    """
    Genera un PDF amb els codis CDU, un a sota l'altre, en format DIN A4.
    """
    c = canvas.Canvas(output_path, pagesize=A4)
    width, height = A4
    margin_top_bottom = 50
    margin_left_right = 50
    font_size = 12
    line_spacing = 20

    c.setFont("Helvetica", font_size)
    y = height - margin_top_bottom

    for code in cdu_codes:
        if y < margin_top_bottom:  # Si no hi ha espai, crea una nova pàgina
            c.showPage()
            c.setFont("Helvetica", font_size)
            y = height - margin_top_bottom

        c.drawString(margin_left_right, y, code)
        y -= line_spacing

    c.save()

# Pas 1: Pujar el fitxer PDF
print("Puja el teu fitxer PDF:")
uploaded = files.upload()

# Pas 2: Extreure el nom del fitxer pujat
pdf_path = list(uploaded.keys())[0]

# Pas 3: Extreure els codis CDU vàlids de la darrera columna
cdu_codes = extract_valid_cdu(pdf_path)

# Pas 4: Generar el PDF amb els codis CDU vàlids
output_pdf_path = "Codis_CDU.pdf"
generate_cdu_pdf(cdu_codes, output_pdf_path)

# Pas 5: Descarregar el PDF generat
print(f"PDF generat: {output_pdf_path}")
files.download(output_pdf_path)

Puja el teu fitxer PDF:


Saving ePèrgam - Llistat.pdf to ePèrgam - Llistat (13).pdf
PDF generat: Codis_CDU.pdf


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>