In [2]:
import re
from pathlib import Path
from typing import Any

import pandas as pd
import pdfplumber


In [3]:
pdf_path = Path("../data/soat-traffic-2025.pdf")

In [None]:
records: list[dict[str, Any]] = []
chapter, article, specialty, section, subsection = None, None, None, None, None

with pdfplumber.open(pdf_path) as pdf:
    for page_num, page in enumerate(pdf.pages[2:62], start=3):
      text = page.extract_text().split("\n")

      for line in text:
        stripped_line = line.strip()

        # Checking the chapter
        chapter_match = re.match(
          r"CAP[IÍ]TULO\s+([IVXLC]+)", stripped_line, re.IGNORECASE
        )
        if chapter_match:
            chapter = f"Capítulo {chapter_match.group(1)}"

        # Checking the article
        article_match = re.match(r"ART[IÍ]CULO\s+(\d+)", stripped_line, re.IGNORECASE)
        if article_match:
            article = f"Artículo {article_match.group(1)}"

            # Looking for the specialty in the same line
            specialty_match = re.search(r"especialidad\s+de\s+(.+?),", stripped_line, re.IGNORECASE)
            if specialty_match:
                specialty = specialty_match.group(1).strip()
            continue

        # Checking the section (fully uppercase, without digits)
        section_match = re.match(r"^(\d+)\.?\s+([A-ZÁÉÍÓÚÜÑ\s]+)\.?$", stripped_line)
        if section_match:
            # Comprobar si la parte numérica tiene punto, si no es así, agregarlo
            # Aplicar capitalize method solo a la parte de texto
            section = f"{section_match.group(1)}. {section_match.group(2).strip().capitalize()}"
            continue

        # Checking the subsection (uppercase, usually longer and may include accents)
        if stripped_line.isupper() and len(stripped_line.split()) > 3 and not stripped_line.startswith("CÓDIGO"):
            subsection = stripped_line.strip().capitalize()
            continue

        # Procedure table row (code, description, and group)
        procedure_match = re.match(r"^(\d{4,5})\s+(.*?)\s+(\d+)$", stripped_line)
        if procedure_match:
            code, description, group = procedure_match.groups()

            records.append({
                "chapter": chapter,
                "article": article,
                "specialty": specialty,
                "section": section,
                "subsection": subsection,
                "code": int(code),
                "description": description.strip(),
                "group": int(group),
                "page": page_num
            })

df = pd.DataFrame(records)

In [36]:
len(df)

1771

In [65]:
df.head(50)

Unnamed: 0,chapter,article,specialty,section,subsection,code,description,group,page
0,Capítulo III,Artículo 3,neurocirugía (01),1. Órganos intracraneales,Craneotomías para tratamiento quirúrgico de le...,1101,Craneotomía para extracción cuerpo extraño; in...,9,3
1,Capítulo III,Artículo 3,neurocirugía (01),1. Órganos intracraneales,Craneotomías para tratamiento quirúrgico de le...,1102,Craneotomía para drenaje hematoma epidural o s...,20,3
2,Capítulo III,Artículo 3,neurocirugía (01),1. Órganos intracraneales,Craneotomías para tratamiento quirúrgico de le...,1103,Craneotomía para extracción secuestro,8,3
3,Capítulo III,Artículo 3,neurocirugía (01),1. Órganos intracraneales,Craneotomías para tratamiento quirúrgico de le...,1104,Craneotomía para drenaje de hematoma de fosa p...,20,3
4,Capítulo III,Artículo 3,neurocirugía (01),1. Órganos intracraneales,Craneotomías para tratamiento quirúrgico de le...,1106,Craneotomía para ruptura de senos de duramadre,20,3
5,Capítulo III,Artículo 3,neurocirugía (01),1. Órganos intracraneales,Craneotomías para tratamiento quirúrgico de le...,1107,Trepanación para monitoreo de presión intracra...,12,3
6,Capítulo III,Artículo 3,neurocirugía (01),1. Órganos intracraneales,Craneotomías para tratamiento quirúrgico de le...,1108,Craneotomía para drenaje hematoma intracerebral,13,3
7,Capítulo III,Artículo 3,neurocirugía (01),1. Órganos intracraneales,Craneotomías para tratamiento de lesiónes vasc...,1110,Tratamiento de malformaciones arterio venosas ...,21,3
8,Capítulo III,Artículo 3,neurocirugía (01),1. Órganos intracraneales,Craneotomías para tratamiento de lesiónes vasc...,1111,Tratamiento de malformaciones arterio venosas ...,23,3
9,Capítulo III,Artículo 3,neurocirugía (01),1. Órganos intracraneales,Craneotomías para tratamiento de lesiónes vasc...,1112,Tratamiento de malformaciones arterio venosas ...,22,3


In [39]:
df["group"].unique(), len(df["group"].unique())

(array([ 9, 20,  8, 12, 13, 21, 23, 22, 10,  4,  5,  3,  6,  7, 11,  2]), 16)

In [66]:
df[df["code"] == 18401]

Unnamed: 0,chapter,article,specialty,section,subsection,code,description,group,page
1714,Capítulo III,Artículo 20,Cirugía Plástica,4. Páncreas y vías biliares,"3 esófago, estómago e intestino delgado",18401,E R C P Endoscopia para colangiopancreatografí...,10,60


In [67]:
df["specialty"].unique(), len(df["specialty"].unique())

(array(['neurocirugía (01)', 'Cirugía Plástica'], dtype=object), 2)

In [69]:
df["section"].unique(), len(df["section"].unique())

(array(['1. Órganos intracraneales', '2. Derivaciones',
        '3. Raquis y médula espinal', '4. Pares craneanos',
        '5. Nervios y ganglios simpáticos', '6. Plejos',
        '1. Aparato lagrimal', '2. Párpados', '3. Conjuntiva', '4. Órbita',
        '5. Globo y músculos oculares', '6. Córnea y esclerótica',
        '7. Iris y cuerpo ciliar', '8. Cámara anterior y retina',
        '9. Cristalino y cuerpo vítreo', '1. Oído externo',
        '2. Oído medio y mastoides', '3. Oído interno',
        '4. Nariz y senos paranasales', '5. Laringe y tráquea',
        '1. Glándulas tiroides y paratiroides',
        '1. Vasos sanguíneos periféricos', '2. Sistema linfático',
        '4. Vasos sanguíneos intraabdominales', '5. Vasos intratorácicos',
        '6. Corazón y pericardio',
        '7. Otros procedimientos dirigidos al corazón', '2. Bronquios',
        '3. Pulmón', '4. Esófago', '1. Pared abdominal y peritoneo',
        '2. Hígado y vías biliares', '3. Páncreas',
        '4. Glándula

#### Servicios profesionales del cirujano o ginecoobstetra

In [67]:
records: list[dict[str, Any]] = []

with pdfplumber.open(pdf_path) as pdf:
  page = pdf.pages[96:97][0].extract_text()
  match = re.search(r"1.\sServicios profesionales del cirujano o ginecoobstetra:", page)
  result = page[match.start():].split("\n") if match else []
  rows = result[1:-1]

  def get_record(row: str) -> dict[str, Any]:
    """Extracts a record from a row of text."""
    row_match = re.match(
      r"^(\d{5})\s+(Grupo\s+(?:\d+|especial\s+\d+))\s+([\d,]+)\s+([\d\.]+)$",
      row,
      re.IGNORECASE,
    )
    if not row_match:
      return {}
    return {
      "code": int(row_match.group(1)),
      "group": int(row_match.group(2).split()[-1]),
      "special": str(row_match.group(2)).find("especial") != -1,
      "Fee (S.M.L.D.V)": float(row_match.group(3).replace(",", ".")),
      "Fee (COP)": int(row_match.group(4).replace(".", "")),
    }

  records = list(map(get_record, rows))

pd.DataFrame(records)

Unnamed: 0,code,group,special,Fee (S.M.L.D.V),Fee (COP)
0,39000,2,False,2.93,139000
1,39001,3,False,3.57,169400
2,39002,4,False,4.31,204500
3,39003,5,False,5.86,278100
4,39004,6,False,7.68,364400
5,39005,7,False,9.0,427100
6,39006,8,False,10.44,495400
7,39007,9,False,12.76,605500
8,39008,10,False,15.71,745400
9,39009,11,False,17.62,836100


### Servicios profesionales del anestesiólogo

In [8]:
records: list[dict[str, Any]] = []

with pdfplumber.open(pdf_path) as pdf:
  page = pdf.pages[97:98][0].extract_text().split("\n")
  rows = page[2:18]

  def get_record(row: str) -> dict[str, Any]:
    """Extracts a record from a row of text."""
    row_match = re.match(
      r"^(\d{5})\s+(Grupo\s+(?:\d+|especial\s+\d+))\s+([\d,]+)\s+([\d\.]+)$",
      row,
      re.IGNORECASE,
    )
    if not row_match:
      return {}
    return {
      "code": int(row_match.group(1)),
      "group": int(row_match.group(2).split()[-1]),
      "special": str(row_match.group(2)).find("especial") != -1,
      "Fee (S.M.L.D.V)": float(row_match.group(3).replace(",", ".")),
      "Fee (COP)": int(row_match.group(4).replace(".", "")),
    }

  records = list(map(get_record, rows))

pd.DataFrame(records)

Unnamed: 0,code,group,special,Fee (S.M.L.D.V),Fee (COP)
0,39100,2,False,2.09,99200
1,39101,3,False,2.53,120000
2,39102,4,False,3.1,147100
3,39103,5,False,3.83,181700
4,39104,6,False,4.56,216400
5,39105,7,False,5.3,251500
6,39106,8,False,6.17,292800
7,39107,9,False,7.3,346400
8,39108,10,False,9.02,428000
9,39109,11,False,10.08,478300
