<a href="https://colab.research.google.com/github/MartinBelderBMC/Extractie-Analyse-omgevingsplannen/blob/main/Basisextractie_PDF_plannen.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Omgeving opzetten

In [3]:
!pip install pdfminer.six

Collecting pdfminer.six
  Downloading pdfminer_six-20250506-py3-none-any.whl.metadata (4.2 kB)
Downloading pdfminer_six-20250506-py3-none-any.whl (5.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.6/5.6 MB[0m [31m48.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pdfminer.six
Successfully installed pdfminer.six-20250506


In [28]:
import os, re, itertools, requests, io

import pandas as pd
import numpy as np

from bs4 import BeautifulSoup

from itertools import chain

from google.colab import drive

from pdfminer.converter import HTMLConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFPageInterpreter, PDFResourceManager
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument

In [5]:
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [None]:
# Voor hier de geprefereerde werkmap in

werkmap = ""

resultaten_map = os.path.join(werkmap, "Resultaten")

# Definitie functies voor extractie uit pdf

In [36]:
# @title
def create_link_pdf(IMRO, base_link):

  """Deze functie maakt een een link aan naar het
  archief van een specifieke IMRO

  Input:
  - IMRO: string van het IMRO-plan
  - base_link: string van de link naar het basisarchief van de gemeente in kwestie"""

  return base_link + IMRO + '/v_' + IMRO + '.pdf'

In [37]:
# @title
def pdf_to_html_string(link_to_pdf):
    """

    """
    # Extraheer de ruwe content van de pdf in bytes
    response = requests.get(link_to_pdf)

    raw_bytes_pdf = io.BytesIO(response.content)

    # Maak een memory buffer voor het parsingresultaat
    output_string = io.BytesIO()

    # Maak een PDF-parser object geassocieerd met de pdf-content in kwestie
    parser = PDFParser(raw_bytes_pdf)

    # Maak een PDF-document object geassocieerd met de parser
    doc = PDFDocument(parser)

    # Instantieer de resource manager
    rsrcmgr = PDFResourceManager()

    # Instantieer de layout parameter
    laparams = LAParams()

    # Maak de HTML converter aan die de content schrijft naar de in-memory
    # output_string
    device = HTMLConverter(rsrcmgr, output_string, laparams=laparams)

    # Maak een page-interpreter aan
    interpreter = PDFPageInterpreter(rsrcmgr, device)

    # Process de pagina's van de pdf in kwestie
    for page in PDFPage.create_pages(doc):
      interpreter.process_page(page)

    # Haal de html string op
    return output_string.getvalue()

# Aanmaken van extractielijst

## **Beschrijving werkwijze:**

**Stap 1: Het extraheren van de lijst met te parsen html bestanden**

---




We doorzoeken de index van manifestloacaties van ruimtelijkeplannen.nl. Dit archief bevat een sub-archief van ruimtelijke plannen per gemeente. De variabele "base_link" is de link naar het archief van een specifieke gemeente.


---




We zoeken vervolgens in het archief de specifieke plannen die zijn aangeleverd. De plannen hebben allemaal een 'IMRO'-code. De relevante IMRO-codes worden vooraf aangeleverd. Deze hebben we opgeslagen in het dictionary 'parse_plans'. In dit dictionary is de key de naam van het plan. De IMRO-code is te vinden in het onderliggende dictionary achter de key 'Code'



---


Het archief per IMRO is doorgaans in twee varianten beschikbaar: een archief met alle regels en hoofstukken in een enkele html, of een html per artikel. Daarom parsen we het archief of alle htmls die het prefix 'r_' hebben, gevolgd door de IMRO_code. Dit zijn de htmls die de te extraheren regels bevatten.



---


We voeren de functie "***maak_dict_met_te_parsen_htmls_per_IMRO***" uit om een dictionary met de links naar alle relevante htmls per IMRO aan te maken



In [38]:
# Voer hier de te parsen plannen in in onderstaand format
parse_plans =\
  {'Plan 1' : {'Code' : 'NL.IMRO.18920000BPNWK019-'},
   'Plan 2' : {'Code' : 'NL.IMRO.18920000BPNWK021-'},
   'Plan 3' : {'Code' : 'NL.IMRO.18920000BPMRD013-'}
   }


In [39]:
# Bepaal de link naar het basisarchief
base_link = 'https://publiek.tercera-ro.nl/officieel/1892/'

extract_regels_dict = {parse_plans[plan]['Code'] :
                       create_link_pdf(parse_plans[plan]['Code'], base_link) for plan in parse_plans.keys()}

# Definitie van functies voor parsen van de structuur van HTML

In [53]:
def extract_cell_markers_from_html(response_per_html = str):

  """Deze functie parset de ruwe html: er zijn twee typen markers in de html-string
  die van belang zijn: markers die aangeven dat er  een nieuwe cel begint en markers
  die aangeven dat een cel sluit. Elke instantie van een cel-sluiter hoort bij
  de meest recent gevonden cell opent. We extraheren daarmee twee lijsten, met voor
  beide type marker de locatie, de string van de marker en een variabele die aangeeft
  of de gevonden marker een cel-opener of en cel-sluiter is. Deze lijsten voegen we
  samen en sorteren we op de locatie van de marker

  Inputs:
  - ruwe html

  Outputs:
  - lijst met tuple (integer van locatie, string van marker, type marker)"""

  cell_openers = [(mt.end(), mt.group() ,'open') for mt in re.finditer(r'(<div.*?(?<!/)>)', response_per_html)]

  cell_closers = [(mt.start(), mt.group(), 'close') for mt in re.finditer(r'</div.*?>', response_per_html)]

  marker_tuples = cell_openers + cell_closers

  return sorted(marker_tuples, key = lambda x: x[0])

In [54]:
def extract_metadata_from_cell_opener(opener_text = str, metadata_types = ["class", "div id"]):

  """Deze functie extraheert de metadata per cel indien deze beschikbaar is

  Inputs:
  - opener_text: string met de content van de cel-opener marker
  - metadata_types: lijst met typen metadata die geextraheerd moeten worden

  Outputs:
  - dict met metadata
  """

  # Lege 'default'  dictionary
  meta_extract = {metadata_type: None for metadata_type in metadata_types}

  # Itereer door de opgegeven metadata_types
  for metadata_type in metadata_types:

    # als het metadata-type in de tekst voorkomt
    if metadata_type in opener_text:

      # pak stuk tekst vanaf de plaats dat metadata-type wordt gevonden
      text_from_meta_marker = opener_text[opener_text.find(metadata_type):]

      # bepaal de locatie van de eerstvolgende 2 quotes
      quote_locs = [mt.start() for mt in re.finditer(r'"', text_from_meta_marker)][:2]

      # extraheer stuk tussen de quotes en schrijf weg naar dictionary
      meta_extract[metadata_type] = text_from_meta_marker[quote_locs[0] + 1: quote_locs[1]]

  return meta_extract

In [55]:
def parse_cell_structure(sorted_marker_tuples = list, max_depth = 10):

  """Deze functie analyseert de celstructuur van een html, dit doet de functie
  door te itereren door de lijst met markers en aan de hand daarvan te bepalen
  1) welke cellen onderdeel zijn van welke andere cellen en
  2) op welke 'diepte' specifieke cellen vallen
  3) en waar mogelijk metadata per cel te extraheren

  De informatie over de diepte en de celstructuur wordt weergegeven door een lijst
  van getallen die een boomstructuur representeren. Van rechty naar links, vanaf
  het eerste niet-nul element geeft de reeks getallen de nummering van de node die
  de 'ouder'-node zijn van de node in kwestie

  Deze functie itereert over de gevonden cellen en bepaalt op welke diepte de cel
  valt en de hoeveelste cel op deze diepte het betreft.

  Daarnaast wordt in deze iteratie per celopener de beschikbare metadata geextraheerd

  Inputs:
  - sorted_marker_tuples: lijst van tuples, output van "extract_cell_markers_from_html"
  - max_depth: integer die aangeeft hoe diep de cellen kunnen zijn

  Outputs:
  - extracted_cells: dict met als key een een lijst

  """

  # Stel in: de startdiepte van waarop nodes worden geteld
  cell_level = 0

  # Dictionary om resultaten weg te schrijven
  extracted_cells = {}

  # Lege lijst om als 'geheugen'  van gevonden celopeners te dienen
  cell_openers = []

  # Bepaal de maximale lengte van de lijst van getallen oftewel maximale
  # boomdiepte, default diepte is 10
  cell_key = [0] * max_depth

  # Itereer door lijst met marker tuples
  for marker_pos, marker, marker_typ in sorted_marker_tuples:

    # Als de marker in kwestie een 'opener'-marker is:
    if marker_typ == 'open':
      # tel op de actuele diepte een node
      cell_key[cell_level] += 1

      # extraheer de metadata
      opener_metadata = extract_metadata_from_cell_opener(opener_text = marker, metadata_types = ["class", "div id"])

      # voeg de startnode toe aan het geheugen: positie, marker tekst, actuele cel-key, geextraheerde metadata
      cell_openers.append((marker_pos, marker, marker_typ, cell_key.copy(), opener_metadata))

      # verhoog de actuele diepte met 1
      cell_level += 1

    # Als de marker in kwestie een 'closer'-marker is
    elif marker_typ == 'close':

      # extraheer de corresponderende 'opener'-positie uit het laatste record in het 'geheugen'
      opener_pos = cell_openers[-1][0]

      # extraheer de key van de cel uit het geheugen
      extracted_cell_key = cell_openers[-1][3]

      # extraheer de metadata van de cel uit het geheugen
      cell_metadata = cell_openers[-1][4]

      # schrijf cel weg in dictionary
      extracted_cells[tuple(extracted_cell_key)] = {'startpositie cel': opener_pos, 'sluitpositie cel' : marker_pos} | cell_metadata

      # verwijder laatste record uit geheugen
      cell_openers = cell_openers[:-1]

      # zet teller voor het huidige niveau terug naar 0
      cell_key[cell_level] = 0

      # stel de actuele diepte voor celextractie 1 stap lager
      cell_level -= 1

  return extracted_cells

In [56]:
def bepaal_unieke_content_per_cell(response_per_html: str, html_structure: dict):

  """Deze functie bepaalt per cel de unieke tekst, als in: de tekst per cel die
  *niet* ook in een 'kind' van de cel staat. Dit doen we door eerst de volledige
  inhoud per cel te extraheren op basis van de start- en sluitpositie van de cel
  """

  # Maak een dictionary aan met per cel een lege lijst
  content_per_cell = {cell_id:  response_per_html[cell_content['startpositie cel']: cell_content['sluitpositie cel']]
                      for cell_id, cell_content in html_structure.items()}

  # itereer door de geparsete structuur van de html
  for cell_id, cell_content in html_structure.items():

    # bepaal de 'parent' cell van elke cel
    cell_id_cutoff = len([val for val in cell_id if val > 0]) - 1

    # als uit de cell_id blijkt dat het de 'root' is, sla deze cel over aangezien
    # deze geen parent heeft
    if cell_id_cutoff == 0: continue

    parent_cell_id = cell_id[:cell_id_cutoff] + (0,) + cell_id[cell_id_cutoff + 1:]

    # bepaal het gedeelte van de html_string dat verwijderd mag worden van de parent
    # cell omdat het in een 'kind'-cel staat
    delete_slice = response_per_html[cell_content['startpositie cel']: cell_content['sluitpositie cel']]

    content_per_cell[parent_cell_id] = content_per_cell[parent_cell_id].replace(delete_slice, '')

  return content_per_cell

In [57]:
def maak_key_per_cel(content_per_cell,
                     regex_key_extraction = r'<h[0-9].*>(.*)<\/h[0-9]>',
                     regex_key_level = r'[0-9](?:\.| )'):

  """Deze functie extraheert per cel de eventuele string die de key bevat en het niveau waarop deze zich bevindt"""

  # Lege dict aanmaken
  key_per_cell = {cell_id: None for cell_id in content_per_cell.keys()}

  # Iteratie door de tuple van cell id en content
  for cell_id, cell_content in content_per_cell.items():

    # Stel vast of de cel een key/titel bevat
    raw_key_extract = re.findall(regex_key_extraction, cell_content)

    if len(raw_key_extract) > 0:

      key = raw_key_extract[0]

      raw_key_level = re.findall(regex_key_level, key)

      key_per_cell[cell_id] = {'key':  key, 'level' : len(raw_key_level)}

    else:

      key_per_cell[cell_id] = {'key':  '', 'level' : -99}

  return key_per_cell

In [58]:
def groepeer_cellen_onder_keys(content_per_cell, key_per_cell):

  grouped_cells = content_per_cell.copy()

  grouped_cells_keys = key_per_cell.copy()

  for cell_id, key_info in key_per_cell.items():

    # bepaal op welk punt de key moet worden aangepast om ofwel de 'parent' of de 'sibling' te vinden
    cell_id_cutoff = len([val for val in cell_id if val > 0]) - 1

    # bepaal de 'parent' cell: zelfde key, verander de laatste niet-nul waarde in de lijst naar nul
    parent_cell_id = cell_id[:cell_id_cutoff] + (0,) + cell_id[cell_id_cutoff + 1:]

    # bepaal de 'sibling' cell: zelfde key, trek 1 af bij de laatste niet-nul waarde in de lijst
    sibling_cell_id = cell_id[:cell_id_cutoff] + (cell_id[cell_id_cutoff] - 1,) + cell_id[cell_id_cutoff + 1:]

    # als de cel in kwestie geen key bevat
    if key_info['key'] == '':

      # check of de cel een 'sibling' heeft. ALs dit het geval is, voeg de content
      # toe aan sibling
      if sibling_cell_id in grouped_cells.keys():

        grouped_cells[sibling_cell_id] += grouped_cells[cell_id]

        grouped_cells.pop(cell_id)

        grouped_cells_keys.pop(cell_id)


      elif parent_cell_id in grouped_cells.keys():

        grouped_cells[parent_cell_id] += grouped_cells[cell_id]

        grouped_cells.pop(cell_id)

        grouped_cells_keys.pop(cell_id)

      else: continue

  return grouped_cells, grouped_cells_keys

In [59]:
# @title
def bepaal_cellen_volledige_key(grouped_cells_keys):

  keys_in_html = set([key_info['level'] for key_info in grouped_cells_keys.values()])

  cell_ids_per_level = {level: [cell_id for cell_id in grouped_cells_keys.keys()
                                if grouped_cells_keys[cell_id]['level'] == level]
                        for level in keys_in_html}

  full_cell_ids = {cell_id: [cell_id] for cell_id in  grouped_cells_keys.keys()}

  for key_level in list(keys_in_html):

    for cell_id in cell_ids_per_level[key_level]:

      # bepaal op welk punt de key moet worden aangepast om ofwel de 'parent' of de 'sibling' te vinden
      cell_id_cutoff = len([val for val in cell_id if val > 0]) - 1

      # bepaal de 'parent' cell: zelfde key, verander de laatste niet-nul waarde in de lijst naar nul
      parent_cell_id = cell_id[:cell_id_cutoff] + (0,) + cell_id[cell_id_cutoff + 1:]

      if parent_cell_id in grouped_cells_keys.keys():

        full_cell_ids[cell_id] = full_cell_ids[parent_cell_id] + [cell_id]

  return full_cell_ids

In [60]:
# @title
def voeg_key_bij_inhoud(grouped_cells, grouped_cells_keys,
                        full_cell_keys_per_grouped_cell):

  content_per_key = {}

  for cell_id in grouped_cells.keys():

    ids_full_key = full_cell_keys_per_grouped_cell[cell_id]

    full_key = [grouped_cells_keys[key_cell_id]['key'] for key_cell_id in ids_full_key]

    content_per_key[tuple(full_key)] = grouped_cells[cell_id]

  return content_per_key

In [61]:
# @title
def opschonen_key_en_inhoud(content_per_key, regex_key_level = r'((?:[0-9]{1,2}(?:\.| )){1,3})'):

  clean_content_per_clean_key = {}

  for key, content in content_per_key.items():

    clean_key = []

    for key_item in key:

      if 'hoofdstuk' in key_item.lower(): continue

      delete_string = re.findall(regex_key_level, key_item)

      if len(delete_string) > 0:

        clean_key_item = key_item\
                          .replace(delete_string[0], '')\
                          .lower()\
                          .strip()\
                          .replace('\t', '')\
                          .replace('\n', '')\
                          .replace(':','')

        clean_key.append(clean_key_item)

      else:

        clean_key.append(key_item)

    if len(clean_key) > 1:

      clean_key = tuple(clean_key) + ('geen_key', ) * (3 - len(clean_key))

      clean_content = BeautifulSoup(content, 'lxml').text

      clean_content_per_clean_key[clean_key] = clean_content

  return clean_content_per_clean_key

In [62]:
# @title
def test_result_per_IMRO(IMRO):

  test_result = pd.DataFrame(index = pd.MultiIndex.from_tuples(parse_dict_per_IMRO[IMRO].keys()),
                             data = parse_dict_per_IMRO[IMRO].values())

  return test_result

In [63]:
# @title
def integriteitscheck_html(test_structure_frame, class_types = ['artikel', 'lid', 'sublid']):

  """Deze functie voert een check uit op de integriteit van de extractie per html.
  Het concept is als volgt:
  Het script gaat de vooraf geconfigureerde hiërarchie van typen  cel af (default is
  'artikel', 'lid', 'sublid', een hiërarchie met andere namen kan worden gespcecifieerd)
  en checkt of ieder sublid binnen een lid valt en ieder lid binnen een artikel.
  Bijgehouden wordt of er 'ongeplaatse' cellen van ieder type zijn. Daarnaast wordt ook
  geteld hoeveel verchillende cellen er zijn  van ieder type.

  Inputs:
  - test_structure_frame: Pandas dataframe met de gevonden cellen: de index is de
    celkey zoals bepaald door parse_cell_structure. De kolommen zijn: 'startpositie cel',
    'sluitpositie cel', 'class', 'div id';
  - class_types: list met strings van de benamingen van cellen, van links naar rechts
    hoger naar lager in de hiërarchie.

  Outputs:
  - dictionary met per html de tellingen van 'ongeplaatste' cellen per type en
    tellingen van per type cel.
  """

  # Bepaal welk type cellen door de integriteitscheck moet worden meegenomen
  parse_cells = test_structure_frame[test_structure_frame['class'].apply(lambda x: x in class_types)]

  # Maak subsets aan van cellen per type
  subsets = {class_type: test_structure_frame[test_structure_frame['class'] == class_type] for class_type in class_types}

  # Maak een lijst aan waarin de 'geplaatste' cq. 'gevalideerde cellen' kunnen worden weggeschreven
  placed_cells = []

  # Maak een dictionary aan om de aantallen per celtype te tellen
  count_class_types = {('aantal', class_type): 0 for class_type in class_types}

  # itereer door alle artikelaanduidingen
  for key_art, start_pos_art, end_pos_art, metadata_class, div_id_class in subsets['artikel'].itertuples(name = None, index = True):

    # plaats artikel in de lijst met gevalideerde cellen
    placed_cells.append(test_structure_frame.loc[key_art])

    count_class_types[('aantal','artikel')] += 1

    # itereer door alle lidaanduidingen
    for key_lid, start_pos_lid, end_pos_lid, metadata_lid, div_id_lid in subsets['lid'].itertuples(name = None):

      if start_pos_lid > start_pos_art and end_pos_lid < end_pos_art:

        placed_cells.append(test_structure_frame.loc[key_lid])

        count_class_types[('aantal','lid')] += 1

      # itereer door alle sublidaanduidingen
      for key_sublid, start_pos_sublid, end_pos_sublid, metadata_sublid, div_id_sublid in subsets['sublid'].itertuples(name = None):

        if start_pos_sublid > start_pos_lid and end_pos_sublid < end_pos_lid:

          placed_cells.append(test_structure_frame.loc[key_sublid])

          count_class_types[('aantal','sublid')] += 1

  # Als er cellen worden gevonden
  if len(placed_cells) > 0:

    placed_cells_frame = pd.concat(placed_cells, axis = 1).T

    failed_placements = parse_cells.drop(placed_cells_frame.index.values)

    failed_placement_count = {('geen plaatsing', class_type): failed_placements[failed_placements['class'] == class_type].shape[0] for class_type in class_types}


  else:

    failed_placement_count = {('geen plaatsing', class_type): 0 for class_type in class_types}

  out_dict = failed_placement_count | count_class_types

  return out_dict


# Parsing van HTML uitvoeren



## **Beschrijving werkwijze:** ##

We hebben een dictionary aangemaakt met daarin per IMRO een lijst met de verschillende links naar de htmls die bij bij deze specifieke IMRO horen.

---

We extraheren allereerst van iedere html de inhoud de inhoud schrijven we weg in het dictionary html_extracts. Als onderdeel van dit proces houden we een lijst bij van de htmls die niet geëxtraheerd kunnen worden

---

Vervolgens doorlopen we in een loop alle ruwe html. We doorlopen per html de volgende stappen:


1.   Het onderverdelen van de html in 'cellen' met inhoud. Normaliter staat een individueel artikel, lid of sublid om te extraheren in een afgebakende cel. We bepalen welke cellen er in de html staan met de functie **extract_cell_markers_from_html**
2.   De structuur van de html is zodanig dat de cellen een 'tree'-structuur hebben: een cel heeft één bovenliggende 'parent'-cell en meerdere onderliggende 'child'-cellen. Deze structuur stellen we vast met de functie **parse_cell_structure**



In [None]:
# @title
failed_extract_files = []

html_extracts = {}

for IMRO, link_to_pdf in extract_regels_dict.items():

  html_extracts[IMRO] = {}

  print(f'Ruwe HTML uit pdf extraheren: {IMRO}: {link_to_pdf}')

  try:

    raw_extract = pdf_to_html_string(link_to_pdf)

  except:

    failed_extract_files.append((IMRO, link_to_pdf))

  html_extracts[IMRO][link_to_pdf] = raw_extract

Ruwe HTML extraheren: NL.IMRO.0307.BP00070-0303: https://www.amersfoort.nl/ro-online/NL.IMRO.0307.BP00070-0303/r_NL.IMRO.0307.BP00070-0303_2.10.html


In [42]:
for IMRO in html_extracts.keys():

  for link, response_per_html in html_extracts[IMRO].items():

    print(IMRO, link)

NL.IMRO.18920000BPNWK019- https://publiek.tercera-ro.nl/officieel/1892/NL.IMRO.18920000BPNWK019-/v_NL.IMRO.18920000BPNWK019-.pdf
NL.IMRO.18920000BPNWK021- https://publiek.tercera-ro.nl/officieel/1892/NL.IMRO.18920000BPNWK021-/v_NL.IMRO.18920000BPNWK021-.pdf
NL.IMRO.18920000BPMRD013- https://publiek.tercera-ro.nl/officieel/1892/NL.IMRO.18920000BPMRD013-/v_NL.IMRO.18920000BPMRD013-.pdf


In [71]:
response_per_html = html_extracts['NL.IMRO.18920000BPNWK019-']['https://publiek.tercera-ro.nl/officieel/1892/NL.IMRO.18920000BPNWK019-/v_NL.IMRO.18920000BPNWK019-.pdf'].decode('utf-8')

In [72]:
sorted_marker_tuples = extract_cell_markers_from_html(response_per_html)

html_structure = parse_cell_structure(sorted_marker_tuples)

content_per_cell = bepaal_unieke_content_per_cell(response_per_html, html_structure)

key_per_cell = maak_key_per_cel(content_per_cell)

grouped_cells, grouped_cells_keys = groepeer_cellen_onder_keys(content_per_cell, key_per_cell)

full_cell_keys_per_grouped_cell = bepaal_cellen_volledige_key(grouped_cells_keys)

content_per_key = voeg_key_bij_inhoud(grouped_cells, grouped_cells_keys, full_cell_keys_per_grouped_cell)

clean_content_per_clean_key = opschonen_key_en_inhoud(content_per_key)

In [74]:
grouped_cells

{(1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0): '<a name="1">Page 1</a><span style="font-family: ArialNarrow; font-size:35px">(cid:118)(cid:111)(cid:111)(cid:114)(cid:115)(cid:99)(cid:104)(cid:114)(cid:105)(cid:102)(cid:116)(cid:101)(cid:110)\n<br></span>',
 (3,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0): '<a name="2">Page 2</a><span style="font-family: Arial-BoldMT; font-size:16px">Inhoud van de voorschriften \n<br></span>',
 (5,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0): '<span style="font-family: Arial-BoldMT; font-size:11px">Hoofdstuk I\n<br></span><span style="font-family: Arial-BoldMT; font-size:11px">Algemene bepalingen \n<br></span>',
 (7,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0): '<span style="font-family: ArialMT; font-size:10px">Artikel 1\n<br>Artikel 2\n<br>Artikel 2a\n<br>Artikel 3\n<br>Artikel 4\n<br>Artikel 5\n<br>Artikel 6\n<br>Artikel 7\n<br>Artikel 8\n<br>Artikel 8A \n<br></span><span style="font-family: ArialMT; font-size:10px">Begripsbepalingen \n<br>Wij

In [68]:
pd.Series(content_per_cell)

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,0
1,0,0,0,0,0,0,0,0,0,"<a name=""1"">Page 1</a>"
2,0,0,0,0,0,0,0,0,0,"<span style=""font-family: ArialNarrow; font-si..."
3,0,0,0,0,0,0,0,0,0,"<a name=""2"">Page 2</a>"
4,0,0,0,0,0,0,0,0,0,"<span style=""font-family: Arial-BoldMT; font-s..."
5,0,0,0,0,0,0,0,0,0,"<span style=""font-family: Arial-BoldMT; font-s..."
...,...,...,...,...,...,...,...,...,...,...
2033,0,0,0,0,0,0,0,0,0,"<span style=""font-family: ArialMT; font-size:1..."
2034,0,0,0,0,0,0,0,0,0,"<span style=""font-family: ArialMT; font-size:1..."
2035,0,0,0,0,0,0,0,0,0,"<span style=""font-family: ArialMT; font-size:1..."
2036,0,0,0,0,0,0,0,0,0,"<span style=""font-family: Arial-ItalicMT; font..."


In [None]:
parse_dict_per_IMRO = {}

for IMRO in html_extracts.keys():

  print('Parsen: ', IMRO)

  parse_dict_per_IMRO[IMRO] = {}

  for link, response_per_html in html_extracts[IMRO].items():

    print('\t', link)

    sorted_marker_tuples = extract_cell_markers_from_html(response_per_html)

    html_structure = parse_cell_structure(sorted_marker_tuples)

    content_per_cell = bepaal_unieke_content_per_cell(response_per_html, html_structure)

    key_per_cell = maak_key_per_cel(content_per_cell)

    grouped_cells, grouped_cells_keys = groepeer_cellen_onder_keys(content_per_cell, key_per_cell)

    full_cell_keys_per_grouped_cell = bepaal_cellen_volledige_key(grouped_cells_keys)

    content_per_key = voeg_key_bij_inhoud(grouped_cells, grouped_cells_keys, full_cell_keys_per_grouped_cell)

    clean_content_per_clean_key = opschonen_key_en_inhoud(content_per_key)

    parse_dict_per_IMRO[IMRO].update(clean_content_per_clean_key)

Parsen:  NL.IMRO.0307.BP00070-0303
	 https://www.amersfoort.nl/ro-online/NL.IMRO.0307.BP00070-0303/r_NL.IMRO.0307.BP00070-0303_2.10.html


In [None]:
with open(os.path.join(resultaten_map, 'parse_dict_per_IMRO_html.json'), 'w') as parse_dict_writer:

  parse_dict_writer.write(json.dumps(parse_dict_per_IMRO))