In [7]:
import pandas as pd

# Inlezen van de CSV
input_file = "/dataset/csv/scraping/df_documents_vanaf_210-1626_tm_219-2695.csv"
output_file = "/dataset/csv/scraping/csv_cutoff/df_documents_vanaf_210-1626_tm_219-2695.csv"
document_id_grens = "219-2695"  # Gewenste grenswaarde als string

# CSV inlezen
df = pd.read_csv(input_file, dtype={"document_id": str})  # Zorg dat document_id een string blijft

# Functie om document_id om te zetten naar een tuple van (hoofdnummer, subnummer)
def parse_document_id(document_id):
    try:
        hoofdnummer, subnummer = map(int, document_id.split("-"))
        return (hoofdnummer, subnummer)
    except ValueError:
        return (float("inf"), float("inf"))  # Zet foutieve waarden als 'oneindig' zodat ze eruit gefilterd worden

# Converteer alle document_id's
df["parsed_document_id"] = df["document_id"].apply(parse_document_id)

# Converteer de grenswaarde naar hetzelfde formaat
grenswaarde_parsed = parse_document_id(document_id_grens)

# Filteren op basis van de numerieke waarden
df_filtered = df[df["parsed_document_id"] <= grenswaarde_parsed]

# Verwijder de tijdelijke kolom
df_filtered = df_filtered.drop(columns=["parsed_document_id"])

# Opslaan naar een nieuwe CSV
df_filtered.to_csv(output_file, index=False)

# Print het aantal rijen na filtering
print(f"Aantal rijen na filtering: {len(df_filtered)}")
print(f"Gefilterd bestand opgeslagen als {output_file}")


Aantal rijen na filtering: 4856
Gefilterd bestand opgeslagen als /home/nena-meijer/PyCharmMiscProject/dataset/csv/scraping/csv_cutoff/df_documents_vanaf_210-1626_tm_219-2695.csv


In [9]:
# concatenate csv files

import os
import glob
import re

path = "/dataset/csv/scraping/csv_cutoff"
all_files = glob.glob(os.path.join(path, "*.csv"))

# Functie om de nummers uit de bestandsnaam te extraheren
def extract_numbers(filename):
    # Zoek naar getallen in de vorm van "xxx-xxx" of "xxx-xxxx"
    match = re.search(r'(\d+)-(\d+)', filename)
    if match:
        # Retourneer de getallen als tuple van integers
        return int(match.group(1)), int(match.group(2))
    return (0, 0)  # Standaard waarde voor als er geen match is

# Sorteer de bestanden op basis van de nummers in de naam
all_files.sort(key=lambda f: extract_numbers(f))

# Nu kun je de bestanden combineren in de juiste volgorde
df_all = pd.concat((pd.read_csv(f) for f in all_files), ignore_index=True)
df_all


Unnamed: 0,dossier_id,document_id,document_title,document_type,document_sourcetype,document_date,document_sourcelocal,document_sourceURL,document_id_vws,document_attachments,document_same_emailconvo,document_related,document_referal
0,2,2-1,VWS-WOO-Spc-611267-RE_Een_dringend_verzoek_aan...,PDF,E-mailbericht,2021-07-26,/home/nena-meijer/PyCharmMiscProject/unpacked_...,https://open.minvws.nl/dossier/VWS-WOO/3518578...,611267.0,Geen,611162,Geen,Geen
1,2,2-2,VWS-WOO-Spc-610741-RE_Retourpost_215074.pdf,PDF,E-mailbericht,2020-12-04,/home/nena-meijer/PyCharmMiscProject/unpacked_...,https://open.minvws.nl/dossier/VWS-WOO/3518578...,610741.0,Geen,610734;610735,Geen,Geen
2,2,2-3,VWS-WOO-Spc-611128-210730_Lopende__Wob-verzoek...,PDF,PDF,2021-07-30,/home/nena-meijer/PyCharmMiscProject/unpacked_...,https://open.minvws.nl/dossier/VWS-WOO/3518578...,611128.0,Geen,Geen,611127;611126,Geen
3,2,2-4,VWS-WOO-Spc-611446-FW_Aangepaste_conceptnota_s...,PDF,E-mailbericht,2021-10-13,/home/nena-meijer/PyCharmMiscProject/unpacked_...,https://open.minvws.nl/dossier/VWS-WOO/3518578...,611446.0,Geen,Geen,Geen,Geen
4,2,2-5,VWS-WOO-Spc-611263-Re_Een_dringend_verzoek_aan...,PDF,E-mailbericht,2021-07-02,/home/nena-meijer/PyCharmMiscProject/unpacked_...,https://open.minvws.nl/dossier/VWS-WOO/3518578...,611263.0,Geen,611163,Geen,Geen
...,...,...,...,...,...,...,...,...,...,...,...,...,...
101538,219,219-2691,VWS-WOO-02b-910022.pdf,PDF,E-mailbericht,2022-04-22,/home/nena-meijer/PyCharmMiscProject/unpacked_...,https://open.minvws.nl/dossier/VWS-WOO/3773352...,910022.0,Geen,Geen,Geen,Geen
101539,219,219-2692,VWS-WOO-02b-800066.pdf,PDF,E-mailbericht,2020-04-03,/home/nena-meijer/PyCharmMiscProject/unpacked_...,https://open.minvws.nl/dossier/VWS-WOO/3773352...,800066.0,Geen,Geen,Geen,Geen
101540,219,219-2693,VWS-WOO-02b-811359.pdf,PDF,E-mailbericht,2021-07-02,/home/nena-meijer/PyCharmMiscProject/unpacked_...,https://open.minvws.nl/dossier/VWS-WOO/3773352...,811359.0,Geen,810510;811360;811686;811362,Geen,Geen
101541,219,219-2694,VWS-WOO-02b-831644.pdf,PDF,E-mailbericht,2021-06-01,/home/nena-meijer/PyCharmMiscProject/unpacked_...,https://open.minvws.nl/dossier/VWS-WOO/3773352...,831644.0,807355,Geen,Geen,Geen


In [10]:
df_all.to_csv("ALL_documents_relations.csv", index=False)