In [51]:
import pandas as pd
import glob
import geopandas as gpd
import hdbscan
import matplotlib.pyplot as plt
from pyproj import Transformer
import folium
import re
import numpy as np


### Samenvoegen van alle meetputen 

In [4]:
# Alle meetpunten inladen vanuit subfolders van Meetpunten
csv_files = glob.glob('Meetpunten/*/*.csv')  # zoekt in alle subfolders

# DataFrames inlezen en samenvoegen
df_list = []
for file in csv_files:
    df = pd.read_csv(file, sep=';', encoding='utf-8')  # gebruik ';' als delimiter
    df_list.append(df)

# Samenvoegen in één DataFrame
df_all = pd.concat(df_list, ignore_index=True)
print(f"Totaal aantal meetpunten: {len(df_all)}")

# Exporteren naar CSV
df_all.to_csv('all_meetpunten.csv', index=False)
print("Alle meetpunten opgeslagen in 'all_meetpunten.csv'")


Totaal aantal meetpunten: 3342
Alle meetpunten opgeslagen in 'all_meetpunten.csv'


### Clusters maken

In [7]:
# 2. Clustering met HDBSCAN op RD-coördinaten (meters)
# Zorg dat de kolommen 'GeometriePuntX_RD' en 'GeometriePuntY_RD' bestaan
df_all = df_all.dropna(subset=['GeometriePuntX_RD', 'GeometriePuntY_RD'])
coords = df_all[['GeometriePuntX_RD', 'GeometriePuntY_RD']].values

# HDBSCAN-instantie: pas min_cluster_size en min_samples aan naar behoefte
clusterer = hdbscan.HDBSCAN(
    min_cluster_size=10,
    min_samples=1,
    metric='euclidean'
)
labels = clusterer.fit_predict(coords)

# 3. Resultaten toevoegen aan DataFrame
df_all['cluster_id'] = labels
# Optioneel: waarschijnlijkheidscore per punt
df_all['cluster_prob'] = clusterer.probabilities_

# 4. Opslaan van de CSV met clusters
df_all.to_csv('meetpunten_met_clusters.csv', index=False)
print("CSV 'meetpunten_met_clusters.csv' opgeslagen met cluster labels.")


CSV 'meetpunten_met_clusters.csv' opgeslagen met cluster labels.


### HTML kaartje maken 

In [None]:
# 1. Inladen van de CSV met clusters
df_all = pd.read_csv('meetpunten_met_clusters.csv')

# 2. Omzetten van RD-coördinaten naar WGS84 (lon, lat)
transformer = Transformer.from_crs('EPSG:28992', 'EPSG:4326', always_xy=True)
df_all['lon'], df_all['lat'] = transformer.transform(
    df_all['GeometriePuntX_RD'].values,
    df_all['GeometriePuntY_RD'].values
)

# 3. Kleuren toewijzen per cluster_id
def get_cluster_colors(cluster_ids):
    # Voorbeeld kleurenpalet
    palette = [
        'red', 'blue', 'green', 'purple', 'orange', 'darkred', 'lightred',
        'beige', 'darkblue', 'darkgreen', 'cadetblue', 'darkpurple',
        'pink', 'lightblue', 'lightgreen', 'gray'
    ]
    return {cid: palette[i % len(palette)] for i, cid in enumerate(cluster_ids)}

cluster_ids = sorted(df_all['cluster_id'].unique())
color_map = get_cluster_colors(cluster_ids)

# 4. Simpele Folium-kaart maken
def create_cluster_map(df, color_map, zoom_start=10):
    center = [df['lat'].mean(), df['lon'].mean()]
    m = folium.Map(location=center, zoom_start=zoom_start)
    for _, row in df.iterrows():
        color = color_map.get(row['cluster_id'], 'gray')
        folium.CircleMarker(
            location=(row['lat'], row['lon']),
            radius=4,
            color=color,
            fill=True,
            fill_opacity=0.7,
            popup=f"Cluster: {row['cluster_id']}"
        ).add_to(m)
    return m

# 5. Maak kaart en sla op als HTML
m = create_cluster_map(df_all, color_map)
output_file = 'clusters_map_simple.html'
m.save(output_file)
print(f"Eenvoudige interactieve kaart met gekleurde clusters opgeslagen als '{output_file}'")


Eenvoudige interactieve kaart met gekleurde clusters opgeslagen als 'clusters_map_simple.html'


### Relevantie van clusters

In [None]:
# 1. Inladen van bestaand CSV-bestand met cluster-id's
df = pd.read_csv('meetpunten_met_clusters.csv')

# 2. Bepaal de set van alle jaren in de dataset
all_years = set(df['Meetjaar'].dropna().unique())

# 3. Filter noise-cluster (cluster_id = -1) uit voor relevantiebepaling
df_non_noise = df[df['cluster_id'] != -1]

# 4. Groepeer per cluster en bepaal unieke jaren per cluster
cluster_years = (
    df_non_noise.groupby('cluster_id')['Meetjaar']
    .apply(lambda yrs: set(yrs.dropna().unique()))
)

# 5. Identificeer relevante clusters (die elk jaar in all_years voorkomen)
relevant_clusters = [
    cid for cid, yrs in cluster_years.items() if yrs == all_years
]
print(f"Relevante clusters: {relevant_clusters}")

# 6. Voeg een nieuwe kolom 'relevant' toe aan de DataFrame
#    True als het meetpunt behoort tot een relevante cluster, anders False
df['relevant'] = df['cluster_id'].isin(relevant_clusters)

# 7. Opslaan van het nieuwe CSV-bestand
df.to_csv('meetpunten_met_clusters_relevant.csv', index=False)
print("meetpunten_met_clusters_relevant.csv opgeslagen met relevante kolom.")


Relevante clusters: [3, 5, 19, 25, 26, 32, 33, 44, 62, 64, 73, 74, 87, 88, 89, 91, 95, 96, 108, 113, 114, 124]
meetpunten_met_clusters_relevant.csv opgeslagen met relevante kolom.
CSV 'stoffen_cluster_counts.csv' opgeslagen met frequentie van relevante stoffen in clusters.


### Samenvoegen meetwaarden en meetpunten clusters

In [None]:
# -------------------------
# 1. Inladen van meetpunten met clusters en relevantie
# -------------------------
df_clusters = pd.read_csv('meetpunten_met_clusters_relevant.csv')
# Unieke mapping per MeetobjectCode
# Alleen meetpunten in relevante clusters (relevant == True) behouden
df_clusters_relevant = (
    df_clusters[df_clusters['relevant']]
    [['MeetobjectCode', 'cluster_id']]
    .drop_duplicates(subset=['MeetobjectCode'])
)

# -------------------------
# 2. Inladen en samenvoegen van meetwaarden (2016–2024)
# -------------------------
meetwaarden_files = glob.glob('Meetwaarden/Waterschap Brabantse Delta/WKP_Meetwaarden_Waterschap Brabantse Delta_*.csv')
waarden_list = []
for file in meetwaarden_files:
    # Jaar uit bestandsnaam halen (bv. '_2016_')
    match = re.search(r'_(\d{4})_', file)
    jaar = int(match.group(1)) if match else None
    df = pd.read_csv(file, sep=';', encoding='utf-8')
    df['year'] = jaar
    waarden_list.append(df)
# Samenvoegen van alle meetwaarden
df_waarden = pd.concat(waarden_list, ignore_index=True)
print(f"Totaal aantal meetwaardenrijen: {len(df_waarden)}")

# -------------------------
# 3. Merge meetwaarden met alleen relevante clusters
df_merged = df_waarden.merge(
    df_clusters_relevant,
    on='MeetobjectCode',
    how='inner'  # alleen waarden met relevante meetpunten behouden
)
print(f"Aantal rijen na inner merge op relevante clusters: {len(df_merged)}")

# -------------------------
# 4. Bepalen van relevante stoffen per cluster
# -------------------------
# Set van alle jaren van interesse in de data
total_years = set(df_merged['year'].dropna().unique())
print(f"Jaren in dataset: {sorted(total_years)}")

# Groepeer per cluster en stof en verzamel gemeten jaren
grouped = (
    df_merged
    .groupby(['cluster_id', 'ParameterOmschrijving'])['year']
    .apply(lambda yrs: set(yrs.dropna().unique()))
    .reset_index(name='years_measured')
)
# Markeer stoffen die in elk jaar van hun cluster zijn gemeten
grouped['relevant_stof'] = grouped['years_measured'].apply(
    lambda s: s == total_years
)

# Filter op relevante stoffen per cluster
grouped_relevant = grouped[grouped['relevant_stof']]
print(f"Aantal relevante cluster-stof combinaties: {len(grouped_relevant)}")

# -------------------------
# 5. Bepalen van globale relevantie over alle clusters
# -------------------------
df_counts = (
    grouped_relevant
    .groupby('ParameterOmschrijving')['cluster_id']
    .nunique()
    .reset_index(name='count_clusters')
    .sort_values('count_clusters', ascending=False)
)
print("Top 10 stoffen met hoogste cluster frequentie:")
print(df_counts.head(40))

# Optioneel: bepalen hoeveel clusters er analyseerbaar zijn
total_clusters = df_clusters_relevant['cluster_id'].nunique()
print(f"Totaal aantal relevante clusters: {total_clusters}")

# Stoffen die in alle relevante clusters voorkomen (indien gewenst)
top_all = df_counts[df_counts['count_clusters'] == total_clusters]
print(f"Stoffen in alle {total_clusters} relevante clusters: {top_all['ParameterOmschrijving'].tolist()}")

# -------------------------
# 6. Opslaan van frequentietabel naar CSV
# -------------------------
# Schrijft alle stoffen met hun aantal relevante clusters naar een CSV-bestand
output_path = 'stoffen_cluster_counts.csv'
df_counts.to_csv(output_path, index=False)
print(f"CSV '{output_path}' opgeslagen met frequentie van relevante stoffen in clusters.")



Voedselbossen geladen: 247 records
Forest columns: ['Voedselbos', 'Website', 'Tel.', 'Email', 'Naam', 'Eerste aanplant', 'Grootte', 'Ondernemingsvorm', 'Type', 'Ontwerp', 'Provincie', 'Op de Green Deal voedselbossen kaart', 'Voedsel uit het Bos', 'Stichting Voedselbosbouw', 'Nationale Monitoringsprogramma Voedselbossen', 'Overige platforms', 'Lat', 'Lon']


AttributeError: 'DataFrame' object has no attribute 'Longitude'

In [53]:
import pandas as pd
import numpy as np
from pyproj import Transformer

# 1) Inladen relevante clusters
df_clusters = pd.read_csv('meetpunten_met_clusters_relevant.csv')
df_clusters = df_clusters[df_clusters['relevant']].drop_duplicates('cluster_id')

# 2) Inladen voedselbossen en coördinaten omzetten
df_forest = pd.read_excel('Book4.xlsx')
# Excel-coördinaten zijn RD-meters * 1e6, dus schalen
df_forest['lon_deg'] = df_forest['Lon'] / 1e6
df_forest['lat_deg'] = df_forest['Lat'] / 1e6

# Projectie WGS84 → RD New
transformer = Transformer.from_crs('EPSG:4326', 'EPSG:28992', always_xy=True)
df_forest['x_rd'], df_forest['y_rd'] = transformer.transform(
    df_forest['lon_deg'].values,
    df_forest['lat_deg'].values
)

# 3) Voor ieder cluster het dichtstbijzijnde bos binnen 2 km bepalen
results = []
for _, cl in df_clusters.iterrows():
    x0, y0 = cl['GeometriePuntX_RD'], cl['GeometriePuntY_RD']
    d2 = (df_forest['x_rd'] - x0)**2 + (df_forest['y_rd'] - y0)**2
    idx = d2.idxmin()
    dist = np.sqrt(d2.loc[idx])
    if dist <= 2000:
        results.append({
            'cluster_id': cl['cluster_id'],
            'Naam': df_forest.at[idx, 'Naam'],
            'Grootte': df_forest.at[idx, 'Grootte'],
            'Eerste aanplant': df_forest.at[idx, 'Eerste aanplant'],
            'distance_m': dist
        })

df_forest_map = pd.DataFrame(results)

# 4) Merge met je meetpunten_per_cluster file
df_expanded = pd.merge(
    pd.read_csv('meetpunten_met_clusters_relevant.csv'),
    df_forest_map,
    on='cluster_id',
    how='left'
)

# 5) Opslaan
df_expanded.to_csv(
    'meetpunten_met_clusters_relevant_met_bos.csv',
    index=False
)
print("Nieuw bestand weggeschreven: 'meetpunten_met_clusters_relevant_met_bos.csv'")


Nieuw bestand weggeschreven: 'meetpunten_met_clusters_relevant_met_bos.csv'
