In [None]:
import pandas as pd
import glob
import geopandas as gpd
import hdbscan
import matplotlib.pyplot as plt
from pyproj import Transformer
import folium


### Samenvoegen van alle meetputen 

In [4]:
# Alle meetpunten inladen vanuit subfolders van Meetpunten
csv_files = glob.glob('Meetpunten/*/*.csv')  # zoekt in alle subfolders

# DataFrames inlezen en samenvoegen
df_list = []
for file in csv_files:
    df = pd.read_csv(file, sep=';', encoding='utf-8')  # gebruik ';' als delimiter
    df_list.append(df)

# Samenvoegen in één DataFrame
df_all = pd.concat(df_list, ignore_index=True)
print(f"Totaal aantal meetpunten: {len(df_all)}")

# Exporteren naar CSV
df_all.to_csv('all_meetpunten.csv', index=False)
print("Alle meetpunten opgeslagen in 'all_meetpunten.csv'")


Totaal aantal meetpunten: 3342
Alle meetpunten opgeslagen in 'all_meetpunten.csv'


### Clusters maken

In [7]:
# 2. Clustering met HDBSCAN op RD-coördinaten (meters)
# Zorg dat de kolommen 'GeometriePuntX_RD' en 'GeometriePuntY_RD' bestaan
df_all = df_all.dropna(subset=['GeometriePuntX_RD', 'GeometriePuntY_RD'])
coords = df_all[['GeometriePuntX_RD', 'GeometriePuntY_RD']].values

# HDBSCAN-instantie: pas min_cluster_size en min_samples aan naar behoefte
clusterer = hdbscan.HDBSCAN(
    min_cluster_size=10,
    min_samples=1,
    metric='euclidean'
)
labels = clusterer.fit_predict(coords)

# 3. Resultaten toevoegen aan DataFrame
df_all['cluster_id'] = labels
# Optioneel: waarschijnlijkheidscore per punt
df_all['cluster_prob'] = clusterer.probabilities_

# 4. Opslaan van de CSV met clusters
df_all.to_csv('meetpunten_met_clusters.csv', index=False)
print("CSV 'meetpunten_met_clusters.csv' opgeslagen met cluster labels.")


CSV 'meetpunten_met_clusters.csv' opgeslagen met cluster labels.


### HTML kaartje maken 

In [None]:
# 1. Inladen van de CSV met clusters
df_all = pd.read_csv('meetpunten_met_clusters.csv')

# 2. Omzetten van RD-coördinaten naar WGS84 (lon, lat)
transformer = Transformer.from_crs('EPSG:28992', 'EPSG:4326', always_xy=True)
df_all['lon'], df_all['lat'] = transformer.transform(
    df_all['GeometriePuntX_RD'].values,
    df_all['GeometriePuntY_RD'].values
)

# 3. Kleuren toewijzen per cluster_id
def get_cluster_colors(cluster_ids):
    # Voorbeeld kleurenpalet
    palette = [
        'red', 'blue', 'green', 'purple', 'orange', 'darkred', 'lightred',
        'beige', 'darkblue', 'darkgreen', 'cadetblue', 'darkpurple',
        'pink', 'lightblue', 'lightgreen', 'gray'
    ]
    return {cid: palette[i % len(palette)] for i, cid in enumerate(cluster_ids)}

cluster_ids = sorted(df_all['cluster_id'].unique())
color_map = get_cluster_colors(cluster_ids)

# 4. Simpele Folium-kaart maken
def create_cluster_map(df, color_map, zoom_start=10):
    center = [df['lat'].mean(), df['lon'].mean()]
    m = folium.Map(location=center, zoom_start=zoom_start)
    for _, row in df.iterrows():
        color = color_map.get(row['cluster_id'], 'gray')
        folium.CircleMarker(
            location=(row['lat'], row['lon']),
            radius=4,
            color=color,
            fill=True,
            fill_opacity=0.7,
            popup=f"Cluster: {row['cluster_id']}"
        ).add_to(m)
    return m

# 5. Maak kaart en sla op als HTML
m = create_cluster_map(df_all, color_map)
output_file = 'clusters_map_simple.html'
m.save(output_file)
print(f"Eenvoudige interactieve kaart met gekleurde clusters opgeslagen als '{output_file}'")


Eenvoudige interactieve kaart met gekleurde clusters opgeslagen als 'clusters_map_simple.html'


### Relevantie van clusters

In [15]:
# 1. Inladen van bestaand CSV-bestand met cluster-id's
df = pd.read_csv('meetpunten_met_clusters.csv')

# 2. Bepaal de set van alle jaren in de dataset
all_years = set(df['Meetjaar'].dropna().unique())

# 3. Filter noise-cluster (cluster_id = -1) uit voor relevantiebepaling
df_non_noise = df[df['cluster_id'] != -1]

# 4. Groepeer per cluster en bepaal unieke jaren per cluster
cluster_years = (
    df_non_noise.groupby('cluster_id')['Meetjaar']
    .apply(lambda yrs: set(yrs.dropna().unique()))
)

# 5. Identificeer relevante clusters (die elk jaar in all_years voorkomen)
relevant_clusters = [
    cid for cid, yrs in cluster_years.items() if yrs == all_years
]
print(f"Relevante clusters: {relevant_clusters}")

# 6. Voeg een nieuwe kolom 'relevant' toe aan de DataFrame
#    True als het meetpunt behoort tot een relevante cluster, anders False
df['relevant'] = df['cluster_id'].isin(relevant_clusters)

# 7. Opslaan van het nieuwe CSV-bestand
df.to_csv('meetpunten_met_clusters_relevant.csv', index=False)
print("meetpunten_met_clusters_relevant.csv opgeslagen met relevante kolom.")


Relevante clusters: [3, 5, 19, 25, 26, 32, 33, 44, 62, 64, 73, 74, 87, 88, 89, 91, 95, 96, 108, 113, 114, 124]
meetpunten_met_clusters_relevant.csv opgeslagen met relevante kolom.
