### Samenstellen dataset voor kwalitatieve evaluatie clustering
In dit notebook worden diverse datasets met gegevens van gemeenten samengevoegd om gebruikt te gaan worden voor de evaluatie van de clustering van gemeentelijke duurzaamheidsvisies. De dataset bevat gegevens over:
- kleur van gemeente
- gemeente grootte
- gemiddeld inkomen
- energiegebruik woningen
- hernieuwbare energie (wind en zon)

In [20]:
import pandas as pd
from matplotlib import pyplot as plt

In [21]:
# Inladen en bewerken van de dataset met gegevens over de politieke kleur van de gemeente.
# De dataset bevat gegevens de verkiezingsuitslag per partij (Stem), politieke kleur burgemeester (Burg),
# samenstelling college B&W (Weth) en zetelverdeling in de gemeenteraad (Raad) in 2016
# (bron: Vereniging Nederlandse Gemeenten, www.waarstaatjegemeente.nl)
politiek = pd.read_csv("../data/CBS/Politiek.csv", sep=";")

# Bepalen van de partij met het grootste aantal stemmen tijdens de verkiezingen
politiek['Meeste_stemmen'] = politiek.loc[:, 'Stem_Lokaal':'Stem_PvdD'].idxmax(axis=1)
politiek['Meeste_stemmen'] = politiek['Meeste_stemmen'].str.slice(5)

# Bepalen van de partij met de meeste wethouders in het college van B&W
politiek['College_partij'] = politiek.loc[:, 'Weth_Lokaal':'Weth_SGP'].idxmax(axis=1)
politiek['College_partij'] = politiek['College_partij'].str.slice(5)

# Bepalen van de partij met de meeste zetels in de raad
politiek['Meeste_zetels'] = politiek.loc[:, 'Raad_Lokaal':'Raad_SGP'].idxmax(axis=1)
politiek['Meeste_zetels'] = politiek['Meeste_zetels'].str.slice(5)

In [22]:
# Inladen van de dataset met kerngegevens van gemeenten (bron: CBS, statline)
# de dataset bevat gegevens over aantal inwoners, totaal inkomen, omgevingsadressendichtheid en provincie in 2016
kern = pd.read_csv("../data/CBS/Regionale_kerncijfers.csv", sep=";", decimal=",")

# omzetten van aantal inwoners naar klasse van gemeentegrootte (meest gebruikte indeling CBS)
gemgrootte = ["Klein", "Middelgroot", "Groot", "Grootste vier"]
kern['Gemeentegrootte'] = pd.cut(kern['Inwoners'], bins=[0, 30000, 100000, 250000, 5000000], labels=gemgrootte)

# omzetten van gemiddeld inkomen huishoudens naar inkomensklasse (eigen indeling o.b.v. histogram)
inkcat = ["Arm", "Laag", "Modaal", "Hoog", "Rijk"]
kern['Inkomens_categorie'] = pd.cut(kern['Inkomen'], bins=[0, 36, 40, 45, 50, 100], labels=inkcat)

# omzetten van omgevingsadressendichtheid naar stedelijkheidsgraad (indeling volgens CBS)
stedelijk = ["niet stedelijk", "weinig stedelijk", "matig stedelijk", "sterk stedelijk", "zeer sterk stedelijk"]
kern['Stedelijkheidsgraad'] = pd.cut(kern['OAD'], bins=[0, 500, 1000, 1500, 2500, 10000], labels=stedelijk)

In [23]:
# Inladen van dataset met gegevens over de opwek van zonne- en windenergie in gemeenten in 2012 (bron: klimaatmonitor)
hernieuw12 = pd.read_csv("../data/CBS/Hernieuwbare_energie.csv")

# Hoeveelheid windenergie omzetten naar grootteklasse
hernieuw12['Windenergie_2012'] = "Geen"
hernieuw12['Windenergie_2012'][hernieuw12['Wind'].notnull()] = \
    pd.cut(hernieuw12['Wind'], bins=[-1, 25, 100, 10000], labels=["Beperkt", "Gemiddeld", "Veel"])

# Hoeveelheid zonne-energie omzetten naar grootteklasse
hernieuw12['Zonneenergie_2012'] = "Geen"
hernieuw12['Zonneenergie_2012'][hernieuw12['Zon'].notnull()] = \
    pd.cut(hernieuw12['Zon'], bins=[-1, 1, 4, 15], labels=["Beperkt", "Gemiddeld", "Veel"])

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  hernieuw12['Windenergie_2012'][hernieuw12['Wind'].notnull()] = \
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  hernieuw12['Zonneenergie_2012'][hernieuw12['Zon'].notnull()] = \


In [24]:
# Inladen van dataset met gegevens over de opwek van zonne- en windenergie in gemeenten in 2021 (bron: klimaatmonitor)
hernieuw21 = pd.read_csv("../data/CBS/Hernieuwbare_elektriciteit.csv")

# Hoeveelheid windenergie omzetten naar grootteklasse
hernieuw21['Windenergie_2021'] = "Geen"
hernieuw21['Windenergie_2021'][hernieuw21['Wind'].notnull()] = \
    pd.cut(hernieuw21['Wind'], bins=[-1, 25, 200, 10000], labels=["Beperkt", "Gemiddeld", "Veel"])

# Hoeveelheid zonne-energie omzetten naar grootteklasse
hernieuw21['Zonneenergie_2021'] = "Geen"
hernieuw21['Zonneenergie_2021'][hernieuw21['Zon'].notnull()] = \
    pd.cut(hernieuw21['Zon'], bins=[-1, 50, 200, 1000], labels=["Beperkt", "Gemiddeld", "Veel"])

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  hernieuw21['Windenergie_2021'][hernieuw21['Wind'].notnull()] = \
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  hernieuw21['Zonneenergie_2021'][hernieuw21['Zon'].notnull()] = \


In [25]:
# Samenvoegen van de dataset met hernieuwbare energie uit 2015 en 2021 om de groei te bepalen
hernieuw12agg = hernieuw12.groupby('Gemeente_2023')[['Wind', 'Zon']].sum()
hernieuw_tot = hernieuw21[['Gemeenten', 'Wind', 'Zon']]. \
    merge(hernieuw12agg, how="left", left_on='Gemeenten', right_on='Gemeente_2023', suffixes=("_2021", "_2012"))

# Berekenen groei van de hoeveelheid opgewekte zonne- en windenergie
hernieuw_tot = hernieuw_tot.fillna(0)
hernieuw_tot['Wind_groei'] = hernieuw_tot['Wind_2021'] - hernieuw_tot['Wind_2012']
hernieuw_tot['Zon_groei'] = hernieuw_tot['Zon_2021'] - hernieuw_tot['Zon_2012']

# Groei zonne- en windenergie omzetten naar grootteklasse
hernieuw_tot['Windenergie_groei'] = pd.cut(hernieuw_tot['Wind_groei'], \
    bins=[-100, 0, 25, 200, 10000], labels=["Geen", "Beperkt", "Gemiddeld", "Veel"])
hernieuw_tot['Zonneenergie_groei'] = pd.cut(hernieuw_tot['Zon_groei'], \
    bins=[-100, 0, 50, 200, 1000], labels=["Geen", "Beperkt", "Gemiddeld", "Veel"])

In [26]:
# Inladen gegevens gemiddeld energiegebruik woningen 2016 (bron: CBS, statline)
woning16 = pd.read_csv("../data/CBS/Energieverbruik_woningen.csv", sep=",", decimal=",", na_values=".")
woning16 = woning16.drop(woning16[woning16['Aardgas'].isnull() & woning16['Elektriciteit'].isnull()].index)

# Omzetten gebruik aardgas en elektriciteit naar grootteklasse
energie = ["Laag", "Middel", "Hoog"]
woning16['Aardgas_2016_cat'] = pd.cut(woning16['Aardgas'], bins=[0, 1300, 1700, 3000], labels=energie)
woning16['Elektriciteit_2016_cat'] = pd.cut(woning16['Elektriciteit'], bins=[0, 2900, 3300, 5000], labels=energie)

In [27]:
# Inladen gegevens energiegebruik woningen 2021 (bron: klimaatmonitor)
# de dataset bevat ook de gegevens voor 2016 om de ontwikkeling in energiegebruik uit te rekenen
# het gebruik van aardgas is temperatuur gecorrigeerd, hierdoor kan deze afwijken van de gegevens van het CBS
woning21 = pd.read_csv("../data/CBS/Woningen_2021.csv", na_values="-")

# Berekening verschil in energiegebruik tussen 2016 en 2021
woning21['aardgas_verschil'] = woning21['aardgas_2021'] - woning21['aardgas_2016']
woning21['elektriciteit_verschil'] = woning21['elektriciteit_2021'] - woning21['elektriciteit_2016']

# Omzetten gebruik aardgas en elektriciteit naar grootteklasse
energie = ["Laag", "Middel", "Hoog"]
woning21['Aardgas_2021_cat'] = pd.cut(woning21['aardgas_2021'], bins=[0, 1300, 1700, 3000], labels=energie)
woning21['Elektriciteit_2021_cat'] = \
    pd.cut(woning21['elektriciteit_2021'], bins=[0, 2900, 3300, 5000], labels=energie)

# Omzetten gebruik aardgas en elektriciteit naar grootteklasse
verschil = ["veel lager", "iets minder", "meer"]
woning21['Aardgas_verschil_cat'] = pd.cut(woning21['aardgas_verschil'], \
    bins=[-500, -75, 0, 100], labels=verschil)
woning21['Elektriciteit_verschil_cat'] = pd.cut(woning21['elektriciteit_verschil'], \
    bins=[-1000, -150, 0, 200], labels=verschil)

In [28]:
# Samenvoegen alle bepaalde variabelen in één dataframe zodat deze gebruikt kan worden voor verdere analyse
# De gegevens worden samengevoegd voor gemeenten van 2016 omdat dit de indeling is die gebruikt wordt voor
# documentanalyse. De waarden voor wind- en zonne-energie uit 2021 en de groei daarvan worden de waarden van
# nieuwe gemeenten meerdere keren overgenomen.
eval_data = kern.loc[:, ["GM_Code", "Gemeente", "PV", "Gemeentegrootte", "Inkomens_categorie", "Stedelijkheidsgraad"]]
eval_data = eval_data.merge(politiek[['GemCode', 'Meeste_zetels']], \
    how="left", left_on='GM_Code', right_on='GemCode').drop('GemCode', axis=1)

# samenvoegen hernieuwbare energie
hernieuw_sam = \
    hernieuw12.loc[:, ['Gemeente', 'Gemeente_CBS', 'Gemeente_2023', 'Windenergie_2012', 'Zonneenergie_2012']]
hernieuw_sam = hernieuw_sam.merge(hernieuw21[['Gemeenten', 'Windenergie_2021', 'Zonneenergie_2021']], \
    how="left", left_on='Gemeente_2023', right_on='Gemeenten').drop('Gemeenten', axis=1)
hernieuw_sam = hernieuw_sam.merge(hernieuw_tot[['Gemeenten', 'Windenergie_groei', 'Zonneenergie_groei']], \
    how="left", left_on='Gemeente_2023', right_on='Gemeenten').drop('Gemeenten', axis=1)


# samenvoegen energiegebruik
energie_sam = hernieuw_sam.iloc[:, 0:3]
woning16 = woning16.rename(columns={'Gemeente': 'Gemeenten'})
energie_sam = energie_sam.merge(woning16[['Gemeenten', 'Aardgas_2016_cat', 'Elektriciteit_2016_cat']], \
    how="left", left_on='Gemeente_CBS', right_on='Gemeenten').drop('Gemeenten', axis=1)
energie_sam = energie_sam.merge( \
    woning21[['Gemeenten', 'Aardgas_2021_cat', 'Elektriciteit_2021_cat', \
    'Aardgas_verschil_cat', 'Elektriciteit_verschil_cat']], \
    how="left", left_on='Gemeente_2023', right_on='Gemeenten').drop('Gemeenten', axis=1)

# samenvoegen algemene gegevens met energiegegevens
hernieuw_sam = hernieuw_sam.drop(['Gemeente', 'Gemeente_2023'], axis=1)
energie_sam = energie_sam.drop(['Gemeente', 'Gemeente_2023'], axis=1)
eval_data = eval_data.merge(hernieuw_sam, how="left", left_on='Gemeente', right_on='Gemeente_CBS'). \
    drop('Gemeente_CBS', axis=1)
eval_data = eval_data.merge(energie_sam, how="left", left_on='Gemeente', right_on='Gemeente_CBS'). \
    drop('Gemeente_CBS', axis=1)

In [29]:
# opslaan van dataframe om te worden gebruikt voor verdere analyse
eval_data.to_parquet("../data/CBS/Evaluation_data.parquet")