In dieser Datastory möchte ich Gemeinden anhand der Abstimmungsresultate zu gruppieren. Daraus möchte ich schauen, ob man daraus unterschiede zwischen verschiedenen Gruppen von Gemeinden erkennen kann.
Zusätzlich möchte ich schauen, ob sich diese Gruppierungen auch eignen, um Hochrechnungen zu machen. Aus den Resultaten einiger Gemeinden könnte man die Resultate der Gruppen abschätzen und damit eine Hochrechnung machen.

Zuerst laden wir alle benötigten Bibliotheken, ausserdem werden wir noch openpyxl installieren, damit wir die Daten auch exportieren und so weiterverwenden können.

In [1]:
%pip install openpyxl

Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd
import numpy as np
from importlib import reload

import ipywidgets as widgets
from IPython.display import display, HTML

from sklearn.cluster import AgglomerativeClustering
from ipywidgets import interact
import data_manager, ploting
%pylab inline

plt.style.use("default")
plt.rcParams['figure.figsize'] = [16, 8]
plt.rcParams['figure.dpi'] = 100 # 200 e.g. is really fine, but slower
rcParams["figure.autolayout"] = False
np.warnings.filterwarnings('ignore', category=np.VisibleDeprecationWarning)

Populating the interactive namespace from numpy and matplotlib


Damit wir die Grafiken gleich sehen, aktivieren wir noch den inline Style und machen ein paar Einstellungen, damit die Outputs ein bisschen grösser werden.

# Was sagen Abstimmungsresultate über die Gemeinden der Schweiz

In der Schweiz gibt es sehr viele Abstimmungen und die Resultate davon sind einfach zugänglich. Bei den Abstimmungen gibt es immer Unterschiede zwischen Gemeinden, manchmal spricht man vom Rösti-Graben und manchmal auch vom Stadt-Land graben.

Doch was hat es damit wirklich auf sich, wenn man nicht nur eine Abstimmung anschaut, sondern eine ganze 
Gruppe?

Mit Clustering-Algorithmen lassen sich die Gemeinden gruppieren. Wir betrachten dabei eine Gemeinde als mehrdimensionalen Punkt. Jedes Abstimmungsresultat steht dabei quasi für eine Dimension. Und die Punkte, die in diesem X-Dimensionalen Raum am nächsten zusammen sind, ergeben unsere Gruppe.

Die Daten stammen vom Bundesamt für Statistik und können unter https://www.pxweb.bfs.admin.ch/pxweb/de/px-x-1703030000_101/px-x-1703030000_101/px-x-1703030000_101.px heruntergeladen werden. Das Datenfile umfasst die Resultate, die Stimmbeteiligung und die Anzahl der Stimmberechtigten der ausgewählten Vorlagen für jede Gemeinde:

In [3]:
manager = data_manager.Manager('data/abstimmungen.csv')
manager.load_results()
viewer = ploting.Viewer(manager)

Wir brauchen eine Liste aller Abstimmungen, damit wir uns einen Überblick verschaffen können und damit wir auswählen können, welche Abstimmungen für unsere Untersuchung relevant sind.

Die Auswahl können wir dynamisch mit einem Widget machen. Wir können z. B. Vorlagen auswähelen, bei denen es um das gleiche Thema geht, und schauen, was für Gruppen wir dabei erhalten.

In [4]:
viewer.explore_yes_pivot()

interactive(children=(SelectMultiple(description='votation', index=(0, 1, 2, 3, 4, 5), layout=Layout(width='80…

Aus den gewählten Abstimmungen machen wir jetzt die Matrix, mit der wir die Gruppierung machen werden. Die Zeilen sind dabei die einzelnen Gemeinden und die Spalten die Abstimmungsresultate.

Wir verwenden als erstes den kMeans Algorithmus um die Gemeinden zu Clustern. Wir machen dabei zwischen 2 und 15 Cluster.

In [5]:
manager.cluster_results_kmeans(viewer.get_selected_votations())

Als Vergleich nehmen wir noch den Agglomerative Clustering Algorithmus mit ebenfalls 2 bis 14 Clustern.

In [6]:
manager.cluster_results_agglomerative(viewer.get_selected_votations())

In [7]:
viewer.scatter_explorer()

HBox(children=(Dropdown(description='X', options=('2020-09-27 Bundesbeschluss über die Beschaffung neuer Kampf…

Output()

Nachdem wir die Cluster gemacht haben, möchten wir diese noch anschauen können. Dazu machen wir einen Scatter Plot, in dem die X und die Y Achse jeweils die Resultate zweier Abstimmungen sind. Damit können wir schauen, wie sich die Gemeinden bei den gewählten Abstimmungen verhalten haben. Die Gruppen können wir durch Farben unterscheiden.

Wir stellen die beiden Algorithmen in zwei Plots gegeinander dar, um zu schauen, ob es bei den Gruppenzuweisungen grosse Unterschiede gibt oder nicht.

In [8]:
viewer.scatter_explorer_single(all_votations=True)

HBox(children=(Dropdown(description='X', options=('2020-09-27 Bundesbeschluss über die Beschaffung neuer Kampf…

Output()

All das von oben können wir auch in ein Widget stecken, damit wir die Daten ein bisschen angenehmer untersuchen können:

Jetzt haben wir die Gemeinden aufgrund der ausgewählten Abstimmungen gruppiert. Jetzt können wir die Gemeinden noch mit zusätzlichen Informaitonen anreichern, und dann schauen, was für Unterschiede zwischen den Gruppen es gibt. Als erstes können wir die anderen Resultate wieder mit dieser Tabelle verknüpfen, also nicht nur die, mit denen wir das Clustering gemacht haben.

Als nächstes wollen wir noch Daten zum Ausländer\*innenanteil, der Gemeindegrösse usw. anschauen, dazu verknüpfen wir das Gemeindeportrait des Bundesamtes für Statistik mit unseren Clustern.

In [9]:
manager.read_portrait()
manager.join_portrait()

In [10]:
viewer.explore_single_portrait()

HBox(children=(IntSlider(value=2, max=14, min=2), Dropdown(options=('1996-03-10 Bundesbeschluss über den Ueber…

Tab(children=(Output(), Output()), _titles={'0': 'table', '1': 'boxplot'})

Jetzt können wir Statistiken für die Gruppen anzeigen.

In [11]:
viewer.scatter_portrait()

HBox(children=(Dropdown(options=('1996-03-10 Bundesbeschluss über den Uebertritt der bernischen Gemeinde Velle…

Output()

In [12]:
viewer.show_map()

interactive(children=(IntSlider(value=2, description='k', max=14, min=2), Button(description='Run Interact', s…