## 2. Die gesammelten Daten analysieren


Jetzt haben wir uns viele Daten beschafft, kennen aber noch wenige deren Eigenschaften.

Wir wollen beginnen uns einen Überblick über tatsächlichen Informationen zu beschaffen welche in diesen Daten enthalten sind.

Zuerst wieder die Bibliotheken und Konfigurationen.


In [None]:
import json
from collections import defaultdict


mode = 1
# 1 = Nationalratswahlen

filename = "nationalrat_raw.json"

Im folgenden definieren wir eine *Funktion*.
Diese Funktion erlaubt es uns Daten etwas schöner auszugeben

In [3]:
def print_dict(d: dict):
    maxlen_keys = max(map(len, map(str, d.keys())))
    maxlen_values = max(map(len, map(str, d.values())))
    for key in d.keys():
        print(f"{key:.<{maxlen_keys}}{d[key]:.>{maxlen_values+1}}")

Dann folgt das Laden der Daten.


In [4]:
candidates = json.load(open(filename, encoding="utf-8"))

Wie viele Personen kandidieren für jede Partei?


In [5]:
party_count = defaultdict(int)

for candidate in candidates:
    party = candidate.get("partyAbbreviation")
    if party:
        party_count[party] += 1

# Sortieren nach Anzahl Kandidierende pro Partei
party_count = dict(sorted(party_count.items(), key=lambda item: item[1], reverse=True))
print_dict(party_count)

Die Mitte.........690
GLP...............576
SP................440
FDP...............363
Grüne.............351
SVP...............321
EVP...............239
JM................232
JG................211
JUSO..............206
JFS...............201
JGLP..............183
EDU...............157
JSVP..............156
Ind................84
JEVP...............80
MASS-VOLL!.........59
PdA................55
PP.................45
Aufrecht...........45
engagiert..........39
AL.................31
EAG-LUP............29
SD.................22
LP.................20
MCG................16
Les Libres.........13
SOL................13
Lega................9
PC..................7
PCS.................7
BastA!..............6
JA..................6
DA..................5
Grüne Panther.......5
SE..................5
JBastA..............4
JLB.................4
LDP.................4
LOVB................4
Avanti..............3
Forum Alternativo...3
Parteifrei..........3
Più Donne...........3
DAL.................2
PdA Basel.

Wie sieht's aus mit dem Frauenanteil der Kandidierenden?


In [None]:
# Ein Dictionary für Frauen und Männer, eins nur für Frauen. Kandidierende ohne Eintrag beim Feld "gender" werden ignoriert
all_candidates = defaultdict(int) # Objekt für Frauen und Männer
female_only = defaultdict(int) # Objekt nur für Frauen

# Iteriert über alle Kandidierenden und zählt Frauen und Männer pro Partei
for candidate in candidates:
    party = candidate.get("partyAbbreviation")
    gender = candidate.get("gender")
    # Wenn die Kandidierende Person einer Partei zugeordnet ist
    if party: # and party_count[party] >= 10: # Nur Parteien mit mindestens 10 Kandidierenden
        # Wenn die Kandidierende Person weiblich ist
        if gender == "f":
            female_only[party] += 1
            all_candidates[party] += 1
        # Wenn die Kandidierende Person männlich ist
        if gender == "m":
            all_candidates[party] += 1

# Berechnet den Frauenanteil
age_share = {}
for party_name, young in female_only.items():
    ratio = young / all_candidates[party_name]
    age_share[party_name] = f"{ratio:.0%}"
age_share = dict(sorted(age_share.items(), key=lambda item: int(item[1].strip('%')), reverse=True))

print_dict(age_share)

SOL........67%
EAG-LUP....66%
MCG........56%
JG.........55%
AL.........55%
JEVP.......54%
Grüne......52%
SP.........51%
JUSO.......50%
EVP........49%
engagiert..41%
GLP........40%
PdA........40%
JGLP.......39%
FDP........38%
Die Mitte..38%
JM.........35%
MASS-VOLL!.34%
Ind........31%
Aufrecht...31%
Les Libres.31%
JFS........30%
EDU........29%
PP.........29%
SVP........25%
JSVP.......19%
SD.........18%
LP..........5%


Dasselbe können wir auch mit dem Alter machen und uns anschauen wie die Altersverteilung ausschaut.

Wir wollen den Anteil an Kandidierenden berechnen die Jünger als 40 (definierbar) sind.

In [9]:
age_cutoff = 40

# Ein Dictionary für Frauen und Männer, eins nur für Frauen. Kandidierende ohne Eintrag beim Feld "gender" werden ignoriert
all_candidates = defaultdict(int) # Objekt für Frauen und Männer
younger_only = defaultdict(int) # Objekt nur für Frauen

# Iteriert über alle Kandidierenden und zählt Frauen und Männer pro Partei
for candidate in candidates:
    party = candidate.get("partyAbbreviation")
    age = 2024 - candidate.get("yearOfBirth")
    # Wenn die Kandidierende Person einer Partei zugeordnet ist
    if party:
        # Wenn die Kandidierende Person jünger ist
        if age <= age_cutoff:
            younger_only[party] += 1
            all_candidates[party] += 1
        # Wenn die Kandidierende Person älter ist
        else:
            all_candidates[party] += 1

# Berechnet den Altersanteil
age_share = {}
for party_name, young in younger_only.items():
    ratio = young / all_candidates[party_name]
    age_share[party_name] = f"{ratio:.0%}"
age_share = dict(sorted(age_share.items(), key=lambda item: int(item[1].strip('%')), reverse=True))

print_dict(age_share)

JFS........100%
JGLP.......100%
JM.........100%
JEVP.......100%
JSVP.......100%
JUSO.......100%
JG.........100%
JBastA.....100%
JLB........100%
JA.........100%
Parat......100%
PC..........86%
SOL.........69%
Avanti......67%
Più Donne...67%
SE..........60%
DA..........60%
PP..........53%
BastA!......50%
LP..........45%
PdA.........44%
AL..........39%
SP..........38%
EDU.........34%
EAG-LUP.....34%
Grüne.......33%
Lega........33%
MASS-VOLL!..31%
GLP.........28%
FDP.........26%
SVP.........25%
LDP.........25%
LOVB........25%
engagiert...23%
Die Mitte...22%
MCG.........19%
SD..........18%
Ind.........17%
EVP.........16%
Les Libres..15%
PCS.........14%
Aufrecht.....7%
