### Vorbereitung: Laden der nötigen Module

In [264]:
from bs4 import BeautifulSoup
import numpy as np

from selenium import webdriver
from selenium.webdriver.common.keys import Keys   #erlaubt Begriff an best. Stelle einzufügen
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import Select  #erlaubt Pulldownmenus zu operieren

import time #um bei Selenium Zeitpausen einzubauen, damit die Website laden kann

import os
import pandas as pd
from tqdm import tqdm
import re

#Das hier sind Imports für NetworkX
import warnings
warnings.filterwarnings('ignore')
import networkx as nx
import matplotlib.pyplot as plt
%matplotlib inline
from operator import itemgetter

# 1. Scrapen der Website

Zugriff auf Website:

In [3]:
driver = webdriver.Chrome(executable_path="/usr/local/bin/chromedriver")
driver.get("https://www.gemeinderat-zuerich.ch/geschaefte")

#Diese Sleeps braucht es, weil der Browser sonst vom Tempo überfordert ist. 
time.sleep(3)

Ein einfaches **Interface, um Geschäftstyp und Jahr auzuwählen**. (Wurde nötig, weil Scraper manchmal unterbrochen wurde. So muss man nicht jedes Mal von vorne anfangen.)

In [4]:
#mit while True baue ich einen Loop, der so lange läuft, bis ein gültiger Wert eingegeben wurde
while True:
    typ_geschaeft = input("Geben Sie die Nummer der gewünschten Geschäftsart ein (1 = Motion, 2 = Postulat, 3 = Interpellation, 4 = Schriftliche Anfrage): ")
    typ_geschaeft = int(typ_geschaeft)
    
    if typ_geschaeft in range (1,5):
        if typ_geschaeft == 1:
            print("Sie haben Motion gewählt.")
        elif typ_geschaeft == 2:
            print("Sie haben Postulat gewählt.")
        elif typ_geschaeft == 3:
            print("Sie haben Interpellation gewählt.")
        elif typ_geschaeft == 4:
            print("Sie haben Schriftliche Anfrage gewählt.")
        break
    print("Sie haben eine ungültige Zahl eingegegeben. Bitte wiederholen.")

#Dasselbe noch einmal:
while True:
    jahr_geschaeft = input("Geben Sie das gewünschte Jahr ein (0 = alle Jahre): ")
    jahr_geschaeft = int(jahr_geschaeft)
    
    if jahr_geschaeft in range (1970,2020):
        print("Sie haben das Jahr "+str(jahr_geschaeft)+" gewählt.")
        break
    elif jahr_geschaeft == 0:
        print("Sie haben alle verfügbaren Jahre gewählt.")
        break
    print("Sie haben eine ungültige Zahl eingegegeben. Bitte wiederholen.")

#Hier wird die URL entsprechend der Eingaben zusammengefügt:
if jahr_geschaeft == 0:
    url = "https://www.gemeinderat-zuerich.ch/geschaefte/#!geschaeftsartId="+str(typ_geschaeft)+"&activePage="
    driver.get(url+"1")
else:
    url = "https://www.gemeinderat-zuerich.ch/geschaefte/#!geschaeftsartId="+str(typ_geschaeft)+"&jahr="+str(jahr_geschaeft)+"&activePage="
    driver.get(url+"")

time.sleep(3)

Geben Sie die Nummer der gewünschten Geschäftsart ein (1 = Motion, 2 = Postulat, 3 = Interpellation, 4 = Schriftliche Anfrage): 1
Sie haben Motion gewählt.
Geben Sie das gewünschte Jahr ein (0 = alle Jahre): 1998
Sie haben das Jahr 1998 gewählt.


Hier ermittle ich die **Anzahl der Durchgänge**, die für meinen Loop nötig sind. Diesen Wert ermittle ich, indem ich auf der Website die Zahl "Liste der Geschäfte" ansteuere und durch 10 teile (weil: 10 geschäfte pro Seite). Achtung: Man muss natürlich aufrunden, damit es auch die allerletzte Seite mitnimmt.

In [7]:
page = driver.page_source.encode('utf-8')
soup1 = BeautifulSoup(page, 'html.parser')
span = soup1.find_all("span")
treffer = int(span[85].text)

#Hier wird mit ceil konsequent aufgerundet
seitenzahl = int(np.ceil(treffer/10)) 

### 1.1 Der Scraping-Loop

In [8]:
for seite in range(1,seitenzahl+1):
    
    driver.get(url+str(seite))
    time.sleep(3)
        
    #Hier finde ich heraus, wie oft der Loop pro angesteuerter Seite stattfinden muss:
    anzahl_geschaefte = len(driver.find_elements_by_class_name("tableDataRow"))

    #Jedes Geschäft auf der aktuellen Seite ansteuern und als htm-File im Ordner "data" speichern
    for einzelgeschaeft in range(0,anzahl_geschaefte): 
        time.sleep(1) 
        
        geschaefte = driver.find_elements_by_class_name("tableDataRow")
        geschaefte[einzelgeschaeft].click()
    
        page = driver.page_source.encode('utf-8')
    
        #Hier hole ich die Geschäftsnummer raus und säubere sie vom "/", damit ich sie als File-Titel verwenden kann.
        soup = BeautifulSoup(page, 'html.parser')
        nummer = soup.find_all("span")[2].text
        nummer = nummer.replace("/","_")
    
        with open("data/geschaeft"+nummer+".htm", "wb+") as file:
            file.write(page)
            file.close()
    
        #Jetzt gehe ich zurück zur Übersichtsseite und lege eine kurze Pause ein, weil sonst Click z.T. nicht geht. 
        driver.back()

# 2. Auslesen der Daten und speichern in Dataframe

## 2.1. Option: Sämtliche Vorstösse auslesen
Hier mache ich zum Vergleich einen vereinfachten Dataframe. Das ist eine **reine Kontrollmassnahme**: Es geht nur darum, die Gesamtzahl aller Vorstösse pro Legislatur zu kennen, damit ich  vergleichen kann, ob eine allfällige Zunahme bei den parteiübergreifenden Vorstössen nicht mit einer generellen Zunahme zu erklären ist.

In [3]:
#Zuvor habe ich alle Geschäfte manuell in einem Ordner zusammengefügt.
files = os.listdir("alle_geschaefte")
df_list = []

for file in tqdm(files): 
    
    #Hier schliesse ich fehlerhafte Files aus (bei diesen kommt der Begriff "geschaeft" im Name nicht vor).
    if "geschaeft" in file: 
        geschaeft = open("alle_geschaefte/"+ file, "r", encoding = "utf-8")
        text = geschaeft.read()
        soup = BeautifulSoup(text, "html.parser")
        
        #Geschäftsnummer rauslesen
        geschaeft_nr = soup.find_all("div")[22].find_all("span")[1].text
        
        #Datum rauslesen
        regex = r"((?<=\svom\s)\d*\.\d*\.\s*\d*)"
        datum = re.findall(regex, str(soup))[0]
                
        mini_dict = {
            "Datum" : datum,
            "Geschäft" : geschaeft_nr}
        df_list.append(mini_dict)

df_alle = pd.DataFrame(df_list)

100%|██████████| 7026/7026 [05:02<00:00, 23.22it/s]


**Fehlerkorrektur 1:** Bei folgenden Positionen stimmt mit dem Datum etwas Grundsätzliches nicht, weshalb wir es mit einem annäherungsweisen Datum aufgrund der Geschäftnummer ersetzen.

In [4]:
fehlerliste = ["29.01.20","08.01.20","18.12.19"]

for fehler in fehlerliste:
    fehlerposition = df_alle[df_alle["Datum"] == fehler].index.tolist()
    for zeile in fehlerposition:
        Jahr = df_alle.loc[zeile, "Geschäft"].split("/")[0]
        Ersatzdatum = "31.12." + Jahr
        df_alle.loc[zeile, "Datum"] = df_alle.loc[zeile, "Datum"].replace(fehler, Ersatzdatum)

**Fehlerkorrektur 2:** Hier korrigieren wir zwei weitere Fehler, bei denen die Daten zwar stimmen, aber falsch formatiert sind (Leerschläge, zweistellige Jahreszahlen).

In [6]:
df_laenge = len(df_alle)
for zeile in range(0, df_laenge-1):
    
    #Hier hole ich jene Daten raus, die nur eine zweistellige Jahreszahl haben und vervollständige sie:
    if df_alle.loc[zeile,"Datum"][-3:-2] == ".":
        if df_alle.loc[zeile,"Datum"][-2:] >= "80":
            df_alle.loc[zeile,"Datum"] = df_alle.loc[zeile,"Datum"][:-2]+"19"+df_alle.loc[zeile,"Datum"][-2:]
        if df_alle.loc[zeile,"Datum"][-2:] <= "21":
            df_alle.loc[zeile,"Datum"] = df_alle.loc[zeile,"Datum"][:-2]+"20"+df_alle.loc[zeile,"Datum"][-2:]   
    
    #Hier hole ich jene Daten raus, die einen Leerschlag drin haben und lösche ihn raus:
    if df_alle.loc[zeile,"Datum"][-3:-2] == " ":
        df_alle.loc[zeile,"Datum"] = df_alle.loc[zeile,"Datum"][:-3]+df_alle.loc[zeile,"Datum"][-2:]
        
    #Hier hole ich jene Daten mit vierstelligen Jahreszahlen raus, die einen Leerschlag davor haben und lösche ihn:
    if df_alle.loc[zeile,"Datum"][-5:-4] == " ":
        df_alle.loc[zeile,"Datum"] = df_alle.loc[zeile,"Datum"][:-5]+df_alle.loc[zeile,"Datum"][-4:]
    
    #Hier hole ich jene Daten raus, die zu kurz sind, weil die Jahreszahl ganz fehlt, und vervollständige sie:
    if len(df_alle.loc[zeile,"Datum"]) == 6:
        Jahr = df_alle.loc[zeile, "Geschäft"].split("/")[0]
        df_alle.loc[zeile,"Datum"] = df_alle.loc[zeile,"Datum"]+Jahr

Jetzt sind alle Fehler weg, und ich kann die Daten ins Datetime-Format übersetzen und zum Index machen: 

In [8]:
df_alle["Datum"] = pd.to_datetime(df_alle['Datum'], format='%d.%m.%Y')
df_alle = df_alle.set_index("Datum")
df_alle.head(5)

Unnamed: 0_level_0,Geschäft
Datum,Unnamed: 1_level_1
2001-06-27,2001/362
2000-04-05,2000/171
2007-09-12,2007/496
2012-03-14,2012/99
2004-10-27,2004/555


Jetzt kann man für die Statistik die **Zahl der Vorstösse pro Legislatur** messen:

In [9]:
df_1990 = df_alle["1990-05-15":"1994-05-14"]
df_1994 = df_alle["1994-05-15":"1998-05-14"]
df_1998 = df_alle["1998-05-15":"2002-05-14"]
df_2002 = df_alle["2002-05-15":"2006-05-14"]
df_2006 = df_alle["2006-05-15":"2010-05-14"]
df_2010 = df_alle["2010-05-15":"2014-05-14"]
df_2014 = df_alle["2014-05-15":"2018-05-14"]
df_2018 = df_alle["2018-05-15":"2022-05-14"]

print("1990-94: "+str(len(df_1990)))
print("1994-98: "+str(len(df_1994)))
print("1998-02: "+str(len(df_1998)))
print("2002-06: "+str(len(df_2002)))
print("2006-10: "+str(len(df_2006)))
print("2010-14: "+str(len(df_2010)))
print("2014-18: "+str(len(df_2014)))
print("2018-22: "+str(len(df_2018)))

1990-94: 18
1994-98: 179
1998-02: 1362
2002-06: 1386
2006-10: 1427
2010-14: 1106
2014-18: 981
2018-22: 561


## 2.2. Option: Parteiübergreifende Vorstösse auslesen

In [11]:
files = os.listdir("alle_geschaefte")
df_list = []

for file in tqdm(files): 
    
    #Hier schliesse ich fehlerhafte Files aus (bei diesen kommt der Begriff "geschaeft" im Name nicht vor).
    if "geschaeft" in file:
        geschaeft = open("alle_geschaefte/"+ file, "r", encoding = "utf-8")
        text = geschaeft.read()
        soup = BeautifulSoup(text, "html.parser")
    
        #Jetzt filtere ich jene Vorstösse raus, die mehrere Einreichende haben:
        einreichende = soup.find_all("div")[24].find_all("a")
        if len(einreichende) > 1: 
            
            #Jetzt filtere ich jene raus, die überhaupt einen Namen drin haben (Erkennungsmerkmal sind Klammern):
            einreichender1 = einreichende[0].text.strip()
            if "(" and ")" in einreichender1:
                
                #Hier frage ich nun die gesuchten Daten ab:
                name1 = einreichender1.split(" (")[0]
                partei1 = einreichender1.split(" (")[1][:-1]
                
                einreichender2 = einreichende[1].text.strip()
                name2 = einreichender2.split(" (")[0]
                partei2 = einreichender2.split(" (")[1][:-1]
                
                geschaeft_nr = soup.find_all("div")[22].find_all("span")[1].text
                
                regex = r"((?<=\svom\s)\d*\.\d*\.\s*\d*)"
                datum = re.findall(regex, str(soup))[0].replace(" ", "")
                
                try: 
                    regex_dep = r"((?<=Zuständiges Departement).*\n*.*)"
                    dep_fragment = re.findall(regex_dep, str(soup))[0]
                    soup_dep = BeautifulSoup(dep_fragment, "html.parser")
                    departement = soup_dep.text[1:]

                except: 
                    departement = ""
                            
                #Zum Schluss: Wir wollen nur jene in unserem Mini-Dict haben mit unterschiedlichen Parteien:
                if partei1 != partei2:
                    mini_dict = {
                        "Datum" : datum,
                        "Geschäft" : geschaeft_nr,
                        "Einreichender 1" : name1,
                        "Partei 1" : partei1,
                        "Einreichender 2" : name2,
                        "Partei 2" : partei2,
                        "Departement" : departement
                    }
                    df_list.append(mini_dict)

100%|██████████| 7026/7026 [05:52<00:00, 19.92it/s]


In [311]:
df = pd.DataFrame(df_list)
df.head(5)

Unnamed: 0,Datum,Geschäft,Einreichender 1,Partei 1,Einreichender 2,Partei 2,Departement
0,25.11.2009,2009/562,Kurt Hüssy,SVP,Peter Anderegg,EVP,Polizeidepartement (PD)
1,08.01.2020,2020/2,Marcel Bührig,Grüne,Natascha Wey,SP,Präsidialdepartement (PRD)
2,28.09.2011,2011/362,Alecs Recher,AL,Maleica Landolt,GLP,Finanzdepartement (FD)
3,20.10.2004,2004/541,Niklaus Scherr,AL,Kurt Maeder,CVP,Hochbaudepartement (HBD)
4,29.01.20,1998/191,Rolf Walther,FDP,Jürg Liebermann,,Finanzdepartement (FD)


**Bereinigen von Daten**, bei denen die Parteiangaben fehlen:

In [312]:
#Zum Reparieren mache ich ein Dict, in dem die fehelnden Parteiabgaben zugeordnet werden (manuell recherchiert):
Reparatur_dict = {"Gregor Bucher":"Grüne",
                  "Andreas Ammann":"SP",
                  "Urs Rechsteiner":"CVP",
                  "Andreas J. Schlegel":"FDP",
                  "Jürg Liebermann":"FDP",
                  "Peter Marti":"FDP",
                  "Fakir Atalay":"SP",
                  "Anton Stäbler":"CVP",
                  "Placidus Maissen":"CVP",
                  "Salomon Browar":"Grüne",
                  "Monika Piesbergen":"FDP",
                  "Hanna Lienhard":"FDP",
                  "Urs Lauffer":"FDP",
                  "Esther Ponti-Weder":"CVP"}

#Hier definiere ich eine Funktion, die für jede eingegebene Person der Parteinamen ausspuckt:
def Reparatur(Person):
    return Reparatur_dict[Person]

#Jetzt mache ich eine Liste, die die Indexzahlen aller fehlerhaften Positionen für den "Einreichenden 1" enthält:
fehlerposition1 = df[df["Partei 1"] == ""]["Einreichender 1"].index.tolist()

#Hier steuere ich für in jeder fehlerhaften Zeile die leere Partei-Zelle an, und fülle diese mit dem richtigen Wert.
#Die Leerstelle "" wird ersetzt duch das, was die Funktion ausspuckt.
for zeile in fehlerposition1:
    df.loc[zeile, 'Partei 1'] = df.loc[zeile, 'Partei 1'].replace("", Reparatur(df.loc[zeile, "Einreichender 1"]))
    
#Genau das Gleiche wird nun für die Spalte "Einreichender 2" wiederholt:    
fehlerposition2 = df[df["Partei 2"] == ""]["Einreichender 2"].index.tolist()
for zeile in fehlerposition2:
    df.loc[zeile, 'Partei 2'] = df.loc[zeile, 'Partei 2'].replace("", Reparatur(df.loc[zeile, "Einreichender 2"]))

**Bereinigung nach der Reparatur:** Durch die Reparatur sind nachträglich Paare der gleichen Partei entstanden – die muss ich rausfiltern:

In [313]:
for zeile in range(0, len(df)-1):
    if df.loc[zeile, "Partei 1"] == df.loc[zeile, "Partei 2"]:
        df.drop(zeile, inplace = True)

### 2.2.1. Anzahl Vorstösse pro Legislatur zählen

Dazu erneut erst die fehlerhaften Timestamps korrigieren. **Fehlerkorrektur 1:** Bei folgenden Positionen stimmt mit dem Datum etwas Grundsätzliches nicht, weshalb wir es mit einem annäherungsweisen Datum aufgrund der Geschäftnummer ersetzen.

In [314]:
fehlerliste = ["29.01.20","08.01.20","18.12.19"]

for fehler in fehlerliste:
    fehlerposition = df[df["Datum"] == fehler].index.tolist()
    for zeile in fehlerposition:
        Jahr = df.loc[zeile, "Geschäft"].split("/")[0]
        Ersatzdatum = "31.12." + Jahr
        df.loc[zeile, "Datum"] = df.loc[zeile, "Datum"].replace(fehler, Ersatzdatum)

**Fehlerkorrektur 2:** Hier korrigieren wir zwei weitere Fehler, bei denen die Daten zwar stimmen, aber falsch formatiert sind (Leerschläge, zweistellige Jahreszahlen). **Achtung:** Weil ich zuvor (bei der Bereinigung nach der Reparatur) ein paar Zeilen gelöscht habe, muss ich zuerst den Index neu setzen, weil sonst der folgende Loop, der durch alle Zeilen läuft, einen Fehler produziert!

In [315]:
#Hier setze ich den Index neu und lösche den alten:
df = df.reset_index()
df = df.drop(columns="index")

In [316]:
#Jetzt kann ich durch den Dataframe iterieren und fehlerhafte Daten ersetzen.
df_laenge = len(df)
for zeile in range(0, df_laenge-1):
    
    #Hier hole ich jene Daten raus, die nur eine zweistellige Jahreszahl haben und vervollständige sie:
    if df.loc[zeile,"Datum"][-3:-2] == ".":
        if df.loc[zeile,"Datum"][-2:] >= "80":
            df.loc[zeile,"Datum"] = df.loc[zeile,"Datum"][:-2]+"19"+df.loc[zeile,"Datum"][-2:]
        if df.loc[zeile,"Datum"][-2:] <= "21":
            df.loc[zeile,"Datum"] = df.loc[zeile,"Datum"][:-2]+"20"+df.loc[zeile,"Datum"][-2:]   
    
    #Hier hole ich jene Daten raus, die einen Leerschlag drin haben und lösche ihn raus:
    if df.loc[zeile,"Datum"][-3:-2] == " ":
        df.loc[zeile,"Datum"] = df.loc[zeile,"Datum"][:-3]+df.loc[zeile,"Datum"][-2:]
        
    #Hier hole ich jene Daten mit vierstelligen Jahreszahlen raus, die einen Leerschlag davor haben und lösche ihn:
    if df.loc[zeile,"Datum"][-5:-4] == " ":
        df.loc[zeile,"Datum"] = df.loc[zeile,"Datum"][:-5]+df.loc[zeile,"Datum"][-4:]
    
    #Hier hole ich jene Daten raus, die zu kurz sind, weil die Jahreszahl ganz fehlt, und vervollständige sie:
    if len(df.loc[zeile,"Datum"]) == 6:
        Jahr = df.loc[zeile, "Geschäft"].split("/")[0]
        df.loc[zeile,"Datum"] = df.loc[zeile,"Datum"]+Jahr

Jetzt, wo alle Fehler behoben sind,  kann die Daten ins Datetime-Format übersetzen und zum Index eines neuen Dataframes machen (das Original  muss ich belassen ich, weil ich das  später nochmals mit Nummern-Index brauche).

Dann kann ich für die Statistik die **Zahl der parteiübergreifenden Vorstösse pro Legislatur** zählen.

In [317]:
df["Datum"] = pd.to_datetime(df['Datum'], format='%d.%m.%Y')
df_time = df.set_index("Datum")

df_1990 = df_time["1990-05-15":"1994-05-14"]
df_1994 = df_time["1994-05-15":"1998-05-14"]
df_1998 = df_time["1998-05-15":"2002-05-14"]
df_2002 = df_time["2002-05-15":"2006-05-14"]
df_2006 = df_time["2006-05-15":"2010-05-14"]
df_2010 = df_time["2010-05-15":"2014-05-14"]
df_2014 = df_time["2014-05-15":"2018-05-14"]
df_2018 = df_time["2018-05-15":"2022-05-14"]

print("1990-94: "+str(len(df_1990)))
print("1994-98: "+str(len(df_1994)))
print("1998-02: "+str(len(df_1998)))
print("2002-06: "+str(len(df_2002)))
print("2006-10: "+str(len(df_2006)))
print("2010-14: "+str(len(df_2010)))
print("2014-18: "+str(len(df_2014)))
print("2018-22: "+str(len(df_2018)))

1990-94: 3
1994-98: 16
1998-02: 133
2002-06: 242
2006-10: 233
2010-14: 162
2014-18: 197
2018-22: 129


### 2.2.2. Parteipaare pro Legislatur auswerten
Hier habe ich eine Abfrage gebaut, die von der gewünschten Legislatur die Parteipaare nach Häufigkeit ausspuckt.

In [318]:
#Hier mache ich eine Liste aus den oben gebauten Dataframes nach Legislatur.
dataframe_list = [df_1994, df_1998, df_2002, df_2006, df_2010, df_2014, df_2018]

#Hier kann ich per Abfrage auf einen einzelnen dieser Legislatur-Frames zugreifen und ihn auswerten.
legislatur = input("Bitte Legislaturstart eingeben:")
legislatur = int(legislatur)
if legislatur == 1994:
    frame = dataframe_list[0]
elif legislatur == 1998:
    frame = dataframe_list[1]
elif legislatur == 2002:
    frame = dataframe_list[2]
elif legislatur == 2006:
    frame = dataframe_list[3]
elif legislatur == 2010:
    frame = dataframe_list[4]
elif legislatur == 2014:
    frame = dataframe_list[5]
elif legislatur == 2018:
    frame = dataframe_list[6]
else: 
    print("ungültige Legislatur eingegeben!")
    
#ein neuer Index ist wie immer nötig, um durch den Frame zu iterieren.
frame = frame.reset_index()

#Der ord-Befehl hilf hier, indem er eine Zahl für die Anfangsbuchstaben der Parteien abfragt, damit wir alle Paare nur einmal erfassen:
for element in range(0, len(frame)-1):
    if ord(frame.loc[element,"Partei 1"][0]) < ord(frame.loc[element,"Partei 2"][0]):
        frame.loc[element, "Parteipaar"] = frame.loc[element,"Partei 1"] + " / "+ frame.loc[element,"Partei 2"]
    elif ord(frame.loc[element,"Partei 1"][0]) > ord(frame.loc[element,"Partei 2"][0]):
        frame.loc[element, "Parteipaar"] = frame.loc[element,"Partei 2"] + " / "+ frame.loc[element,"Partei 1"]
        
    #Manche Parteien haben den gleichen Anfangsbuchstaben, bei denen schaue ich auch den zweiten an:    
    else:
        if ord(frame.loc[element,"Partei 1"][1]) < ord(frame.loc[element,"Partei 2"][1]):
            frame.loc[element, "Parteipaar"] = frame.loc[element,"Partei 1"] + " / "+ frame.loc[element,"Partei 2"]
        else:
            frame.loc[element, "Parteipaar"] = frame.loc[element,"Partei 2"] + " / "+ frame.loc[element,"Partei 1"]
            
frame["Parteipaar"].value_counts().to_frame()

Bitte Legislaturstart eingeben:2018


Unnamed: 0,Parteipaar
Grüne / SP,31
GLP / SP,20
AL / Grüne,16
FDP / SP,14
AL / SP,8
FDP / GLP,7
FDP / SVP,6
GLP / Grüne,5
FDP / Grüne,4
SP / SVP,3


### 2.2.3. Aspeichern als CSV

Ganz zum Schluss wird das gesäuberte Ergebnis **als csv-File gespeichert**:

In [319]:
df_time.to_csv("data_csv/Dataframe_bereinigt_parteiuebergreifend.csv")

## 2.3. Option: Blockübergreifende Vorstösse auslesen

In [320]:
#Hier definieren wir die drei Blöcke
Block_Links = ["SP", "Grüne", "AL", "FraP", "CSP"]
Block_Mitte = ["CVP", "GLP", "EVP", "LdU", "Parteilos"]
Block_Rechts = ["FDP", "SVP", "PFZ", "SL"]

for zeile in range(0, len(df)-1):
    
    #erst müssen wir die fehlende Wert für die Blöcke ergänzen...
    if df.loc[zeile, "Partei 1"] in Block_Links:
        df.loc[zeile, "Block 1"] = "links"
    elif df.loc[zeile, "Partei 1"] in Block_Mitte:
        df.loc[zeile, "Block 1"] = "mitte"
    else:
        df.loc[zeile, "Block 1"] = "rechts"
                    
    if df.loc[zeile, "Partei 2"] in Block_Links:
        df.loc[zeile, "Block 2"] = "links"
    elif df.loc[zeile, "Partei 2"] in Block_Mitte:
        df.loc[zeile, "Block 2"] = "mitte"
    else:
        df.loc[zeile, "Block 2"] = "rechts"
    
    #...und dann löschen wir gleiche raus
    if df.loc[zeile, "Block 1"] == df.loc[zeile, "Block 2"]:
        #print( df.loc[zeile, "Block 1"] + df.loc[zeile, "Block 2"])
        df.drop(zeile, inplace = True)

### 2.3.1 Anzahl Vorstösse pro Legislatur zählen

Auch hier für die Statistik: Die **Zahl der blockübergreifenden Vorstösse pro Legislatur** messen.

In [321]:
df["Datum"] = pd.to_datetime(df['Datum'], format='%d.%m.%Y')
df_time = df.set_index("Datum")

df_1990 = df_time["1990-05-15":"1994-05-14"]
df_1994 = df_time["1994-05-15":"1998-05-14"]
df_1998 = df_time["1998-05-15":"2002-05-14"]
df_2002 = df_time["2002-05-15":"2006-05-14"]
df_2006 = df_time["2006-05-15":"2010-05-14"]
df_2010 = df_time["2010-05-15":"2014-05-14"]
df_2014 = df_time["2014-05-15":"2018-05-14"]
df_2018 = df_time["2018-05-15":"2022-05-14"]

print("1990-94: "+str(len(df_1990)))
print("1994-98: "+str(len(df_1994)))
print("1998-02: "+str(len(df_1998)))
print("2002-06: "+str(len(df_2002)))
print("2006-10: "+str(len(df_2006)))
print("2010-14: "+str(len(df_2010)))
print("2014-18: "+str(len(df_2014)))
print("2018-22: "+str(len(df_2018)))

1990-94: 0
1994-98: 7
1998-02: 39
2002-06: 81
2006-10: 95
2010-14: 91
2014-18: 102
2018-22: 67


### 2.3.2. Aspeichern als CSV

Auch hier wird das gesäuberte Ergebnis **als csv-File gespeichert**:

In [322]:
df_time.to_csv("data_csv/Dataframe_bereinigt_blockuebergreifend.csv")

## 2.4. Option: Vorstösse von linkem Block mit Mitte / Rechts auslesen

In [323]:
#Zuerst setze ich wieder den Index neu und lösche den alten, damit ich durch die Zeilen iterieren kann:
df = df.reset_index()
df = df.drop(columns="index")

Hier lösche ich Zeilen, in denen weder die eine noch die andere Person zum linken Block gehören: 

In [324]:
for zeile in range(0, len(df)-1):
    if df.loc[zeile, "Block 1"] != "links": 
        if df.loc[zeile, "Block 2"] != "links":
            df.drop(zeile, inplace = True)

### 2.4.1. Anzahl Vorstösse nach Departement

In [325]:
df["Departement"].value_counts()

Tiefbau- und Entsorgungsdepartement (TED)                                       110
Hochbaudepartement (HBD)                                                         40
Präsidialdepartement (PRD)                                                       32
Departement der Industriellen Betriebe (DIB)                                     32
Polizeidepartement (PD)                                                          31
Schul- und Sportdepartement (SSD)                                                31
Finanzdepartement (FD)                                                           25
Sozialdepartement (SD)                                                           23
Sicherheitsdepartement (SID)                                                     20
Gesundheits- und Umweltdepartement (GUD)                                         18
Hochbaudepartement (HBD), Schul- und Sportdepartement (SSD)                       2
Finanzdepartement (FD), Hochbaudepartement (HBD), Präsidialdepartement (PRD)

### 2.4.2 Anzahl Vorstösse pro Legislatur zählen

Auch das kann man für die Statistik zählen: Die **Zahl der Vorstösse zwischen Linken und anderen pro Legislatur**.

In [326]:
df["Datum"] = pd.to_datetime(df['Datum'], format='%d.%m.%Y')
df_time = df.set_index("Datum")

df_1990 = df_time["1990-05-15":"1994-05-14"]
df_1994 = df_time["1994-05-15":"1998-05-14"]
df_1998 = df_time["1998-05-15":"2002-05-14"]
df_2002 = df_time["2002-05-15":"2006-05-14"]
df_2006 = df_time["2006-05-15":"2010-05-14"]
df_2010 = df_time["2010-05-15":"2014-05-14"]
df_2014 = df_time["2014-05-15":"2018-05-14"]
df_2018 = df_time["2018-05-15":"2022-05-14"]

print("1990-94: "+str(len(df_1990)))
print("1994-98: "+str(len(df_1994)))
print("1998-02: "+str(len(df_1998)))
print("2002-06: "+str(len(df_2002)))
print("2006-10: "+str(len(df_2006)))
print("2010-14: "+str(len(df_2010)))
print("2014-18: "+str(len(df_2014)))
print("2018-22: "+str(len(df_2018)))

1990-94: 0
1994-98: 4
1998-02: 19
2002-06: 67
2006-10: 75
2010-14: 72
2014-18: 73
2018-22: 57


### 2.4.3 Anzahl Links/Rechts-Kooperationen nach Thema zählen

Hier ein Beispiel für die Legislatur 2018:

In [338]:
df_2018[(df_2018["Block 1"] == "rechts") | (df_2018["Block 2"] == "rechts")]["Departement"].value_counts().to_frame()

Unnamed: 0,Departement
Hochbaudepartement (HBD),7
Sicherheitsdepartement (SID),5
Schul- und Sportdepartement (SSD),5
Tiefbau- und Entsorgungsdepartement (TED),4
Sozialdepartement (SD),2
Departement der Industriellen Betriebe (DIB),1
Finanzdepartement (FD),1
Präsidialdepartement (PRD),1


In [None]:
df_2018[(df_2018["Block 1"] == "rechts") | (df_2018["Block 2"] == "rechts")]["Departement"].value_counts().to_frame()

### 2.4.4. Aspeichern als CSV

Und zum Dritten: Das gesäuberte Ergebnis wird **als csv-File gespeichert**:

In [302]:
df_time.to_csv("data_csv/Dataframe_bereinigt_linksuebergreifend.csv")

# 3. Netzwerke bauen aus Legislaturdaten bauen

Weil ichs nicht geschafft habe, in Gephi dynamische Graphs mit Timestamps zu machen, baue ich hier einen Loop, der uns für jede Legislatur ein separates gexf-File baut.

Zunächst kann man hier wählen, welcher Datensatz (zuvor gespeichertes CSV-File) geöffnet und verarbeitet werden soll:

In [304]:
datensatz = input("Bitte Datensatz wählen, der zu Netzwerk verarbeitet werden soll (1 = parteiübergreifende Vorstösse, 2 = blockübergreifende Vorstösse, 3 = Vorstösse von Links mit Mitte / Rechts): ")
datensatz = int(datensatz)
if datensatz == 1:
    file = open("data_csv/Dataframe_bereinigt_parteiuebergreifend.csv", mode="r")
elif datensatz == 2:
    file = open("data_csv/Dataframe_bereinigt_blockuebergreifend.csv", mode="r")
elif datensatz == 3:
    file = open("data_csv/Dataframe_bereinigt_linksuebergreifend.csv", mode="r")
else: 
    print("ungültige Nummer eingegeben!")

df2 = pd.read_csv(file)
df2["Datum"] = pd.to_datetime(df2['Datum'], format='%Y.%m.%d')
df2 = df2.set_index("Datum")

Bitte Datensatz wählen, der zu Netzwerk verarbeitet werden soll (1 = parteiübergreifende Vorstösse, 2 = blockübergreifende Vorstösse, 3 = Vorstösse von Links mit Mitte / Rechts): 1


Weil Netzwerke Legislaturübergreifend keinen Sinn ergeben, splitten wir den Dataframe nach Legislaturen auf und packen diese Sub-Frames in eine Liste, so dass wir sie danach einen nach dem anderen zu Netzwerken verarbeiten und dann abspeichern können.

In [305]:
df_1994 = df2["1994-05-15":"1998-05-14"]
df_1998 = df2["1998-05-15":"2002-05-14"]
df_2002 = df2["2002-05-15":"2006-05-14"]
df_2006 = df2["2006-05-15":"2010-05-14"]
df_2010 = df2["2010-05-15":"2014-05-14"]
df_2014 = df2["2014-05-15":"2018-05-14"]
df_2018 = df2["2018-05-15":"2022-05-14"]

dataframe_list = [df_1994, df_1998, df_2002, df_2006, df_2010, df_2014, df_2018]

#Das ist ein Zähler, den wir im Loop brauchen bei der Benennung der Files:
legislatur = 1994

Und hier entstehen nun die eigentlichen gexf-Netzwerke:

In [306]:
for frame in dataframe_list:
    #Wie immer: neuen Index machen, sonst kann man die einzelnen Zeilen nicht ansteuern...
    frame.reset_index(inplace = True)
    
    #Hier wird das Netzwerk definiert
    Netz = nx.Graph()

    #Hier werden auf jeder Zeile des Frames zwei Knoten zum Netz hinzugefügt, inkl. Parteidaten als Attribute:
    for a in range(0,(len(frame)-1)):
        Person1 = str(frame.loc[a]["Einreichender 1"])
        Person2 = str(frame.loc[a]["Einreichender 2"])
        Partei1 = str(frame.loc[a]["Partei 1"])
        Partei2 = str(frame.loc[a]["Partei 2"])
        Netz.add_node(Person1, Partei = Partei1)
        Netz.add_node(Person2, Partei = Partei2)

    #Als zweites werden die Kntone mit Edges verbunden und mit Timestamp und Departement versehen:
    for a in range(0,(len(frame)-1)):
        Person1 = str(frame.loc[a]["Einreichender 1"])
        Person2 = str(frame.loc[a]["Einreichender 2"])
        date = str(frame.loc[a]["Datum"])
        Departement = str(frame.loc[a]["Departement"])
    
        #Beziehungen, die bereits vorkommen, werden nicht neu hinzugefügt, sondern gewichtet (weight +1)
        if Netz.has_edge(Person1, Person2):
            Netz[Person1][Person2]["weight"] += 1
        else:
            Netz.add_edge(Person1, Person2, datum = date, thema = Departement, weight=1)
    
    #Hier definiere ich ein paar Variablen für die Benennung der gexf-Files:
    if datensatz == 1:
        kategorie = "partei"
    elif datensatz == 2:
        kategorie = "block"
    else:
        kategorie = "links"
      
    nx.write_gexf(Netz, "data_gexf/"+str(legislatur)+"_Netz_"+kategorie+".gexf")
    
    legislatur = legislatur + 4

## 3.1. Netzwerkanalyse

Eine Abfrage, mit der man die gespeicherten Files nach Beliben öffnen und analysieren kann.

In [307]:
while True:
    legislatur = input("Bitte Jahreszahl der zu analysierenden Legislatur eingeben: ")
    datensatz = input("Bitte Datensatz wählen, der zu Netzwerk verarbeitet werden soll (1 = parteiübergreifende Vorstösse, 2 = blockübergreifende Vorstösse, 3 = Vorstösse von Links mit Mitte / Rechts): ")
    
    try:
        if datensatz == 1:
            kategorie = "partei"
        elif datensatz == 2:
            kategorie = "block"
        elif datensatz == 3:
            kategorie = "links"
        
        Netz = nx.read_gexf("data_gexf/"+str(legislatur)+"_Netz_"+kategorie+".gexf")
        break
        
    except:
        print("Fehlerhafte Inputs. Bitte wiederholen.")

Bitte Jahreszahl der zu analysierenden Legislatur eingeben: 2018
Bitte Datensatz wählen, der zu Netzwerk verarbeitet werden soll (1 = parteiübergreifende Vorstösse, 2 = blockübergreifende Vorstösse, 3 = Vorstösse von Links mit Mitte / Rechts): 3


Hier ein paar grundsätzliche **Infos zum gewählten Netz**:

In [308]:
print(nx.info(Netz))

Name: 
Type: Graph
Number of nodes: 87
Number of edges: 100
Average degree:   2.2989


In [309]:
wdegree = dict(Netz.degree(weight='weight'))
degc = nx.degree_centrality(Netz)
bet = nx.betweenness_centrality(Netz)
clos = nx.closeness_centrality(Netz)

#Eigenvector-Centrality funktioniert nicht immer.
try: 
    eig = nx.eigenvector_centrality(Netz)
    centrality_measures = {
        'degree': degc,
        'gew. degree': wdegree,
        'betweenness': bet,
        'closeness': clos,
        "eigenvector": eig,
    }

except:
    centrality_measures = {
        'degree': degc,
        'gew. degree': wdegree,
        'betweenness': bet,
        'closeness': clos,
    }

df_analyse = pd.DataFrame(centrality_measures)

Den Analyse-Dataframe kann man beliebig sortieren. Hier die Bedeutung der verschiedenen Werte:
- **degree** = Anzahl der Kanten die mit dem Knoten verbunden sind
- **gew. degree** = summe der gewichteten Kanten
- **betweenness centrality** =  Summe der Anteile aller kürzesten Pfade von x nach y, die durch diesen Knoten laufen
- **closeness centrality** = summe der kürzesten Pfade vom Knoten zu allen anderen Knoten 
- **eigenvector centrality** = gewichtet Knoten basierend auf der Idee, dass Knoten mit hohen Gewichten mehr zur Zentrelität beitragen als Knoten mit niedrigen Gewichten. (Wer mit wichtigen Leuten verbunden ist, ist selbst wichtiger)


In [310]:
df_analyse.sort_values("gew. degree", ascending = False).head(10)

Unnamed: 0,degree,gew. degree,betweenness,closeness
Luca Maggi,0.046512,12.0,0.036626,0.181927
Balz Bürgisser,0.104651,12.0,0.245633,0.248728
Pascal Lamprecht,0.05814,9.0,0.140536,0.252676
Christina Schiller,0.034884,8.0,0.061846,0.211543
Ezgi Akyol,0.034884,6.0,0.024697,0.177862
Anjushka Früh,0.046512,6.0,0.026995,0.172559
Simone Brander,0.046512,6.0,0.053882,0.21658
Sebastian Vogel,0.034884,6.0,0.07212,0.227409
Guido Hüni,0.046512,6.0,0.076605,0.211543
Andri Silberschmidt,0.069767,6.0,0.160669,0.248728
