In [139]:
import pandas as pd
import datetime
import numpy as np

In [140]:
df = pd.read_csv('https://www.web.statistik.zh.ch/ogd/data/ji/fk/kultur_ausfallentschaedigung.csv')

### Was ist im Datensatz?

In [141]:
print('Anzahl Gesuche im Datensatz: ' + str(len(df)))

Anzahl Gesuche im Datensatz: 1611


In [142]:
print('Welche Sparte hat wie viele Gesuch gestellt')
df['Sparte'].value_counts()

Welche Sparte hat wie viele Gesuch gestellt


Musik                      771
Tanz/Theater               306
Bereichsübergreifend       124
Film                       107
Bildende Kunst             104
Klubs und Konzertlokale     79
Literatur                   44
Kino                        30
Design                      29
Museen                      17
Name: Sparte, dtype: int64

In [143]:
print('Welche Kategorie hat wie viele Gesuch gestellt')
df['Kategorie'].value_counts()

Welche Kategorie hat wie viele Gesuch gestellt


Kulturschaffende                      1027
Kulturunternehmen gewinnorientiert     354
Kulturunternehmen gemeinnützig         230
Name: Kategorie, dtype: int64

### Wie viele Gesuche wurden angenommen/abgelehnt?

In [144]:
print('Anteile ausbezahlter und abgelehnter Geusche:')
df.Status.value_counts('normalize')*100

Anteile ausbezahlter und abgelehnter Geusche:


Ausbezahlt     80.571074
Ablehnung      19.180633
Saldo offen     0.248293
Name: Status, dtype: float64

In [145]:
print('Anteile ausbezahlter und abgelehnter Geusche innerhalb der Kategorien:')
df[['Kategorie','Sparte','Status',]].groupby('Kategorie')['Status'].value_counts('normalize')*100

Anteile ausbezahlter und abgelehnter Geusche innerhalb der Kategorien:


Kategorie                           Status     
Kulturschaffende                    Ausbezahlt     80.136319
                                    Ablehnung      19.668939
                                    Saldo offen     0.194742
Kulturunternehmen gemeinnützig      Ausbezahlt     86.086957
                                    Ablehnung      13.913043
Kulturunternehmen gewinnorientiert  Ausbezahlt     78.248588
                                    Ablehnung      21.186441
                                    Saldo offen     0.564972
Name: Status, dtype: float64

In [146]:
print('Anteile ausbezahlter und abgelehnter Geusche über die Sparten:')
df[['Kategorie','Sparte','Status',]].groupby('Sparte')['Status'].value_counts('normalize')*100

Anteile ausbezahlter und abgelehnter Geusche über die Sparten:


Sparte                   Status     
Bereichsübergreifend     Ausbezahlt     78.225806
                         Ablehnung      21.774194
Bildende Kunst           Ausbezahlt     57.692308
                         Ablehnung      42.307692
Design                   Ausbezahlt     55.172414
                         Ablehnung      44.827586
Film                     Ausbezahlt     66.355140
                         Ablehnung      33.644860
Kino                     Ausbezahlt     93.333333
                         Ablehnung       6.666667
Klubs und Konzertlokale  Ausbezahlt     84.810127
                         Ablehnung      15.189873
Literatur                Ausbezahlt     84.090909
                         Ablehnung      15.909091
Museen                   Ausbezahlt     76.470588
                         Ablehnung      23.529412
Musik                    Ausbezahlt     87.029831
                         Ablehnung      12.451362
                         Saldo offen     0.518807
Tanz/Theater 

In [147]:
df_bew = df[df['Status']=='Ausbezahlt']
df_ab = df[df['Status']=='Ablehnung']
#df = df[df['Status']!='Saldo offen']

### Wer hat wie viel bekommen?

In [148]:
print('Differenz und Auszahlung nach Kategorie')
df_kat = df_bew.groupby('Kategorie').sum()
df_kat['differenz'] = df_kat['Beschluss']-df_kat['Nachgefragt']
df_kat

Differenz und Auszahlung nach Kategorie


Unnamed: 0_level_0,Nachgefragt,Beschluss,differenz
Kategorie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kulturschaffende,16111000,6596400.0,-9514600.0
Kulturunternehmen gemeinnützig,22097600,13071900.0,-9025700.0
Kulturunternehmen gewinnorientiert,94719600,40791200.0,-53928400.0


In [149]:
print('Differenz und Auszahlung nach Sparte')

df_sparte = df_bew.groupby('Sparte').sum()
df_sparte['differenz'] = df_sparte['Beschluss']-df_sparte['Nachgefragt']
df_sparte.sort_values('Beschluss',ascending=False)

Differenz und Auszahlung nach Sparte


Unnamed: 0_level_0,Nachgefragt,Beschluss,differenz
Sparte,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Musik,39547100,17456300.0,-22090800.0
Tanz/Theater,17242800,9318200.0,-7924600.0
Klubs und Konzertlokale,23370400,8388900.0,-14981500.0
Film,12858500,8350800.0,-4507700.0
Kino,20016100,7140100.0,-12876000.0
Bereichsübergreifend,12409100,6507800.0,-5901300.0
Bildende Kunst,3651100,1464400.0,-2186700.0
Museen,2678800,1292400.0,-1386400.0
Design,663100,361100.0,-302000.0
Literatur,491200,179500.0,-311700.0


In [150]:
print('Differenz und Auszahlung nach Sparte und Kategorie')
df_sparte = df_bew.groupby(['Kategorie','Sparte']).sum()
df_sparte['differenz'] = df_sparte['Beschluss']-df_sparte['Nachgefragt']
df_sparte.sort_values('Beschluss',ascending=False)

Differenz und Auszahlung nach Sparte und Kategorie


Unnamed: 0_level_0,Unnamed: 1_level_0,Nachgefragt,Beschluss,differenz
Kategorie,Sparte,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kulturunternehmen gewinnorientiert,Musik,22738300,8327000.0,-14411300.0
Kulturunternehmen gewinnorientiert,Klubs und Konzertlokale,22908100,8157400.0,-14750700.0
Kulturunternehmen gewinnorientiert,Film,11208000,7407400.0,-3800600.0
Kulturunternehmen gewinnorientiert,Kino,19097900,6758600.0,-12339300.0
Kulturunternehmen gemeinnützig,Musik,8154600,5298100.0,-2856500.0
Kulturunternehmen gewinnorientiert,Tanz/Theater,9002200,5183100.0,-3819100.0
Kulturunternehmen gewinnorientiert,Bereichsübergreifend,9418000,4841700.0,-4576300.0
Kulturschaffende,Musik,8654200,3831200.0,-4823000.0
Kulturunternehmen gemeinnützig,Tanz/Theater,4379500,2579300.0,-1800200.0
Kulturschaffende,Tanz/Theater,3861100,1555800.0,-2305300.0


### Was wurde abgelehent?

In [151]:
df_kat = df_ab.groupby('Kategorie').sum()
df_kat['differenz'] = df_kat['Beschluss']-df_kat['Nachgefragt']
df_kat

Unnamed: 0_level_0,Nachgefragt,Beschluss,differenz
Kategorie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kulturschaffende,3357900,0.0,-3357900.0
Kulturunternehmen gemeinnützig,3394800,0.0,-3394800.0
Kulturunternehmen gewinnorientiert,15917500,0.0,-15917500.0


In [152]:
df_sparte = df_ab.groupby('Sparte').sum()
df_sparte['differenz'] = df_sparte['Beschluss']-df_sparte['Nachgefragt']
df_sparte.sort_values('Beschluss',ascending=False)

Unnamed: 0_level_0,Nachgefragt,Beschluss,differenz
Sparte,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Bereichsübergreifend,8301500,0.0,-8301500.0
Bildende Kunst,787700,0.0,-787700.0
Design,882200,0.0,-882200.0
Film,1376000,0.0,-1376000.0
Kino,657100,0.0,-657100.0
Klubs und Konzertlokale,3919900,0.0,-3919900.0
Literatur,41800,0.0,-41800.0
Museen,143800,0.0,-143800.0
Musik,4050800,0.0,-4050800.0
Tanz/Theater,2509400,0.0,-2509400.0


In [153]:
df_sparte = df_ab.groupby(['Kategorie','Sparte']).sum()
df_sparte['differenz'] = df_sparte['Beschluss']-df_sparte['Nachgefragt']
df_sparte.sort_values('Beschluss',ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Nachgefragt,Beschluss,differenz
Kategorie,Sparte,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kulturschaffende,Bereichsübergreifend,67000,0.0,-67000.0
Kulturschaffende,Bildende Kunst,530800,0.0,-530800.0
Kulturunternehmen gewinnorientiert,Musik,2917100,0.0,-2917100.0
Kulturunternehmen gewinnorientiert,Museen,17800,0.0,-17800.0
Kulturunternehmen gewinnorientiert,Literatur,4100,0.0,-4100.0
Kulturunternehmen gewinnorientiert,Klubs und Konzertlokale,3919900,0.0,-3919900.0
Kulturunternehmen gewinnorientiert,Kino,657100,0.0,-657100.0
Kulturunternehmen gewinnorientiert,Film,727100,0.0,-727100.0
Kulturunternehmen gewinnorientiert,Design,423100,0.0,-423100.0
Kulturunternehmen gewinnorientiert,Bildende Kunst,207200,0.0,-207200.0


### Wie lange dauerten die Gesuche

In [154]:
df['entscheiddauer'] = pd.to_datetime(df['Beschlussdatum'])-pd.to_datetime(df['Eingangsdatum'])
df['entscheiddauer'] = df['entscheiddauer'].dt.days.astype(int)
"Im Schnitt dauerte das Bearbeiten eines Gesuches: " + str(df.entscheiddauer.mean()) + " Tage"

'Im Schnitt dauerte das Bearbeiten eines Gesuches: 104.23463687150839 Tage'

In [155]:
df[['Kategorie', 'entscheiddauer']].groupby('Kategorie').mean()

Unnamed: 0_level_0,entscheiddauer
Kategorie,Unnamed: 1_level_1
Kulturschaffende,102.178189
Kulturunternehmen gemeinnützig,109.2
Kulturunternehmen gewinnorientiert,106.974576


In [156]:
df[['Sparte', 'entscheiddauer']].groupby('Sparte').mean()

Unnamed: 0_level_0,entscheiddauer
Sparte,Unnamed: 1_level_1
Bereichsübergreifend,102.612903
Bildende Kunst,102.673077
Design,97.344828
Film,105.64486
Kino,101.633333
Klubs und Konzertlokale,93.658228
Literatur,103.659091
Museen,102.176471
Musik,105.250324
Tanz/Theater,106.205882
