<img src="img/datenschule_logo_web.png" width="25%"  align="left">

<img src="img/Coat_of_arms_of_Berlin.svg" width="11%"  align="right">
# Aktivitäten und Partnerschaften an Berliner Schulen
In diesem Notebook dokumnetieren wir unser Vorgehen bei der Auswertung der Partnerschaften und Aktivitäten <br> der Berliner Schulen. Da wir die Daten auf der Website  laufend aktualisiert, können die Ergebnisse hier <br> von denen auf der Website abweichen. Der Berechnungsweg ist allerdings der Gleiche.
 <br> Mehr Informationen über das Schulsystem in Deutschland gibt es auf <a href='https://jedeschule.de'>jedeschule.de<a>

In [2]:
#Für die Berechnung nutzen wir hier die Pandas-Library
import pandas as pd

### 1. Auswertung der Schulaktivitäten in Berlin

In [10]:
df_Berlin = pd.read_csv('/csvs/berlin/ag_berlin.csv', sep=',')

OSError: File b'/csvs/berlin/ag_berlin.csv' does not exist

Zunächst werden die CSV-Datei zu den Berliner AGs importiert. Die Daten liegen in unserem Github Ordner.

In [9]:
df_Berlin.head(5)

Unnamed: 0,id,ag_name,ag_cat
0,BE-15586,Astronomie,Naturwissenschaft / Technik
1,BE-15586,Astrophysik,Naturwissenschaft / Technik
2,BE-15586,Literatur,Literatur / Medien
3,BE-15586,Bildende Kunst,Kunst / Kultur
4,BE-15590,Rudern,Sport


Zu Beginn einer Analyse ist es sinnvoll, einen Überblick über die Daten zu gewinnen.

In [10]:
df_Berlin.describe(include='all')

Unnamed: 0,id,ag_name,ag_cat
count,3341,3341,3341
unique,413,555,10
top,BE-16471,Fußball,Sport
freq,27,215,1124


Mit dem Befehl *'describe'* können erhalten wir eine Zusammenfassung der Daten. Wir sehen: 
 * *unique*: 413 der 800 allgemeinbildenden Schulen in Berlin kommunizieren ihre Projekte und Aktivitäten Projekte und Aktivitäten an die Senatsverwaltung.
 * *count*: Es werden über 3300 Aktivitäten an Berliner Schulen angeboten.

In [11]:
# Anzahl der Schulen in Berlin
An_Schulen = len(df_Berlin.id.unique())

# Anzahl der Angebotenen AGs
An_Projekte = len(df_Berlin)

# Durchschnittliche Anzahl an Projekten an Beriner Schulen
Durch_Projekte = An_Projekte / An_Schulen
Durch_Projekte

8.08958837772397

Um zu errechnen wie viele Projekte eine Schule in Berlin durchschnittlich anbietet, teilen wir die Anzahl der Projekte durch die Anzahl der Schulen. Da die CSV-Datei für jedes Angebot einen eigenen Zeileneintrag enthält, werden auch Schulen doppelt genannt. Mit der Funktion *'unique()'* filtern wir doppelte Schuleinträge aus. Dadurch erhalten wir die Anzahl der Schulen in Berlin, die ihre Aktivitäten kommuniziert haben. <br>
**Ergebnis:**
* Durchschnittlich bietet eine Schule in Berlin ihren Schüler*innen rund 8 Aktivitäten an.

In [15]:
#Wie viel Projekte aus unterschiedlichen Bereichen bieten die Schulen ihren Schüler*innen?
Kategorie_unique = df_Berlin.drop_duplicates(subset=['id','ag_cat'])

#Calculate average number of Activity-Categories per School
Durch_Kategorie = len(Kategorie_unique) / An_Schulen
print('In Berlin werden in durchschnittlich %s Kategorien Aktivitäten angeboten.' %(round(Durch_Kategorie,2)))

In Berlin werden in durchschnittlich 4.1 Kategorien Aktivitäten angeboten.


In [16]:
len(Kategorie_unique)

1692

In [17]:
Kategorien = pd.pivot_table(Kategorie_unique,index=['ag_cat'],values='id',aggfunc='count')
Kategorien = pd.DataFrame(Kategorien)
Kategorien['% Schulen mit Projekt-Kategorie'] = (Kategorien.id / An_Schulen*100).round(2)
Kategorien.sort_values(by='id',ascending=False)

Unnamed: 0_level_0,id,% Schulen mit Projekt-Kategorie
ag_cat,Unnamed: 1_level_1,Unnamed: 2_level_1
Sport,355,85.96
Musik / Tanz,312,75.54
Kunst / Kultur,216,52.3
Naturwissenschaft / Technik,184,44.55
Handwerk,161,38.98
Literatur / Medien,158,38.26
Gesellschaft / Partizipation,105,25.42
Sprachen,105,25.42
Umwelt,77,18.64
Berufsorientierung,19,4.6


Um zu errechen wie viele Schulen für eine jeweilige Kategorie Aktivitäten anbieten, nutzen wir die Pivot-Funktion. *(pivot_table())*. Mit der Funktion gruppieren wir die Aktivitäten nach ihren Kategorien. Teilt man diese Werte (hier unter Id) durch die Gesamtanzahl der Schulen, erhalten wir den prozentualen Anteil An Schulen die Aktivitäten in einer Kategorie anbieten.


### 2. Auswertung der Schulpartnerschaften in Berlin

In [18]:
df_Berlin = pd.read_csv('../partner_berlin.csv', sep=';')

In [19]:
df_Berlin.head(5)

Unnamed: 0,Schule,ID,school_type,Partner_name,Type_grob,Type_mittel,Type_detail
0,OSZ Informations- und Medizintechnik,BE-15754,Berufliches Gymnasium,AAP-Programm,Unbestimmt,Modell/Förderprogramm/Projekt,
1,OSZ Informations- und Medizintechnik,BE-15754,Berufliches Gymnasium,Arbeitskreis Medizintechnik Berlin-Brandenburg,Öffentliche Infrastruktur,Öffentliche Infrastruktur (Bildung/Uni/Hochsch...,
2,OSZ Handel 1,BE-16262,Berufliches Gymnasium,Ausbildungszentrum ROC Nijmegen,Öffentliche Infrastruktur,Familien-/Bildungs-/Kulturzentrum,
3,OSZ Informations- und Medizintechnik,BE-15754,Berufliches Gymnasium,Baumann Bildung & Qualifizierung (BBQ),Wirtschaftsakteur,Wirtschaftsakteur (Bildung),
4,Louise-Schroeder-Schule (OSZ Bürowirtschaft un...,BE-15687,Berufliches Gymnasium,Bildung für Berlin und Brandenburg e.V.,Gemeinnütziger Akteur,Gemeinnütziger Akteur,Verein


Auch hier ist es zunächst sinnvoll,einen Blick in die Daten zu werfen.

In [35]:
df_Berlin.describe(include='all')

Unnamed: 0,Schule,ID,school_type,Partner_name,Type_grob,Type_mittel,Type_detail,Schooltype_broad
count,2976,2976,2976,2975,2976,2976,1598,2917
unique,411,411,15,2123,7,23,23,6
top,Albrecht-von-Graefe-Schule (Integrierte Sekund...,BE-16610,Grundschule,Verein Berliner Kaufleute und Industrieller (V...,Gemeinnütziger Akteur,Gemeinnütziger Akteur,Verein,Grundschule
freq,25,25,1127,29,1097,983,830,1127


Über die *'describe()'* Funktion bekommen wir die Anzahl der Partnerschaften (2976) sowie die Anzahl der Schulen (411)

In [72]:
Typ_Partner = pd.DataFrame(df_Berlin.Type_grob.value_counts())
Typ_Partner = pd.DataFrame(pd.pivot_table(df_Berlin,index=['Type_grob'],values='Partner_name', aggfunc='count'))
Typ_Partner['Verteilung'] = (Typ_Partner / sum(Typ_Partner.Partner_name)).round(4)
Typ_Partner.sort_values(by='Partner_name', ascending=False)

Unnamed: 0_level_0,Partner_name,Verteilung
Type_grob,Unnamed: 1_level_1,Unnamed: 2_level_1
Gemeinnütziger Akteur,1097,0.3687
Öffentliche Infrastruktur,886,0.2978
Wirtschaftsakteur,551,0.1852
Partnerschule,246,0.0827
Unbestimmt,119,0.04
Religiöse Einrichtung,42,0.0141
Verband / Kammer / Innung / Gewerkschaft,34,0.0114


In [36]:
Schulkategorien = {'Grundschule' : [' Grundschule',
                                     'Grundschule'],
                    'Sekundarschule' : ['Integrierte Sekundarschule',
                                        ],
                    'Berufliche Schule' : ['Berufsfachschule',
                                           'Berufsoberschule',
                                           'Berufsschule',
                                           'Berufsschule mit sonderpäd. Aufgaben',
                                           'Fachoberschule',
                                           'Fachschule'],
                    'Förderschulen' : ['Förderschwerp."Geistige Entwicklung"',
                                       'Förderschwerp."Lernen"',
                                       'Übrige Förderschwerpunkte'
                                       ],
                    'Sonstige' :['Freie Waldorfschule',
                                 'Sonstige Ergänzungsschule',
                                 ],
                   
                   'Gymnasium' : ['Berufliches Gymnasium',
                                  'Gymnasien']
                   
                   }

Um die unterschiedlichen Schultypen zu vereinheitlichen, ordnen wir diese in 6 Kategorien ein: Grundschule, Sekundarschule, Berufliche Schule, Förderschulen, Gymnasium, Sonstige. Dazu erstellen wir das Dictionary: Schulkategorien.

In [37]:
def check_up_Schultyp(schooltyp):
    for key, value in Schulkategorien.items():
        for a in value:
            if a in str(schooltyp):
                return(key)

In [38]:
# Hier mappen wir die einzelnen Schultypen auf die 6 Schultypkategorien und säubern leere Zeilen aus.
df_Berlin['Schooltype_broad'] = df_Berlin.school_type.apply(check_up_Schultyp)

In [39]:
#Durchscnittliche Anzahl an Partnerschaften pro Schule
len(Berlin_unique) / len(Berlin_unique.ID.unique())

7.238442822384428

In [40]:
Partner_Schulen = pd.DataFrame(pd.pivot_table(df_Berlin,index=['Schooltype_broad'],values='school_type',columns='Type_grob', aggfunc='count'))
Partner_Schulen = Partner_Schulen.fillna(0)

In [59]:
df_Berlin.head(2)

Unnamed: 0,Schule,ID,school_type,Partner_name,Type_grob,Type_mittel,Type_detail,Schooltype_broad
0,OSZ Informations- und Medizintechnik,BE-15754,Berufliches Gymnasium,AAP-Programm,Unbestimmt,Modell/Förderprogramm/Projekt,,Gymnasium
1,OSZ Informations- und Medizintechnik,BE-15754,Berufliches Gymnasium,Arbeitskreis Medizintechnik Berlin-Brandenburg,Öffentliche Infrastruktur,Öffentliche Infrastruktur (Bildung/Uni/Hochsch...,,Gymnasium


#### Wie viele Akteure für die jeweilige Kategorie kommen auf  eine Schule in Berlin?

In [61]:
dftyp = df_Berlin.drop_duplicates(subset=['ID','school_type'])
dftyp = pd.DataFrame(dftyp.Schooltype_broad.value_counts())

In [62]:
dftyp

Unnamed: 0,Schooltype_broad
Grundschule,164
Sekundarschule,99
Gymnasium,92
Berufliche Schule,36
Förderschulen,5
Sonstige,4


Hier errechnen wir die Anzahl der Schulen in Berlin für jeden Schultyp.

In [73]:
Partner_Schulen['Schulanzahl'] = dftyp

Anschließend fügen wir die Anzahl der Schulen pro Schultyp an das zuvorerstellte Dataframe mit der Anzahl der Partnerschaften pro Schultyp.

In [74]:
Partner_Schulen[['Gemeinnütziger Akteur','Partnerschule','Religiöse Einrichtung', 'Unbestimmt', 'Verband / Kammer / Innung / Gewerkschaft', 'Wirtschaftsakteur', 'Öffentliche Infrastruktur']].div(Partner_Schulen.Schulanzahl, axis=0)

Type_grob,Gemeinnütziger Akteur,Partnerschule,Religiöse Einrichtung,Unbestimmt,Verband / Kammer / Innung / Gewerkschaft,Wirtschaftsakteur,Öffentliche Infrastruktur
Schooltype_broad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Berufliche Schule,1.25,0.25,0.111111,0.555556,0.277778,1.638889,1.194444
Förderschulen,1.8,0.2,0.0,0.0,0.0,1.0,1.2
Grundschule,3.054878,0.164634,0.091463,0.231707,0.018293,0.810976,2.5
Gymnasium,1.619565,1.826087,0.130435,0.293478,0.097826,1.358696,2.293478
Sekundarschule,3.646465,0.373737,0.070707,0.343434,0.111111,2.141414,2.040404
Sonstige,0.5,0.5,0.25,0.0,0.0,1.75,0.5


Anschließend teilen wir die Anzahl der Partnerschaften pro Akteurskategorie durch die jeweilige Anzahl der Schulen pro Schultyp. Die obenstehende Tabelle zeigt also für jeden Schultyp wie viele Partnerschaften sie durchschnittlich pro Akteurskategorie eingeht.