<img src="datenschule_logo_web.png" width="25%"  align="left">

<img src="Coat_of_arms_of_Saxony.svg" width="12%"  align="right">
# Aktivitäten und Partnerschaften an Schulen in Sachsen
In diesem Notebook dokumnetieren wir unser Vorgehen bei der Auswertung der Partnerschaften und Aktivitäten <br> der Schulen in Sachsen. Da wir die Daten auf der Website laufend aktualisiert, können die Ergebnisse hier von denen <br> auf der Website abweichen. Der Berechnungsweg ist allerdings der Gleiche.<br>
Mehr Informationen über das Schulsystem in Deutschland gibt es auf <a href='https://jedeschule.de'>jedeschule.de<a>

In [1]:
#Für die Berechnung nutzen wir hier die Pandas-Library
import pandas as pd

### 1. Auswertung der Schulaktivitäten an Schulen in Sachsen

In [2]:
df_Sachsen = pd.read_csv('../ag_sachsen.csv', sep=',')

Zunächst werden die CSV-Datei zu den Aktivitäten an Shculen iN Sachsen importiert. Die Daten liegen in unserem Github Ordner.

In [3]:
df_Sachsen.head(5)

Unnamed: 0,id,ag_name,ag_cat,school
0,SN-4220216-0,Gesellschaftsspiele,Gesellschaft / Partizipation,4220216
1,SN-4220216-0,Schülerclub,Gesellschaft / Partizipation,4220216
2,SN-4220216-0,Schülerbibliothek,Literatur / Medien,4220216
3,SN-4220216-0,Offenes Spielangebot,Berufsorientierung,4220216
4,SN-4220216-0,Allgemeiner Freizeitsport,Sport,4220216


Zu Beginn einer Analyse ist es sinnvoll, einen Überblick über die Daten zu gewinnen.

In [4]:
df_Sachsen.drop_duplicates().describe(include='all')

Unnamed: 0,id,ag_name,ag_cat,school
count,11633,11633,11633,11633.0
unique,1206,164,10,
top,SN-4540340-0,Chor,Sport,
freq,50,579,3203,
mean,,,,4317592.0
std,,,,132485.9
min,,,,4050019.0
25%,,,,4212411.0
50%,,,,4312393.0
75%,,,,4420303.0


Mit dem Befehl *'describe()'* können erhalten wir eine Zusammenfassung der Daten. Wir sehen:
unique: 1206 der 1.500 allgemeinbildenden Schulen in Sachsen kommunizieren ihre Projekte und Aktivitäten an das Landesamt Sachsen.
count: Es werden über 11.600 Aktivitäten an Schulen in Sachsen angeboten.

In [5]:
#Die Anzahl der Schule in Sachsen
An_Schulen = len(df_Sachsen.school.unique())

An_Schultypen = len(df_Sachsen.id.unique())

# Anzahl der angebotenen Aktivitäten
An_Projekte = len(df_Sachsen)

# Durchschnittliche Anzahl an Projekten an Schulen in Sachsen
Durch_Projekte = An_Projekte / An_Schultypen

print('Eine Schule in Sachsen bietet ihren Schüler*innen durchschnittlich %s Aktivitäten an.' %(round(Durch_Projekte,2)))

Eine Schule in Sachsen bietet ihren Schüler*innen durchschnittlich 11.61 Aktivitäten an.


Um zu errechnen wie viele Projekte eine Schule in Sachsen durchschnittlich anbietet, teilen wir die Anzahl der Projekte durch die Anzahl der Schulen. Da die CSV-Datei für jedes Angebot einen eigenen Zeileneintrag enthält, werden auch Schulen doppelt genannt. Mit der Funktion *'unique()'* filtern wir doppelte Schuleinträge aus. Dadurch erhalten wir die Anzahl der Schulen in Sachsen, die ihre Aktivitäten kommuniziert haben.
**Ergebnis:**
* Durchschnittlich bietet eine Schule in Sachsen ihren Schüler*innen knapp 12 Aktivitäten an.

In [6]:
#Wie viel Projekte aus unterschiedlichen Bereichen bieten die Schulen ihren Schüler*innen?
Kategorie_unique = df_Sachsen.drop_duplicates(subset=['id','ag_cat'])

#Calculate average number of Activity-Categories per School
Durch_Kategorie = len(Kategorie_unique) / An_Schultypen
print('In Sachsen werden in durchschnittlich %s Kategorien Aktivitäten angeboten.' %(round(Durch_Kategorie,2)))

In Sachsen werden in durchschnittlich 5.24 Kategorien Aktivitäten angeboten.


In [7]:
Kategorien = pd.pivot_table(Kategorie_unique,index=['ag_cat'],values='id',aggfunc='count')
Kategorien = pd.DataFrame(Kategorien)
Kategorien['% Schulen mit Projekt-Kategorie']= (Kategorien.id / An_Schultypen*100).round(2)
Kategorien.sort_values(by='id',ascending=False)

Unnamed: 0_level_0,id,% Schulen mit Projekt-Kategorie
ag_cat,Unnamed: 1_level_1,Unnamed: 2_level_1
Sport,1047,86.82
Musik / Tanz,919,76.2
Kunst / Kultur,798,66.17
Literatur / Medien,736,61.03
Gesellschaft / Partizipation,643,53.32
Berufsorientierung,636,52.74
Naturwissenschaft / Technik,422,34.99
Sprachen,421,34.91
Handwerk,370,30.68
Umwelt,325,26.95


Um zu errechen wie viele Schulen für eine jeweilige Kategorie Aktivitäten anbieten, nutzen wir die Pivot-Funktion. *(pivot_table())*. Mit der Funktion gruppieren wir die Aktivitäten nach ihren Kategorien. Teilt man diese Werte (hier unter id) durch die Gesamtanzahl der Schulen in Sachsen, erhalten wir den prozentualen Anteil an Schulen die Aktivitäten in einer Kategorie anbieten.


### 2. Auswertung der Schulpartnerschaften in Sachsen

In [8]:
df_Sachsen = pd.read_csv('../partner_sachsen.csv',sep=';')

In [9]:
df_Sachsen.head(2)

Unnamed: 0,Schulname,Dienststellenschlüssel,school_type1,school_type2,school_type3,school_type4,school_type5,school_type6,Partner,Aktivitaet,Type_narrow,Type_broad
0,"Robert-Härtwig-Schule Oschatz, Oberschule",SN-4430856,Mittelschule,,,,,,"Arbeitsagentur Oschatz, Herr Thau",Keine Angabe,Agentur für Arbeit,Öffentliche Infrastruktur
1,30. Oberschule Dresden,SN-4330247,Mittelschule,,,,,,"Jugendamt Dresden, Innere Neustadt",Keine Angabe,Amt,Öffentliche Infrastruktur


Auch hier ist es zunächst sinnvoll,einen Blick in die Daten zu werfen.

In [10]:
Schulkategorien = {'Grundschule' : [' Grundschule',
                                     'Grundschule'],
                    'Sekundarschule' : ['Abendmittelschule',
                                        'Mittelschule',
                                        'Schulversuch Gemeinschaftsschule',
                                        ' Mittelschule'],
                    'Berufliche Schule' : ['Berufsfachschule',
                                           'Berufsschule',
                                           'Fachschule',
                                           ' Fachoberschule',
                                           'Fachoberschule',
                                           ],
                    'Förderschulen' : ['Berufsbildende Förderschule',
                                       'Schule für geistig Behinderte',
                                       'Schule zur Lernförderung',
                                       'Sprachheilschule',
                                       'Schule für Blinde und Sehbehinderte',
                                       'Schule für Erziehungshilfe',
                                       'Schule für geistig Behinderte',
                                       'Schule für Hörgeschädigte',
                                       'Schule für Körperbehinderte',
                                       'Schule zur Lernförderung',
                                       'Sprachheilschule'],
                    'Sonstige' :['Klinik- und Krankenhausschule',
                                 ' Klinik- und Krankenhausschule',
                                 'Kolleg'],
                   
                   'Gymnasium' : ['Abendgymnasium',
                                  'Berufliches Gymnasium',
                                  'Gymnasium']
                   
                   }

Um die unterschiedlichen Schultypen zu vereinheitlichen, ordnen wir diese in 6 Kategorien ein: Grundschule, Sekundarschule, Berufliche Schule, Förderschulen, Gymnasium, Sonstige. Dazu erstellen wir das Dictionary: Schulkategorien.

In [11]:
def check_up_Schultyp(schooltyp):
    for key, value in Schulkategorien.items():
        for a in value:
            if a in str(schooltyp):
                return(key)

In [12]:
df_Sachsen = pd.melt(df_Sachsen, id_vars=['Type_broad','Type_narrow','Aktivitaet','Partner','Schulname','Dienststellenschlüssel'], 
                  var_name="Schulkategorien", value_name="Schultyp")

In Sachsen kann eine Schule aus mehreren Schulen bestehen. Schule xy ist beispielsweise ein Gymansium und eine Berufliche Schule zugleich. Mit der Funktion *'melt()'* transformieren wir das Datenset so, dass für jeden Schultyp ein Zeileneintrag entsteht.

In [13]:
# Hier mappen wir die einzelnen Schultypen auf die 6 Schultypkategorien und säubern leere Zeilen aus.
df_Sachsen['Schultypen_grob'] = df_Sachsen.Schultyp.apply(check_up_Schultyp)
# Einträge mit leeren Zellen werden hier ausgefiltert
df_Sachsen = df_Sachsen.dropna(subset=['Schultyp'])


In [14]:
df_Sachsen.Schulname.count()

7172

Indem wir alle Einträge in dem Datenset zählen, sehen wir wie viele Partnerschaften Schulen in Sachsen eingehen. 

In [15]:

df_Sachsen2 = df_Sachsen.drop_duplicates(subset=['Schultyp', 'Dienststellenschlüssel'])
df_Sachsen2.Schultyp.count()

1106

Indem wir nur Reihen zählen indenen der Dienststellenschlüssel und der Schultyp einzigartig sind, erhalten wir die Anzahl der Schulen die an das Statistische Landesamt Sachsen kommuniziert haben.

In [16]:
Typ_Partner = pd.DataFrame(df_Sachsen.Type_broad.value_counts())
Typ_Partner = pd.DataFrame(pd.pivot_table(df_Sachsen,index=['Type_broad'],values='Partner', aggfunc='count'))
Typ_Partner['Verteilung'] = (Typ_Partner / sum(Typ_Partner.Partner)).round(4)
Typ_Partner

Unnamed: 0_level_0,Partner,Verteilung
Type_broad,Unnamed: 1_level_1,Unnamed: 2_level_1
Gemeinnütziger Akteur,2328,0.3246
Partnerschule,439,0.0612
Religiöse Einrichtung,132,0.0184
Unbestimmt,357,0.0498
Verband / Kammer / Innung / Gewerkschaft,343,0.0478
Wirtschaftsakteur,880,0.1227
Öffentliche Infrastruktur,2693,0.3755


Um zu sehen wie viele Partnerschaften in eine Akteurskategorie fallen und die Anteile der Kategorien im Verhältnis zueinander sind nutzen wir erneut die Pivotfunktion. Dadurch Gruppieren wir die Partnerschaften nach den jeweiligen Kategorien. Teilt man die Werte durch die Gesamtzahl aller Partnerschaften erhaält man die Verteilung. 

##### Wie viele Akteure für die jeweilige Kategorie kommen auf  eine Schule in Sachsen?

In [17]:
Schutyp_unique = pd.pivot_table(df_Sachsen,index=['Schultypen_grob'],values='Partner',columns='Type_broad', aggfunc='count')
Schutyp_unique = Schutyp_unique.fillna(0)

In [18]:
Schutyp_unique = pd.DataFrame(Schutyp_unique)

Wir nutzen wieder die Pivotfunktion. Wir zählen  allerdings nur die Akteurskategorien die auf einen Schultyp kommen.

In [19]:
dftyp = df_Sachsen.drop_duplicates(subset=['Dienststellenschlüssel','Schultyp'])
dftyp = pd.DataFrame(dftyp.Schultypen_grob.value_counts())
dftyp

Unnamed: 0,Schultypen_grob
Grundschule,448
Sekundarschule,259
Gymnasium,148
Berufliche Schule,129
Förderschulen,120
Sonstige,2


Hier errechnen wir die Anzahl der Schulen in Sachsen für jeden Schultyp.

In [20]:
Schutyp_unique['Schulanzahl'] = dftyp

Anschließend fügen wir die Anzahl der Schulen pro Schultyp an das zuvorerstellte Dataframe mit der Anzahl der Partnerschaften pro Schultyp.

In [21]:
Schutyp_unique[['Gemeinnütziger Akteur','Partnerschule','Religiöse Einrichtung', 'Unbestimmt', 'Verband / Kammer / Innung / Gewerkschaft', 'Wirtschaftsakteur', 'Öffentliche Infrastruktur']].div(Schutyp_unique.Schulanzahl, axis=0)

Type_broad,Gemeinnütziger Akteur,Partnerschule,Religiöse Einrichtung,Unbestimmt,Verband / Kammer / Innung / Gewerkschaft,Wirtschaftsakteur,Öffentliche Infrastruktur
Schultypen_grob,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Berufliche Schule,1.224806,0.96124,0.046512,0.294574,1.48062,0.744186,1.976744
Förderschulen,2.466667,0.416667,0.341667,0.616667,0.216667,1.058333,2.15
Grundschule,1.814732,0.357143,0.0625,0.154018,0.042411,0.214286,2.160714
Gymnasium,1.77027,0.317568,0.108108,0.310811,0.405405,1.054054,3.074324
Sekundarschule,3.061776,0.212355,0.158301,0.501931,0.177606,1.559846,2.907336
Sonstige,3.0,1.5,0.0,0.0,0.5,0.5,2.0


Anschließend teilen wir die Anzahl der Partnerschaften pro Akteurskategorie durch die jeweilige Anzahl der Schulen pro Schultyp. Die obenstehende Tabelle zeigt also für jeden Schultyp wie viele Partnerschaften sie durchschnittlich pro Akteurskategorie eingeht.