# Umfrage zu den schulautonomen Tagen

In der SGA Sitzung am 11.5.2022 wurde über die Schulautonomen Tage 2022/23 abgestimmt. Dabei wurde
vorab an alle Lehrenden ein Formular mit den Wünschen geschickt. Die Datei *sga_umfrage.xlsx* beinhaltet
die Antworten.

- *HERBST_HINTEN:* Wunsch, die Herbstferien nach hinten zu verlängern (2. und 3.11.)
- *HERBST_VORNE:* Wunsch, die Herbstferien nach vorne zu verlängern (24. und 25.10.)
- *LEOPOLD:* Der Fenstertag am 14.11. soll frei sein.
- *MA_EMPF:* Der 7.12. (Tag vor Maria Empfängnis) soll frei sein.
- *OSTERDIENSTAG:* Der Dienstag nach Ostern (11.4.) soll frei sein. 	
- *CHR_HIMMELF:* Der Freitag nach Christi Himmelfahrt (19.5.) soll frei sein.

Das Formular sah eine Reihung vor. 6 Sterne für den beliebtesten Tag bis 1 Stern für den am wenigsten
gewünschten Tag. Basierend auf dieser Antwortdatei soll eine Auswertung gemacht werden.

## Laden der Daten

In [1]:
import pandas as pd
# Erfordert pip install openpyxl --upgrade
sga_data = filelist = pd.read_excel("sga_umfrage.xlsx")

## Der beliebteste Tag

Die naheliegenste Auswertung ist die nach dem beliebtesten Tag. Er kann auf 2 Arten ermittelt
werden:

- Für welchen Tag gibt es die meisten Höchstwertungen (6 Sterne)?
- Für welchen Tag ist die Summe der Bewertungen am Höchsten?

Die Antworten liegen als Spalten vor. Für die weitere Auswertung ist es aber leichter, diese
Spalten in Zeilen umzuwandeln. Mit *melt()*
(siehe https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.melt.html)
können Spalten in Zeilen transformiert werden. Schreibe in *data* einen Dataframe mit den Spalten
*PERSON* (Personen-ID), *START*, *ENDE*, *TAG* (die betreffende
Antwort) und *SCORE* für den Wert der Antwort. Die Daten müssen in Zeilen angeordnet werden.
Die Liste der ID Spalten für *melt()* ist
*["PERSON", "START", "ENDE"]* Die restlichen Spalten werden dann automatisch in Zeilen
angeordnet.

In [2]:
# TODO: Hier den Code einfügen.

Korrekte Antwort (Sample aus 5 Zeilen aus data):
```
| PERSON | START               | ENDE                | TAG           | SCORE |
|--------|---------------------|---------------------|---------------|-------|
| 22     | 2022-03-05 13:57:51 | 2022-03-05 14:00:40 | OSTERDIENSTAG | 1.0   |
| 91     | 2022-05-05 09:51:26 | 2022-05-05 09:57:17 | HERBST_VORNE  | 6.0   |
| 50     | 2022-03-05 16:41:18 | 2022-03-05 16:41:40 | HERBST_HINTEN | NaN   |
| 21     | 2022-03-05 13:52:24 | 2022-03-05 13:59:00 | LEOPOLD       | 1.0   |
| 49     | 2022-03-05 16:19:46 | 2022-03-05 16:21:50 | LEOPOLD       | 5.0   |
```

Nun gruppiere diesen Dataframe nach dem Tag und ermittle, wie viele Datensätze dieser Gruppe
6 Punkte haben. Summiere außerdem die Score Spalte pro Gruppe auf. Gebe dabei so vor:

- *aggregate()* kann Parameter vom Typ *COLNAME=(col, function)* übergeben bekommen. *COLNAME*
  ist der neue Spaltennane, *col* die zu aggregierende Spalte und *function* eine lambda expression,
  die eine Liste der Werte dieser Gruppe übergeben bekommt.
- Speichere das Ergebnis in *results* und füge dann die Spalte *N6_REL* hinzu. Sie beinhaltet
  den Prozentwert der Personen, die diesem Tag die Höchstnote gegeben haben.

In [3]:
# TODO: Hier den Code einfügen.

Korrekte Antwort (ohne Indexspalte):
```
| TAG           | N6 | SUM   | N6_REL |
|---------------|----|-------|--------|
| CHR_HIMMELF   | 44 | 417.0 | 17.8   |
| HERBST_HINTEN | 41 | 371.0 | 16.6   |
| HERBST_VORNE  | 43 | 376.0 | 17.4   |
| LEOPOLD       | 45 | 409.0 | 18.2   |
| MA_EMPF       | 33 | 348.0 | 13.4   |
| OSTERDIENSTAG | 41 | 383.0 | 16.6   |
```

## Korrektheit der Antworten

Manche haben mehrmals 6 Sterne ausgewählt. Wie viel % der Umfrageteilnehmer haben mehrmals die
Bestnote (6) vergeben? Gruppiere dafür *data* nach der Person und erstelle wieder eine Spalte
*N6*, die die Anzahl des Wertes 6 zählt. Weise das Ergebnis der Variable *persons_n6* zu. Zähle
danach die Anzahl der Zeilen, bei denen N6 größer als 1 ist.

In [4]:
# TODO: Hier den Code einfügen.

Korrekte Antwort: 67.6%

Nun ermittle den absoluten und relativen Wert der Personen, die 0, 1, 2, ... Antworten mit 6 Sternen
versehen haben. Gehe dabei so vor:

1. Nutze den oben erstellten Dataframe *persons_n6*. Gruppiere nach der Anzahlspalte (0, 1, 2, ...). Die Spalte ABS
   soll dann die absolute Häufigkeit beinhalten. Speichere dies in den Dataframe *count_6stars*.
2. Nun füge eine Spalte "REL" zu diesem Dataframe hinzu. Diese Spalte berechnet sich aus ABS
   geteilt durch die Summe der Spalte SUM (verwende *sum()*) in Prozent (mal 100).


In [5]:
# TODO: Hier den Code einfügen.

Korrektes Ergebnis (ohne Index):
```
| N6 | ABS | REL  |
|----|-----|------|
| 0  | 4   | 3.7  |
| 1  | 31  | 28.7 |
| 2  | 18  | 16.7 |
| 3  | 42  | 38.9 |
| 4  | 12  | 11.1 |
| 6  | 1   | 0.9  |
```

## Zusammenhang der Antworten

Viele Lehrende haben also mehrmals 6 Punkte vergeben. Wie viel % der Lehrenden, die für den
Freitag nach Christi Himmelfahrt 6 Punkte vergeben haben (Spalte *CHR_HIMMELF*), haben das auch für
den 7. Dezember (Spalte *MA_EMPF*)? Hinweis: Verwende den originalen Dataframe mit den Antworten
als Spalten. Es ist nur eine Anweisung. Verwende den & Operator,
um eine Liste mit True und False Werten zu erzeugen. True = CHR_HIMMELF und MA_EMPF haben den Wert 6.
Mit *sum()* können die True Werte dieser Liste einfach gezählt werden.

In [6]:
# TODO: Hier den Code einfügen.

Korrekte Antwort: 26

### Verallgemeinerung 1: Zusammenhang mit beliebigen Tagen

Verallgemeinere nun das Problem: Wie viel % der Lehrenden, die bei CHR_HIMMELF 6 Punkte gegeben haben,
haben auch bei HERBST_HINTEN, HERBST_VORNE, LEOPOLD, MA_EMPF, OSTERDIENSTAG 6 Punkte vergeben? Gehe
dabei so vor:

- Erstelle mit *pd.DataFrame()* einen neuen Dataframe und speichere ihn in *zweitwahl* ab.
  Dabei kannst du mit einem Dictionary den
  Spaltennamen TAG als Key angeben. Die Werte sind die Spalten aus spg_data ab dem Index 3. Verwende
  das *columns* Attribut des Dataframes in Verbindung mit einem Slice.
- Danach wende für die Spalte *zweitwahl.TAG* mit *apply* eine Funktion an, die für den angegeben
  Tag die Anzahl der Werte in *sga_data* zählt, die an diesem Tag und an CHR_HIMMELF den Wert 6
  haben. Hinweis: Da *apply()* auf eine Series (also 1 Spalte) angewandt wird, ist der Parameter axis
  überflüssig. Weise das Ergebnis der Spalte *ABS* zu.
- Berechne nun den relativen Anteil in Prozent (mal 100), indem die Werte aus *ABS* durch die Anzahl
  der Personen, die 6 Sterne bei CHR_HIMMELF vergeben haben, dividiert wird.

In [7]:
# TODO: Hier den Code einfügen.

Korrekte Antwort (ohne Indexspalte):
```
| TAG           | ABS | REL   |
|---------------|-----|-------|
| HERBST_HINTEN | 14  | 31.8  |
| HERBST_VORNE  | 8   | 18.2  |
| LEOPOLD       | 17  | 38.6  |
| MA_EMPF       | 26  | 59.1  |
| OSTERDIENSTAG | 17  | 38.6  |
| CHR_HIMMELF   | 44  | 100.0 |
```

### Verallgemeinerung 2: Zusammenhang jeder Tag mit jedem Tag

Nun wollen wir das Problem zur Gänze verallgemeinern: Wie oft tritt die Bewertung des Tages b mit
6 Sternen auf, wenn der Tag a von der Person mit 6 Sternen bewertet wurde? Gehe dabei so vor:

- sga_data.colums liefert wie vorher die Liste der Spalten. Mit *pd.Series* kannst du aus dieser
  Liste eine Series erstellen. Gib ihr den Namen *ERSTWAHL*.
- Aus den gleichen Daten erzeuge eine Series mit dem Namen *OTHER*.
- Mit *pd.merge()* füge mittels CROSS JOIN die 2 Series zu einem Dataframe zusammen. Er hat dann
  die Spalten *ERSTWAHL* und *OTHER*.
- Mit Apply kannst du eine Spalte *ABS* erstellen. Dabei wird gezählt, wie oft der Wert in ERSTWAHL
  und der Wert in OTHER die Zahl 6 hat.
- Danach pivotiere den Dataframe.

In [8]:
# TODO: Hier den Code einfügen.

Korrekte Antwort:
```
| ERSTWAHL      | CHR_HIMMELF | HERBST_HINTEN | HERBST_VORNE | LEOPOLD | MA_EMPF | OSTERDIENSTAG |
|---------------|-------------|---------------|--------------|---------|---------|---------------|
| CHR_HIMMELF   | 44          | 37            | 33           | 38      | 41      | 38            |
| HERBST_HINTEN | 36          | 41            | 35           | 34      | 37      | 36            |
| HERBST_VORNE  | 35          | 37            | 43           | 40      | 35      | 38            |
| LEOPOLD       | 38          | 34            | 38           | 45      | 39      | 39            |
| MA_EMPF       | 30          | 26            | 22           | 28      | 33      | 26            |
| OSTERDIENSTAG | 34          | 33            | 33           | 37      | 32      | 41            |
```

## Zeitverhalten der Antworten

### Analyse der Bearbeitungsdauer

In der Exceldatei gibt es zwei Zeitangaben: *START* und *ENDE*. Start gibt an, wann der Benutzer
auf die Umfrage geklickt hat. *ENDE* gibt an, wann er die Umfrage abgesendet hat. Wir wollen nun
analysieren, wie lange ein Benutzer für die Umfrage gebraucht hat.

Mit *describe()* bekommen wir einen guten Überblick. Berechne die Zeitdifferenz zwischen *ENDE* und
*START* in Minuten und analysiere diese Series mit *describe()*. Gehe dabei so vor:

1. Erstelle mit *apply()* eine neue Spalte *DURATION* im Dataframe *sga_data*. Du kannst die
   2 Zeitwerte (*ENDE* und *START*) einfach subtrahieren. Wenn dieser Wert durch 
   *pd.Timedelta(1, "s")* dividiert wird, bekommst du einen Zahlenwert mit der Zeitdifferenz
   in Sekunden.
2. Gib die Spalte mit *describe()* aus. Verwende als Parameter *percentiles* die Liste
   *[.25, .5, .75, .9, .95, .99]*

In [9]:
# TODO: Hier den Code einfügen.

Korrekte Ausgabe:
```
count     107.000000
mean      315.401869
std      1014.016773
min         9.000000
25%        69.000000
50%       124.000000
75%       218.000000
90%       339.000000
95%       651.400000
99%      2709.700000
max      9886.000000
```

Um die Verteilung auch optisch zu sehen, gib die Spalte *DURATION* in Form eines Histogramms
aus. Betrachte die Quantile Werte für 95%, 99% und max aus der vorigen Ausgabe. Was fällt auf?

Damit ein besseres Histogramm erstellt werden kann, wollen wir nur Werte bis zur 95% Quantile
berücksichtigen. Das bedeutet, dass wir nur die ersten 95% der Messwerte nach Größe sortiert
nehmen. Anders gesprochen: Die oberen 5% schließen wir aus. Es entspricht der Aussage "95% der
Teilnehmer brauchten für die Beantwortung weniger als 651.4 Sekunden". Speichere dafür in *max_val* den
Sekundenwert der 95% Quantile. Mit *quantile(0.95)* kann dieser Wert aus der Series
*spg_data.DURATION* gewonnen werden. Plotte danach die Series *DURATION* mit dem Filter
*Wert < max_val*. Betrachte die Häufigkeitsverteilung. Ist dies eine Normalverteilung? Welche
Eigenschaften kannst du erkennen (Symmetrie, Nullpunkt)?

In [10]:
# TODO: Hier den Code einfügen.

### Analyse der Reaktionsgeschwindigkeit

Am 3. Mai 2022 wurde um 13:24 (MESZ) die Mail an alle Lehrenden ausgesandt, an der Umfrage teilzunehmen.
Dieser Zeitpunkt wird in *mail_sent* gespeichert.

In [11]:
mail_sent = pd.to_datetime("2022-05-03T13:24:00")

Jetzt wollen wir analysieren, wie lange es dauert, bis die TeilnehmerInnen die Mail gelesen und
auf die Umfrage geklickt haben. In der Spalte *START* ist der Start der Umfrage gespeichert.
Erstelle im Dataframe *sga_data* eine Spalte *DELAY*, die - analog zum vorigen Beispiel - die
Zeitdifferenz zwischen *mail_sent* und *START* in Stunden speichert. Dafür musst du die Differenz
durch *pd.Timedelta(1, "h")* dividieren.

Gib die Spalte danach mit *describe()* aus. Vergleiche den Mittelwert (*mean*) mit der 50% Quartile.
Letztere sagt aus, dass nach diesem Zeitraum 50% der TeilnehmerInnen ihre Stimme abgegeben hatten.

In [12]:
# TODO: Hier den Code einfügen.

Korrekte Ausgabe:
```
count    107.000000
mean      24.158266
std       42.654262
min        0.009167
25%        0.803333
50%        3.648889
75%       25.268194
max      186.214722
```

#### Erstellen der Verteilungsfunktion

Die Verteilungsfunktion *P(X<x)* gibt an, wie viel % der Werte kleiner als ein übergebener Wert (x)
sind. In unserem Fall wollen wir einen Dataframe mit den Stunden von 1 - 23 erzeugen. Als
Spalte *PERCENT* soll ermittelt werden, wie viel % der Werte in sga_data.DELAY kleiner als 1, 2, ...
sind.

Gehe dabei so vor:
1. Mit range(1,24) können Werte von 1 - 23 generiert werden. Erstelle mit *pd.DataFrame()* einen
   neuen Dataframe und übergebe als Dictionary den Key *HOURS* und als Wert diese range. So
   entsteht ein Dataframe mit der Spalte *HOURS* und den Werten von 1 - 23.
2. Wende auf die Spalte delays.HOURS mit apply eine Funktion an. Diese Funktion zählt die Werte in
   *sga_data.DELAY*, die kleiner als der übergebene Wert sind. Das Ganze wird noch durch die
   Anzahl dividiert, um relative Werte (Wahrscheinlichkeiten) zu erhalten.
3. Weise das Ergebnis der Spalte *P* im erzeugten Dataframe zu.

In [13]:
# TODO: Hier den Code einfügen.

Korrekte Ausgabe (ohne Indexspalte):
```
| HOURS | P       |
|-------|---------|
| 1     | 0.299   |
| 2     | 0.393   |
| 3     | 0.449   |
| 4     | 0.523   |
| 5     | 0.533   |
| 6     | 0.570   |
| 7     | 0.570   |
| 8     | 0.607   |
| 9     | 0.617   |
| 10    | 0.626   |
| 11    | 0.626   |
| 12    | 0.626   |
| 13    | 0.626   |
| 14    | 0.626   |
| 15    | 0.626   |
| 16    | 0.626   |
| 17    | 0.636   |
| 18    | 0.664   |
| 19    | 0.673   |
| 20    | 0.701   |
| 21    | 0.710   |
| 22    | 0.720   |
| 23    | 0.729   |
```

### Was sagt das aus?

Wir sehen durch die (empirische, also über die Werte definierte) Verteilungsfunktion, dass in der
ersten Stunde 30% aller TeilnehmerInnen die Umfrage abgerufen haben. Überlege dir folgende
Situation: Ein Aufruf an eine größere Gruppe (100 000 Probanden) wird versandt. In der ersten Stunde
muss der Server bereits 30 000 Zugriffe verkraften können, da die Antworten nicht gleichmäßig
über den Zeitraum verteilt sind sondern - wie wir später genauer analysieren werden - *lognormal*
verteilt sind.

**Das ist Data Science: Erkenntnisgewinn durch Daten!**