# Biber Resultate

---

- Welche Klasse erreichte durchschnittlich die meisten/wenigsten Punkte
- Welche Aufgabe wurde am besten/schlechtesten gelöst?
- Welche Punkte wurden wie häufig gegeben?
- Wie entwicklte sich die Punktezahl der gesamten Schule über die Jahre?
- Wie entwicklte sich die Teilnehmeranzahl der gesamten Schule über die Jahre?

---

[LLM-Unterhaltung](https://chatgpt.com/share/692960a7-fc98-8009-987d-c1bea38ebd59)

Die Rohdaten sind anonymisiert, weshalb etwa die Spalte "Klasse" anstelle von bspw. `G1B` oder `F2A` einen zufälligen String wie `XBE` enthält. Dies verhindert Rückschlüsse auf die Leistung einzelner Schülerinnen und Schüler oder den direkten Vergleich einzelner Klassen.

## Daten einlesen

In [None]:
%%bash
tree

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("data/Biber_long.csv")

In [None]:
df

In [None]:
df.describe()

Um uns mit den Rohdaten einfacher vertraut machen zu können, benötigen wir in Jupyter noch eine Bibliothek wie `itables`. 

In [None]:
import itables

itables.init_notebook_mode()
itables.options.maxBytes = "1024KB"

In [None]:
df

Zum Filtern, Durchsuchen und Exportieren der Rohdaten definieren wir noch zwei praktische Helfer-Funktionen 

In [None]:
def filter_in(df):
    numeric_cols = df.select_dtypes(include='number').columns
    non_numeric_cols = df.select_dtypes(exclude='number').columns
    non_numeric_cols_indices = [df.columns.get_loc(c) for c in non_numeric_cols]
    itables.show(df, 
                 layout={"top1": "searchPanes"},
                 buttons = ["pageLength", "copyHtml5", "csvHtml5", "excelHtml5"],
                 searchPanes={"layout": 'columns-' + str(len(df.columns) - len(numeric_cols)), "cascadePanes": True, "columns": non_numeric_cols_indices})

def suche_in(df):
    itables.show(df,
                 layout={"top1": "searchBuilder" },
                 buttons = ["pageLength", "copyHtml5", "csvHtml5", "excelHtml5"])

In [None]:
filter_in(df)

In [None]:
suche_in(df)

## Daten analysieren

Ein erster Überblick

In [None]:
df.describe()

### Welche Klasse erreichte durchschnittlich die meisten/wenigsten Punkte

In [None]:
df_avg = df.groupby(["Jahr", "Klassenstufe", "Klasse"])["Punkte"].mean()

In [None]:
df_avg.sort_values()

In [None]:
df.boxplot(column='Punkte', by='Klasse', showmeans=True, grid=False)

### Welche Aufgabe wurde am besten/schlechtesten gelöst?

In [None]:
df_avg = df.groupby(["Aufgabe"])["Punkte"].mean()

In [None]:
df_avg.sort_values()

In [None]:
df.boxplot(column="Punkte", by="Aufgabe", grid=False, showmeans=True, rot=90)

### Welche Punkte wurden wie häufig gegeben?

In [None]:
df[["Punkte"]].hist()

### Wie entwickelt sich die durchschnittliche Punktezahl der Schule über die Jahre?

In [None]:
df_avg = (
    df
    .groupby(["Jahr"])["Punkte"]
    .mean()
)

In [None]:
df_avg.sort_values()

In [None]:
df.boxplot(column='Punkte', by='Jahr', showmeans=True, grid=False)

### Wie entwicklte sich die Teilnehmeranzahl der gesamten Schule über die Jahre?

ToDo

In [None]:
teilnehmer = {
    "Jahr": [len(data_2024), len(data_2025a) + len(data_2025b)],
}
new_df = pd.DataFrame(teilnehmer, index=["2024", "2025"])

In [None]:
new_df

In [None]:
new_df.plot.bar()

## Anhang

Beispielsweise so:

In [None]:
img = df.boxplot(column='Punkte', by='Jahr', showmeans=True, grid=False)
img.get_figure().savefig('img/a_boxplot.svg')
img.get_figure().savefig('img/a_boxplot.png')