<figure>
  <IMG SRC="https://upload.wikimedia.org/wikipedia/commons/thumb/d/d5/Fachhochschule_Südwestfalen_20xx_logo.svg/320px-Fachhochschule_Südwestfalen_20xx_logo.svg.png" WIDTH=250 ALIGN="right">
</figure>

# Skriptsprachen
### Winterersemester 2023/24
Prof. Dr. Heiner Giefers

## Kriminalitätstatistik Berlin

In dieser Aufgabe wollen wir einen Datensatz zur Kriminalität in den Berliner Stadtbezirken untersuchen.
Die aktulle Form dieses Datensatzes (mit Zahlen bis einschließlich 2022) finden Sie auf den [Seiten der Berliner Polizei](https://www.berlin.de/polizei/service/kriminalitaetsatlas/). Die in dieser Aufgabe verwendeten Daten stammen von einer Variante, die über die Datenplattform [Kaggle](https://www.kaggle.com/datasets/danilzyryanov/crime-in-berlin-2012-2019/data) veröffentlicht wurde. Die Einwohnerzahlen stammen von der Seite [www.citypopulation.de](https://www.citypopulation.de/de/germany/berlin/admin/)

#### Über den Datensatz

Seit 2008 wertet die Berliner Polizei die Kriminalitätsbelastung kleinräumig aus und veröffentlicht alle zwei Jahre den *Kriminalitätsatlas Berlin*, der auf ihrer [Homepage](https://www.berlin.de/polizei/service/kriminalitaetsatlas/) verfügbar ist.
In diesem Bericht werden für die 12 Berliner Bezirke und 138 Bezirksregionen absolute Fallzahlen und Häufigkeitszahlen (Fälle pro 100.000 Einwohner) zu 17 verschiedenen Deliktsbereichen dargestellt.

Der vorliegende Datensatz von Kaggle enthält die **absolute Fallzahlen**, d.h. Stadtbezirke mit größerer Einwohnerzahl könnten potenziell *unsicherer* wirken, als sie tatsächlich sind.

Wir wollen über Berechnungen und Visualisierungen einige Fragestellungen zu diesen Daten beantworten, darunter etwa:

1. Welcher Teil Berlins ist am gefährlichsten?
1. Wie häufig treten bestimmte Straftaten auf?
1. Welche Straftaten nehmen zu, welche gehen zurück?


Zunächst importieren wir die **Pandas** Bibliothek und laden den Datensatz in Form eines csv-Files in einen **Data Frame**.
Wir geben eine Übersicht über die Splaten aus und zeigen die 20 Zeilen des Datensatzes an.

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/fhswf/datasets/main/Berlin_crimes.csv', sep=';')
df.info()
df.head(20)

Wir wollen über ein paar Beispiele erfahren, wie man mit Pandas DataFrames arbeiten kann.
In der folgende Code-Zeile passieren insgesamt 3 Schritte:

1. Datenfilterung mit `df[df.Bezirk=="Mitte"]`: Zuerst wird der DataFrame df gefiltert, um nur die Zeilen zu behalten, in denen die Spalte Bezirk den Wert "Mitte" hat. Das Ergebnis dieser Filteroperation ist ein neuer DataFrame, der nur Einträge aus dem Bezirk Mitte enthält.
1. Gruppierung mit `.groupby("Jahr")`: Der gefilterte DataFrame wird dann nach der Spalte Jahr gruppiert. Das bedeutet, dass die Daten in Untergruppen aufgeteilt werden, wobei jede Gruppe Einträge aus demselben Jahr enthält.
1. Aggregation mit `.sum()`: Schließlich wird die Aggregationsfunktion `sum()` auf jede dieser Gruppen angewendet. Für jede Gruppe (also für jedes Jahr) werden alle numerischen Spalten aufsummiert. (*Hinweis:* Als Aggregationsfunktion wären ebenfalls statistische Kennzahlen wie Durchschnitt, Maximal-, Minimalwert oder eine Transformation, wie etwa das Standardisieren der Daten, möglich gewesen) 


Das Ergebnis ist ein neuer DataFrame, in dem jedes Jahr (jede Gruppe) durch eine Zeile repräsentiert wird und die Spalten die Summe der jeweiligen numerischen Werte für dieses Jahr enthalten.


Diese Code-Zeile filtert also den ursprünglichen DataFrame `df` für Einträge aus dem Bezirk Mitte, gruppiert diese Einträge nach Jahr und berechnet dann die Summe aller numerischen Werte für jedes Jahr. Das Ergebnis gibt einen Überblick über die aggregierten Daten pro Jahr spezifisch für den Bezirk Mitte.


In [None]:
df[df.Bezirk=="Mitte"].groupby("Jahr").sum()

Nun wollen wir einzelne Daten aus dem ursprünglichen Datensatz herausnehmen.

Die nächste Code-Zeile verwendet die `drop()` Methode von Pandas DataFrame, mit der man Zeilen oder Spalten aus einem DataFrame entfernen kann.
`df` gibt den ursprünglichen DataFrame an. Die `drop()` Methode wird verwendet, um bestimmte Spalten oder Zeilen aus dem DataFrame zu entfernen. Mit dem `axis`-Parameter spezifiziert man, entlang welcher Spaltenachse die Operation durchgeführt werden soll. `axis=1` bedeutet, dass Spalten entfernt werden, während `axis=0` (der Standardwert) bedeutet, dass Zeilen entfernt werden.
Die Liste `["Plz", "Jahr", "Gebiet"]` enthält die Namen der Spalten, die entfernt werden sollen. In diesem Fall sind es die Spalten "Plz", "Jahr" und "Gebiet".


Das Ergebnis dieser Operation - ein DataFrame ohne die Spalten "Plz", "Jahr" und "Gebiet" - wird der Variablen `tatbestaende` zugewiesen.

Diese Codezeile entfernt also die Spalten "Plz", "Jahr" und "Gebiet" aus dem DataFrame `df` und speichert das Ergebnis in der Variablen `tatbestaende`. `tatbestaende` ist nun ein modifizierter DataFrame, der alle ursprünglichen Spalten von `df` außer den entfernten enthält.


In [None]:
tatbestaende = df.drop(["Plz", "Jahr", "Gebiet"], axis=1)
tatbestaende

Wenn wir mit den Daten eines DataFrame Objektes *rechnen* wollen, können wir die Werte der Tabelle als NumPy Array extrahieren. 
Den Zugriff auf DataFrame-Werte mit erhält man über das Attribut (bzw. die *Property*) `.values` eines DataFrames. 

Wenn wir `tatbestaende.values` aufrufen, konvertieren wir also den DataFrame `tatbestaende` in ein NumPy-Array. Jede Zeile im DataFrame wird zu einer Zeile im Array, und jede Spalte im DataFrame wird zu einer Spalte im Array.

```python
x = tatbestaende.values
x
````
```text
array([['Mitte', 70, 46, ..., 26, 171, 1032],
       ['Mitte', 65, 29, ..., 124, 98, 870],
       ['Mitte', 242, 136, ..., 522, 435, 3108],
       ...,
       ['Reinickendorf', 6, 4, ..., 56, 21, 212],
       ['Reinickendorf', 8, 4, ..., 8, 31, 218],
       ['Reinickendorf', 3, 2, ..., 3, 9, 21]], dtype=object)
```

**Aufgabe:** Verwenden Sie das NumPy Array `x` um die Summe der der Straftaten im Bezirk mitte zu berechnen.

In [None]:
x = tatbestaende.values

# YOUR CODE HERE
raise NotImplementedError()

Die Werte sollten der in der folgenden Ausgabe entsprechen:

In [None]:
pd.DataFrame(tatbestaende[tatbestaende.Bezirk=="Mitte"].sum().drop(["Bezirk"])).T

**Aufgabe:** Verwenden Sie die `groupby()` Methode auf dem DataFrame `tatbestaende`, um die Summe der Starftaten in allen Stadtgebieten zu berechnen.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

Man kann einem DataFrame sehr einfach eine neue Spalte hinzufügen.
Wie bei einem Dictionary macht man einfach eine Zuweisung auf einen neuen *Schlüssel* des DataFrames.
Die rechte Seite der Zuweisung enthält eine Liste von Werten, die Anzahl der Werte muss der Anzahl der Zeilen im DataFrame entsprechen.
Der Schlüssel wird als Name der neuen Spalte im DataFrame übernommen und die Daten in diese Spalte eingetragen.

In [None]:
einwohner_list = [343592, 290386, 294201, 269967, 385748, 329917, 409335, 266408, 245197, 310071, 350984, 273689]
bezirke["Einwohner"] = einwohner_list
bezirke

Sind die Daten nicht Sortiert, kann man sie auch über den Index oder eine bestehende Spalte des DataFrames mit den Schlüsseln eines Dictionaries *matchen*.
Im folgenden Beispiel passiert dies über die `.map()`-Methode:

In [None]:
einwohner_dict = {'Charlottenburg-Wilmersdorf':  343592, 'Friedrichshain-Kreuzberg':290386, 'Lichtenberg':294201,
       'Marzahn-Hellersdorf':269967, 'Mitte':385748, 'Neukölln':329917, 'Pankow':409335, 'Reinickendorf':266408,
       'Spandau':245197, 'Steglitz-Zehlendorf':310071, 'Tempelhof-Schöneberg':350984,
       'Treptow-Köpenick':273689}
bezirke["Einwohner"] = bezirke.index.map(einwohner_dict)
bezirke

Die bisher verwendeten Daten sind absolute Fallzahlen, sie spiegeln also nicht die relative Häufigkeit von Straftaten im Bezirk wieder.
Wir wollen daher 

**Aufgabe:** Erstelle Sie einen neuen DataFrame , `bezirke_hf` der statt der absoluten Fallzahlen die relativen Fallzahlen pro 100.000 Einwohner im Bezirk enthält. 

In der Follgenden Code-Zelle erstellen wir mit `pd.DataFrame(index=bezirke.index)` einen neuen DataFrame, der die gleichen Indizes (also die gleiche Anzahl an Zeilen und die gleichen *Zeilen-Bezeichner*), aber noch keine Spalten enthält.

Die `for`-Schleife geht durch jede Spalte in `bezirke` (nachdem die Spalte "Einwohner" entfernt wurde).
Für jede dieser Spalten wird der Spaltenname gedruckt (`print(str(c))`).
Sie können diese Schleife verwenden, um für alle Tatbestände eine neue Spalte im DataFrame `bezirke_hf` zu berechnen.

In [None]:
bezirke_hf = pd.DataFrame(index=bezirke.index)
for c in bezirke.drop('Einwohner', axis=1).columns:
    print(str(c))
    # YOUR CODE HERE
    raise NotImplementedError()
bezirke_hf

Nun können wir Aussagen darüber treffen, in welchem Bezirk bestimmte Straftaten am häufigsten vorkommen.

Um in einem Pandas DataFrame die Position des Maximums einer bestimmten Spalte zu ermitteln, können wir die Methode `idxmax()` verwenden. Diese Methode gibt den Index des ersten Vorkommens des maximalen Werts in der angegebenen Spalte zurück.

In [None]:
for c in bezirke_hf.columns:
    print(f"{c}: {bezirke_hf[c].idxmax()}")

Nun wollen wir unsere Daten mit der Bibliothek **Matplotlib** plotten. 

Wir berechnen zuerst die prozentualen Anteile der Straftaten in ganz Berlin.
Dazu reduzieren wir den DataFrame `tatbestaende` um die Spalte `Bezirk`, summieren die Werte in den Spalten (`axis=1`) auf, sortieren die Ergebnisse aufsteigend und speichern sie unter dem Namen `crime` ab.
Danach summieren wir alle Tatbestände zu einem Wert auf (`crime.sum()`) und teilen den Wert jedes einzelnen Tatbestands durch diese Gesamtzahl um den Prozentanteil zu erhalten.

In [None]:
crime = tatbestaende.drop('Bezirk', axis=1).sum().sort_values()
crime /= crime.sum()
crime

**Aufgabe:** Werwenden Sie die Funktion [`plt.pie()`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.pie.html) aus dem Modul *Pyplot* der Bibliothek *Matplotlib* um ein Tortendiagramm zur Verteilung der Straftaten zu plotten.

Verwenden Sie neben dem obligatorischen Parameter `x` noch die optionalen Parameter `labels` und `autopct`.
Für die Labels verwenden Sie den Index der Daten, `autopct` setzen Sie auf `'%.0f%%'` um die Prozentzahlen anzuzeigen.

Die Abbildung sollte ungefähr so aussehen:
![](crime_all.png?)

In [None]:
import matplotlib.pyplot as plt
# YOUR CODE HERE
raise NotImplementedError()

Einige der Straftaten haben eine nur sehr geringe Häufigkeit, wir wollen Sie zur besseren Übersicht zu einer Kategorie *andere* zusammenfassen.

Dazu berechnen wir zuerst die Gesamtzahl aller Straftaten mit einer Häufigkeit von unter 2% pro Tatbestand.

In [None]:
andere = crime[crime < 0.02].sum()
andere

Nun legen wir einen neuen Datensatz `mcrime` an, der nur die Tatbestände über 2% Häufigkeit enthält und fügen diesem Datensatz einen Index "andere" hinzu.
Den Wert setzen wir auf die zuvor berechnete Summe.

In [None]:
mcrime = crime[crime >= 0.02]
mcrime["andere"] = andere
mcrime

**Aufgabe:** Plotten Sie niun diese bereinigten Daten und geben Sie dem Diagramm den Titel *Kriminalität in Berlin zwischen 2012 und 2019*.

Die Abbildung sollte nun so aussehen:
![](crime_cleaned.png?)

In [None]:
import matplotlib.pyplot as plt
# YOUR CODE HERE
raise NotImplementedError()

Für eine Zeitliche Analyse der Daten entfernen wir die Spalten "Plz", "Bezirk" und "Gebiet" aus dem ursprünglichen Datensatz und Summieren die Zeilen gruppiert nach den Jahreszahlen auf.

In [None]:
crime_t = df.drop(["Plz", "Bezirk", "Gebiet"], axis=1)
crime_t = crime_t.groupby("Jahr").sum()
crime_t

Nun berechnen wir den Trend der einzelnen Tatbestände, beginnend mit dem ersten Jahr.
Wir nehmen den Wert jedes Tatbestands im Jahr 2012 (`crime_t.iloc[0])`) und teilen alle Werte in den Spalten durch diesen Referenzwert.

So entsteht eine Tabelle mit der Entwicklung der Tatbestände in Prozent, auf Basis des Ausgangswertes in 2012.

In [None]:
crime_t = (crime_t / crime_t.iloc[0]) * 100 // 1
crime_t

In [None]:
crime_t.columns.values

**Aufgabe:** Werwenden Sie die Funktion [`plt.plot()`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html) aus dem Modul *Pyplot* der Bibliothek *Matplotlib* um die Entwicklung des Tatbestands *Raub* von 2012 bis 2019 darzustellen.

Als `x` verwenden Sie den Index des DataFrames `crime_t`, als `y` die Werte der Spalte "Raub". Setzen Sie den Titel des Plots auf *Entwicklung des Straftatbestands "Raub" von 2012 bis 2019*

Die Abbildung sollte folgendermaßen aussehen:

![](Raubentwicklung.png?)

In [None]:
# YOUR CODE HERE
raise NotImplementedError()


Wir wollen nun alle 16 Tatbestände des Datenstazes in eine Abbildung plotten.
Dazu erzeugen wir mit `plt.subplots(rows,cols, ...)` einen Subplot mit 4-mal-4 einzelnen Koordinatensystemen.
Die einzelnen Koordinatensysteme erreichen wir über die 2-dimensionale Liste `ax`. 

**Aufgabe:** Laufen Sie mit der Schleife `i, cname in enumerate(crime_t.columns):` über alle 16 Spalten des DataFrames und erzeugen Sie einen Funktionsplot für die aktuelle Spalte in einem entsprechenen Koordinatensystem der Abbildung. `i` ist dabei eine von 0 laufende Zählvariable, `cname` ist der Name der aktuellen Spalte.

Die komplette Abbildung sollte wie folgt aussehen:
![](Straftatenentwicklung.png?)

In [None]:
rows = 4
cols = 4
plt.rc('xtick', labelsize=10)
plt.rc('ytick', labelsize=8)
fig, ax = plt.subplots(rows,cols, figsize=(12, 4 * rows))

# YOUR CODE HERE
raise NotImplementedError()
