# Datenanalyse: Verbrechen in San Francisco

Für das folgende Tutorial zur Datenanalyse nutzen wir die Programmiersprache **Python**.
Python ist eine gutlesbare Programmiersprache und wird typischerweise in der Datenanalyse genutzt.

Auch die Programmiersprache R wird häufig zur Datenverarbeitung genutzt, sie unterscheidet sich allerdings stark von Python.

### 1. Importieren von Bibliotheken

Zuerst importieren wir einige Standart-Bibliotheken für die Datenanalyse. Sie stellen viele Funktionalitäten bereit, um nicht alles von Grund auf programmieren zu müssen.

Methoden der Bibliotheken können aufgerufen über den zugewiesenen Name der Bibliothek z.B. "pd", dahinter ein Punkt und im Anschluss den Mehtodenname z.B. "pd.read_csv(...)" um eine Csv-Datein einzulesen.

In [None]:
# Mit der Raute schreiben wir einen Kommentar, es ist kein Programmcode und wird daher nicht ausgeführt

# numpy und pandas werden zur Datenverarbeitung genutzt
import numpy as np
import pandas as pd
# matplotlib wird zur Visualisierung der Daten genutzt
import matplotlib.pyplot as plt
import os

# sklearn enthält viele Methoden um ML auf Datensätze anzuwenden, hier benutzen wir SVM (Support Vector Machine)
from sklearn import svm
from sklearn.model_selection import train_test_split
import pickle

from urllib.request import urlopen

### 2. Laden des Datensatzes

In [None]:
# Wir laden den Datensatz, der als CSV-Datei (ähnlich einer Excel-Tabelle) vorliegt, als Pandas Dataframe um mit den Daten arbeiten zu können.
# Wir nennen den Datensatz "crime_dataframe", unter diesem Namen können wir im Weiteren auf ihn zugreifen.
crime_dataframe = pd.read_csv('https://cloudold.scadsai.uni-leipzig.de/index.php/s/At9fMs9X48EJ3Jr/download/girlsday-sanfrancrimes.csv')

### 3. Ersten Überblick über den Datensatz verschaffen

In [None]:
# Wie viele Einträge hat der Datensatz?
# Die Methode len() liefert uns die Länge des Datensatzes
number_of_entries = len(crime_dataframe)
# mit print("...") können wir eine Ausgabe erzeugen
print(f"Dieser Datensatz hat ganze {number_of_entries} Einträge!")

In [None]:
# In welche Kategorien ist der Datensatz aufgeteilt?
# Die Methode columns() liefert um die Spalten-Namen des Datensatzes
crime_columns = list(crime_dataframe.columns)
print(f"Dieser Datensatz hat die folgenden Spalten-Namen: \n {crime_columns}.")

In [None]:
# Um einschätzen zu können welche Werte wir für die einzelnen Kategorien zu erwarten haben
# betrachten wir die ersten Zeilen des Datensatzes
# Den "Kopf" bzw. die ersten 5 Zeilen des Datensatz können wir mit der Methode "head()" anzeigen
print(crime_dataframe.head())

### 4. Datenanlyse mit Diagrammen

Mit Diagrammen können wir uns noch einen besseren Überblick über die Daten verschaffen und erste Schlüsse ziehen.

#### 4.1 Das Histogramm
Wir wollen herausfinden welche Verbrechen am häufigsten begangen wurden und betrachten dazu die Kategorie 'Catagory'.

Ein Histogramm gibt die absolute Häufigkeitsverteilung an und ist deshalb gut geeignet.

In [None]:
# Welche unterschiedlichen Werte gibt es in der Spalte 'Categorie'?
categories = crime_dataframe['Category'].value_counts().index
print(f"In der Spalte 'Categorie' gibt es die verschiedenen Kategorien: \n {categories.values} \n")
print(f"Es sind insgesamt {len(categories.values)} verschiedene Kategorien. \n")

# Wie häufig kommen die einzelnen Kategorien vor?
counts = crime_dataframe['Category'].value_counts().values
print(f"Die einzelnen Kategorien kommen in dieser absoluten Häufigkeit vor: \n {counts} \n")

# Diese beiden Felder an Daten setzen wir jetzt zusammen in einem Plot
# Mit der Methode "bar" der Bibliothek plt
# Der Methode übergeben wir die beiden Felder und stellen die Weite der einzelnen Balken ein
plt.bar(categories, counts, width=0.7)

# Formatierung des Plots
plt.xticks(rotation = 90)
fig = plt.gcf() 
fig.set_size_inches(11,8)

# Anzeigen des Plots
fig.show()

Als nächstes möchten wir wissen, ob es Wochentage gibt an denen besonders viele Verbrechen beganngen werden.

Dazu erstellen wir ein weiteres Histogramm und wählen diesmal die Spalte 'DayOfWeek'.

Der Code ist nahe zu identisch, an welchen Stellen muss er ausgetauscht werden?
Tausche den Code so aus, das er ein Histogramm für die Spalte 'DayOfWeek' ausgibt.

In [None]:
# Welche unterschiedlichen Werte gibt es in der Spalte?
categories = crime_dataframe['Category'].value_counts().index
print(f"In der Spalte gibt es die verschiedenen Kategorien: \n {categories.values} \n")

# Wie häufig kommen die einzelnen Kategorien vor?
counts = crime_dataframe['Category'].value_counts().values
print(f"Die einzelnen Kategorien kommen in dieser absoluten Häufigkeit vor: \n {counts} \n")

# Diese beidem Felder an Daten setzen wir jetzt zusammen in einem Plot
# Mit der Methode bar der Bibliothek plt
# Der Methode übergeben wir die beiden Felder und stellen die Weite der Balken ein
plt.bar(categories, counts, width=0.7)

# Formatierung des Plots
plt.xticks(rotation = 90)
fig = plt.gcf() 
fig.set_size_inches(11,8)

# Anzeigen des Plots
fig.show()

Im nächsten Schritt spezialisieren wir uns auf eine Kategorie, auf 
Autofahren unter Einfluss von Alkohol und Drogen (engl. 'DRIVING UNDER THE INFLUENCE').

Wir wollen wissen:
An welchem Tag wird besonders oft alkoholisiert Auto gefahren?

Dazu kreieren wir ein Subset des Datensatzes und benutzten nur die Daten für die gilt, dass die 'Category' einen bestimmten Wert hat, hier 'DRIVING UNDER THE INFLUENCE' ist.

Probiere auch gerne mal eine der anderen Kategorien aus, z.B. 'DRUNKENNESS', 'ROBBERY', 'GAMBLING' oder 'VANDALISM'.

Außerdem ändern wir die Farbe in grün und die Balkenweite auf einen kleineren Wert. Probiere gerne mal andere Farben wie:'yellow', 'orange', 'purple', 'red', 'black', 'magenta', 'cyan' und neue Werte für die Balkenweite ('width') aus.

In [None]:
# Erstellen des Subsets
subset = crime_dataframe[crime_dataframe['Category']== 'DRIVING UNDER THE INFLUENCE']

# Anzeigen der ersten Spalten des Subsets
print(subset.head())

# Erstellen des Plots
categories = subset['DayOfWeek'].value_counts().index
counts = subset['DayOfWeek'].value_counts().values

plt.bar(categories, counts, width=0.2, color="green")
plt.xticks(rotation = 90)
fig = plt.gcf() 
fig.set_size_inches(8,6)
fig.show() 

#### 4.2 Die Kreuztabelle (Cross Table)


Um Zusammenhänge zwischen mehreren Spalten zu erkennen, ist es nützlich eine Kreuztabelle zu erstellen.

Sie stellt 2 Spalten gegenüber und gibt die absoluten Häufigkeiten der Merkmals-Kombinationen an.

Probiere jeweils zwei beliebige Spalten aus und bringe sie über die Kreuztabelle in Verbindung, 
z.B. 'Category' und 'Resolution' um herauszufinden mit welcher Strafe man bei welchem Verbrechen zu rechnen hat.

Falls du vergessen hast, welche Spalten es gab, erinnerst du dich, wie wir uns diese anzeigen konnten?

In [None]:
pd.crosstab(crime_dataframe['Category'], crime_dataframe['Resolution'])

### 5. Vorhersage-Richter:in
Zum Abschluss stellen wir uns ein Szenario vor, indem ein Computerprogramm anhand von "alten Urteilen" entscheidet, welche Strafe verhängt werden soll. Wir generieren uns also eine:n Vorhersage-Richter:in.

Dafür nutzen wir das häufig genutzte **Machine Learning** Verfahren **Support Vector Machine** (SVM), das Objekte in Klassen teilt um damit eine Vorhersage über bisher unbekannte Objekte zutreffen. Keine Sorge, wenn du noch nicht so viel verstehst, das schauen wir uns gleich noch mal genauer an.

In unserem Beispiel wollen wir mit den Spalte "Category" (Delikt) und "PdDistrict" eine Vorhersage darüber machen, was für eine Strafe die Personen erwartet (Spalte "Resolution").
SVM ist ein überwacht lernendes Verfahren, das bedeutet, dass wir für eine Eingabe (in diesem Fall die Spalten "Category", "PdDistrict") ein Zielwert, also eine bestimmte Strafe vorgeben müssen, zu finden in der Spalte "Resolution".
Die SVM lernt dann aus diesen gegebenen Beispielen und kann Vorhersagen für neue Eingaben treffen, also welche Strafe in diesem Fall verhängt wird.

Im ersten Schritt teilen wir unseren Datensatz in unsere **Eingabe**, in der Regel mit **X** bezeichnet, und den **Zielwert**, in der Regel mit **y** bezeichnet.
Im zweiten Schritt teilen wir diese weiter, in **Trainingsdatensatz**, mit diesem lernen wir die SVM, und in einen **Testdatensatz**, an dem wir dann die entstandene SVM testen können.

Am besten funktioniert das Verfahren, wenn wir ihm nur Zahlen übergeben, in den Spalten "Category" und "PdDistrict" haben wir es aber mit Zeichenketten(string) zu tun, mit denen die SVM nicht so gut arbeiten kann. 
Wir nutzen deshalb einen Trick um die Zeichenketten in Zahlen umzuwandeln, genannt **One-Hot-Encoding**.
Dabei erzeugen wir für jede Möglichkeit des Deliktes einen Vektor (eine Reihe von Zahlen), der die selbe Länge hat wie die Anzahl der verschiedenen Delikte. Der Vektor besteht an allen Stellen aus Nullen, nur an einer Stelle steht eine 1. Diese Stelle ist charakterisch für das jeweilige Delikt.


Hier ein kleines Beispiel:
- Es gibt die verschiedene Delikte: Verkehrsdelikt, Vandalismus, Diebstahl

→ Anzahl der verschiedenen Delikte ist: 3

→ wir erzeugen also einen Vektor der Länge 3

→ für die verschiedenen Delikte setzen wir an verschiedenen Stellen die 1 im Vektor, an den restlichen Stellen setzen wir Nullen

→ für Verkehrsdelikt erzeugen wir den Vektor: 100

→ für Vandalismus erzeugen wir den Vektor: 010

→ für Diebstahl erzeugen wir den Vektor: 001

In [None]:
# Wir definieren den Zielwert y
y = crime_dataframe['Resolution']

# One-Hot-Vektoren für die Spalte 'Category' erstellen
X_category = pd.get_dummies(crime_dataframe['Category'], columns=['Category'])
# One Hot-Vektoren für die Spalte 'PdDistrict' erstellen
X_district = pd.get_dummies(crime_dataframe['PdDistrict'], columns=['PdDistrict'])
# Verbinden der One-Hot-Vektoren beider Spalten zu einem DataFrame
X = pd.concat([X_category, X_district], axis= 1)

# Wir teilen unseren Datensatz auf in Trainings- und Testdatensatz
# Dabei nutzen wir 80% (0.8) des Datensatzes zum Testen und die anderen 20% zu Trainieren
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.8, random_state=42)

print(f"Unser Trainingsdatensatz umfasst {len(X_train)} Einträge \n")
print(f"Unser Testdatensatz umfasst {len(X_test)} Einträge \n")

Unser Trainingsdatensatz umfasst 175609 Einträge 

Unser Testdatensatz umfasst 702440 Einträge 



Im nächsten Schritt würden wir unsere SVM trainineren. Allerdings kann das sehr lange dauern bei dieser großen Datenmenge. Deshalb haben wir das für euch schon im Vorhinein gemacht und wir laden das Modell einfach nur.

In [None]:
# Hier wird unser Modell trainiert
'''
clf = svm.SVC()
clf.fit(X_train.to_numpy(), y_train.to_numpy())

# Speichern des Modells als binary file
with open('pickle.pkl', 'wb') as file:
      
    # A new file will be created
    pickle.dump(clf, file)
'''

In [None]:
# unter dieser Url liegt das vortrainierte Modell
url = "https://cloudold.scadsai.uni-leipzig.de/index.php/s/b9HkYJ9eD6RNRQx/download/pickle.pkl"

# Herunterladen des Modells
with urlopen(url) as file:
    content = file.read()

# Speichern des Modells
with open('pickle.pkl', 'wb') as download:
    download.write(content)

# Laden des Modells
with open('pickle.pkl', 'rb') as file:
      clf = pickle.load(file)

Wir können nun anhand unseres Testdatensatzes überprüfen, wie gut unser Modell die Strafen vorhersagen kann.

Dazu erstellen wir eine Vorhersage für die Testdaten. Das Modell bekommt in diesem Fall nur die Kategorie des Verbrechens übergeben und erzeugt damit eine Vorhersage der Strafe.

Die vorhergesagte Strafe können wir dann mit der Strafe, die im Datensatz steht, vergleichen.

Um alle einzelnen Verbrechen im Testdatensatz zu überprüfen, nutzen wir eine **For-Schleife**. Sie führt den gleichen Programmcode für alle im Testdatensatz enthaltenen Elemente einmal aus. Dabei zählen wir wie oft eine Vorhersage falsch oder richtig war. War eine Vorhersage falsch, erhöhen wir den Zähler für die falschen Vorhersagen um eins. War eine Vorhersage richtig, erhöhen wir den Zähler für die richtigen Vorhersagen um eins.

Zum Schluss können wir mit einer Prozentzahl die Genauigkeit des Modells angeben, die Accurcay. Sie beschreibt wie oft das Modell richtig lag im Verhältnis zu allen Vorhersagen.

In [None]:
# Wir nutzen nur einen kleinen Teil (0.1%) des Testdatensatzes, da die Berechnung sonst zu lange dauert
X_test = X_test.sample(frac =0.001)

print(f"Unser Testdatensatz besteht jetzt nur noch aus {len(X_test)} Einträgen")

In [None]:
# Erstellen der Vorhersage auf dem Testdatensatz
pred = clf.predict(X_test)

In [None]:
# Wir zählen mit, wie oft unser Modell richtig oder falsch lag
# Dazu erzeugen wir zwei Zähler und setzen sie zu Beginn auf 0
right_counter, wrong_counter = 0,0

# Mit Hilfe der For-Schleife durchlaufen wir alle einzelnen Elemente des Testdatensatzes
for j in range(pred.shape[0]):
    spalte = X_test.iloc[j].replace(0, float("NaN"))
    spalte.dropna(inplace=True)
    print(f"Kategorie: {spalte.index.values[0]}, District: {spalte.index.values[1]}")
    print(f"Die Vorhersage war: {pred[j]}")
    print(f"Der richtige Wert war: {y_test.iloc[j]} \n")
    if (pred[j] == y_test.iloc[j]):
        right_counter += 1
    else:
        wrong_counter += 1

In [None]:
print(f"Anzahl der richtigen Vorhersagen: {right_counter}, Anzahl der falschen Vorhersagen: {wrong_counter} \n")

# Berechnen der Genauigkeit des Modells
accuracy = right_counter / (right_counter + wrong_counter)
print(f"Genauigkeit des Modells: {round(accuracy*100, 2)}%")