In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt
from datetime import datetime
import collections

from shapely.geometry import Point
import geopandas as gpd
from geopandas import GeoDataFrame

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))



In [None]:
# Mit Raute schreiben wir einen Kommentar, es ist kein Programmcode und daher wird er nicht ausgeführt

# Laden des Datensatzes in als Pandas Dataframe
crime_dataframe = pd.read_csv('/kaggle/input/sf-crime/train.csv.zip')

# Um einen groben Überblick über den Datensatz zu bekommen:

# Wie viele Einträge hat der Datensatz? => len()
number_of_entries = len(crime_dataframe)
print(f"Dieser Datensatz hat {number_of_entries} Einträge!")

In [None]:
# Welche Kategorien hat der Datensatz? => df.columns()
crime_columns = list(crime_dataframe.columns)
print(f"Dieser Datensatz hat die folgenden Spalten-Namen: {crime_columns}.")

In [None]:
# Die "ersten Zeilen" des Datensatzes anzeigen lassen => df.head()
print(crime_dataframe.head())

In [None]:
# Wir möchten wissen, welche unterschiedlichen Verstöße im Datensatz wie oft vorgekommen sind 
# Dazu plotten wir uns ein sog. Histogramm (Häufigkeitsverteilung)

# Die unterschiedlichen Verstöße finden wir unter der Spalte 'Category', 
# deshalb soll diese Spalte visualisiert werden
plt.hist(crime_dataframe['Category'])

# Formatierung des Plots, damit wir etwas erkennen
plt.xticks(rotation = 90)
fig = plt.gcf() 
fig.set_size_inches(11,8)

# Anzeigen des Plots
fig.show()

In [None]:
# Wir möchten wissen, ob es an verschiedenen Wochentagen unterschiedlich viele Verbrechen gibt
plt.hist(crime_dataframe['DayOfWeek'],bins=7)

# Formatierung des Plots, damit wir etwas erkennen
plt.xticks(rotation = 90)
fig = plt.gcf() 
fig.set_size_inches(11,8)

# Anzeigen des Plots
fig.show()

In [None]:
# Kreuztabellen enthalten relativen Häufigkeiten von Kombinationen bestimmter Merkmale

# Probiere jeweils 2 verschiedene Spalten aus und bringe sie über die Kreuztabelle in Verbindung, 
# z.B. Category und Resolution 
# Falls du vergessen hast, welche Spalten es gab, erinnerst du dich, wie wir uns diese anzeigen konnten?
pd.crosstab(crime_dataframe['Category'], crime_dataframe['Resolution'])

In [None]:
# Die Daten zur Uhrzeit sind in der Spalte 'Dates'
all_dates = crime_dataframe['Dates']

# Die Daten sind als String gespeichert, um an die Stunde zu kommen, möchten wir sie in ein 
# Datumsformat "Datetime" umwandeln
print(f"Der Datentyp der Elemente in 'Dates' ist {type(all_dates[0])}!")
all_dates = [datetime.strptime(item, '%Y-%m-%d %H:%M:%S') for item in all_dates]


# Wir teilen die Uhrzeiten in Stunden auf, um dann zu sehen in welcher Stunde die meisten
# Delikte passieren
print(all_dates[0].hour)
all_hours = [item.hour for item in all_dates]
occurrences = collections.Counter(all_hours)
print(occurrences)

In [None]:
# Um die Verteilung zu sehen, plotten wir die Uhrzeiten in einem Pie Chart (Kuchendiagramm)
labels =[]
sizes = []
explode = [0.2] * 24

for key,value in occurrences.items():
    labels.append(f"{key} Uhr")
    sizes.append(value)

fig1, ax1 = plt.subplots()
fig1.set_size_inches(6,6)
ax1.pie(sizes, labels=labels, explode=explode, autopct='%1.1f%%',
        shadow=True, startangle=90)
ax1.axis('equal') 
plt.show()

In [None]:
# Wann wird besonders auf Ladendiebstahl begangen?

# wir kreieren ein subset des gesamten datensets und 
# benutzten nur die Daten der Spalte Diebstahl
theft_subset = crime_dataframe[crime_dataframe['Category']=='LARCENY/THEFT']
print(theft_subset.head())

#Setze hier verschiedene Kategorien ein, um das Histogramm für diese im Bezug auf Diebstahl anzeigen zu lassen
plt.hist(theft_subset['Resolution'])

plt.xticks(rotation = 90)
fig = plt.gcf() 
fig.set_size_inches(11,8)
plt.show()
