# 911 Anrufe Projekt - Aufgabe

Für dieses Meilensteinprojekt analysieren wir daren von Anrufen die bei der amerikanischen Polizei (am. Rufnummer: 911) eingehen. Dieser Datensatz wird bei [Kaggle](https://www.kaggle.com/mchirico/montcoalert) bereitgestellt. Er beinhaltet die folgenden Felder:

* lat: String Variable, Breitengrad
* lng: String Variable, Längengrad
* desc: String Variable, Beschreibung des Notrufs
* zip: String Variable, Postleitzahl
* title: String Variable, Titel
* timeStamp: String Variable, Zeit: YYYY-MM-DD HH:MM:SS
* twp: String Variable, Gemeinde
* addr: String Variable, Addresse
* e: String Variable, Dummy Variable (immer 1)

Folge jetzt dem Notebook und versuche alle Aufgaben zu lösen oder Fragen zu beantworten. Vertraut auf eure Python und Data Science Fähigkeiten!


## Remarks

### Basic analysis
- `.info()`
- `.head()`
- `.nunique()`
- `.value_counts().head()`
- `.value_counts().max()`
- `.apply(lambda x: x)`

### Basic Plot 

- `sns.countplot(x='<column_name>', data=df)` Seaborn Count-Plot

### DateTime conversion

```python
df['timeStamp'] = pd.to_datetime(df['timeStamp'])
type(df['timeStamp'][0])
df.dtypes
```

## Daten und Vorbereitungen

**Importiere Numpy und Pandas.**

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns

# show full output
from IPython.core.interactiveshell import InteractiveShell

InteractiveShell.ast_node_interactivity = "all"

**Importiere Visualisierungs-Librarys und nutze %matplotlib inline.**

In [None]:
import matplotlib.pyplot as plt
% matplotlib inline


**Lese das "911.csv" als DataFrame mit Namen df ein.**

In [None]:
# Dataset on https://www.kaggle.com/datasets/mchirico/montcoalert
data_dir = "C:\Temp\911.csv"
df = pd.read_csv(data_dir)


**Schaue dir die Infos zum DataFrame an.**

In [None]:
df.info()


**Schaue dir den Tabellenkopf an.**

In [None]:
df.head()
df.tail()


## Grundlegende Fragen

**Was sind die Top 5 Postleitzahlen (en. zipcodes) mit Notrufen?**

In [None]:
df["zip"].value_counts().head()

**Was sind die Top 5 Gemeinden (en. township (twp)) mit Notrufen?**

In [None]:
df["twp"].value_counts().head()

**Schaue dir die "title" Spalte an; wie viele einzigartige Einträge gibt es?**

In [None]:
df.nunique()
df["title"].nunique()

## Analysen

- Add Column
- 


### Add feature - New columns with lambdas


**In der Titelspalte, sind "Gründe/Zuständigkeiten" vor dem Titelcode spezifiziert. Diese lauten "EMS", "Fire" und "Traffic". Nutze `.apply()` mit einer selbsterstellten lambda Funktion, um eine neue Spalte namens "Reason" (dt. Grund) zu erstellen, die diesen String enthält.**

Zum Beispiel, wenn der Titel "EMS: BACK PAINS/INJURY" lautet, dann soll in der Spalte für den Grund "EMS" stehen.

In [None]:
df["reason"] = df["title"].apply(lambda x: x.split(':')[0])
df.head()

**Was ist der häufigste Grund für Notrufe (basiert auf der neuen Spalte)?**

In [None]:
df['reason'].value_counts().max()
df['reason'].value_counts()

**Nutze jetzt Seaborn um ein `countplot` der Gründe für Notrufe zu erstellen.**

In [None]:
sns.countplot(x='reason', data=df)

### Timestamp converting
**Jetzt werden wir uns mehr auf die Zeitinformationen konzentrieren. Welchen Datentyp haben die Objekte in der *timestamp* Spalte?**

In [None]:
type(df['timeStamp'][0])

df.dtypes
df['timeStamp'][0]
df['timeStamp'].iloc[0]
df['timeStamp'].loc[0]

**Das Ergebnis der vorherigen Aufgabe sollte zeigen, dass diese Zeitinformation noch als String vorliegt. Nutze `pd.to_datetime`([Dokumentation](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.to_datetime.html)), um diese Spalte vom String zum DateTime Datentyp zu ändern.**

In [None]:
df['timeStamp'] = pd.to_datetime(df['timeStamp'])
type(df['timeStamp'][0])
df.dtypes

**Jetzt können wir spezifische Attribute des DateTime-Objekts abrufen, indem wir sie aufrufen. Zum Beispiel:**

    time = df['timeStamp'].iloc[0]
    time.hour
    
Durch Jupyters *Tab-Funktion* lassen sich alle Attribute erkunden, die wir auf "time" anwenden könnten.

**Unsere Zeitinformationen liegen jetzt als DateTime Objekt vor. Nutze .apply() um 3 neue Spalten mit Namen "Hour" (dt. Stunde), "Month" (dt. Monat) und "Day of Week" (dt. Wochentag). Dazu bietet sich am besten die "timeStamp" Spalte an. Falls Schwierigkeiten beim Coden auftreten kannst du auf die Lösung zurückgreifen.**

In [None]:
time_stamp = df['timeStamp'][0]
time_stamp.hour

df['hour'] = df['timeStamp'].apply(lambda x: x.hour)
df['month'] = df['timeStamp'].apply(lambda x: x.month)
df['day'] = df['timeStamp'].apply(lambda x: x.dayofweek)

df.head()


**Achte darauf, dass der "Day of Week" eine Zahl von 0 bis 6 ist. Nutze die `.map()` Methode mit folgendem Dictionary, um daraus Strings zu machen:**

In [None]:
day_key = list(range(7))
day_values = ['mon', 'tue', 'wed', 'thu', 'fri', 'sat', 'sun']
day_dict = dict(zip(day_key, day_values))

df['day'] = df['day'].map(lambda x: day_dict[x])
df.head()

df['day'].value_counts()


### Timestamp grouping and analysis
**Jetzt nutze Searborn, um ein `countplot` zu erstellen. Es soll für jeden Wochentag farblich unterscheiden, was der Grund für den Notruf war.**

In [None]:
sns.countplot(x='day', hue='reason', data=df)

**Tue jetzt das gleiche für jeden Monat.**

In [None]:
sns.countplot(x='month', hue='reason', data=df)

**Fällt dir etawas an diesem Diagramm auf?**

Dir sollte auffallen, dass einige Monate fehlen. Lass uns versuchen die fehlende Information zurückzuholen indem wir sie anders darstellen. Evtl. ein einfaches Liniendiagramm. Um das zu erreichen verwenden wir Pandas...

**Erstelle jetzt ein groupby-Objekt namens "byMonth", indem du den DataFrame nach der Monatsspalte und nutze die `count()` Methode zur Aggregation. Anschließend nutze die `head()` Methode auf den zurückgegebenen DataFrame.**

In [None]:
byMonth = df.groupby('month').count()
byMonth
byMonth.reset_index()

**Erstelle eine einfaches Diagramm des DataFrames der den Anzahl (en. count) von Anrufen pro Monat zeigt.**

In [None]:
byMonth['title'].plot()

**Jetzt versuche Seaborn's `lmplot()`, um eine lineare Annäherung auf die Anrufe pro Monat zu legen.**

*Hinweis: Denke daran, dass der Index möglicherweise zu einer Spalte gesetzt werden muss.*

In [None]:
sns.lmplot(x='month', y='twp', data=byMonth.reset_index())

**Erstelle eine neue Spalte namens "Date" (dt. Datum), die das Datum aus der timeStamp Spalte beinhaltet. Dazu wirst du die `.date()` Methode nutzen müssen.**

In [None]:
df['date'] = df['timeStamp'].apply(lambda x: x.date())
df.head()

**Gruppiere jetzt über diese Date Spalte und aggregiere mit `count()`. Erstelle dann ein Diagramm der Anzahl an Notrufen.**

In [None]:
byDate = df.groupby('date').count()
byDate.head()
byDate['twp'].plot()
plt.tight_layout()

**Erstelle dieses Diagramm nun erneut, aber trenne insgesamt drei Diagramme für jeden Grund von Notruf.**

In [None]:
# df[df['reason'] == 'EMS']
# df[df['reason'] == 'EMS'].groupby('date')
# df[df['reason'] == 'EMS'].groupby('date').count()
# df[df['reason'] == 'EMS'].groupby('date').count()['twp']

In [None]:
df[df['reason'] == 'EMS'].groupby('date').count()['twp'].plot()
plt.title('EMS')
plt.tight_layout()

In [None]:
df[df['reason'] == 'Fire'].groupby('date').count()['twp'].plot()

In [None]:
df[df['reason'] == 'Traffic'].groupby('date').count()['twp'].plot()

### Re-Arrange for Heatmap

**Jetzt können wir mit Heatmaps und Seaborn weitermachen. Dazu müssen wir unseren DataFrame etwas restrukturieren, sodass die Stunden zu den Spalten werden und der "Day of Week" der Index. Es gibt dazu viele Möglichkeiten. Ich empfehle eine Kombination aus `groupby` und der `unstack` ([zur Dokumentation](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.unstack.html)) Methode.**

Falls du hier nicht weiter kommst schaue in die Lösung.

In [None]:
dayHour = df.groupby(by=['day', 'hour']).count()['reason'].unstack()
dayHour.columns
dayHour.index
dayHour
# dayHour = df.groupby(by=['hour', 'day']).count()
# dayHour.loc[0]['lat']
# dayHour.loc[0]['lat'].loc[['fri','sat']]


**Erstelle jetzt eine HeatMap unter Verwendung des neuen DataFrames.**

In [None]:
plt.figure(figsize=(12,6))
sns.heatmap(dayHour, cmap='viridis')

**Erstelle jetzt eine Clustermap unter Verwendung des neuen DataFrames.**

In [None]:
sns.clustermap(dayHour, cmap='viridis')

**Wiederhole diesen Vorgang nun unter Verwendung des Monats als Spaltenunterteilung.**

In [None]:
monthHour = df.groupby(by=['day', 'month']).count()['reason'].unstack()
monthHour

In [None]:
sns.heatmap(monthHour, cmap='viridis')

In [None]:
sns.clustermap(monthHour, cmap='viridis')

**Super! Jetzt kannst du die Daten gerne noch weiter auf eigene Faust erkunden.**

# Gut gemacht!


In [None]:
df3 = pd.DataFrame(np.arange(9).reshape(3, 3), index='A B C'.split(), columns='1 2 3'.split())
df3

In [None]:
df3['2'].replace(4, 'X', inplace=True)

In [None]:
df3['3'][df3.index == 'B'] = 42
df3

In [None]:
df3.loc["C", "2"]
df3.loc["C"]

In [None]:
df3.iloc[-1, 1:3]