# Dataset Information

The dataset used for this challenge is taken from the München Open Data Portal
### Monatszahlen Verkehrsunfälle 
Link : https://opendata.muenchen.de/dataset/monatszahlen-verkehrsunfaelle/resource/40094bd6-f82d-4979-949b-26c8dc00b9a7

The above data provides historical information values on the number of accidents for different categories per month in the 
city of Munich, Germany. 
As the dataset contains several columns, but we will focus on the mentioned first five columns which are important to our mission, hence feature selection is not required here.

Five columns considered:

|Translated Column Name - >| Category    | Accident-type | Year | Month | Value |
|----------------------|-------------|---------------|------|-------|-------|
|Actual Column Name in Dataset ->  | MONATSZAHL  | AUSPRAEGUNG   | JAHR | MONAT | WERT  |

1. Category - (MONATSZAHL)
2. Accident-type - (insgesamt means total for all subcategories) (AUSPRAEGUNG)
3. Year - (JAHR)
4. Month - (MONAT)
5. Value - (WERT)

#### Category Types [ MONATSZAHL ]:
1. 'Alkoholunfälle' - Alcohol accidents
2. 'Fluchtunfälle' - Escape accidents
3. 'Verkehrsunfälle' - Traffic Accidents

#### Accident Types [ AUSPRAEGUNG ]:
1. 'insgesamt' - total
2. 'mit personenschäden' - personal injury
3. 'Verletzte und Getötete' - injured and killed

----

# Importing Libraries, Packages and Data

In [3]:
import pandas as pd
import numpy as np

In [4]:
df = pd.read_csv("data/monatszahlen2209_verkehrsunfaelle.csv")
df

Unnamed: 0,MONATSZAHL,AUSPRÄGUNG,JAHR,MONAT,WERT,VORJAHRESWERT,VERÄND_VORMONAT_PROZENT,VERÄND_VORJAHRESMONAT_PROZENT,ZWÖLF_MONATE_MITTELWERT
0,Alkoholunfälle,insgesamt,2022,202201,,16.0,,,
1,Alkoholunfälle,insgesamt,2022,202202,,14.0,,,
2,Alkoholunfälle,insgesamt,2022,202203,,24.0,,,
3,Alkoholunfälle,insgesamt,2022,202204,,16.0,,,
4,Alkoholunfälle,insgesamt,2022,202205,,24.0,,,
...,...,...,...,...,...,...,...,...,...
2081,Verkehrsunfälle,Verletzte und Getötete,2000,200008,647.0,,-13.04,,584.0
2082,Verkehrsunfälle,Verletzte und Getötete,2000,200009,675.0,,4.33,,594.0
2083,Verkehrsunfälle,Verletzte und Getötete,2000,200010,615.0,,-8.89,,596.0
2084,Verkehrsunfälle,Verletzte und Getötete,2000,200011,578.0,,-6.02,,594.0


# Exploratory Data Analysis

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2086 entries, 0 to 2085
Data columns (total 9 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   MONATSZAHL                     2086 non-null   object 
 1   AUSPRÄGUNG                     2086 non-null   object 
 2   JAHR                           2086 non-null   int64  
 3   MONAT                          2086 non-null   object 
 4   WERT                           2002 non-null   float64
 5   VORJAHRESWERT                  1995 non-null   float64
 6   VERÄND_VORMONAT_PROZENT        1840 non-null   float64
 7   VERÄND_VORJAHRESMONAT_PROZENT  1910 non-null   float64
 8   ZWÖLF_MONATE_MITTELWERT        1848 non-null   float64
dtypes: float64(5), int64(1), object(3)
memory usage: 146.8+ KB


In [6]:
df.describe()

Unnamed: 0,JAHR,WERT,VORJAHRESWERT,VERÄND_VORMONAT_PROZENT,VERÄND_VORJAHRESMONAT_PROZENT,ZWÖLF_MONATE_MITTELWERT
count,2086.0,2002.0,1995.0,1840.0,1910.0,1848.0
mean,2010.963087,1434.433566,1409.67619,5.241538,1.66945,777.310065
std,6.615227,4634.494223,4564.043202,40.926314,30.197125,1164.856446
min,2000.0,0.0,0.0,-100.0,-100.0,12.0
25%,2005.0,41.0,41.0,-15.54,-12.5,40.0
50%,2011.0,394.0,394.0,0.0,-1.115,421.0
75%,2017.0,863.25,859.5,18.7125,10.2625,814.25
max,2022.0,46988.0,46988.0,600.0,425.0,3977.0


In [7]:
df['MONATSZAHL'].unique()

array(['Alkoholunfälle', 'Fluchtunfälle', 'Verkehrsunfälle'], dtype=object)

In [8]:
df['AUSPRÄGUNG'].unique()

array(['insgesamt', 'Verletzte und Getötete', 'mit Personenschäden'],
      dtype=object)