## Importing Libraries


In [2]:
#supress warnings
import warnings
warnings.filterwarnings('ignore')

#numpy and pandas for data manipulation
import pandas as pd
import numpy as np
from numpy import median
from scipy.stats import norm
import re
import math

#matplotlib and seaborn for data visualization
import matplotlib.pyplot as plt
import seaborn as sns
color = sns.color_palette()
sns.set(style='darkgrid')

import plotly
from plotly.offline import iplot
import plotly.graph_objects as go

#file system management
import os

## Reading the dataset


In [3]:
df = pd.read_csv('./data/monatszahlen2209_verkehrsunfaelle.csv')
df.head()

Unnamed: 0,MONATSZAHL,AUSPRÄGUNG,JAHR,MONAT,WERT,VORJAHRESWERT,VERÄND_VORMONAT_PROZENT,VERÄND_VORJAHRESMONAT_PROZENT,ZWÖLF_MONATE_MITTELWERT
0,Alkoholunfälle,insgesamt,2022,202201,,16.0,,,
1,Alkoholunfälle,insgesamt,2022,202202,,14.0,,,
2,Alkoholunfälle,insgesamt,2022,202203,,24.0,,,
3,Alkoholunfälle,insgesamt,2022,202204,,16.0,,,
4,Alkoholunfälle,insgesamt,2022,202205,,24.0,,,


In [5]:
# As mentioned, only first 5 columns are important
df = df.iloc[:,:5]
df.head()

Unnamed: 0,MONATSZAHL,AUSPRÄGUNG,JAHR,MONAT,WERT
0,Alkoholunfälle,insgesamt,2022,202201,
1,Alkoholunfälle,insgesamt,2022,202202,
2,Alkoholunfälle,insgesamt,2022,202203,
3,Alkoholunfälle,insgesamt,2022,202204,
4,Alkoholunfälle,insgesamt,2022,202205,


In [7]:
# Data till 2021 to be considered
df = df[df.JAHR <= 2020]
df.head()

Unnamed: 0,MONATSZAHL,AUSPRÄGUNG,JAHR,MONAT,WERT
25,Alkoholunfälle,insgesamt,2020,Summe,430.0
26,Alkoholunfälle,insgesamt,2020,202001,28.0
27,Alkoholunfälle,insgesamt,2020,202002,40.0
28,Alkoholunfälle,insgesamt,2020,202003,27.0
29,Alkoholunfälle,insgesamt,2020,202004,26.0


In [25]:
df

Unnamed: 0,MONATSZAHL,AUSPRÄGUNG,JAHR,MONAT,WERT
25,Alkoholunfälle,insgesamt,2020,Summe,430.0
26,Alkoholunfälle,insgesamt,2020,202001,28.0
27,Alkoholunfälle,insgesamt,2020,202002,40.0
28,Alkoholunfälle,insgesamt,2020,202003,27.0
29,Alkoholunfälle,insgesamt,2020,202004,26.0
...,...,...,...,...,...
2081,Verkehrsunfälle,Verletzte und Getötete,2000,200008,647.0
2082,Verkehrsunfälle,Verletzte und Getötete,2000,200009,675.0
2083,Verkehrsunfälle,Verletzte und Getötete,2000,200010,615.0
2084,Verkehrsunfälle,Verletzte und Getötete,2000,200011,578.0


## Exploratory Data Analysis

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1911 entries, 25 to 2085
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   MONATSZAHL  1911 non-null   object 
 1   AUSPRÄGUNG  1911 non-null   object 
 2   JAHR        1911 non-null   int64  
 3   MONAT       1911 non-null   object 
 4   WERT        1911 non-null   float64
dtypes: float64(1), int64(1), object(3)
memory usage: 89.6+ KB


In [10]:
# percentage of data which is null in each column
(df.isna().sum() / df.shape[0]) * 100

MONATSZAHL    0.0
AUSPRÄGUNG    0.0
JAHR          0.0
MONAT         0.0
WERT          0.0
dtype: float64

In [12]:
df["WERT"].describe()

count     1911.000000
mean      1440.540031
std       4655.514611
min          0.000000
25%         41.000000
50%        399.000000
75%        864.000000
max      46988.000000
Name: WERT, dtype: float64

In [23]:
df["MONAT"].describe()

count      1911
unique      253
top       Summe
freq        147
Name: MONAT, dtype: object

In [13]:
df["JAHR"].describe()

count    1911.000000
mean     2010.000000
std         6.056886
min      2000.000000
25%      2005.000000
50%      2010.000000
75%      2015.000000
max      2020.000000
Name: JAHR, dtype: float64

In [20]:
df["AUSPRÄGUNG"].unique()

array(['insgesamt', 'Verletzte und Getötete', 'mit Personenschäden'],
      dtype=object)

In [28]:
# Monat has only 147 summe so removing them
lst = ['Summe']
df = df[df.MONAT.isin(lst) == False]
df.head()

Unnamed: 0,MONATSZAHL,AUSPRÄGUNG,JAHR,MONAT,WERT
26,Alkoholunfälle,insgesamt,2020,202001,28.0
27,Alkoholunfälle,insgesamt,2020,202002,40.0
28,Alkoholunfälle,insgesamt,2020,202003,27.0
29,Alkoholunfälle,insgesamt,2020,202004,26.0
30,Alkoholunfälle,insgesamt,2020,202005,40.0


In [29]:
df['MONAT'] = pd.to_datetime(df['MONAT'])
df.head()

ParserError: month must be in 1..12: 202001