In [10]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly
%matplotlib inline

In [2]:
url = 'https://www.opengov-muenchen.de/dataset/5e73a82b-7cfb-40cc-9b30-45fe5a3fa24e/resource/40094bd6-f82d-4979-949b-26c8dc00b9a7/download/210619monatszahlenjuni2021monatszahlen2106verkehrsunfaelle.csv'

In [3]:
df = pd.read_csv(url)
df.head()

Unnamed: 0,MONATSZAHL,AUSPRAEGUNG,JAHR,MONAT,WERT,VORJAHRESWERT,VERAEND_VORMONAT_PROZENT,VERAEND_VORJAHRESMONAT_PROZENT,ZWOELF_MONATE_MITTELWERT
0,Alkoholunfälle,insgesamt,2021,202101,,28.0,,,
1,Alkoholunfälle,insgesamt,2021,202102,,40.0,,,
2,Alkoholunfälle,insgesamt,2021,202103,,27.0,,,
3,Alkoholunfälle,insgesamt,2021,202104,,26.0,,,
4,Alkoholunfälle,insgesamt,2021,202105,,40.0,,,


In [4]:
# dropping all columns but the first five, which are the important ones
df = df.drop(df.columns[5:], axis=1)
df.head()

Unnamed: 0,MONATSZAHL,AUSPRAEGUNG,JAHR,MONAT,WERT
0,Alkoholunfälle,insgesamt,2021,202101,
1,Alkoholunfälle,insgesamt,2021,202102,
2,Alkoholunfälle,insgesamt,2021,202103,
3,Alkoholunfälle,insgesamt,2021,202104,
4,Alkoholunfälle,insgesamt,2021,202105,


In [5]:
# info about the data
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1995 entries, 0 to 1994
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   MONATSZAHL   1995 non-null   object 
 1   AUSPRAEGUNG  1995 non-null   object 
 2   JAHR         1995 non-null   int64  
 3   MONAT        1995 non-null   object 
 4   WERT         1911 non-null   float64
dtypes: float64(1), int64(1), object(3)
memory usage: 78.1+ KB


In 'WERT' there are null values

In [13]:
df[df['WERT'].isnull()]

Unnamed: 0,MONATSZAHL,AUSPRAEGUNG,JAHR,MONAT,WERT
0,Alkoholunfälle,insgesamt,2021,202101,
1,Alkoholunfälle,insgesamt,2021,202102,
2,Alkoholunfälle,insgesamt,2021,202103,
3,Alkoholunfälle,insgesamt,2021,202104,
4,Alkoholunfälle,insgesamt,2021,202105,
...,...,...,...,...,...
1717,Verkehrsunfälle,Verletzte und Getötete,2021,202108,
1718,Verkehrsunfälle,Verletzte und Getötete,2021,202109,
1719,Verkehrsunfälle,Verletzte und Getötete,2021,202110,
1720,Verkehrsunfälle,Verletzte und Getötete,2021,202111,


The null values are all values from the year 2021, which is the one that we are going to predict, so all will be dropped

In [14]:
df = df.dropna()
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1911 entries, 12 to 1994
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   MONATSZAHL   1911 non-null   object 
 1   AUSPRAEGUNG  1911 non-null   object 
 2   JAHR         1911 non-null   int64  
 3   MONAT        1911 non-null   object 
 4   WERT         1911 non-null   float64
dtypes: float64(1), int64(1), object(3)
memory usage: 89.6+ KB


In [18]:
df.head(15)

Unnamed: 0,MONATSZAHL,AUSPRAEGUNG,JAHR,MONAT,WERT
12,Alkoholunfälle,insgesamt,2020,Summe,430.0
13,Alkoholunfälle,insgesamt,2020,202001,28.0
14,Alkoholunfälle,insgesamt,2020,202002,40.0
15,Alkoholunfälle,insgesamt,2020,202003,27.0
16,Alkoholunfälle,insgesamt,2020,202004,26.0
17,Alkoholunfälle,insgesamt,2020,202005,40.0
18,Alkoholunfälle,insgesamt,2020,202006,49.0
19,Alkoholunfälle,insgesamt,2020,202007,58.0
20,Alkoholunfälle,insgesamt,2020,202008,46.0
21,Alkoholunfälle,insgesamt,2020,202009,46.0


It can be noticed, that there are in the 'MONAT' column an entry each twelve month 'Summe', which is the yearly sum, it will be confirmed and then dropped if it matches

In [21]:
# creating a dataframe containing all observations without the sum
df_normal = df[df['MONAT'] != 'Summe']
# creating a dataframe containing only the sum observations
df_sum = df[df['MONAT'] == 'Summe']
print(sum(df_sum['WERT']) == sum(df_normal['WERT']))

True


The values are identical, so the data will be processed without the summed values

In [22]:
df = df_normal

In the data explanation it was mentioned that 'insgesamt' in the 'AUSPRAEGUNG' column means the sum of all sub-categories, so we can check if the sum of 'insgesamt' values match the sum of the rest of the values. In case it doesn't match, all subcategories will be dropped and will continue only with the 'insgesamt value for each category.

In [23]:
# creating a dataframe containing all observations without the sum
df_insgesamt = df[df['AUSPRAEGUNG'] == 'insgesamt']
# creating a dataframe containing only the sum observations
df_rest = df[df['AUSPRAEGUNG'] != 'insgesamt']
print(sum(df_insgesamt['WERT']) == sum(df_rest['WERT']))

False


The values does not match, that means that there are some missing subcategories, there are now to possibilities
1. deal with 'insgesamt' as the values of the rest of the subcategories, and remove from it the values of the other subcategories that are present
2. remove all the other present subcategories, and deal only with 'insgesamt'

In this case, the second possibility will be chosen and the second column will be dropped, as it is no more needed, and the values present will be of the main categories.

In [25]:
df = df_rest.drop('AUSPRAEGUNG', axis=1)

In [30]:
print(df.head())
print('-'*50)
print(df.dtypes)
print('-'*50)
print(df.MONATSZAHL.unique())

         MONATSZAHL  JAHR   MONAT  WERT
298  Alkoholunfälle  2020  202001  11.0
299  Alkoholunfälle  2020  202002  19.0
300  Alkoholunfälle  2020  202003  13.0
301  Alkoholunfälle  2020  202004  15.0
302  Alkoholunfälle  2020  202005  26.0
--------------------------------------------------
MONATSZAHL     object
JAHR            int64
MONAT          object
WERT          float64
dtype: object
--------------------------------------------------
['Alkoholunfälle' 'Fluchtunfälle' 'Verkehrsunfälle']


It can be observed that there are three main categories, and that the 'MONAT' column is of type 'object'. The 'MONAT' column will be converted into integer, and create a timestamp of a monthly frequency using it, then dropping both the 'JAHR', and 'MONAT' columns

In [31]:
import datetime
df['DATE'] = df['MONAT'].apply(lambda x: datetime.datetime(year=int(x[:-2]), month=int(x[-2:]), day=15))
df = df[['MONATSZAHL', 'DATE', 'WERT']]
df.head()

Unnamed: 0,MONATSZAHL,DATE,WERT
298,Alkoholunfälle,2020-01-15,11.0
299,Alkoholunfälle,2020-02-15,19.0
300,Alkoholunfälle,2020-03-15,13.0
301,Alkoholunfälle,2020-04-15,15.0
302,Alkoholunfälle,2020-05-15,26.0
