In [2]:
# Import Packages
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score
from sklearn import preprocessing
from sklearn.ensemble import RandomForestClassifier

import lightgbm as lgb
from lightgbm import LGBMClassifier

import xgboost as xg
import pickle

In [3]:
# Reading the data
filepath = r"C:\Users\HP\Downloads\220511_monatszahlenmonatszahlen2204_verkehrsunfaelle.csv"
df = pd.read_csv(filepath)
df.head()

Unnamed: 0,MONATSZAHL,AUSPRAEGUNG,JAHR,MONAT,WERT,VORJAHRESWERT,VERAEND_VORMONAT_PROZENT,VERAEND_VORJAHRESMONAT_PROZENT,ZWOELF_MONATE_MITTELWERT
0,Alkoholunfälle,insgesamt,2022,202201,,16.0,,,
1,Alkoholunfälle,insgesamt,2022,202202,,14.0,,,
2,Alkoholunfälle,insgesamt,2022,202203,,24.0,,,
3,Alkoholunfälle,insgesamt,2022,202204,,16.0,,,
4,Alkoholunfälle,insgesamt,2022,202205,,24.0,,,


In [4]:
df.columns

Index(['MONATSZAHL', 'AUSPRAEGUNG', 'JAHR', 'MONAT', 'WERT', 'VORJAHRESWERT',
       'VERAEND_VORMONAT_PROZENT', 'VERAEND_VORJAHRESMONAT_PROZENT',
       'ZWOELF_MONATE_MITTELWERT'],
      dtype='object')

In [5]:
# dropping unnecessary columns
df.drop(['VORJAHRESWERT','VERAEND_VORMONAT_PROZENT','VERAEND_VORJAHRESMONAT_PROZENT','ZWOELF_MONATE_MITTELWERT'], axis=1, inplace=True)
df.columns

Index(['MONATSZAHL', 'AUSPRAEGUNG', 'JAHR', 'MONAT', 'WERT'], dtype='object')

In [6]:
# renaming the columns
df = df.rename( columns = { 
    'MONATSZAHL' : 'Category',
    'AUSPRAEGUNG': 'Accident-Type',
    'JAHR'       : 'Year',
    'MONAT'      : 'Month',
    'WERT'       : 'Value'
})

# Data Wrangling

In [7]:
# dropping records after 2020
df_year = df[df['Year'] > 2020]     
df = df.drop(df_year.index, axis=0)
df.head()

Unnamed: 0,Category,Accident-Type,Year,Month,Value
25,Alkoholunfälle,insgesamt,2020,Summe,430.0
26,Alkoholunfälle,insgesamt,2020,202001,28.0
27,Alkoholunfälle,insgesamt,2020,202002,40.0
28,Alkoholunfälle,insgesamt,2020,202003,27.0
29,Alkoholunfälle,insgesamt,2020,202004,26.0


In [8]:
df.isnull().sum() # there are no null columns

Category         0
Accident-Type    0
Year             0
Month            0
Value            0
dtype: int64

In [9]:
# Display only month numbers 
df['Month'] = df['Month'].str[-2:]
df['Month'].head()

25    me
26    01
27    02
28    03
29    04
Name: Month, dtype: object

# Data Analysis and Visualization

In [10]:
# Specifying the values for all the categories only for the month 'me'
Alkoholunfälle = df[(
    (df['Category'] == 'Alkoholunfälle') &
    (df['Month'] == 'me') &
    (df['Accident-Type'] == 'insgesamt')
    )]
Verkehrsunfälle = df[(
    (df['Category'] == 'Verkehrsunfälle') &
    (df['Month'] == 'me') &
    (df['Accident-Type'] == 'insgesamt')
    )]
Fluchtunfälle = df[(
    (df['Category'] == 'Fluchtunfälle') &
    (df['Month'] == 'me') &
    (df['Accident-Type'] == 'insgesamt')
    )]

# Sorting 'years' column in ascending order
years = [i for i in range(2000, 2021)]
years.sort()

In [11]:
# Converting to a DataFrame
categories = pd.DataFrame({
        "Alkoholunfälle": Alkoholunfälle['Value'].to_numpy(),
        "Verkehrsunfälle": Verkehrsunfälle['Value'].to_numpy(),
        "Fluchtunfälle": Fluchtunfälle['Value'].to_numpy()
    },
    index= years
)
categories.head()

Unnamed: 0,Alkoholunfälle,Verkehrsunfälle,Fluchtunfälle
2000,430.0,38434.0,10024.0
2001,434.0,46010.0,11773.0
2002,398.0,46408.0,11648.0
2003,409.0,45454.0,11263.0
2004,301.0,46797.0,11179.0
