# Accidents Main Dataset manipulation (More categorized)

In [None]:
import pandas as pd
import numpy as np
import datetime
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
import warnings
import statistics

In [2]:
import sys
np.set_printoptions(threshold=sys.maxsize)
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import OneHotEncoder

In [3]:
from sklearn.metrics import precision_score
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import r2_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import plot_confusion_matrix

# read all data

In [None]:
Accidents = pd.read_csv('Accidents_de_tr_nsit_amb_morts_o_ferits_greus_a_Catalunya.csv')

# check the data

In [5]:
Accidents.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21161 entries, 0 to 21160
Data columns (total 58 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Any                        21161 non-null  int64  
 1   zona                       21161 non-null  object 
 2   dat                        21161 non-null  object 
 3   via                        21161 non-null  object 
 4   pk                         21160 non-null  object 
 5   nomMun                     21161 non-null  object 
 6   nomCom                     21161 non-null  object 
 7   nomDem                     21161 non-null  object 
 8   F_MORTS                    21161 non-null  int64  
 9   F_FERITS_GREUS             21161 non-null  int64  
 10  F_FERITS_LLEUS             21161 non-null  int64  
 11  F_VICTIMES                 21161 non-null  int64  
 12  F_UNITATS_IMPLICADES       21161 non-null  int64  
 13  F_VIANANTS_IMPLICADES      21161 non-null  int

# Renaming columns with lowercase

In [6]:
Accidents.columns=[e.lower().replace(' ', '_') for e in Accidents.columns]
Accidents.columns

Index(['any', 'zona', 'dat', 'via', 'pk', 'nommun', 'nomcom', 'nomdem',
       'f_morts', 'f_ferits_greus', 'f_ferits_lleus', 'f_victimes',
       'f_unitats_implicades', 'f_vianants_implicades',
       'f_bicicletes_implicades', 'f_ciclomotors_implicades',
       'f_motocicletes_implicades', 'f_veh_lleugers_implicades',
       'f_veh_pesants_implicades', 'f_altres_unit_implicades',
       'f_unit_desc_implicades', 'c_velocitat_via', 'd_acc_amb_fuga',
       'd_boira', 'd_caract_entorn', 'd_carril_especial',
       'd_circulacio_mesures_esp', 'd_climatologia', 'd_func_esp_via',
       'd_gravetat', 'd_influit_boira', 'd_influit_caract_entorn',
       'd_influit_circulacio', 'd_influit_estat_clima', 'd_influit_inten_vent',
       'd_influit_lluminositat', 'd_influit_mesu_esp', 'd_influit_obj_calcada',
       'd_influit_solcs_rases', 'd_influit_visibilitat', 'd_inter_seccio',
       'd_limit_velocitat', 'd_lluminositat', 'd_regulacio_prioritat',
       'd_sentits_via', 'd_subtipus_accide

# Check the NaN values

In [7]:
Accidents.isna().sum()

any                              0
zona                             0
dat                              0
via                              0
pk                               1
nommun                           0
nomcom                           0
nomdem                           0
f_morts                          0
f_ferits_greus                   0
f_ferits_lleus                   0
f_victimes                       0
f_unitats_implicades             0
f_vianants_implicades            0
f_bicicletes_implicades          0
f_ciclomotors_implicades         0
f_motocicletes_implicades        0
f_veh_lleugers_implicades        0
f_veh_pesants_implicades         0
f_altres_unit_implicades         0
f_unit_desc_implicades           0
c_velocitat_via               2642
d_acc_amb_fuga                   0
d_boira                          0
d_caract_entorn                 32
d_carril_especial             1349
d_circulacio_mesures_esp        40
d_climatologia                   0
d_func_esp_via      

# get only the columns with NaN values

In [8]:
nulls_percent_Accidents = pd.DataFrame(Accidents.isna().sum()/len(Accidents)).reset_index()
nulls_percent_Accidents.columns = ['column_name', 'nulls_percentage']
nulls_percent_Accidents[nulls_percent_Accidents['nulls_percentage']!=0]

Unnamed: 0,column_name,nulls_percentage
4,pk,4.7e-05
21,c_velocitat_via,0.124852
24,d_caract_entorn,0.001512
25,d_carril_especial,0.063749
26,d_circulacio_mesures_esp,0.00189
43,d_regulacio_prioritat,0.707433
44,d_sentits_via,0.16521
46,d_subtipus_tram,0.671613
50,d_titularitat_via,0.506214
51,d_tracat_altimetric,0.3609


# cleaning the NaN values column pk

In [9]:
Accidents['pk'].value_counts(dropna=False)

999999    11006
1           173
0           161
2            92
3            86
          ...  
256,2         1
743,9         1
58,1          1
134,2         1
63,5          1
Name: pk, Length: 2804, dtype: int64

In [10]:
Accidents['pk'].nunique()

2803

In [11]:
Accidents['pk']=Accidents['pk'].fillna('0')

def cleankSymbol(x):
    if x < '5':
        return 'under 5'
    else:
        return 'over 5'
    
    
Accidents['pk'] = list(map(cleankSymbol, Accidents['pk']))
Accidents['pk'].value_counts(dropna=False)


over 5     13896
under 5     7265
Name: pk, dtype: int64

# cleaning the NaN values column c_velocitat_via

In [12]:
Accidents['c_velocitat_via'].value_counts(dropna=False)

100.0    11954
NaN       2642
999.0     1331
40.0      1072
50.0      1044
30.0       878
80.0       858
60.0       613
70.0       309
90.0       198
20.0       129
120.0       96
10.0        19
110.0       10
0.0          4
45.0         2
99.0         1
15.0         1
Name: c_velocitat_via, dtype: int64

In [13]:
Accidents['c_velocitat_via']=Accidents['c_velocitat_via'].fillna('100').astype('int64')
Accidents['c_velocitat_via'].value_counts(dropna=False)

100    14596
999     1331
40      1072
50      1044
30       878
80       858
60       613
70       309
90       198
20       129
120       96
10        19
110       10
0          4
45         2
99         1
15         1
Name: c_velocitat_via, dtype: int64

In [14]:
def cleankSymbol(x):
    if x in [999]:
        return '100 or over'
    elif x<=20:
        return '20 or under'
    elif x<=60:
        return '20-60'
    else:
        return '60-100'
    
Accidents['c_velocitat_via'] = list(map(cleankSymbol, Accidents['c_velocitat_via']))

In [15]:
Accidents['c_velocitat_via'].value_counts(dropna=False)

60-100         16068
20-60           3609
100 or over     1331
20 or under      153
Name: c_velocitat_via, dtype: int64

# cleaning the NaN values column d_caract_entorn

In [16]:
Accidents['d_caract_entorn'].value_counts(dropna=False)

A nivell             8435
Sense Especificar    7812
Mixt                 2625
Desmunt              1434
Terraplé              823
NaN                    32
Name: d_caract_entorn, dtype: int64

In [17]:
Accidents['d_caract_entorn']=Accidents['d_caract_entorn'].fillna('Sense Especificar')

# cleaning the NaN values column d_caract_entorn

In [18]:
Accidents['d_carril_especial'].value_counts(dropna=False)

No n'hi ha                                      18567
NaN                                              1349
Carril bus                                        300
Carril bici                                       184
Carril acceleració                                158
Altres                                            152
Carril central                                    148
Carril d'alentiment                                89
Carril lent                                        79
Carril avançament                                  42
Habilitació voral/carril addicional                37
Carril reversible                                  22
Sense Especificar                                  21
Carril habilitat en sentit contrari habitual       13
Name: d_carril_especial, dtype: int64

In [19]:
Accidents['d_carril_especial']=Accidents['d_carril_especial'].fillna('Sense Especificar')

# cleaning the NaN values column d_circulacio_mesures_esp

In [20]:
Accidents['d_circulacio_mesures_esp'].value_counts(dropna=False)

No n'hi ha                         20660
Obres                                277
Accident trànsit anterior             63
Esdeveniment extraordinari            51
Serveis de neteja o manteniment       43
NaN                                   40
Cons                                  14
Control policial                      13
Name: d_circulacio_mesures_esp, dtype: int64

In [21]:
Accidents['d_circulacio_mesures_esp']=Accidents['d_circulacio_mesures_esp'].fillna("No n'hi ha")

# cleaning the NaN values column d_regulacio_prioritat

In [22]:
Accidents['d_regulacio_prioritat'].value_counts(dropna=False)

NaN                                           14970
Senyal Stop o cedeix pas                       2911
Semàfor                                        1439
Sols norma prioritat de pas                    1006
Sols marques viàries (inclou pas vianants)      820
Persona autoritzada                              11
Altres                                            4
Name: d_regulacio_prioritat, dtype: int64

In [23]:
Accidents['d_regulacio_prioritat']=Accidents['d_regulacio_prioritat'].fillna('Sense Especificar')

# cleaning the NaN values column d_sentits_via

In [24]:
Accidents['d_sentits_via'].value_counts(dropna=False)

Doble sentit         12546
Un sol sentit         4573
NaN                   3496
Sense especificar      546
Name: d_sentits_via, dtype: int64

In [25]:
Accidents['d_sentits_via']=Accidents['d_sentits_via'].fillna('Sense Especificar')

# cleaning the NaN values column d_subtipus_tram

In [26]:
Accidents['d_subtipus_tram'].value_counts(dropna=False)

NaN                                   14212
Encreuament o intersecció en X o +     3131
Intersecció en T o Y                   2153
Giratòria                              1128
Enllaç d'entrada o eixida               534
Pas a nivell                              2
Sense especificar                         1
Name: d_subtipus_tram, dtype: int64

In [27]:
Accidents['d_subtipus_tram']=Accidents['d_subtipus_tram'].fillna('Sense Especificar')

# cleaning the NaN values column d_titularitat_via

In [28]:
Accidents['d_titularitat_via'].value_counts(dropna=False)

NaN                  10712
Autonòmica            3683
Estatal               2269
Provincial            1672
Municipal             1463
Altres                1348
Sense Especificar       14
Name: d_titularitat_via, dtype: int64

In [29]:
Accidents['d_titularitat_via']=Accidents['d_titularitat_via'].fillna('Sense Especificar')

# cleaning the NaN values column d_tracat_altimetric

In [30]:
Accidents['d_tracat_altimetric'].value_counts(dropna=False)

NaN                  7637
Pla                  5203
Sense especificar    4368
Rampa o pendent      3707
Canvi rasant          232
Gual                   14
Name: d_tracat_altimetric, dtype: int64

In [31]:
Accidents['d_tracat_altimetric']=Accidents['d_tracat_altimetric'].fillna('Sense especificar')

# Checking again the NaN values

In [None]:
nulls_percent_Accidents = pd.DataFrame(Accidents.isna().sum()/len(Accidents)).reset_index()
nulls_percent_Accidents.columns = ['column_name', 'nulls_percentage']
nulls_percent_Accidents[nulls_percent_Accidents['nulls_percentage']!=0]

# checking all the values

In [33]:
def df_values(Accidents):
    for i in range(0, len(Accidents.columns)):
        print('----------', Accidents.columns[i], '---------')
        print (Accidents.iloc[:,i].value_counts())
        print ('----------', Accidents.columns[i], '---------- \n')

df_values(Accidents)   


---------- any ---------
2010    1984
2012    1950
2014    1912
2013    1902
2015    1901
2011    1868
2016    1793
2018    1745
2019    1732
2017    1719
2021    1447
2020    1208
Name: any, dtype: int64
---------- any ---------- 

---------- zona ---------
Zona urbana    11542
Carretera       9619
Name: zona, dtype: int64
---------- zona ---------- 

---------- dat ---------
30/03/2012    17
15/05/2015    16
16/06/2018    16
22/12/2014    14
23/12/2011    14
              ..
01/01/2018     1
01/10/2015     1
15/08/2018     1
07/01/2015     1
27/04/2021     1
Name: dat, Length: 4308, dtype: int64
---------- dat ---------- 

---------- via ---------
SE         11016
N-II         480
AP-7         429
C-31         371
CR           355
           ...  
LV-3121        1
TV-3032        1
LV-5224        1
BV-5202        1
C-58c          1
Name: via, Length: 737, dtype: int64
---------- via ---------- 

---------- pk ---------
over 5     13896
under 5     7265
Name: pk, dtype: int64
---------

# checking the date column

In [34]:
Accidents['dat'].value_counts(dropna=False)

30/03/2012    17
15/05/2015    16
16/06/2018    16
22/12/2014    14
23/12/2011    14
              ..
01/01/2018     1
01/10/2015     1
15/08/2018     1
07/01/2015     1
27/04/2021     1
Name: dat, Length: 4308, dtype: int64

In [35]:
Accidents['data'] = pd.to_datetime(Accidents['dat'], errors='coerce')

  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listl

In [36]:
Accidents['data'].value_counts(dropna=False)

2012-03-30    17
2015-05-15    16
2018-06-16    16
2014-12-22    14
2011-12-23    14
              ..
2018-01-01     1
2015-01-10     1
2018-08-15     1
2015-07-01     1
2021-04-27     1
Name: data, Length: 4308, dtype: int64

# creating new columns indicating month, year, weekdayname

In [37]:
Accidents['year'] = Accidents['data'].dt.year
Accidents['month'] = Accidents['data'].dt.month
Accidents['weekday'] = Accidents['data'].dt.weekday
Accidents['day_name'] = Accidents['data'].dt.day_name()

# drop the old date columns and other columns

In [38]:
drop_list=[]
drop_list =drop_list +['f_unit_desc_implicades','any','dat','data']
drop_list

['f_unit_desc_implicades', 'any', 'dat', 'data']

# changing the values in 0 or 1 in case of the target = 'f_bicicletes_implicades'

In [39]:
def cleanYesNOT(x):
    if x>0:
        return 1
    else:
        return 0
    
Accidents['f_bicicletes_implicades'] = list(map(cleanYesNOT, Accidents['f_bicicletes_implicades']))

In [40]:
Accidents['d_boira'].value_counts(dropna=False)

No n'hi ha    20132
Si             1029
Name: d_boira, dtype: int64

# Changing the values in d_boira

In [41]:
def cleankSymbol(x):
    if x in ["No n'hi ha"]:
        return 'No'
    else:
        return x
    
Accidents['d_boira'] = list(map(cleankSymbol, Accidents['d_boira']))
Accidents['d_boira'].value_counts(dropna=False)

No    20132
Si     1029
Name: d_boira, dtype: int64

# Grouping the minority values in d_subtipus_accident and d_lluminositat

In [42]:
def cleankSymbol(x):
    if x in ["Sortida de via amb xoc o col·lisió","Sortida de via amb bolcada","Xoc amb animal a la calçada","Sortida de via amb atropellament"]:
        return 'Altres'
    else:
        return x
    
Accidents['d_subtipus_accident'] = list(map(cleankSymbol, Accidents['d_subtipus_accident']))
Accidents['d_subtipus_accident'].value_counts(dropna=False)

Atropellament                                              4566
Envestida (frontal lateral)                                4016
Resta sortides de via                                      2444
Caiguda en la via                                          2016
Fregament o col·lisió lateral                              1909
Col·lisió frontal                                          1847
Encalç                                                     1695
Altres                                                     1503
Xoc contra objecte/obstacle sense sortida prèvia de via    1165
Name: d_subtipus_accident, dtype: int64

# Dropping features with same information than others

In [43]:
drop_list =drop_list +['f_victimes','tipdia']
drop_list

['f_unit_desc_implicades', 'any', 'dat', 'data', 'f_victimes', 'tipdia']

In [44]:
Accidents_cleaned=Accidents.drop(drop_list, axis = 1)

In [45]:
pd.set_option("display.max_columns", None)
Accidents_cleaned.head(60)

Unnamed: 0,zona,via,pk,nommun,nomcom,nomdem,f_morts,f_ferits_greus,f_ferits_lleus,f_unitats_implicades,f_vianants_implicades,f_bicicletes_implicades,f_ciclomotors_implicades,f_motocicletes_implicades,f_veh_lleugers_implicades,f_veh_pesants_implicades,f_altres_unit_implicades,c_velocitat_via,d_acc_amb_fuga,d_boira,d_caract_entorn,d_carril_especial,d_circulacio_mesures_esp,d_climatologia,d_func_esp_via,d_gravetat,d_influit_boira,d_influit_caract_entorn,d_influit_circulacio,d_influit_estat_clima,d_influit_inten_vent,d_influit_lluminositat,d_influit_mesu_esp,d_influit_obj_calcada,d_influit_solcs_rases,d_influit_visibilitat,d_inter_seccio,d_limit_velocitat,d_lluminositat,d_regulacio_prioritat,d_sentits_via,d_subtipus_accident,d_subtipus_tram,d_subzona,d_superficie,d_tipus_via,d_titularitat_via,d_tracat_altimetric,d_vent,grupdialab,hor,gruphor,tipacc,year,month,weekday,day_name
0,Zona urbana,SE,over 5,CANOVES I SAMALUS,Valles Oriental,Barcelona,0,1,0,2,0,0,0,0,1,0,1,60-100,No,No,Desmunt,No n'hi ha,No n'hi ha,Bon temps,Sense funció especial,Accident greu,No,No,No,No,No,No,No,No,No,No,Arribant o eixint intersecció fins 50m,Genérica via,"De nit, il·luminació artificial suficient",Sols norma prioritat de pas,Un sol sentit,Encalç,Intersecció en T o Y,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,"Calma, vent molt suau",Feiners,2333,Nit,Col.lisió de vehicles en marxa,2010,1,0,Monday
1,Carretera,N-240,over 5,LLEIDA,Segria,Lleida,0,1,3,1,0,0,0,0,1,0,0,20-60,No,No,A nivell,No n'hi ha,No n'hi ha,Bon temps,Sense funció especial,Accident greu,No,No,No,No,No,No,No,No,No,No,Dintre intersecció,Senyal velocitat,"De nit, il·luminació artificial suficient",Senyal Stop o cedeix pas,Doble sentit,Resta sortides de via,Giratòria,Carretera,Sec i net,Carretera convencional,Estatal,Pla,"Calma, vent molt suau",CapDeSetmana,1,Nit,Sortida de la calcada sense especificar,2010,10,6,Sunday
2,Carretera,N-II,over 5,FORNELLS DE LA SELVA,Girones,Girona,1,0,2,4,0,0,0,0,2,2,0,60-100,No,No,A nivell,No n'hi ha,No n'hi ha,Bon temps,Variant,Accident mortal,No,No,No,No,No,No,No,No,No,No,En secció,Senyal velocitat,"De dia, dia clar",Sense Especificar,Doble sentit,Col·lisió frontal,Sense Especificar,Carretera,Sec i net,Carretera convencional,Estatal,Rampa o pendent,"Calma, vent molt suau",Feiners,1527,Tarda,Col.lisió de vehicles en marxa,2010,5,0,Monday
3,Zona urbana,SE,over 5,BARCELONA,Barcelones,Barcelona,0,2,7,2,0,0,0,0,2,0,0,60-100,No,No,Sense Especificar,No n'hi ha,No n'hi ha,Bon temps,Sense funció especial,Accident greu,No,No,No,No,No,No,No,No,No,No,Dintre intersecció,Genérica via,"De nit, il·luminació artificial suficient",Semàfor,Un sol sentit,Envestida (frontal lateral),Encreuament o intersecció en X o +,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,"Calma, vent molt suau",CapDeSetmana,223,Nit,Col.lisió de vehicles en marxa,2010,8,5,Saturday
4,Zona urbana,SE,over 5,BADALONA,Barcelones,Barcelona,0,1,0,1,0,0,0,1,0,0,0,60-100,No,No,Sense Especificar,No n'hi ha,No n'hi ha,Bon temps,Sense funció especial,Accident greu,No,No,No,No,No,No,No,No,No,No,Dintre intersecció,Genérica via,"De dia, dia clar",Sols norma prioritat de pas,Un sol sentit,Caiguda en la via,Encreuament o intersecció en X o +,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,"Calma, vent molt suau",CapDeSetmana,1745,Tarda,Bolcada a la calcada,2010,7,0,Monday
5,Carretera,SE,over 5,SANT CARLES DE LA RAPITA,Montsia,Tarragona,0,1,1,2,0,0,1,0,1,0,0,20-60,No,No,Mixt,No n'hi ha,No n'hi ha,Bon temps,Sense funció especial,Accident greu,No,No,No,No,No,No,No,No,No,No,Dintre intersecció,Senyal velocitat,"De dia, dia clar",Senyal Stop o cedeix pas,Doble sentit,Encalç,Intersecció en T o Y,Carretera,Sec i net,Altres,Municipal,Rampa o pendent,"Calma, vent molt suau",Feiners,1457,Tarda,Col.lisió de vehicles en marxa,2010,8,0,Monday
6,Zona urbana,SE,over 5,BARCELONA,Barcelones,Barcelona,0,1,0,2,0,0,0,1,1,0,0,60-100,No,No,Sense Especificar,No n'hi ha,No n'hi ha,Bon temps,Sense funció especial,Accident greu,No,No,No,No,No,No,No,No,No,No,En secció,Genérica via,"De nit, il·luminació artificial suficient",Sense Especificar,Doble sentit,Encalç,Sense Especificar,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,"Calma, vent molt suau",Feiners,2054,Tarda,Col.lisió de vehicles en marxa,2010,1,2,Wednesday
7,Zona urbana,SE,over 5,BARCELONA,Barcelones,Barcelona,1,0,1,2,1,0,0,1,0,0,0,60-100,No,No,Sense Especificar,No n'hi ha,No n'hi ha,Bon temps,Sense funció especial,Accident mortal,No,No,No,No,No,No,No,No,No,No,En secció,Genérica via,"De dia, dia clar",Sense Especificar,Doble sentit,Atropellament,Sense Especificar,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,"Calma, vent molt suau",CapDeSetmana,1055,Matí,Atropellament,2010,10,5,Saturday
8,Carretera,AP-7,under 5,MOLLET DEL VALLES,Valles Oriental,Barcelona,0,1,2,2,0,0,0,0,2,0,0,60-100,No,No,Desmunt,No n'hi ha,No n'hi ha,Bon temps,Sense funció especial,Accident greu,No,No,No,No,No,No,No,No,No,No,En secció,Senyal velocitat,"De nit, sense llum artificial",Sense Especificar,Doble sentit,Envestida (frontal lateral),Sense Especificar,Carretera,Sec i net,Carretera convencional,Estatal,Pla,"Calma, vent molt suau",CapDeSetmana,53,Nit,Col.lisió de vehicles en marxa,2010,6,5,Saturday
9,Carretera,SE,over 5,CERDANYOLA DEL VALLES,Valles Occidental,Barcelona,0,1,0,2,0,0,0,1,1,0,0,60-100,No,No,A nivell,No n'hi ha,No n'hi ha,Bon temps,Sense funció especial,Accident greu,No,No,No,No,No,No,No,No,No,No,En secció,Genérica via,"De dia, dia clar",Sense Especificar,Doble sentit,Fregament o col·lisió lateral,Sense Especificar,Carretera,Sec i net,Altres,Municipal,Pla,"Calma, vent molt suau",Feiners,143,Tarda,Col.lisió de vehicles en marxa,2010,12,3,Thursday


# Checking and changing some types.

In [46]:
display(Accidents_cleaned["hor"].unique())

array(['23,33', '1', '15,27', '22,3', '17,45', '14,57', '20,54', '10,55',
       '5,3', '14,3', '18,3', '13,5', '16,05', '9,1', '13', '13,02',
       '9,15', '8', '16,4', '11,04', '15,15', '11,2', '14,5', '5,51',
       '7,47', '11,39', '20,25', '15,3', '20,41', '12,2', '9,5', '19,46',
       '6,5', '18,58', '13,48', '18,2', '7,1', '17,55', '10,45', '15,35',
       '11,42', '4', '13,55', '19,38', '1,2', '18,1', '7,27', '13,15',
       '10,05', '19,15', '8,04', '9', '13,53', '10,58', '16,5', '14,31',
       '12,49', '10,4', '15,44', '11,4', '12,3', '17,32', '10,57',
       '18,25', '10,35', '7,4', '12,5', '6', '13,25', '9,37', '11,57',
       '23,5', '14,58', '5,56', '17,25', '18,15', '13,57', '10,37',
       '19,58', '21', '4,1', '9,02', '10,5', '11,25', '14,45', '17,28',
       '16,35', '17,05', '18,05', '11,5', '21,3', '9,34', '20,5', '3,15',
       '22,1', '8,55', '5,1', '18,33', '11,45', '1,44', '21,2', '2,2',
       '19,4', '10,3', '10,1', '6,15', '14,02', '14,15', '13,2', '21,35'

In [47]:
Accidents_cleaned["hor"]= Accidents_cleaned["hor"].str.replace(',', '.')


In [48]:
Accidents_cleaned["hor"]=Accidents_cleaned["hor"].astype(float)

# Creating bins for hours

In [49]:
def cleankSymbol(x):
    if 0 < x < 8:
        return '12:00am-07:59am'
    elif 8 < x < 12:
        return '08:00am-11:59am'
    elif 12 < x < 18:
        return '12:00pm-05:59pm'
    else:
        return '06:00pm-11:59pm'

Accidents_cleaned["hor"] = list(map(cleankSymbol, Accidents_cleaned["hor"]))

In [50]:
Accidents_cleaned["hor"].value_counts(dropna=False)

12:00pm-05:59pm    7661
06:00pm-11:59pm    6194
08:00am-11:59am    4399
12:00am-07:59am    2907
Name: hor, dtype: int64

# Checking the number features

In [51]:
Accidents_cleaned.select_dtypes(np.number)

Unnamed: 0,f_morts,f_ferits_greus,f_ferits_lleus,f_unitats_implicades,f_vianants_implicades,f_bicicletes_implicades,f_ciclomotors_implicades,f_motocicletes_implicades,f_veh_lleugers_implicades,f_veh_pesants_implicades,f_altres_unit_implicades,year,month,weekday
0,0,1,0,2,0,0,0,0,1,0,1,2010,1,0
1,0,1,3,1,0,0,0,0,1,0,0,2010,10,6
2,1,0,2,4,0,0,0,0,2,2,0,2010,5,0
3,0,2,7,2,0,0,0,0,2,0,0,2010,8,5
4,0,1,0,1,0,0,0,1,0,0,0,2010,7,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21156,1,0,0,2,0,0,0,0,2,0,0,2021,12,1
21157,0,1,0,2,1,0,0,0,1,0,0,2021,8,2
21158,0,2,0,2,0,0,0,0,2,0,0,2021,12,2
21159,0,1,0,2,0,0,0,1,1,0,0,2021,11,4


# Checking the categorical features

In [52]:
Accidents_cleaned.select_dtypes(object)

Unnamed: 0,zona,via,pk,nommun,nomcom,nomdem,c_velocitat_via,d_acc_amb_fuga,d_boira,d_caract_entorn,d_carril_especial,d_circulacio_mesures_esp,d_climatologia,d_func_esp_via,d_gravetat,d_influit_boira,d_influit_caract_entorn,d_influit_circulacio,d_influit_estat_clima,d_influit_inten_vent,d_influit_lluminositat,d_influit_mesu_esp,d_influit_obj_calcada,d_influit_solcs_rases,d_influit_visibilitat,d_inter_seccio,d_limit_velocitat,d_lluminositat,d_regulacio_prioritat,d_sentits_via,d_subtipus_accident,d_subtipus_tram,d_subzona,d_superficie,d_tipus_via,d_titularitat_via,d_tracat_altimetric,d_vent,grupdialab,hor,gruphor,tipacc,day_name
0,Zona urbana,SE,over 5,CANOVES I SAMALUS,Valles Oriental,Barcelona,60-100,No,No,Desmunt,No n'hi ha,No n'hi ha,Bon temps,Sense funció especial,Accident greu,No,No,No,No,No,No,No,No,No,No,Arribant o eixint intersecció fins 50m,Genérica via,"De nit, il·luminació artificial suficient",Sols norma prioritat de pas,Un sol sentit,Encalç,Intersecció en T o Y,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,"Calma, vent molt suau",Feiners,06:00pm-11:59pm,Nit,Col.lisió de vehicles en marxa,Monday
1,Carretera,N-240,over 5,LLEIDA,Segria,Lleida,20-60,No,No,A nivell,No n'hi ha,No n'hi ha,Bon temps,Sense funció especial,Accident greu,No,No,No,No,No,No,No,No,No,No,Dintre intersecció,Senyal velocitat,"De nit, il·luminació artificial suficient",Senyal Stop o cedeix pas,Doble sentit,Resta sortides de via,Giratòria,Carretera,Sec i net,Carretera convencional,Estatal,Pla,"Calma, vent molt suau",CapDeSetmana,12:00am-07:59am,Nit,Sortida de la calcada sense especificar,Sunday
2,Carretera,N-II,over 5,FORNELLS DE LA SELVA,Girones,Girona,60-100,No,No,A nivell,No n'hi ha,No n'hi ha,Bon temps,Variant,Accident mortal,No,No,No,No,No,No,No,No,No,No,En secció,Senyal velocitat,"De dia, dia clar",Sense Especificar,Doble sentit,Col·lisió frontal,Sense Especificar,Carretera,Sec i net,Carretera convencional,Estatal,Rampa o pendent,"Calma, vent molt suau",Feiners,12:00pm-05:59pm,Tarda,Col.lisió de vehicles en marxa,Monday
3,Zona urbana,SE,over 5,BARCELONA,Barcelones,Barcelona,60-100,No,No,Sense Especificar,No n'hi ha,No n'hi ha,Bon temps,Sense funció especial,Accident greu,No,No,No,No,No,No,No,No,No,No,Dintre intersecció,Genérica via,"De nit, il·luminació artificial suficient",Semàfor,Un sol sentit,Envestida (frontal lateral),Encreuament o intersecció en X o +,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,"Calma, vent molt suau",CapDeSetmana,06:00pm-11:59pm,Nit,Col.lisió de vehicles en marxa,Saturday
4,Zona urbana,SE,over 5,BADALONA,Barcelones,Barcelona,60-100,No,No,Sense Especificar,No n'hi ha,No n'hi ha,Bon temps,Sense funció especial,Accident greu,No,No,No,No,No,No,No,No,No,No,Dintre intersecció,Genérica via,"De dia, dia clar",Sols norma prioritat de pas,Un sol sentit,Caiguda en la via,Encreuament o intersecció en X o +,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,"Calma, vent molt suau",CapDeSetmana,12:00pm-05:59pm,Tarda,Bolcada a la calcada,Monday
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21156,Zona urbana,BV-2002,under 5,SANT VICENC DELS HORTS,Baix Llobregat,Barcelona,60-100,No,No,Sense Especificar,No n'hi ha,No n'hi ha,Bon temps,Sense funció especial,Accident mortal,No,No,No,No,No,No,No,No,No,No,En secció,Genérica via,"De dia, dia clar",Sense Especificar,Sense Especificar,Altres,Sense Especificar,Travessera,Sec i net,Carretera convencional,Sense Especificar,Sense especificar,"Calma, vent molt suau",Feiners,08:00am-11:59am,Matí,Altres,Tuesday
21157,Zona urbana,SE,over 5,LLEIDA,Segria,Lleida,60-100,No,No,A nivell,No n'hi ha,No n'hi ha,Bon temps,Sense funció especial,Accident greu,Sense especificar,No,No,No,Sense especificar,No,No,No,No,Sense especificar,En secció,Genérica via,"De dia, dia clar",Sense Especificar,Doble sentit,Atropellament,Sense Especificar,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,"Calma, vent molt suau",Feiners,12:00pm-05:59pm,Tarda,Atropellament,Wednesday
21158,Carretera,N-230,over 5,TORREFARRERA,Segria,Lleida,60-100,No,No,A nivell,No n'hi ha,No n'hi ha,Bon temps,Sense funció especial,Accident greu,No,No,No,No,No,No,No,No,No,No,En secció,Genérica via,"De dia, dia clar",Sense Especificar,Doble sentit,Col·lisió frontal,Sense Especificar,Carretera,Sec i net,Carretera convencional,Estatal,Pla,"Calma, vent molt suau",Feiners,08:00am-11:59am,Matí,Col.lisió de vehicles en marxa,Wednesday
21159,Zona urbana,SE,over 5,REUS,Baix Camp,Tarragona,60-100,No,No,Sense Especificar,No n'hi ha,No n'hi ha,Bon temps,Sense funció especial,Accident greu,No,No,No,No,No,No,No,No,No,No,En secció,Genérica via,"De dia, dia clar",Sense Especificar,Sense Especificar,Envestida (frontal lateral),Sense Especificar,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,"Calma, vent molt suau",Feiners,12:00pm-05:59pm,Matí,Col.lisió de vehicles en marxa,Friday


# saving the cleaned data.

In [53]:
Accidents_cleaned.to_csv('Accidents_cleaned_less_categorized.csv', index=True, sep=',', encoding='utf-8')