# Accidents Main Dataset manipulation (More categorized)

In [None]:
import pandas as pd
import numpy as np
import datetime
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
import warnings
import statistics

In [2]:
import sys
np.set_printoptions(threshold=sys.maxsize)
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import OneHotEncoder

In [3]:
from sklearn.metrics import precision_score
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import r2_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import plot_confusion_matrix

# read all data

In [4]:
Accidents = pd.read_csv('Accidents_de_tr_nsit_amb_morts_o_ferits_greus_a_Catalunya.csv')

# check the data

In [5]:
Accidents.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21161 entries, 0 to 21160
Data columns (total 58 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Any                        21161 non-null  int64  
 1   zona                       21161 non-null  object 
 2   dat                        21161 non-null  object 
 3   via                        21161 non-null  object 
 4   pk                         21160 non-null  object 
 5   nomMun                     21161 non-null  object 
 6   nomCom                     21161 non-null  object 
 7   nomDem                     21161 non-null  object 
 8   F_MORTS                    21161 non-null  int64  
 9   F_FERITS_GREUS             21161 non-null  int64  
 10  F_FERITS_LLEUS             21161 non-null  int64  
 11  F_VICTIMES                 21161 non-null  int64  
 12  F_UNITATS_IMPLICADES       21161 non-null  int64  
 13  F_VIANANTS_IMPLICADES      21161 non-null  int

# Renaming columns with lowercase

In [6]:
Accidents.columns=[e.lower().replace(' ', '_') for e in Accidents.columns]
Accidents.columns

Index(['any', 'zona', 'dat', 'via', 'pk', 'nommun', 'nomcom', 'nomdem',
       'f_morts', 'f_ferits_greus', 'f_ferits_lleus', 'f_victimes',
       'f_unitats_implicades', 'f_vianants_implicades',
       'f_bicicletes_implicades', 'f_ciclomotors_implicades',
       'f_motocicletes_implicades', 'f_veh_lleugers_implicades',
       'f_veh_pesants_implicades', 'f_altres_unit_implicades',
       'f_unit_desc_implicades', 'c_velocitat_via', 'd_acc_amb_fuga',
       'd_boira', 'd_caract_entorn', 'd_carril_especial',
       'd_circulacio_mesures_esp', 'd_climatologia', 'd_func_esp_via',
       'd_gravetat', 'd_influit_boira', 'd_influit_caract_entorn',
       'd_influit_circulacio', 'd_influit_estat_clima', 'd_influit_inten_vent',
       'd_influit_lluminositat', 'd_influit_mesu_esp', 'd_influit_obj_calcada',
       'd_influit_solcs_rases', 'd_influit_visibilitat', 'd_inter_seccio',
       'd_limit_velocitat', 'd_lluminositat', 'd_regulacio_prioritat',
       'd_sentits_via', 'd_subtipus_accide

# Check the NaN values

In [7]:
Accidents.isna().sum()

any                              0
zona                             0
dat                              0
via                              0
pk                               1
nommun                           0
nomcom                           0
nomdem                           0
f_morts                          0
f_ferits_greus                   0
f_ferits_lleus                   0
f_victimes                       0
f_unitats_implicades             0
f_vianants_implicades            0
f_bicicletes_implicades          0
f_ciclomotors_implicades         0
f_motocicletes_implicades        0
f_veh_lleugers_implicades        0
f_veh_pesants_implicades         0
f_altres_unit_implicades         0
f_unit_desc_implicades           0
c_velocitat_via               2642
d_acc_amb_fuga                   0
d_boira                          0
d_caract_entorn                 32
d_carril_especial             1349
d_circulacio_mesures_esp        40
d_climatologia                   0
d_func_esp_via      

# get only the columns with NaN values

In [8]:
nulls_percent_Accidents = pd.DataFrame(Accidents.isna().sum()/len(Accidents)).reset_index()
nulls_percent_Accidents.columns = ['column_name', 'nulls_percentage']
nulls_percent_Accidents[nulls_percent_Accidents['nulls_percentage']!=0]

Unnamed: 0,column_name,nulls_percentage
4,pk,4.7e-05
21,c_velocitat_via,0.124852
24,d_caract_entorn,0.001512
25,d_carril_especial,0.063749
26,d_circulacio_mesures_esp,0.00189
43,d_regulacio_prioritat,0.707433
44,d_sentits_via,0.16521
46,d_subtipus_tram,0.671613
50,d_titularitat_via,0.506214
51,d_tracat_altimetric,0.3609


# cleaning the NaN values column pk

In [9]:
Accidents['pk'].value_counts(dropna=False)

999999    11006
1           173
0           161
2            92
3            86
          ...  
256,2         1
743,9         1
58,1          1
134,2         1
63,5          1
Name: pk, Length: 2804, dtype: int64

In [10]:
Accidents['pk'].nunique()

2803

In [11]:
Accidents['pk']=Accidents['pk'].fillna('0')

def cleankSymbol(x):
    if x in ['999999']:
        return '0'
    else:
        return x
    
Accidents['pk'] = list(map(cleankSymbol, Accidents['pk']))
Accidents['pk'].value_counts(dropna=False)

0        11168
1          173
2           92
3           86
1,5         82
         ...  
256,2        1
743,9        1
58,1         1
134,2        1
63,5         1
Name: pk, Length: 2802, dtype: int64

# cleaning the NaN values column c_velocitat_via

In [12]:
Accidents['c_velocitat_via'].value_counts(dropna=False)

100.0    11954
NaN       2642
999.0     1331
40.0      1072
50.0      1044
30.0       878
80.0       858
60.0       613
70.0       309
90.0       198
20.0       129
120.0       96
10.0        19
110.0       10
0.0          4
45.0         2
99.0         1
15.0         1
Name: c_velocitat_via, dtype: int64

In [13]:
Accidents['c_velocitat_via']=Accidents['c_velocitat_via'].fillna('100').astype('int64')
Accidents['c_velocitat_via'].value_counts(dropna=False)

100    14596
999     1331
40      1072
50      1044
30       878
80       858
60       613
70       309
90       198
20       129
120       96
10        19
110       10
0          4
45         2
99         1
15         1
Name: c_velocitat_via, dtype: int64

In [14]:
def cleankSymbol(x):
    if x in [999]:
        return '100 or over'
    elif x<=20:
        return '20 or under'
    elif x<=60:
        return '20-60'
    else:
        return '60-100'
    
Accidents['c_velocitat_via'] = list(map(cleankSymbol, Accidents['c_velocitat_via']))

In [15]:
Accidents['c_velocitat_via'].value_counts(dropna=False)

60-100         16068
20-60           3609
100 or over     1331
20 or under      153
Name: c_velocitat_via, dtype: int64

# cleaning the NaN values column d_caract_entorn

In [16]:
Accidents['d_caract_entorn'].value_counts(dropna=False)

A nivell             8435
Sense Especificar    7812
Mixt                 2625
Desmunt              1434
Terraplé              823
NaN                    32
Name: d_caract_entorn, dtype: int64

In [17]:
Accidents['d_caract_entorn']=Accidents['d_caract_entorn'].fillna('Sense Especificar')

# cleaning the NaN values column d_caract_entorn

In [18]:
Accidents['d_carril_especial'].value_counts(dropna=False)

No n'hi ha                                      18567
NaN                                              1349
Carril bus                                        300
Carril bici                                       184
Carril acceleració                                158
Altres                                            152
Carril central                                    148
Carril d'alentiment                                89
Carril lent                                        79
Carril avançament                                  42
Habilitació voral/carril addicional                37
Carril reversible                                  22
Sense Especificar                                  21
Carril habilitat en sentit contrari habitual       13
Name: d_carril_especial, dtype: int64

In [19]:
Accidents['d_carril_especial']=Accidents['d_carril_especial'].fillna("No n'hi ha")

def cleankSymbol(x):
    if x in ["No n'hi ha"]:
        return 'No'
    elif x in ['Sense Especificar']:
        return 'No'
    else:
        return 'Si'
    
Accidents['d_carril_especial'] = list(map(cleankSymbol, Accidents['d_carril_especial']))
Accidents['d_carril_especial'].value_counts(dropna=False)

No    19937
Si     1224
Name: d_carril_especial, dtype: int64

# cleaning the NaN values column d_circulacio_mesures_esp

In [20]:
Accidents['d_circulacio_mesures_esp'].value_counts(dropna=False)


No n'hi ha                         20660
Obres                                277
Accident trànsit anterior             63
Esdeveniment extraordinari            51
Serveis de neteja o manteniment       43
NaN                                   40
Cons                                  14
Control policial                      13
Name: d_circulacio_mesures_esp, dtype: int64

In [21]:
Accidents['d_circulacio_mesures_esp']=Accidents['d_circulacio_mesures_esp'].fillna("No n'hi ha")

def cleankSymbol(x):
    if x in ["No n'hi ha"]:
        return 'No'
    else:
        return 'Si'
    
Accidents['d_circulacio_mesures_esp'] = list(map(cleankSymbol, Accidents['d_circulacio_mesures_esp']))
Accidents['d_circulacio_mesures_esp'].value_counts(dropna=False)

No    20700
Si      461
Name: d_circulacio_mesures_esp, dtype: int64

# cleaning the NaN values column d_regulacio_prioritat

In [22]:
Accidents['d_regulacio_prioritat'].value_counts(dropna=False)

NaN                                           14970
Senyal Stop o cedeix pas                       2911
Semàfor                                        1439
Sols norma prioritat de pas                    1006
Sols marques viàries (inclou pas vianants)      820
Persona autoritzada                              11
Altres                                            4
Name: d_regulacio_prioritat, dtype: int64

In [23]:
Accidents['d_regulacio_prioritat']=Accidents['d_regulacio_prioritat'].fillna("NO")

def cleankSymbol(x):
    if x in ["NO"]:
        return 'No'
    else:
        return 'Si'
    
Accidents['d_regulacio_prioritat'] = list(map(cleankSymbol, Accidents['d_regulacio_prioritat']))
Accidents['d_regulacio_prioritat'].value_counts(dropna=False)

No    14970
Si     6191
Name: d_regulacio_prioritat, dtype: int64

# cleaning the NaN values column d_sentits_via

In [24]:
Accidents['d_sentits_via'].value_counts(dropna=False)

Doble sentit         12546
Un sol sentit         4573
NaN                   3496
Sense especificar      546
Name: d_sentits_via, dtype: int64

In [25]:
Accidents['d_sentits_via']=Accidents['d_sentits_via'].fillna('Doble sentit')

def cleankSymbol(x):
    if x in ['Sense especificar']:
        return 'Doble sentit'
    else:
        return x
    
Accidents['d_sentits_via'] = list(map(cleankSymbol, Accidents['d_sentits_via']))
Accidents['d_sentits_via'].value_counts(dropna=False)

Doble sentit     16588
Un sol sentit     4573
Name: d_sentits_via, dtype: int64

# cleaning the NaN values column d_subtipus_tram

In [26]:
Accidents['d_subtipus_tram'].value_counts(dropna=False)

NaN                                   14212
Encreuament o intersecció en X o +     3131
Intersecció en T o Y                   2153
Giratòria                              1128
Enllaç d'entrada o eixida               534
Pas a nivell                              2
Sense especificar                         1
Name: d_subtipus_tram, dtype: int64

In [27]:
Accidents['d_subtipus_tram']=Accidents['d_subtipus_tram'].fillna('Recta')

def cleankSymbol(x):
    if x in ['Sense especificar']:
        return 'Recta'
    if x in ['Recta']:
        return 'Recta'
    else:
        return 'Encreuament o altres tipus'
    
Accidents['d_subtipus_tram'] = list(map(cleankSymbol, Accidents['d_subtipus_tram']))
Accidents['d_subtipus_tram'].value_counts(dropna=False)

Recta                         14213
Encreuament o altres tipus     6948
Name: d_subtipus_tram, dtype: int64

# cleaning the NaN values column d_titularitat_via

In [28]:
Accidents['d_titularitat_via'].value_counts(dropna=False)

NaN                  10712
Autonòmica            3683
Estatal               2269
Provincial            1672
Municipal             1463
Altres                1348
Sense Especificar       14
Name: d_titularitat_via, dtype: int64

In [29]:
Accidents['d_titularitat_via']=Accidents['d_titularitat_via'].fillna('Sense Especificar')

# cleaning the NaN values column d_tracat_altimetric

In [30]:
Accidents['d_tracat_altimetric'].value_counts(dropna=False)

NaN                  7637
Pla                  5203
Sense especificar    4368
Rampa o pendent      3707
Canvi rasant          232
Gual                   14
Name: d_tracat_altimetric, dtype: int64

In [31]:
Accidents['d_tracat_altimetric']=Accidents['d_tracat_altimetric'].fillna('Sense especificar')

# Checking again the NaN values

In [32]:
nulls_percent_Accidents = pd.DataFrame(Accidents.isna().sum()/len(Accidents)).reset_index()
nulls_percent_Accidents.columns = ['column_name', 'nulls_percentage']
nulls_percent_Accidents[nulls_percent_Accidents['nulls_percentage']!=0]

Unnamed: 0,column_name,nulls_percentage


# checking all the values

In [33]:
def df_values(Accidents):
    for i in range(0, len(Accidents.columns)):
        print('----------', Accidents.columns[i], '---------')
        print (Accidents.iloc[:,i].value_counts())
        print ('----------', Accidents.columns[i], '---------- \n')

df_values(Accidents)   


---------- any ---------
2010    1984
2012    1950
2014    1912
2013    1902
2015    1901
2011    1868
2016    1793
2018    1745
2019    1732
2017    1719
2021    1447
2020    1208
Name: any, dtype: int64
---------- any ---------- 

---------- zona ---------
Zona urbana    11542
Carretera       9619
Name: zona, dtype: int64
---------- zona ---------- 

---------- dat ---------
30/03/2012    17
15/05/2015    16
16/06/2018    16
22/12/2014    14
23/12/2011    14
              ..
01/01/2018     1
01/10/2015     1
15/08/2018     1
07/01/2015     1
27/04/2021     1
Name: dat, Length: 4308, dtype: int64
---------- dat ---------- 

---------- via ---------
SE         11016
N-II         480
AP-7         429
C-31         371
CR           355
           ...  
LV-3121        1
TV-3032        1
LV-5224        1
BV-5202        1
C-58c          1
Name: via, Length: 737, dtype: int64
---------- via ---------- 

---------- pk ---------
0        11168
1          173
2           92
3           86
1,5   

# checking the date column

In [34]:
Accidents['dat'].value_counts(dropna=False)

30/03/2012    17
15/05/2015    16
16/06/2018    16
22/12/2014    14
23/12/2011    14
              ..
01/01/2018     1
01/10/2015     1
15/08/2018     1
07/01/2015     1
27/04/2021     1
Name: dat, Length: 4308, dtype: int64

In [35]:
Accidents['data'] = pd.to_datetime(Accidents['dat'], errors='coerce')

  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listl

In [36]:
Accidents['data'].value_counts(dropna=False)

2012-03-30    17
2015-05-15    16
2018-06-16    16
2014-12-22    14
2011-12-23    14
              ..
2018-01-01     1
2015-01-10     1
2018-08-15     1
2015-07-01     1
2021-04-27     1
Name: data, Length: 4308, dtype: int64

# creating new columns indicating month, year, weekdayname

In [37]:
Accidents['year'] = Accidents['data'].dt.year
Accidents['month'] = Accidents['data'].dt.month
Accidents['weekday'] = Accidents['data'].dt.weekday
Accidents['day_name'] = Accidents['data'].dt.day_name()

# drop the old date columns and other columns

In [38]:
drop_list=[]
drop_list =drop_list +['f_unit_desc_implicades','any','dat','data']
drop_list

['f_unit_desc_implicades', 'any', 'dat', 'data']

# changing the values in NO or YES

In [39]:
def cleanYesNOT(x):
    if x>0:
        return 'No'
    else:
        return 'Si'
    
Accidents['f_morts'] = list(map(cleanYesNOT, Accidents['f_morts']))
Accidents['f_ferits_greus'] = list(map(cleanYesNOT, Accidents['f_ferits_greus']))
Accidents['f_ferits_lleus'] = list(map(cleanYesNOT, Accidents['f_ferits_lleus']))
Accidents['f_victimes'] = list(map(cleanYesNOT, Accidents['f_victimes']))
Accidents['f_vianants_implicades'] = list(map(cleanYesNOT, Accidents['f_vianants_implicades']))
Accidents['f_ciclomotors_implicades'] = list(map(cleanYesNOT, Accidents['f_ciclomotors_implicades']))
Accidents['f_motocicletes_implicades'] = list(map(cleanYesNOT, Accidents['f_motocicletes_implicades']))
Accidents['f_veh_lleugers_implicades'] = list(map(cleanYesNOT, Accidents['f_veh_lleugers_implicades']))
Accidents['f_veh_pesants_implicades'] = list(map(cleanYesNOT, Accidents['f_veh_pesants_implicades']))
Accidents['f_altres_unit_implicades'] = list(map(cleanYesNOT, Accidents['f_altres_unit_implicades']))

# changing the values in 0 or 1 in case of the target = 'f_bicicletes_implicades'

In [40]:
def cleanYesNOT(x):
    if x>0:
        return 1
    else:
        return 0
    
Accidents['f_bicicletes_implicades'] = list(map(cleanYesNOT, Accidents['f_bicicletes_implicades']))

In [41]:
Accidents['d_boira'].value_counts(dropna=False)

No n'hi ha    20132
Si             1029
Name: d_boira, dtype: int64

# Changing the values in d_boira

In [42]:
def cleankSymbol(x):
    if x in ["No n'hi ha"]:
        return 'No'
    else:
        return x
    
Accidents['d_boira'] = list(map(cleankSymbol, Accidents['d_boira']))
Accidents['d_boira'].value_counts(dropna=False)

No    20132
Si     1029
Name: d_boira, dtype: int64

# Cleaning the undetermineted values

In [43]:
def cleankSymbol(x):
    if x in ["Sense Especificar"]:
        return 'No'
    else:
        return x
    
Accidents['d_acc_amb_fuga'] = list(map(cleankSymbol, Accidents['d_acc_amb_fuga']))
Accidents['d_climatologia'] = list(map(cleankSymbol, Accidents['d_climatologia']))
Accidents['d_func_esp_via'] = list(map(cleankSymbol, Accidents['d_func_esp_via']))


In [44]:
def cleankSymbol(x):
    if x in ["Sense especificar"]:
        return 'No'
    else:
        return x

Accidents['d_influit_boira'] = list(map(cleankSymbol, Accidents['d_influit_boira']))
Accidents['d_influit_caract_entorn'] = list(map(cleankSymbol, Accidents['d_influit_caract_entorn']))
Accidents['d_influit_circulacio'] = list(map(cleankSymbol, Accidents['d_influit_circulacio']))
Accidents['d_influit_estat_clima'] = list(map(cleankSymbol, Accidents['d_influit_estat_clima']))
Accidents['d_influit_inten_vent'] = list(map(cleankSymbol, Accidents['d_influit_inten_vent']))
Accidents['d_influit_lluminositat'] = list(map(cleankSymbol, Accidents['d_influit_lluminositat']))
Accidents['d_influit_mesu_esp'] = list(map(cleankSymbol, Accidents['d_influit_mesu_esp']))
Accidents['d_influit_obj_calcada'] = list(map(cleankSymbol, Accidents['d_influit_obj_calcada']))
Accidents['d_influit_solcs_rases'] = list(map(cleankSymbol, Accidents['d_influit_solcs_rases']))
Accidents['d_influit_visibilitat'] = list(map(cleankSymbol, Accidents['d_influit_visibilitat']))

# Getting just 2 values in d_climatologia, d_func_esp_via, d_vent

In [45]:
def cleankSymbol(x):
    if x in ["Bon temps"]:
        return 'Bon temps'
    else:
        return 'Mal temps'
    
Accidents['d_climatologia'] = list(map(cleankSymbol, Accidents['d_climatologia']))
Accidents['d_climatologia'].value_counts(dropna=False)

Bon temps    20003
Mal temps     1158
Name: d_climatologia, dtype: int64

In [46]:
def cleankSymbol(x):
    if x in ["Sense funció especial"]:
        return 'Via normal'
    else:
        return 'Via especial'
    
Accidents['d_func_esp_via'] = list(map(cleankSymbol, Accidents['d_func_esp_via']))
Accidents['d_func_esp_via'].value_counts(dropna=False)

Via normal      20710
Via especial      451
Name: d_func_esp_via, dtype: int64

In [47]:
def cleankSymbol(x):
    if x in ["Sense especificar","Calma, vent molt suau"]:
        return 'No'
    else:
        return 'Si'
    
Accidents['d_vent'] = list(map(cleankSymbol, Accidents['d_vent']))
Accidents['d_vent'].value_counts(dropna=False)

No    20768
Si      393
Name: d_vent, dtype: int64

# Grouping the minority values in d_subtipus_accident and d_lluminositat

In [48]:
def cleankSymbol(x):
    if x in ["Sortida de via amb xoc o col·lisió","Sortida de via amb bolcada","Xoc amb animal a la calçada","Sortida de via amb atropellament"]:
        return 'Altres'
    else:
        return x
    
Accidents['d_subtipus_accident'] = list(map(cleankSymbol, Accidents['d_subtipus_accident']))
Accidents['d_subtipus_accident'].value_counts(dropna=False)

Atropellament                                              4566
Envestida (frontal lateral)                                4016
Resta sortides de via                                      2444
Caiguda en la via                                          2016
Fregament o col·lisió lateral                              1909
Col·lisió frontal                                          1847
Encalç                                                     1695
Altres                                                     1503
Xoc contra objecte/obstacle sense sortida prèvia de via    1165
Name: d_subtipus_accident, dtype: int64

In [49]:
def cleankSymbol(x):
    if x in ["Sense especificar"]:
        return "De dia, dia clar"
    else:
        return x
    
Accidents['d_lluminositat'] = list(map(cleankSymbol, Accidents['d_lluminositat']))
Accidents['d_lluminositat'].value_counts(dropna=False)

De dia, dia clar                               14632
De nit, il·luminació artificial suficient       2412
De nit, sense llum artificial                   1431
Alba o capvespre                                 993
De nit, il·luminació artificial insuficient      867
De dia, dia fosc                                 826
Name: d_lluminositat, dtype: int64

# Getting just 2 values in d_superficie

In [50]:
def cleankSymbol(x):
    if x in ["Sec i net","Sense especificar"]:
        return 'Sec i net'
    else:
        return 'Mullat o altres condicions'
    
Accidents['d_superficie'] = list(map(cleankSymbol, Accidents['d_superficie']))
Accidents['d_superficie'].value_counts(dropna=False)

Sec i net                     20082
Mullat o altres condicions     1079
Name: d_superficie, dtype: int64

# Cheacking all values for each feature

In [51]:
def df_values(Accidents):
    for i in range(0, len(Accidents.columns)):
        print('----------', Accidents.columns[i], '---------')
        print (Accidents.iloc[:,i].value_counts())
        print ('----------', Accidents.columns[i], '---------- \n')

df_values(Accidents)   

---------- any ---------
2010    1984
2012    1950
2014    1912
2013    1902
2015    1901
2011    1868
2016    1793
2018    1745
2019    1732
2017    1719
2021    1447
2020    1208
Name: any, dtype: int64
---------- any ---------- 

---------- zona ---------
Zona urbana    11542
Carretera       9619
Name: zona, dtype: int64
---------- zona ---------- 

---------- dat ---------
30/03/2012    17
15/05/2015    16
16/06/2018    16
22/12/2014    14
23/12/2011    14
              ..
01/01/2018     1
01/10/2015     1
15/08/2018     1
07/01/2015     1
27/04/2021     1
Name: dat, Length: 4308, dtype: int64
---------- dat ---------- 

---------- via ---------
SE         11016
N-II         480
AP-7         429
C-31         371
CR           355
           ...  
LV-3121        1
TV-3032        1
LV-5224        1
BV-5202        1
C-58c          1
Name: via, Length: 737, dtype: int64
---------- via ---------- 

---------- pk ---------
0        11168
1          173
2           92
3           86
1,5   

# Dropping features with same information than others

In [52]:
drop_list =drop_list +['f_victimes','tipdia']
drop_list

['f_unit_desc_implicades', 'any', 'dat', 'data', 'f_victimes', 'tipdia']

In [53]:
Accidents_cleaned=Accidents.drop(drop_list, axis = 1)

In [54]:
pd.set_option("display.max_columns", None)
Accidents_cleaned.head(60)

Unnamed: 0,zona,via,pk,nommun,nomcom,nomdem,f_morts,f_ferits_greus,f_ferits_lleus,f_unitats_implicades,f_vianants_implicades,f_bicicletes_implicades,f_ciclomotors_implicades,f_motocicletes_implicades,f_veh_lleugers_implicades,f_veh_pesants_implicades,f_altres_unit_implicades,c_velocitat_via,d_acc_amb_fuga,d_boira,d_caract_entorn,d_carril_especial,d_circulacio_mesures_esp,d_climatologia,d_func_esp_via,d_gravetat,d_influit_boira,d_influit_caract_entorn,d_influit_circulacio,d_influit_estat_clima,d_influit_inten_vent,d_influit_lluminositat,d_influit_mesu_esp,d_influit_obj_calcada,d_influit_solcs_rases,d_influit_visibilitat,d_inter_seccio,d_limit_velocitat,d_lluminositat,d_regulacio_prioritat,d_sentits_via,d_subtipus_accident,d_subtipus_tram,d_subzona,d_superficie,d_tipus_via,d_titularitat_via,d_tracat_altimetric,d_vent,grupdialab,hor,gruphor,tipacc,year,month,weekday,day_name
0,Zona urbana,SE,0,CANOVES I SAMALUS,Valles Oriental,Barcelona,Si,No,Si,2,Si,0,Si,Si,No,Si,No,60-100,No,No,Desmunt,No,No,Bon temps,Via normal,Accident greu,No,No,No,No,No,No,No,No,No,No,Arribant o eixint intersecció fins 50m,Genérica via,"De nit, il·luminació artificial suficient",Si,Un sol sentit,Encalç,Encreuament o altres tipus,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,No,Feiners,2333,Nit,Col.lisió de vehicles en marxa,2010,1,0,Monday
1,Carretera,N-240,999,LLEIDA,Segria,Lleida,Si,No,No,1,Si,0,Si,Si,No,Si,Si,20-60,No,No,A nivell,No,No,Bon temps,Via normal,Accident greu,No,No,No,No,No,No,No,No,No,No,Dintre intersecció,Senyal velocitat,"De nit, il·luminació artificial suficient",Si,Doble sentit,Resta sortides de via,Encreuament o altres tipus,Carretera,Sec i net,Carretera convencional,Estatal,Pla,No,CapDeSetmana,1,Nit,Sortida de la calcada sense especificar,2010,10,6,Sunday
2,Carretera,N-II,7087,FORNELLS DE LA SELVA,Girones,Girona,No,Si,No,4,Si,0,Si,Si,No,No,Si,60-100,No,No,A nivell,No,No,Bon temps,Via especial,Accident mortal,No,No,No,No,No,No,No,No,No,No,En secció,Senyal velocitat,"De dia, dia clar",No,Doble sentit,Col·lisió frontal,Recta,Carretera,Sec i net,Carretera convencional,Estatal,Rampa o pendent,No,Feiners,1527,Tarda,Col.lisió de vehicles en marxa,2010,5,0,Monday
3,Zona urbana,SE,0,BARCELONA,Barcelones,Barcelona,Si,No,No,2,Si,0,Si,Si,No,Si,Si,60-100,No,No,Sense Especificar,No,No,Bon temps,Via normal,Accident greu,No,No,No,No,No,No,No,No,No,No,Dintre intersecció,Genérica via,"De nit, il·luminació artificial suficient",Si,Un sol sentit,Envestida (frontal lateral),Encreuament o altres tipus,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,No,CapDeSetmana,223,Nit,Col.lisió de vehicles en marxa,2010,8,5,Saturday
4,Zona urbana,SE,0,BADALONA,Barcelones,Barcelona,Si,No,Si,1,Si,0,Si,No,Si,Si,Si,60-100,No,No,Sense Especificar,No,No,Bon temps,Via normal,Accident greu,No,No,No,No,No,No,No,No,No,No,Dintre intersecció,Genérica via,"De dia, dia clar",Si,Un sol sentit,Caiguda en la via,Encreuament o altres tipus,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,No,CapDeSetmana,1745,Tarda,Bolcada a la calcada,2010,7,0,Monday
5,Carretera,SE,0,SANT CARLES DE LA RAPITA,Montsia,Tarragona,Si,No,No,2,Si,0,No,Si,No,Si,Si,20-60,No,No,Mixt,No,No,Bon temps,Via normal,Accident greu,No,No,No,No,No,No,No,No,No,No,Dintre intersecció,Senyal velocitat,"De dia, dia clar",Si,Doble sentit,Encalç,Encreuament o altres tipus,Carretera,Sec i net,Altres,Municipal,Rampa o pendent,No,Feiners,1457,Tarda,Col.lisió de vehicles en marxa,2010,8,0,Monday
6,Zona urbana,SE,0,BARCELONA,Barcelones,Barcelona,Si,No,Si,2,Si,0,Si,No,No,Si,Si,60-100,No,No,Sense Especificar,No,No,Bon temps,Via normal,Accident greu,No,No,No,No,No,No,No,No,No,No,En secció,Genérica via,"De nit, il·luminació artificial suficient",No,Doble sentit,Encalç,Recta,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,No,Feiners,2054,Tarda,Col.lisió de vehicles en marxa,2010,1,2,Wednesday
7,Zona urbana,SE,0,BARCELONA,Barcelones,Barcelona,No,Si,No,2,No,0,Si,No,Si,Si,Si,60-100,No,No,Sense Especificar,No,No,Bon temps,Via normal,Accident mortal,No,No,No,No,No,No,No,No,No,No,En secció,Genérica via,"De dia, dia clar",No,Doble sentit,Atropellament,Recta,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,No,CapDeSetmana,1055,Matí,Atropellament,2010,10,5,Saturday
8,Carretera,AP-7,138,MOLLET DEL VALLES,Valles Oriental,Barcelona,Si,No,No,2,Si,0,Si,Si,No,Si,Si,60-100,No,No,Desmunt,No,No,Bon temps,Via normal,Accident greu,No,No,No,No,No,No,No,No,No,No,En secció,Senyal velocitat,"De nit, sense llum artificial",No,Doble sentit,Envestida (frontal lateral),Recta,Carretera,Sec i net,Carretera convencional,Estatal,Pla,No,CapDeSetmana,53,Nit,Col.lisió de vehicles en marxa,2010,6,5,Saturday
9,Carretera,SE,0,CERDANYOLA DEL VALLES,Valles Occidental,Barcelona,Si,No,Si,2,Si,0,Si,No,No,Si,Si,60-100,No,No,A nivell,No,No,Bon temps,Via normal,Accident greu,No,No,No,No,No,No,No,No,No,No,En secció,Genérica via,"De dia, dia clar",No,Doble sentit,Fregament o col·lisió lateral,Recta,Carretera,Sec i net,Altres,Municipal,Pla,No,Feiners,143,Tarda,Col.lisió de vehicles en marxa,2010,12,3,Thursday


# Checking and changing some types.

In [55]:
Accidents_cleaned.dtypes

zona                         object
via                          object
pk                           object
nommun                       object
nomcom                       object
nomdem                       object
f_morts                      object
f_ferits_greus               object
f_ferits_lleus               object
f_unitats_implicades          int64
f_vianants_implicades        object
f_bicicletes_implicades       int64
f_ciclomotors_implicades     object
f_motocicletes_implicades    object
f_veh_lleugers_implicades    object
f_veh_pesants_implicades     object
f_altres_unit_implicades     object
c_velocitat_via              object
d_acc_amb_fuga               object
d_boira                      object
d_caract_entorn              object
d_carril_especial            object
d_circulacio_mesures_esp     object
d_climatologia               object
d_func_esp_via               object
d_gravetat                   object
d_influit_boira              object
d_influit_caract_entorn     

In [56]:
Accidents_cleaned["pk"] = [float(str(i).replace(",", "")) for i in Accidents_cleaned["pk"]]
Accidents_cleaned["hor"] = [float(str(i).replace(",", "")) for i in Accidents_cleaned["hor"]]

In [57]:
Accidents_cleaned.select_dtypes(np.number)

Unnamed: 0,pk,f_unitats_implicades,f_bicicletes_implicades,hor,year,month,weekday
0,0.0,2,0,2333.0,2010,1,0
1,999.0,1,0,1.0,2010,10,6
2,7087.0,4,0,1527.0,2010,5,0
3,0.0,2,0,223.0,2010,8,5
4,0.0,1,0,1745.0,2010,7,0
...,...,...,...,...,...,...,...
21156,28.0,2,0,1128.0,2021,12,1
21157,0.0,2,0,1455.0,2021,8,2
21158,85.0,2,0,949.0,2021,12,2
21159,0.0,2,0,1244.0,2021,11,4


In [58]:
Accidents_cleaned.select_dtypes(object)

Unnamed: 0,zona,via,nommun,nomcom,nomdem,f_morts,f_ferits_greus,f_ferits_lleus,f_vianants_implicades,f_ciclomotors_implicades,f_motocicletes_implicades,f_veh_lleugers_implicades,f_veh_pesants_implicades,f_altres_unit_implicades,c_velocitat_via,d_acc_amb_fuga,d_boira,d_caract_entorn,d_carril_especial,d_circulacio_mesures_esp,d_climatologia,d_func_esp_via,d_gravetat,d_influit_boira,d_influit_caract_entorn,d_influit_circulacio,d_influit_estat_clima,d_influit_inten_vent,d_influit_lluminositat,d_influit_mesu_esp,d_influit_obj_calcada,d_influit_solcs_rases,d_influit_visibilitat,d_inter_seccio,d_limit_velocitat,d_lluminositat,d_regulacio_prioritat,d_sentits_via,d_subtipus_accident,d_subtipus_tram,d_subzona,d_superficie,d_tipus_via,d_titularitat_via,d_tracat_altimetric,d_vent,grupdialab,gruphor,tipacc,day_name
0,Zona urbana,SE,CANOVES I SAMALUS,Valles Oriental,Barcelona,Si,No,Si,Si,Si,Si,No,Si,No,60-100,No,No,Desmunt,No,No,Bon temps,Via normal,Accident greu,No,No,No,No,No,No,No,No,No,No,Arribant o eixint intersecció fins 50m,Genérica via,"De nit, il·luminació artificial suficient",Si,Un sol sentit,Encalç,Encreuament o altres tipus,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,No,Feiners,Nit,Col.lisió de vehicles en marxa,Monday
1,Carretera,N-240,LLEIDA,Segria,Lleida,Si,No,No,Si,Si,Si,No,Si,Si,20-60,No,No,A nivell,No,No,Bon temps,Via normal,Accident greu,No,No,No,No,No,No,No,No,No,No,Dintre intersecció,Senyal velocitat,"De nit, il·luminació artificial suficient",Si,Doble sentit,Resta sortides de via,Encreuament o altres tipus,Carretera,Sec i net,Carretera convencional,Estatal,Pla,No,CapDeSetmana,Nit,Sortida de la calcada sense especificar,Sunday
2,Carretera,N-II,FORNELLS DE LA SELVA,Girones,Girona,No,Si,No,Si,Si,Si,No,No,Si,60-100,No,No,A nivell,No,No,Bon temps,Via especial,Accident mortal,No,No,No,No,No,No,No,No,No,No,En secció,Senyal velocitat,"De dia, dia clar",No,Doble sentit,Col·lisió frontal,Recta,Carretera,Sec i net,Carretera convencional,Estatal,Rampa o pendent,No,Feiners,Tarda,Col.lisió de vehicles en marxa,Monday
3,Zona urbana,SE,BARCELONA,Barcelones,Barcelona,Si,No,No,Si,Si,Si,No,Si,Si,60-100,No,No,Sense Especificar,No,No,Bon temps,Via normal,Accident greu,No,No,No,No,No,No,No,No,No,No,Dintre intersecció,Genérica via,"De nit, il·luminació artificial suficient",Si,Un sol sentit,Envestida (frontal lateral),Encreuament o altres tipus,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,No,CapDeSetmana,Nit,Col.lisió de vehicles en marxa,Saturday
4,Zona urbana,SE,BADALONA,Barcelones,Barcelona,Si,No,Si,Si,Si,No,Si,Si,Si,60-100,No,No,Sense Especificar,No,No,Bon temps,Via normal,Accident greu,No,No,No,No,No,No,No,No,No,No,Dintre intersecció,Genérica via,"De dia, dia clar",Si,Un sol sentit,Caiguda en la via,Encreuament o altres tipus,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,No,CapDeSetmana,Tarda,Bolcada a la calcada,Monday
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21156,Zona urbana,BV-2002,SANT VICENC DELS HORTS,Baix Llobregat,Barcelona,No,Si,Si,Si,Si,Si,No,Si,Si,60-100,No,No,Sense Especificar,No,No,Bon temps,Via normal,Accident mortal,No,No,No,No,No,No,No,No,No,No,En secció,Genérica via,"De dia, dia clar",No,Doble sentit,Altres,Recta,Travessera,Sec i net,Carretera convencional,Sense Especificar,Sense especificar,No,Feiners,Matí,Altres,Tuesday
21157,Zona urbana,SE,LLEIDA,Segria,Lleida,Si,No,Si,No,Si,Si,No,Si,Si,60-100,No,No,A nivell,No,No,Bon temps,Via normal,Accident greu,No,No,No,No,No,No,No,No,No,No,En secció,Genérica via,"De dia, dia clar",No,Doble sentit,Atropellament,Recta,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,No,Feiners,Tarda,Atropellament,Wednesday
21158,Carretera,N-230,TORREFARRERA,Segria,Lleida,Si,No,Si,Si,Si,Si,No,Si,Si,60-100,No,No,A nivell,No,No,Bon temps,Via normal,Accident greu,No,No,No,No,No,No,No,No,No,No,En secció,Genérica via,"De dia, dia clar",No,Doble sentit,Col·lisió frontal,Recta,Carretera,Sec i net,Carretera convencional,Estatal,Pla,No,Feiners,Matí,Col.lisió de vehicles en marxa,Wednesday
21159,Zona urbana,SE,REUS,Baix Camp,Tarragona,Si,No,Si,Si,Si,No,No,Si,Si,60-100,No,No,Sense Especificar,No,No,Bon temps,Via normal,Accident greu,No,No,No,No,No,No,No,No,No,No,En secció,Genérica via,"De dia, dia clar",No,Doble sentit,Envestida (frontal lateral),Recta,Zona urbana,Sec i net,Via urbana( inclou carrer i carrer residencial),Sense Especificar,Sense especificar,No,Feiners,Matí,Col.lisió de vehicles en marxa,Friday


# saving the cleaned data.

In [59]:
Accidents_cleaned.to_csv('Accidents_cleaned_more_categorized.csv', index=True, sep=',', encoding='utf-8')