# DATA CLEANING

In [1]:
import pandas as pd
import numpy as np

### Analizamos los datos de accidentes

Relativo a la información sobre accidentes, la fuente nos ofrece un dataset por año de ocurrencia del siniestro.

In [2]:
path_acc_2019 = '/home/dsc/Master DS/TFM/TFM INFO/accidents/2019_Accidentalidad.csv'
path_acc_2020 = '/home/dsc/Master DS/TFM/TFM INFO/accidents/2020_Accidentalidad.csv'
path_acc_2021 = '/home/dsc/Master DS/TFM/TFM INFO/accidents/2021_Accidentalidad.csv'

In [3]:
accidents_2019 = pd.read_csv(path_acc_2019, sep = ';' )
accidents_2020 = pd.read_csv(path_acc_2020, sep = ';' )
accidents_2021 = pd.read_csv(path_acc_2021, sep = ';' )

Comprobamos si los 3 archivos tienen las mismas columnas:

In [4]:
columns_acc_2019 = accidents_2019.columns.tolist()
columns_acc_2020 = accidents_2020.columns.tolist()
columns_acc_2021 = accidents_2021.columns.tolist()

In [5]:
columns_acc = columns_acc_2019 + columns_acc_2020 + columns_acc_2021

In [6]:
from collections import Counter

In [7]:
def mycounter(series):
    return Counter(list(series))

In [8]:
columns_freq = mycounter(columns_acc)
columns_freq

Counter({'num_expediente': 3,
         'fecha': 3,
         'hora': 3,
         'localizacion': 3,
         'numero': 3,
         'cod_distrito': 3,
         'distrito': 3,
         'tipo_accidente': 3,
         'estado_meteorológico': 3,
         'tipo_vehículo': 2,
         'tipo_persona': 3,
         'rango_edad': 3,
         'sexo': 3,
         'cod_lesividad': 3,
         'tipo_lesividad': 2,
         'coordenada_x_utm': 3,
         'coordenada_y_utm': 3,
         'positiva_alcohol': 3,
         'positiva_droga': 3,
         'tipo_vehiculo': 1,
         'lesividad': 1})

In [9]:
columns_not_equal = list({x: count for x, count in columns_freq.items() if count < 3})
columns_not_equal

['tipo_vehículo', 'tipo_lesividad', 'tipo_vehiculo', 'lesividad']

In [10]:
columns_equal = list({x: count for x, count in columns_freq.items() if count == 3})
columns_equal

['num_expediente',
 'fecha',
 'hora',
 'localizacion',
 'numero',
 'cod_distrito',
 'distrito',
 'tipo_accidente',
 'estado_meteorológico',
 'tipo_persona',
 'rango_edad',
 'sexo',
 'cod_lesividad',
 'coordenada_x_utm',
 'coordenada_y_utm',
 'positiva_alcohol',
 'positiva_droga']

Cambiamos las siguientes columnas:
- las no coincidentes:'tipo_lesividad' y 'tipo_vehiculo'
- aquellas que tienen acento, por posibles problemas en el procesamiento de los datos: 'estado_meteorológico'

In [11]:
accidents_2019 = accidents_2019.rename(columns={'tipo_vehículo':'tipo_vehiculo',
                                               'estado_meteorológico':'estado_meteorologico'})

accidents_2020 = accidents_2020.rename(columns={'tipo_vehículo':'tipo_vehiculo',
                                               'estado_meteorológico':'estado_meteorologico'})

accidents_2021 = accidents_2021.rename(columns={'lesividad':'tipo_lesividad','tipo_vehículo':'tipo_vehiculo',
                                               'estado_meteorológico':'estado_meteorologico'})


Vamos a comprobar la existencia de Nans y Nulls en nuestros datasets y en función del resultado, quizás nos plantearemos descartar alguna de las variables:

In [12]:
columns_acc_2019 = accidents_2019.columns.str.strip()
columns_acc_2020 = accidents_2020.columns.str.strip()
columns_acc_2021 = accidents_2021.columns.str.strip()

In [13]:
accidents_2019_df = pd . DataFrame (accidents_2019 , columns = columns_acc_2019 )
accidents_2020_df = pd . DataFrame (accidents_2020 , columns = columns_acc_2020 )
accidents_2021_df = pd . DataFrame (accidents_2021 , columns = columns_acc_2021 )

In [14]:
count_nan_2019_acc_df = accidents_2019_df[columns_acc_2019].isna().sum().reset_index()
count_nan_2020_acc_df = accidents_2020_df[columns_acc_2020].isna().sum().reset_index()
count_nan_2021_acc_df = accidents_2021_df[columns_acc_2021].isna().sum().reset_index()

In [15]:
count_null_2019_acc_df = accidents_2019_df[columns_acc_2019].isnull().sum().reset_index()
count_null_2020_acc_df = accidents_2020_df[columns_acc_2020].isnull().sum().reset_index()
count_null_2021_acc_df = accidents_2021_df[columns_acc_2021].isnull().sum().reset_index()

In [16]:
count_nan_null_acc_df = pd.concat([count_nan_2019_acc_df,count_null_2019_acc_df,
                              count_nan_2020_acc_df,count_null_2020_acc_df,
                              count_nan_2021_acc_df, count_null_2021_acc_df],axis=1,
                             keys=['Nan_2019','Null_2019','Nan_2020', 'Null_2020','Nan_2021', 'Null_2021']) 
count_nan_null_acc_df

Unnamed: 0_level_0,Nan_2019,Nan_2019,Null_2019,Null_2019,Nan_2020,Nan_2020,Null_2020,Null_2020,Nan_2021,Nan_2021,Null_2021,Null_2021
Unnamed: 0_level_1,index,0,index,0,index,0,index,0,index,0,index,0
0,num_expediente,0,num_expediente,0,num_expediente,0,num_expediente,0,num_expediente,0,num_expediente,0
1,fecha,0,fecha,0,fecha,0,fecha,0,fecha,0,fecha,0
2,hora,0,hora,0,hora,0,hora,0,hora,0,hora,0
3,localizacion,0,localizacion,0,localizacion,0,localizacion,0,localizacion,0,localizacion,0
4,numero,0,numero,0,numero,2,numero,2,numero,3,numero,3
5,cod_distrito,0,cod_distrito,0,cod_distrito,2,cod_distrito,2,cod_distrito,3,cod_distrito,3
6,distrito,0,distrito,0,distrito,2,distrito,2,distrito,3,distrito,3
7,tipo_accidente,0,tipo_accidente,0,tipo_accidente,0,tipo_accidente,0,tipo_accidente,4,tipo_accidente,4
8,estado_meteorologico,5130,estado_meteorologico,5130,estado_meteorologico,3196,estado_meteorologico,3196,estado_meteorologico,4428,estado_meteorologico,4428
9,tipo_vehiculo,176,tipo_vehiculo,176,tipo_vehiculo,137,tipo_vehiculo,137,tipo_vehiculo,54,tipo_vehiculo,54


Por los resultados obtenidos en la ocurrencia de Nans procedemos a descartar las siguientes variables:
- 'cod_lesividad'
- 'tipo_lesividad'
- 'positiva_droga'

Adicionalmente vamos a eliminar tambien las siguientes variables, ya que no aportan información extrapolable:
- 'localizacion'
- 'numero'

Tambien eliminamos 'distrito' porque es redundante a 'cod_distrito'

Debido al caracter tan relevante que tiene la variable 'estado_meteorologico' en nuestro estudio la mantendremos, a pesar de registrar una cuantiosa cantidad de Nans.

In [17]:
variables_to_drop = ['distrito','cod_lesividad','tipo_lesividad','positiva_droga','localizacion',
                     'numero']

In [18]:
accidents_2019_df_clean = accidents_2019_df.drop(variables_to_drop, axis=1)
accidents_2020_df_clean = accidents_2020_df.drop(variables_to_drop, axis=1)
accidents_2021_df_clean = accidents_2021_df.drop(variables_to_drop, axis=1)

Antes de eliminar los Nans, vamos a analizar cada feature y sus categorias:

In [19]:
list_columns = ['cod_distrito','tipo_accidente','estado_meteorologico','tipo_persona','rango_edad',
                'sexo','positiva_alcohol','tipo_vehiculo']

In [20]:
def check_feature(feature):
    
    'Brings a dataframe that lists the type of features,number of Nans, and checks if the sum is size'
    
    print('')
    print(feature)
    
    #First check if same categories
    feature_type_2019 = accidents_2019_df[feature].unique().tolist()
    feature_type_2020 = accidents_2020_df[feature].unique().tolist()
    feature_type_2021 = accidents_2021_df[feature].unique().tolist()
    
    if(set(feature_type_2019) == set(feature_type_2020)):
        if (set(feature_type_2019) == set(feature_type_2021)):
            message ='Same categories'
            print(message)
        else:
            message ='Different categories, lets see if it is because Nans'
            print(message)
    else:
        message ='Different categories, lets see if it is because Nans'
        print(message)
    
    if message == 'Different categories, lets see if it is because Nans':
       
        # When different categories: dataframe of all categories per year
        fea_type_2019_df = pd.DataFrame(feature_type_2019, columns=['Type_2019'])
        fea_type_2020_df = pd.DataFrame(feature_type_2020, columns=['Type_2020'])
        fea_type_2021_df = pd.DataFrame(feature_type_2021, columns=['Type_2021'])
        
        type_fea_19_20 = pd.merge(left=fea_type_2019_df,right=fea_type_2020_df, left_on='Type_2019', 
                                  right_on='Type_2020', how='outer')
        type_fea_19_20_21 = pd.merge(left=type_fea_19_20,right=fea_type_2021_df, left_on='Type_2020',
                                     right_on='Type_2021', how='outer')
                        
        #Dropna and check if the unique lists are still different
        accidents_clean_2019_df = accidents_2019_df.dropna(subset=[feature])
        accidents_clean_2020_df = accidents_2020_df.dropna(subset=[feature])
        accidents_clean_2021_df = accidents_2021_df.dropna(subset=[feature])
        
        fea_type_clean_2019 = accidents_clean_2019_df[feature].unique().tolist()
        fea_type_clean_2020 = accidents_clean_2020_df[feature].unique().tolist()
        fea_type_clean_2021 = accidents_clean_2021_df[feature].unique().tolist()
    
        if(set(fea_type_clean_2019) == set(fea_type_clean_2020)):
            if (set(fea_type_clean_2019) == set(fea_type_clean_2021)):
                message ='Different categories because of Nans'
                print(message)
            else:
                message ='Different categories'
                print(message)
    else:
        message ='Same categories'
        
    
    if message == 'Same categories':
        # Dataframe visualization of all categories
        content_2019_df = accidents_2019_df.groupby(feature)['num_expediente'].count().reset_index()
        content_2020_df = accidents_2020_df.groupby(feature)['num_expediente'].count().reset_index()
        content_2021_df = accidents_2021_df.groupby(feature)['num_expediente'].count().reset_index()
                
        content_df= pd.concat([content_2019_df,content_2020_df,content_2021_df],axis=1,keys=['2019','2020','2021'])
        
        print('The feature has the following categories: ')
        print(content_df)
        
        #Check size

        n_nan_2019= accidents_2019_df[feature].isna().sum()
        n_nan_2020= accidents_2020_df[feature].isna().sum()      
        n_nan_2021 = accidents_2021_df[feature].isna().sum()
        
        size_2019 = accidents_2019_df.shape[0]
        size_2020 = accidents_2020_df.shape[0]
        size_2021 = accidents_2021_df.shape[0]
        
        sum_var_2019 = content_2019_df['num_expediente'].sum()      
        sum_var_2020 = content_2020_df['num_expediente'].sum()       
        sum_var_2021 = content_2021_df['num_expediente'].sum()
              
        check_2019 = size_2019 - sum_var_2019 - n_nan_2019
        check_2020 = size_2020 - sum_var_2020 - n_nan_2020
        check_2021 = size_2021 - sum_var_2021 - n_nan_2021
        
        if check_2019 == 0 & check_2020 == 0 & check_2021 == 0:
            print('Number of Nans in 2019:')
            print (n_nan_2019)
            print('Number of Nans in 2020:')
            print (n_nan_2020)
            print('Number of Nans in 2021:')
            print (n_nan_2021)           
            print('The sum of type of features and Nans is OK to size')
        else:
            print('The sum is NOT OK, analyse more')
       
    if message == 'Different categories because of Nans': 
        # Dataframe visualization of all categories
        content_2019_df = accidents_clean_2019_df.groupby(feature)['num_expediente'].count().reset_index()
        content_2020_df = accidents_clean_2020_df.groupby(feature)['num_expediente'].count().reset_index()
        content_2021_df = accidents_clean_2021_df.groupby(feature)['num_expediente'].count().reset_index()
        
        content_df= pd.concat([content_2019_df,content_2020_df,content_2021_df],axis=1,keys=['2019','2020','2021'])
                
        print('The feature has the following categories: ')
        print(content_df)
        
        #check size
        n_nan_2019= accidents_2019_df[feature].isna().sum()
        n_nan_2020= accidents_2020_df[feature].isna().sum()      
        n_nan_2021 = accidents_2021_df[feature].isna().sum()
        
        size_2019 = accidents_2019_df.shape[0]
        size_2020 = accidents_2020_df.shape[0]
        size_2021 = accidents_2021_df.shape[0]
        
        sum_var_2019 = content_2019_df['num_expediente'].sum()      
        sum_var_2020 = content_2020_df['num_expediente'].sum()       
        sum_var_2021 = content_2021_df['num_expediente'].sum()
              
        check_2019 = size_2019 - sum_var_2019 - n_nan_2019
        check_2020 = size_2020 - sum_var_2020 - n_nan_2020
        check_2021 = size_2021 - sum_var_2021 - n_nan_2021
        
        if check_2019 == 0 & check_2020 == 0 & check_2021 == 0:
            print('Number of Nans in 2019:')
            print (n_nan_2019)
            print('Number of Nans in 2020:')
            print (n_nan_2020)
            print('Number of Nans in 2021:')
            print (n_nan_2021)           
            print('The sum of type of features and Nans is OK to size')
        else:
            print('The sum is NOT OK, analyse more')          
        

In [21]:
for i in list_columns:
    check_feature(i)


cod_distrito
Different categories, lets see if it is because Nans
Different categories because of Nans
The feature has the following categories: 
           2019                        2020                        2021  \
   cod_distrito num_expediente cod_distrito num_expediente cod_distrito   
0             1           2737          1.0           1518          1.0   
1             2           2300          2.0           1351          2.0   
2             3           2687          3.0           1530          3.0   
3             4           4073          4.0           2486          4.0   
4             5           3889          5.0           2084          5.0   
5             6           2383          6.0           1598          6.0   
6             7           2674          7.0           1491          7.0   
7             8           2473          8.0           1786          8.0   
8             9           2683          9.0           1756          9.0   
9            10           25

En el proceso de limpieza y análisis de los datasets, hemos sacado las siguientes ideas :
- Hay features que tienen una categoria indefinida:
    - 'Otro' en 'tipo_accidente' (valor max. en la muestra 1486)
    - 'Se desconoce' en 'estado_meteorologico' (valor max. en la muestra 696)
    - 'Desconocido' en 'rango_edad' (valor max. en la muestra 5294)
    - 'Desconocido' en 'sexo' (valor max. en la muestra 5043)
    
    
- Existencia relevante de Nans:
    - 'estado_meteorologico'
    
    
- La feature 'tipo_vehiculo' tiene diferentes categorias, habrá que realizar una uniformidad

Adicionalmente vamos a comprobar que el año del expediente coincide con la fecha:

    Según la información de la fuente, la estructura del número de expediente atiende a:
    AAAASNNNNNN
    AAAA: año 
    S: expediente con accidente 
    NNNNNN: nº correlativo por año
    Puede haber varios expendientes con el mismo número, uno para cada afectado

In [22]:
import datetime

In [23]:
accidents_2019_df_clean['year_date'] = pd.DatetimeIndex(accidents_2019_df_clean['fecha']).year.astype(int)
accidents_2019_df_clean['year_exp'] = accidents_2019_df_clean['num_expediente'].str[:4].astype(int)
accidents_2019_df_clean['year_equal_cond'] = accidents_2019_df_clean['year_exp']-(accidents_2019_df_clean['year_date'])
accidents_2019_df_clean.groupby('year_equal_cond')['num_expediente'].count().reset_index()

Unnamed: 0,year_equal_cond,num_expediente
0,-1,2
1,0,51809


In [24]:
accidents_2020_df_clean['year_date'] = pd.DatetimeIndex(accidents_2020_df_clean['fecha']).year.astype(int)
accidents_2020_df_clean['year_exp'] = accidents_2020_df_clean['num_expediente'].str[:4].astype(int)
accidents_2020_df_clean['year_equal_cond'] =accidents_2020_df_clean['year_exp']-(accidents_2020_df_clean['year_date'])
accidents_2020_df_clean.groupby('year_equal_cond')['num_expediente'].count().reset_index()

Unnamed: 0,year_equal_cond,num_expediente
0,-1,2
1,0,32431


In [25]:
accidents_2021_df_clean['year_date'] = pd.DatetimeIndex(accidents_2021_df_clean['fecha']).year.astype(int)
accidents_2021_df_clean['year_exp'] = accidents_2021_df_clean['num_expediente'].str[:4].astype(int)
accidents_2021_df_clean['year_equal_cond'] =accidents_2021_df_clean['year_exp']-(accidents_2021_df_clean['year_date'])
accidents_2021_df_clean.groupby('year_equal_cond')['num_expediente'].count().reset_index()

Unnamed: 0,year_equal_cond,num_expediente
0,-1,5
1,0,41778


Eliminamos las filas donde no coindicen ambos años.
Posteriormente, eliminaremos la columna de 'year expediente' y el de la condición

In [26]:
indexNames19 = accidents_2019_df_clean[ accidents_2019_df_clean['year_equal_cond'] == -1 ].index
indexNames19

Int64Index([0, 1], dtype='int64')

In [27]:
accidents_2019_df_clean.drop(indexNames19,inplace=True)

In [28]:
accidents_2019_df_clean.drop(['year_equal_cond','year_exp'],axis=1,inplace=True)

In [29]:
accidents_2019_df_clean.shape
#borrar luego

(51809, 14)

In [30]:
indexNames20 = accidents_2020_df_clean[accidents_2020_df_clean['year_equal_cond']==-1].index
accidents_2020_df_clean.drop(indexNames20,inplace=True)
accidents_2020_df_clean.drop(['year_equal_cond','year_exp'],axis=1,inplace=True)

In [31]:
accidents_2020_df_clean.shape
#borrar luego

(32431, 14)

In [32]:
indexNames21 = accidents_2021_df_clean[accidents_2021_df_clean['year_equal_cond']==-1].index
accidents_2021_df_clean.drop(indexNames21,inplace=True)
accidents_2021_df_clean.drop(['year_equal_cond','year_exp'],axis=1,inplace=True)

In [33]:
accidents_2021_df_clean.shape
#borrar luego

(41778, 14)

LLegados a este punto vamos a generar dos grupos de datasets:

- Uno que descarte todos los nans
- Otro que elimine los nans pero sin descartar los nans del 'estado_meteorologico'


In [34]:
acc_2019 = accidents_2019_df_clean.dropna()
acc_2020 = accidents_2020_df_clean.dropna()
acc_2021 = accidents_2021_df_clean.dropna()

Comprobamos que ya no haya ningun Nan:

In [35]:
columns_acc = acc_2019.columns.str.strip()

In [36]:
count_nan_2019_check = acc_2019[columns_acc].isna().sum().reset_index()
count_nan_2020_check = acc_2020[columns_acc].isna().sum().reset_index()
count_nan_2021_check = acc_2021[columns_acc].isna().sum().reset_index()

In [37]:
count_nan_acc_check = pd.concat([count_nan_2019_check,count_nan_2020_check,count_nan_2021_check],axis=1,
                             keys=['Nan_2019','Nan_2020','Nan_2021']) 
count_nan_acc_check

Unnamed: 0_level_0,Nan_2019,Nan_2019,Nan_2020,Nan_2020,Nan_2021,Nan_2021
Unnamed: 0_level_1,index,0,index,0,index,0
0,num_expediente,0,num_expediente,0,num_expediente,0
1,fecha,0,fecha,0,fecha,0
2,hora,0,hora,0,hora,0
3,cod_distrito,0,cod_distrito,0,cod_distrito,0
4,tipo_accidente,0,tipo_accidente,0,tipo_accidente,0
5,estado_meteorologico,0,estado_meteorologico,0,estado_meteorologico,0
6,tipo_vehiculo,0,tipo_vehiculo,0,tipo_vehiculo,0
7,tipo_persona,0,tipo_persona,0,tipo_persona,0
8,rango_edad,0,rango_edad,0,rango_edad,0
9,sexo,0,sexo,0,sexo,0


In [38]:
drop_na = ['num_expediente', 'fecha', 'hora', 'cod_distrito', 'tipo_accidente', 'tipo_vehiculo', 'tipo_persona', 
           'rango_edad','sexo', 'coordenada_x_utm', 'coordenada_y_utm', 'positiva_alcohol']

In [39]:
acc_wea_2019 = accidents_2019_df_clean.dropna(subset=drop_na)
acc_wea_2020 = accidents_2020_df_clean.dropna(subset=drop_na)
acc_wea_2021 = accidents_2021_df_clean.dropna(subset=drop_na)


Comprobamos que ya no haya ningun Nan:

In [40]:
columns_acc = acc_wea_2019.columns.str.strip()

In [41]:
count_nan_2019_check_wea = acc_wea_2019[columns_acc].isna().sum().reset_index()
count_nan_2020_check_wea = acc_wea_2020[columns_acc].isna().sum().reset_index()
count_nan_2021_check_wea = acc_wea_2021[columns_acc].isna().sum().reset_index()

In [42]:
count_nan_acc_check_wea = pd.concat([count_nan_2019_check_wea,count_nan_2020_check_wea,count_nan_2021_check_wea],axis=1,
                             keys=['Nan_2019','Nan_2020','Nan_2021']) 
count_nan_acc_check_wea

Unnamed: 0_level_0,Nan_2019,Nan_2019,Nan_2020,Nan_2020,Nan_2021,Nan_2021
Unnamed: 0_level_1,index,0,index,0,index,0
0,num_expediente,0,num_expediente,0,num_expediente,0
1,fecha,0,fecha,0,fecha,0
2,hora,0,hora,0,hora,0
3,cod_distrito,0,cod_distrito,0,cod_distrito,0
4,tipo_accidente,0,tipo_accidente,0,tipo_accidente,0
5,estado_meteorologico,5096,estado_meteorologico,3165,estado_meteorologico,4396
6,tipo_vehiculo,0,tipo_vehiculo,0,tipo_vehiculo,0
7,tipo_persona,0,tipo_persona,0,tipo_persona,0
8,rango_edad,0,rango_edad,0,rango_edad,0
9,sexo,0,sexo,0,sexo,0


Vemos que hay una diferencia en las categorias de 'tipo de vehiculo' entre los distintos datasets, vamos a analizar:

In [43]:
veh_type_2019 = acc_2019['tipo_vehiculo'].unique().tolist()
veh_type_2020 = acc_2020['tipo_vehiculo'].unique().tolist()
veh_type_2021 = acc_2021['tipo_vehiculo'].unique().tolist()

In [44]:
veh_type_2019_df = pd.DataFrame(veh_type_2019, columns=['Type_2019'])
veh_type_2020_df = pd.DataFrame(veh_type_2020, columns=['Type_2020'])
veh_type_2021_df = pd.DataFrame(veh_type_2021, columns=['Type_2021'])

In [45]:
type_veh_19_20 = pd.merge(left=veh_type_2019_df,right=veh_type_2020_df, left_on='Type_2019', right_on='Type_2020',
                         how='outer')
type_veh_19_20_21 = pd.merge(left=type_veh_19_20,right=veh_type_2021_df, left_on='Type_2020', right_on='Type_2021',
                            how='outer')
type_veh_19_20_21

Unnamed: 0,Type_2019,Type_2020,Type_2021
0,Furgoneta,Furgoneta,Furgoneta
1,Turismo,Turismo,Turismo
2,Autobús,Autobús,Autobús
3,Ciclomotor,Ciclomotor,Ciclomotor
4,Motocicleta > 125cc,Motocicleta > 125cc,Motocicleta > 125cc
5,Motocicleta hasta 125cc,Motocicleta hasta 125cc,Motocicleta hasta 125cc
6,Todo terreno,Todo terreno,Todo terreno
7,Bicicleta,Bicicleta,Bicicleta
8,Camión rígido,Camión rígido,Camión rígido
9,Tractocamión,Tractocamión,Tractocamión


Vemos que todas las listas coinciden en el nombre de las categorias, pero no todos contienen todas las categorias.

Para el conjunto de datasets donde hemos eliminado todos los Nans, generaremos otros dos conjuntos de datasets, en e que uno que elimine todas aquellas lineas donde las categorias no sean coincidentes.

Vamos a ver las categorias de vehiculos que no están en los tres datasets:

In [46]:
veh_type = veh_type_2019 + veh_type_2020 + veh_type_2021

In [47]:
from collections import Counter

In [48]:
def mycounter(series):
    return Counter(list(series))

In [49]:
veh_type_freq = mycounter(veh_type)

In [50]:
type_veh_del = list({x: count for x, count in veh_type_freq.items() if count < 3})

In [51]:
type_veh_ok = list({x: count for x, count in veh_type_freq.items() if count == 3})

In [52]:
vehicle = pd.DataFrame(type_veh_ok, columns = ['Type'])

In [53]:
type_veh_del

['Microbús <= 17 plazas',
 'Tranvía',
 'Caravana',
 'Moto de tres ruedas > 125cc',
 'Tren/metro',
 'Ambulancia SAMUR',
 'Moto de tres ruedas hasta 125cc',
 'Ciclomotor de dos ruedas L1e-B',
 'Maquinaria agrícola',
 'Autobús articulado EMT',
 'Ciclomotor de tres ruedas',
 'Ciclo de motor L1e-A']

In [54]:
veh_type_del_2019 = [x for x in veh_type_2019 if x in type_veh_del]
veh_type_del_2020 = [x for x in veh_type_2020 if x in type_veh_del]
veh_type_del_2021 = [x for x in veh_type_2021 if x in type_veh_del]

Ahora vamos a hacer una copia de los 3 dataframes, ya que vamos a empezar a aplicar las modificaciones para eliminar los tipos de vehiculos que nos son comunes en los ficheros.

In [55]:
acc_veh_2019 = acc_2019.copy()
acc_veh_2020 = acc_2020.copy()
acc_veh_2021 = acc_2021.copy()

In [56]:
acc_veh_2019['is_in_2019'] = acc_veh_2019['tipo_vehiculo'].isin(veh_type_del_2019)
acc_veh_2020['is_in_2020'] = acc_veh_2020['tipo_vehiculo'].isin(veh_type_del_2020)
acc_veh_2021['is_in_2021'] = acc_veh_2021['tipo_vehiculo'].isin(veh_type_del_2021)

In [57]:
index_is_in_19 = acc_veh_2019[acc_veh_2019['is_in_2019']==True].index
acc_veh_2019.drop(index_is_in_19,inplace=True)
acc_veh_2019.drop(['is_in_2019'],axis=1,inplace=True)

In [58]:
index_is_in_20 = acc_veh_2020[acc_veh_2020['is_in_2020']==True].index
acc_veh_2020.drop(index_is_in_20,inplace=True)
acc_veh_2020.drop(['is_in_2020'],axis=1,inplace=True)

In [59]:
index_is_in_21 = acc_veh_2021[acc_veh_2021['is_in_2021']==True].index
acc_veh_2021.drop(index_is_in_21,inplace=True)
acc_veh_2021.drop(['is_in_2021'],axis=1,inplace=True)

Vamos a comprobar que finalmente las clases ya coinciden:

In [60]:
veh_type_2019 = acc_veh_2019['tipo_vehiculo'].unique().tolist()
veh_type_2020 = acc_veh_2020['tipo_vehiculo'].unique().tolist()
veh_type_2021 = acc_veh_2021['tipo_vehiculo'].unique().tolist()

In [61]:
veh_type_2019_df = pd.DataFrame(veh_type_2019, columns=['Type_2019'])
veh_type_2020_df = pd.DataFrame(veh_type_2020, columns=['Type_2020'])
veh_type_2021_df = pd.DataFrame(veh_type_2021, columns=['Type_2021'])

In [62]:
type_veh_19_20 = pd.merge(left=veh_type_2019_df,right=veh_type_2020_df, left_on='Type_2019', right_on='Type_2020',
                         how='outer')
type_veh_19_20_21 = pd.merge(left=type_veh_19_20,right=veh_type_2021_df, left_on='Type_2020', right_on='Type_2021',
                            how='outer')
type_veh_19_20_21_type = pd.merge(left=type_veh_19_20_21,right=vehicle, left_on='Type_2021', right_on='Type',
                            how='outer')
type_veh_19_20_21_type

Unnamed: 0,Type_2019,Type_2020,Type_2021,Type
0,Furgoneta,Furgoneta,Furgoneta,Furgoneta
1,Turismo,Turismo,Turismo,Turismo
2,Autobús,Autobús,Autobús,Autobús
3,Ciclomotor,Ciclomotor,Ciclomotor,Ciclomotor
4,Motocicleta > 125cc,Motocicleta > 125cc,Motocicleta > 125cc,Motocicleta > 125cc
5,Motocicleta hasta 125cc,Motocicleta hasta 125cc,Motocicleta hasta 125cc,Motocicleta hasta 125cc
6,Todo terreno,Todo terreno,Todo terreno,Todo terreno
7,Bicicleta,Bicicleta,Bicicleta,Bicicleta
8,Camión rígido,Camión rígido,Camión rígido,Camión rígido
9,Tractocamión,Tractocamión,Tractocamión,Tractocamión


Comprobemos como hemos reducido las muestras: 

In [63]:
print('DS ORIGINAL:')
print(accidents_2019_df.shape)
print('ELIM. COL + ELIM. DIF. AÑO + COL. AÑO:')
print(accidents_2019_df_clean.shape)
print('ELIM. NANS MENOS METEO:')
print(acc_wea_2019.shape)
print('ELIM. TODOS NANS:')
print(acc_2019.shape)
print('ELIM. DIF VEH.:')
print(acc_veh_2019.shape)

DS ORIGINAL:
(51811, 19)
ELIM. COL + ELIM. DIF. AÑO + COL. AÑO:
(51809, 14)
ELIM. NANS MENOS METEO:
(51545, 14)
ELIM. TODOS NANS:
(46449, 14)
ELIM. DIF VEH.:
(46445, 14)


In [64]:
print('DS ORIGINAL:')
print(accidents_2020_df.shape)
print('ELIM. COL + ELIM. DIF. AÑO + COL. AÑO:')
print(accidents_2020_df_clean.shape)
print('ELIM. NANS MENOS METEO:')
print(acc_wea_2020.shape)
print('ELIM. TODOS NANS:')
print(acc_2020.shape)
print('ELIM. DIF VEH.:')
print(acc_veh_2020.shape)

DS ORIGINAL:
(32433, 19)
ELIM. COL + ELIM. DIF. AÑO + COL. AÑO:
(32431, 14)
ELIM. NANS MENOS METEO:
(32205, 14)
ELIM. TODOS NANS:
(29040, 14)
ELIM. DIF VEH.:
(29015, 14)


In [65]:
print('DS ORIGINAL:')
print(accidents_2021_df.shape)
print('ELIM. COL + ELIM. DIF. AÑO + COL. AÑO:')
print(accidents_2021_df_clean.shape)
print('ELIM. NANS MENOS METEO:')
print(acc_wea_2021.shape)
print('ELIM. TODOS NANS:')
print(acc_2021.shape)
print('ELIM. DIF VEH.:')
print(acc_veh_2021.shape)

DS ORIGINAL:
(41783, 19)
ELIM. COL + ELIM. DIF. AÑO + COL. AÑO:
(41778, 14)
ELIM. NANS MENOS METEO:
(41547, 14)
ELIM. TODOS NANS:
(37151, 14)
ELIM. DIF VEH.:
(37116, 14)


Ahora vamos a fusionar los 9 datasets resultantes de todo el proceso de limpieza y análisis, atendiendo a dos criterios:
- Eliminación de todas las lineas que contengan Nans:
    - Eliminando todas las lineas donde no son coincidentes los tipos de vehiculos
    - Dejando todas las categorias de vehiculos
- Eliminación de todas las lineas que contengan Nans, a excepción de aquellos que provengan de 'estado_meteorologico'

In [66]:
acc_wea = pd.concat([acc_wea_2019,acc_wea_2020,acc_wea_2021]) 

In [67]:
acc_veh = pd.concat([acc_veh_2019,acc_veh_2020,acc_veh_2021]) 

In [68]:
acc = pd.concat([acc_2019,acc_2020,acc_2021]) 

A los datasets vamos a incluirles las siguientes columnas:
- dia de la semana (week_day)
- mes (month)
- numero de partes para el mismo accidente (num_claims)

In [69]:
import datetime 
import calendar

In [70]:
def findDay(date): 
    date_x = datetime.datetime.strptime(date, '%d/%m/%Y').weekday() 
    return (calendar.day_name[date_x]) 

In [71]:
acc_wea['weak_day']=acc_wea['fecha'].apply(findDay) 

In [72]:
acc_wea['month']=acc_wea['fecha'].str[3:5].astype(int)

In [73]:
count_exp = acc_wea.groupby('num_expediente')['fecha'].count().reset_index()

In [74]:
count_exp = count_exp.rename(columns={'fecha':'num_exp'})

In [75]:
acc_wea_final = pd.merge(acc_wea,count_exp )

In [76]:
acc_veh['weak_day']=acc_veh['fecha'].apply(findDay) 
acc_veh['month']=acc_veh['fecha'].str[3:5].astype(int)
count_exp = acc_veh.groupby('num_expediente')['fecha'].count().reset_index()
count_exp = count_exp.rename(columns={'fecha':'num_exp'})
acc_veh_final = pd.merge(acc_veh,count_exp )

In [77]:
acc['weak_day']=acc['fecha'].apply(findDay) 
acc['month']=acc['fecha'].str[3:5].astype(int)
count_exp = acc.groupby('num_expediente')['fecha'].count().reset_index()
count_exp = count_exp.rename(columns={'fecha':'num_exp'})
acc_final = pd.merge(acc,count_exp )

Creamos los tres documentos con los que posteriormente vamos a trabajar:

In [78]:
acc_wea_final.to_csv('acc_wea.csv',sep='^')

In [79]:
acc_veh_final.to_csv('acc_veh.csv',sep='^')

In [80]:
acc_final.to_csv('acc.csv',sep='^')