In [1]:
#Carga de librerías
import pandas as pd
import seaborn as sns 
import numpy as np
import requests
from pandas_profiling import ProfileReport
import sweetviz as sv
from sklearn.impute import KNNImputer

In [9]:
# Declaración de las funciones utilizadas

def transform_hour(value):
    '''
    La siguiente función transforma en franjas horarias, las distintas horas de un día. Define los siguientes grupos:
    {0: madrugada (de 00:00-6:00), 1: mañana (6:00-12:00), 2: tarde (12:00-18:00), 3: tarde-noche (18:00-24:00)}
    '''
    value = pd.to_numeric(value,errors='coerce')
    if value >= 0 and value<6:
        return '0'
    if value >= 6 and value<12:
        return '1'
    if value >= 12 and value<18:
        return '2'
    if value >= 18 and value<24:
        return '3'
    return pd.NA

In [2]:
data = pd.read_csv('data/NCDB_1999_to_2014.csv', low_memory=False)
data

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,...,V_ID,V_TYPE,V_YEAR,P_ID,P_SEX,P_AGE,P_PSN,P_ISEV,P_SAFE,P_USER
0,1999,01,1,20,2,02,34,UU,1,5,...,01,06,1990,01,M,41,11,1,UU,1
1,1999,01,1,20,2,02,34,UU,1,5,...,02,01,1987,01,M,19,11,1,UU,1
2,1999,01,1,20,2,02,34,UU,1,5,...,02,01,1987,02,F,20,13,2,02,2
3,1999,01,1,08,2,01,01,UU,5,3,...,01,01,1986,01,M,46,11,1,UU,1
4,1999,01,1,08,2,01,01,UU,5,3,...,99,NN,NNNN,01,M,05,99,2,UU,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5860400,2014,UU,U,UU,2,UU,UU,01,U,U,...,13,07,UUUU,01,M,24,11,1,NN,1
5860401,2014,UU,U,23,2,01,06,05,1,1,...,01,14,2006,01,M,29,96,2,09,5
5860402,2014,UU,U,14,2,01,02,01,1,5,...,01,01,2006,01,F,UU,11,2,01,1
5860403,2014,UU,U,22,1,01,06,01,2,4,...,01,22,UUUU,01,M,67,12,3,01,U


## 00. Tratamiento inicial de las variables

El dataset está diseñado inicialmente de tal forma que cada registro hace referencia a cada persona involucrada en los distintos accidentes. Es decir, el dataset está "agrupado" por personas. Sin embargo, considerando el propóstio de este trabajo detallado anteriormente, esto no tiene mucho sentido, ya que nos interesa conocer los datos agregados por accidente de cara a conocer la posible mortalidad en los mismos. 
Con este propósito se va a transformar el dataset, modificando y agrupando las variables pertenecientes a niveles inferiores al de accidentes, de tal forma que el dataset sobre el que se va a modelizar este "agrupado" por accidentes.

Como cada registro pertenece a un individuo, para determinar el número de individuos inolucrados en cada uno de los distintos accidentes, se va a realizar una agrupación del dataset respecto a todas las variables que contengan información sobre la colisión en si misma. De esta forma, podremos determinar el número real de accidentes distintos que recoge nuestro conjunto de datos. Posteriormente, se realizará un conteo del número de registros para cada accidente distinto, con el objetivo de determinar el número de personas involucradas en cada accidente creándose una variable llamada A_PERS que contenga esta información.

In [5]:
# Extraemos las columnas que contienen información sobre la colisión 
c_cols = [col for col in data.columns if col[0]=="C"]
# Creamos un data frame auxiliar para determinar el numero de personas involucradas en cada accidente
collision_df = data.groupby(c_cols).size().reset_index().rename(columns={0:"A_PERS"}).drop_duplicates()
collision_df

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,C_RALN,C_TRAF,A_PERS
0,1999,01,1,00,2,01,01,01,1,4,1,18,1
1,1999,01,1,00,2,01,01,01,1,5,1,18,1
2,1999,01,1,00,2,01,01,01,2,1,1,18,1
3,1999,01,1,00,2,01,01,01,6,3,2,18,2
4,1999,01,1,00,2,01,01,UU,1,2,3,18,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1850390,2014,12,7,UU,2,02,UU,02,U,U,1,03,2
1850391,2014,UU,U,14,2,01,02,01,1,5,4,18,1
1850392,2014,UU,U,22,1,01,06,01,2,4,Q,18,2
1850393,2014,UU,U,23,2,01,06,05,1,1,U,18,1


In [7]:
# incluimos la nueva columna en el dataframe original mediatne un join entre los dos data frames 
data = data.merge(collision_df,on=c_cols,how='left')
data

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,...,V_TYPE,V_YEAR,P_ID,P_SEX,P_AGE,P_PSN,P_ISEV,P_SAFE,P_USER,A_PERS
0,1999,01,1,20,2,02,34,UU,1,5,...,06,1990,01,M,41,11,1,UU,1,3.0
1,1999,01,1,20,2,02,34,UU,1,5,...,01,1987,01,M,19,11,1,UU,1,3.0
2,1999,01,1,20,2,02,34,UU,1,5,...,01,1987,02,F,20,13,2,02,2,3.0
3,1999,01,1,08,2,01,01,UU,5,3,...,01,1986,01,M,46,11,1,UU,1,2.0
4,1999,01,1,08,2,01,01,UU,5,3,...,NN,NNNN,01,M,05,99,2,UU,3,2.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5860400,2014,UU,U,UU,2,UU,UU,01,U,U,...,07,UUUU,01,M,24,11,1,NN,1,20.0
5860401,2014,UU,U,23,2,01,06,05,1,1,...,14,2006,01,M,29,96,2,09,5,1.0
5860402,2014,UU,U,14,2,01,02,01,1,5,...,01,2006,01,F,UU,11,2,01,1,1.0
5860403,2014,UU,U,22,1,01,06,01,2,4,...,22,UUUU,01,M,67,12,3,01,U,2.0


La siguiente transformación a realizar, será determinar la antigüedad del vehículo implicado en la colisión mediante la fecha de colisión y la fecha de antigüedad del vehículo. Poseriormente dichas columnas serán eliminadas, ya que tanto el año del accidente como el año de fabricación del vehículo realmente no son un factor determinante en una colisión, mientras que la nueva variable estimada sí puede aportar información adicional sobre el accidente. 

In [8]:
# creamos una columna que nos informe de la antigüedad del vehículo 
data['A_VAGE'] = data['C_YEAR'] - pd.to_numeric(data['V_YEAR'], errors='coerce')
data

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,...,V_YEAR,P_ID,P_SEX,P_AGE,P_PSN,P_ISEV,P_SAFE,P_USER,A_PERS,A_VAGE
0,1999,01,1,20,2,02,34,UU,1,5,...,1990,01,M,41,11,1,UU,1,3.0,9.0
1,1999,01,1,20,2,02,34,UU,1,5,...,1987,01,M,19,11,1,UU,1,3.0,12.0
2,1999,01,1,20,2,02,34,UU,1,5,...,1987,02,F,20,13,2,02,2,3.0,12.0
3,1999,01,1,08,2,01,01,UU,5,3,...,1986,01,M,46,11,1,UU,1,2.0,13.0
4,1999,01,1,08,2,01,01,UU,5,3,...,NNNN,01,M,05,99,2,UU,3,2.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5860400,2014,UU,U,UU,2,UU,UU,01,U,U,...,UUUU,01,M,24,11,1,NN,1,20.0,
5860401,2014,UU,U,23,2,01,06,05,1,1,...,2006,01,M,29,96,2,09,5,1.0,8.0
5860402,2014,UU,U,14,2,01,02,01,1,5,...,2006,01,F,UU,11,2,01,1,1.0,8.0
5860403,2014,UU,U,22,1,01,06,01,2,4,...,UUUU,01,M,67,12,3,01,U,2.0,


A continuación, vamos a transformar la variable que recoge información sobre la hora en la que se produjeron las distintas colisiones. Originalmente, esta variable recoge las horas en las que se produjeron los accidentes, sin embargo, se considera que agregando la información en tramos horarios, puede aportar un mayor valor al modelo que considerando de manera independiente cada hora. Las categorías generadas son las siguientes:
* Madrugada (de 00:00-6:00)
* Mañana (6:00-12:00)
* Tarde (12:00-18:00)
* Tarde-noche (18:00-24:00)

Para ello se ha utilizado la función definida con este propósito, en el apartado correspondiente

In [10]:
# Aplicamos la función transdorm_hour a la columna de la hora de colisión
data['C_HOUR'] = data['C_HOUR'].apply(transform_hour) 
data

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,...,V_YEAR,P_ID,P_SEX,P_AGE,P_PSN,P_ISEV,P_SAFE,P_USER,A_PERS,A_VAGE
0,1999,01,1,3,2,02,34,UU,1,5,...,1990,01,M,41,11,1,UU,1,3.0,9.0
1,1999,01,1,3,2,02,34,UU,1,5,...,1987,01,M,19,11,1,UU,1,3.0,12.0
2,1999,01,1,3,2,02,34,UU,1,5,...,1987,02,F,20,13,2,02,2,3.0,12.0
3,1999,01,1,1,2,01,01,UU,5,3,...,1986,01,M,46,11,1,UU,1,2.0,13.0
4,1999,01,1,1,2,01,01,UU,5,3,...,NNNN,01,M,05,99,2,UU,3,2.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5860400,2014,UU,U,,2,UU,UU,01,U,U,...,UUUU,01,M,24,11,1,NN,1,20.0,
5860401,2014,UU,U,3,2,01,06,05,1,1,...,2006,01,M,29,96,2,09,5,1.0,8.0
5860402,2014,UU,U,2,2,01,02,01,1,5,...,2006,01,F,UU,11,2,01,1,1.0,8.0
5860403,2014,UU,U,3,1,01,06,01,2,4,...,UUUU,01,M,67,12,3,01,U,2.0,


In [11]:
# FALTA CALCULAR LOS DATOS DEL SEXO Y EDAD DEL CONDUCTOR, Y CALCULAR SI HAY AL MENOS UN ANCIANO INVOLUCRADO.

In [1]:
#quedarse solo con los drivers
#data = data[data['P_PSN']=="11"]

data[data['P_PSN']=="11"]

NameError: name 'data' is not defined