## 00. Definición del objetivo del trabajo

In [60]:
# Diccionario de datos

In [1]:
#Carga de librerías
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")

In [2]:
# Declaración de las funciones utilizadas
def group_age(value):
    '''
    La siguiente función diferecia las distintas edades de los individuos, en grupos de edad. Define los siguientes grupos:
    {0: niños (de 0 a 12 años), 1: adolescentes (de 12 a 18 años), 2: jóvenes (de 18 a 26 años), 3: adultos (de 26 a 59 años),
    4: mayores (60 años o más)}
    '''
    value = pd.to_numeric(value,errors='coerce')
    if value >= 0 and value<12:
        return '0'
    if value >= 12 and value<18:
        return '1'
    if value >= 18 and value<27:
        return '2'
    if value >= 27 and value<60:
        return '3'
    if value >=60:
        return '4'
    return pd.NA


def transform_hour(value):
    '''
    La siguiente función transforma en franjas horarias, las distintas horas de un día. Define los siguientes grupos:
    {0: madrugada (de 00:00-6:00), 1: mañana (6:00-12:00), 2: tarde (12:00-18:00), 3: tarde-noche (18:00-24:00)}
    '''
    value = pd.to_numeric(value,errors='coerce')
    if value >= 0 and value<6:
        return '0'
    if value >= 6 and value<12:
        return '1'
    if value >= 12 and value<18:
        return '2'
    if value >= 18 and value<24:
        return '3'
    return pd.NA

Se definen las funciones group_age y transform_hour de forma que nos aporten información más valiosa. Hemos considerado que una división de sendas variables en diferentes tramos podría ser de más utilidad al modelo. De esta forma, hemos agrupado las personas que, por cuya edad, tienen características similares. El comportamiento de los jóvenes tiende a ser más parecido entre ellos, al igual que ocurre con los adultos, por lo que no importa tanto la edad de la persona involucrada sino el grupo al que pertenece. En cuanto a la hora, consideramos más significativa la agrupación en cuatro bloques: mañana, tarde, tarde-noche y madrugada. La entrada al trabajo o la salida de él se produce en un intervalo de horas que queda perfectamente definido con la función y que permite extraer conclusiones de los tramos horarios en los que se produce cada accidente.

In [37]:
# Lectura de los datos
data = pd.read_csv('data/NCDB_1999_to_2014.csv', low_memory=False)
data

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,...,V_ID,V_TYPE,V_YEAR,P_ID,P_SEX,P_AGE,P_PSN,P_ISEV,P_SAFE,P_USER
0,1999,01,1,20,2,02,34,UU,1,5,...,01,06,1990,01,M,41,11,1,UU,1
1,1999,01,1,20,2,02,34,UU,1,5,...,02,01,1987,01,M,19,11,1,UU,1
2,1999,01,1,20,2,02,34,UU,1,5,...,02,01,1987,02,F,20,13,2,02,2
3,1999,01,1,08,2,01,01,UU,5,3,...,01,01,1986,01,M,46,11,1,UU,1
4,1999,01,1,08,2,01,01,UU,5,3,...,99,NN,NNNN,01,M,05,99,2,UU,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5860400,2014,UU,U,UU,2,UU,UU,01,U,U,...,13,07,UUUU,01,M,24,11,1,NN,1
5860401,2014,UU,U,23,2,01,06,05,1,1,...,01,14,2006,01,M,29,96,2,09,5
5860402,2014,UU,U,14,2,01,02,01,1,5,...,01,01,2006,01,F,UU,11,2,01,1
5860403,2014,UU,U,22,1,01,06,01,2,4,...,01,22,UUUU,01,M,67,12,3,01,U


In [38]:
data.shape

(5860405, 22)

## 01. Tratamiento inicial de las variables

El dataset está diseñado inicialmente de tal forma que cada registro hace referencia a cada persona involucrada en los distintos accidentes. Es decir, el dataset está "agrupado" por personas. Sin embargo, considerando el propóstio de este trabajo detallado anteriormente, esto no tiene mucho sentido, ya que nos interesa conocer los datos agregados por accidente de cara a conocer la posible mortalidad en los mismos. 
Con este propósito se va a transformar el dataset, modificando y agrupando las variables pertenecientes a niveles inferiores al de accidentes, de tal forma que el dataset sobre el que se va a modelizar este "agrupado" por accidentes.

### Variable P_SEX

Como cada registro pertenece a un individuo, para determinar el número de individuos inolucrados en cada uno de los distintos accidentes diferenciados por sexo, se va a realizar una agrupación del dataset respecto a todas las variables que contengan información sobre la colisión en si misma y agregar los distintos valores recogidos en la variable P_SEX. De esta forma, podremos determinar el total de personas involucradas en cada accidente, así como su género.
Las distintas variables generadas en el proceso serán:
* A_PMAS : número de hombres involucrados en cada accidente
* A_PFEM: número de mujeres involucrados en cada accidente
* A_PERS: número de individuos involucrados en cada accidente (incluye aquellos que no se ha podidod determinar su género)

In [39]:
# Realizamos un one hot encoding sobre P_SEX para determinar el número de hombres y mujeres por accidente
psex_enc = pd.get_dummies(data['P_SEX'])
data = data.join(psex_enc)
data

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,...,P_SEX,P_AGE,P_PSN,P_ISEV,P_SAFE,P_USER,F,M,N,U
0,1999,01,1,20,2,02,34,UU,1,5,...,M,41,11,1,UU,1,0,1,0,0
1,1999,01,1,20,2,02,34,UU,1,5,...,M,19,11,1,UU,1,0,1,0,0
2,1999,01,1,20,2,02,34,UU,1,5,...,F,20,13,2,02,2,1,0,0,0
3,1999,01,1,08,2,01,01,UU,5,3,...,M,46,11,1,UU,1,0,1,0,0
4,1999,01,1,08,2,01,01,UU,5,3,...,M,05,99,2,UU,3,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5860400,2014,UU,U,UU,2,UU,UU,01,U,U,...,M,24,11,1,NN,1,0,1,0,0
5860401,2014,UU,U,23,2,01,06,05,1,1,...,M,29,96,2,09,5,0,1,0,0
5860402,2014,UU,U,14,2,01,02,01,1,5,...,F,UU,11,2,01,1,1,0,0,0
5860403,2014,UU,U,22,1,01,06,01,2,4,...,M,67,12,3,01,U,0,1,0,0


In [40]:
# Calculamos el total de individuos y eliminamos las columnas de los valores que no se han podido determinar
data['A_PERS'] = data['F'] + data['M'] + data['N'] + data['U']
data = data.drop(['N', 'U'], axis=1)
data = data.rename(columns=({'F': 'A_PFEM', 'M': 'A_PMAS'})) 
data

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,...,P_ID,P_SEX,P_AGE,P_PSN,P_ISEV,P_SAFE,P_USER,A_PFEM,A_PMAS,A_PERS
0,1999,01,1,20,2,02,34,UU,1,5,...,01,M,41,11,1,UU,1,0,1,1
1,1999,01,1,20,2,02,34,UU,1,5,...,01,M,19,11,1,UU,1,0,1,1
2,1999,01,1,20,2,02,34,UU,1,5,...,02,F,20,13,2,02,2,1,0,1
3,1999,01,1,08,2,01,01,UU,5,3,...,01,M,46,11,1,UU,1,0,1,1
4,1999,01,1,08,2,01,01,UU,5,3,...,01,M,05,99,2,UU,3,0,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5860400,2014,UU,U,UU,2,UU,UU,01,U,U,...,01,M,24,11,1,NN,1,0,1,1
5860401,2014,UU,U,23,2,01,06,05,1,1,...,01,M,29,96,2,09,5,0,1,1
5860402,2014,UU,U,14,2,01,02,01,1,5,...,01,F,UU,11,2,01,1,1,0,1
5860403,2014,UU,U,22,1,01,06,01,2,4,...,01,M,67,12,3,01,U,0,1,1


### Variable P_AGE

Para agregar a nivel de accidente la información recogida en P_AGE, vamos a establecer grupos de edad en la variable, tratando de minimizar la pérdida de información, ya que estimando directamente la media de edad podemos desivirtuar el análisis sin tener en cuenta valores extremos que pueden ser diferenciales a la hora de determinar la mortalidad de un accidente. Las categorías generadas son las siguientes:
* 0: niños (de 0 a 12 años)
* 1: adolescentes (de 12 a 18 años)
* 2: jóvenes (de 18 a 26 años)
* 3: adultos (de 26 a 59 años)
* 4: mayores (60 años o más)

Para ello se ha utilizado la función definida con este propósito, en el apartado correspondiente.

Las distintas variables generadas en el proceso serán:
* A_PKID : número de niños involucrados en cada accidente
* A_PYOU: número de jóvenes involucrados en cada accidente
* A_PADU: número de adultos involucrados en cada accidente
* A_POLD: número de mayores involucrados en cada accidente

No se ha tenido en cuenta la variable adolescentes, ya que se considera el grupo de edad menos determinante para el objeto de estudio, y la información del grupo se recoge implícitamente considerando únicamente n-1 grupos.

In [41]:
data['P_AGE'] = data['P_AGE'].apply(group_age) 
data

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,...,P_ID,P_SEX,P_AGE,P_PSN,P_ISEV,P_SAFE,P_USER,A_PFEM,A_PMAS,A_PERS
0,1999,01,1,20,2,02,34,UU,1,5,...,01,M,3,11,1,UU,1,0,1,1
1,1999,01,1,20,2,02,34,UU,1,5,...,01,M,2,11,1,UU,1,0,1,1
2,1999,01,1,20,2,02,34,UU,1,5,...,02,F,2,13,2,02,2,1,0,1
3,1999,01,1,08,2,01,01,UU,5,3,...,01,M,3,11,1,UU,1,0,1,1
4,1999,01,1,08,2,01,01,UU,5,3,...,01,M,0,99,2,UU,3,0,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5860400,2014,UU,U,UU,2,UU,UU,01,U,U,...,01,M,2,11,1,NN,1,0,1,1
5860401,2014,UU,U,23,2,01,06,05,1,1,...,01,M,3,96,2,09,5,0,1,1
5860402,2014,UU,U,14,2,01,02,01,1,5,...,01,F,,11,2,01,1,1,0,1
5860403,2014,UU,U,22,1,01,06,01,2,4,...,01,M,4,12,3,01,U,0,1,1


In [42]:
# Realizamos un one hot encoding sobre P_AGE para determinar los distintos gruupos de edad por accidente
page_enc = pd.get_dummies(data['P_AGE'])
data = data.join(page_enc)
data

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,...,P_SAFE,P_USER,A_PFEM,A_PMAS,A_PERS,0,1,2,3,4
0,1999,01,1,20,2,02,34,UU,1,5,...,UU,1,0,1,1,0,0,0,1,0
1,1999,01,1,20,2,02,34,UU,1,5,...,UU,1,0,1,1,0,0,1,0,0
2,1999,01,1,20,2,02,34,UU,1,5,...,02,2,1,0,1,0,0,1,0,0
3,1999,01,1,08,2,01,01,UU,5,3,...,UU,1,0,1,1,0,0,0,1,0
4,1999,01,1,08,2,01,01,UU,5,3,...,UU,3,0,1,1,1,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5860400,2014,UU,U,UU,2,UU,UU,01,U,U,...,NN,1,0,1,1,0,0,1,0,0
5860401,2014,UU,U,23,2,01,06,05,1,1,...,09,5,0,1,1,0,0,0,1,0
5860402,2014,UU,U,14,2,01,02,01,1,5,...,01,1,1,0,1,0,0,0,0,0
5860403,2014,UU,U,22,1,01,06,01,2,4,...,01,U,0,1,1,0,0,0,0,1


In [43]:
# Renombramos las variables y eliminamos el grupo no necesario y la variable original
data = data.rename(columns={'0': 'A_PKID', '2': 'A_PYOU', '3': 'A_PADU', '4': 'A_POLD'})
data = data.drop(['1'], axis=1)
data

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,...,P_ISEV,P_SAFE,P_USER,A_PFEM,A_PMAS,A_PERS,A_PKID,A_PYOU,A_PADU,A_POLD
0,1999,01,1,20,2,02,34,UU,1,5,...,1,UU,1,0,1,1,0,0,1,0
1,1999,01,1,20,2,02,34,UU,1,5,...,1,UU,1,0,1,1,0,1,0,0
2,1999,01,1,20,2,02,34,UU,1,5,...,2,02,2,1,0,1,0,1,0,0
3,1999,01,1,08,2,01,01,UU,5,3,...,1,UU,1,0,1,1,0,0,1,0
4,1999,01,1,08,2,01,01,UU,5,3,...,2,UU,3,0,1,1,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5860400,2014,UU,U,UU,2,UU,UU,01,U,U,...,1,NN,1,0,1,1,0,1,0,0
5860401,2014,UU,U,23,2,01,06,05,1,1,...,2,09,5,0,1,1,0,0,1,0
5860402,2014,UU,U,14,2,01,02,01,1,5,...,2,01,1,1,0,1,0,0,0,0
5860403,2014,UU,U,22,1,01,06,01,2,4,...,3,01,U,0,1,1,0,0,0,1


### Variable P_SAFE

A la hora de tratar la variable P_SAFE se ha determinado que, para simplificar la información que aporta al modelo, se va a diferenciar únicamente si se había utilizado algún tipo de sistema de seguridad en el accidente o no. Se considera que en aquellos casos en los que el elemento no es aplicable o que el valor es distinto al del resto de grupos, la persona sí disponía de un elemento de seguridad.
Por último, para que la variable tenga un mayor sentido a nivel agregado, se estimará una vez se agrupe el dataset por accidente como el porcentaje de individuos involucrados que disponían de un dispositivo de seguridad respecto el total de individuos implicados en el accidente. Para ello, se comparará con el total de individuos involucrados en cada accidente calculado anteriormente.

Las distintas variables generadas en el proceso serán:

* A_PSAF : existencia de un dispositivo de seguridad en el accidente en cada accidente (%)

In [44]:
# Transformamos las distintas categorías de la variable original, simplificándola
dict_psafe = {
        "01": 0,
        "02": 1,
        "09": 1,
        "10": 1,
        "11": 1,
        "12": 1,
        "13": 1,
        "NN": 1,
        "QQ": 1,
        "UU": pd.NA,
        "XX": pd.NA
}

data = data.replace({'P_SAFE': dict_psafe})
data

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,...,P_ISEV,P_SAFE,P_USER,A_PFEM,A_PMAS,A_PERS,A_PKID,A_PYOU,A_PADU,A_POLD
0,1999,01,1,20,2,02,34,UU,1,5,...,1,,1,0,1,1,0,0,1,0
1,1999,01,1,20,2,02,34,UU,1,5,...,1,,1,0,1,1,0,1,0,0
2,1999,01,1,20,2,02,34,UU,1,5,...,2,1,2,1,0,1,0,1,0,0
3,1999,01,1,08,2,01,01,UU,5,3,...,1,,1,0,1,1,0,0,1,0
4,1999,01,1,08,2,01,01,UU,5,3,...,2,,3,0,1,1,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5860400,2014,UU,U,UU,2,UU,UU,01,U,U,...,1,1,1,0,1,1,0,1,0,0
5860401,2014,UU,U,23,2,01,06,05,1,1,...,2,1,5,0,1,1,0,0,1,0
5860402,2014,UU,U,14,2,01,02,01,1,5,...,2,0,1,1,0,1,0,0,0,0
5860403,2014,UU,U,22,1,01,06,01,2,4,...,3,0,U,0,1,1,0,0,0,1


Cuando las variables se agrupen por accidentes en el dataframe definitivo para la modelización, esta variable se transformará como porcentaje sobre el total de individuos implicados en cada accidente.

### Variables C_YEAR y V_YEAR

La siguiente transformación a realizar será determinar la antigüedad del vehículo implicado en la colisión mediante la fecha de colisión y la fecha de antigüedad del vehículo. Poseriormente dichas columnas serán eliminadas, ya que tanto el año del accidente como el año de fabricación del vehículo realmente no son un factor determinante en una colisión, mientras que la nueva variable estimada sí puede aportar información adicional sobre el accidente.

In [45]:
# creamos una columna que nos informe de la antigüedad del vehículo 
data['A_VAGE'] = data['C_YEAR'] - pd.to_numeric(data['V_YEAR'], errors='coerce')
data

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,...,P_SAFE,P_USER,A_PFEM,A_PMAS,A_PERS,A_PKID,A_PYOU,A_PADU,A_POLD,A_VAGE
0,1999,01,1,20,2,02,34,UU,1,5,...,,1,0,1,1,0,0,1,0,9.0
1,1999,01,1,20,2,02,34,UU,1,5,...,,1,0,1,1,0,1,0,0,12.0
2,1999,01,1,20,2,02,34,UU,1,5,...,1,2,1,0,1,0,1,0,0,12.0
3,1999,01,1,08,2,01,01,UU,5,3,...,,1,0,1,1,0,0,1,0,13.0
4,1999,01,1,08,2,01,01,UU,5,3,...,,3,0,1,1,1,0,0,0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5860400,2014,UU,U,UU,2,UU,UU,01,U,U,...,1,1,0,1,1,0,1,0,0,
5860401,2014,UU,U,23,2,01,06,05,1,1,...,1,5,0,1,1,0,0,1,0,8.0
5860402,2014,UU,U,14,2,01,02,01,1,5,...,0,1,1,0,1,0,0,0,0,8.0
5860403,2014,UU,U,22,1,01,06,01,2,4,...,0,U,0,1,1,0,0,0,1,


### Variable V_TYPE

Por último, se intentará determinar los distintos tipos de vehículos implicados en cada accidente, simplificando la información recogida en la variable V_TYPE. Las categorías en las que se ha simplificado la variable:
* 1: vehículos ligeros
* 2: vehículos de carga ligeros(furgonetas, camiones con un peso bruto inferior a 4536 Kg)
* 3: vehículos de carga pesados (camiones con un peso bruto superior a 4536 Kg)
* 4: vehículos de transporte de personas (autobús escolar, autobús urbano e interurbano)
* 5: motocicletas y ciclomotores
* 6: bicicletas
* 7: otros 

Las distintas variables generadas en el proceso serán:
* A_CAR : vehículos ligeros involucrados en cada accidente
* A_LVAN: vehículos de carga ligeros(furgonetas, camiones con un peso bruto inferior a 4536 Kg) involucrados en cada accidente
* A_TRUC: vehículos de carga pesados (camiones con un peso bruto superior a 4536 Kg) involucrados en cada accidente
* A_BUS: vehículos de transporte de personas (autobús escolar, autobús urbano e interurbano) involucrados en cada accidente
* A_MOT: motocicletas y ciclomotores involucrados en cada accidente
* A_BYC: bicicletas involucrados en cada accidente
* A_VOTH: otros vehículos involucrados en cada accidente

In [46]:
# Transformamos las distintas categorías de la variable original, simplificándola
dict_vtype = {
        "01": '1',
        "05": '2',
        "06": '2',
        "07": '3',
        "08": '7',
        "09": '4',
        "10": '4',
        "11": '4',
        "14": '5',
        "16": '7',
        "17": '6',
        "18": '7',
        "19": '7',
        "20": '7',
        "21": '7',
        "22": '7',
        "23": '7',
        "NN": '7',
        "QQ": '7',
        "UU": pd.NA,
        "XX": pd.NA
}

data = data.replace({'V_TYPE': dict_vtype})
data

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,...,P_SAFE,P_USER,A_PFEM,A_PMAS,A_PERS,A_PKID,A_PYOU,A_PADU,A_POLD,A_VAGE
0,1999,01,1,20,2,02,34,UU,1,5,...,,1,0,1,1,0,0,1,0,9.0
1,1999,01,1,20,2,02,34,UU,1,5,...,,1,0,1,1,0,1,0,0,12.0
2,1999,01,1,20,2,02,34,UU,1,5,...,1,2,1,0,1,0,1,0,0,12.0
3,1999,01,1,08,2,01,01,UU,5,3,...,,1,0,1,1,0,0,1,0,13.0
4,1999,01,1,08,2,01,01,UU,5,3,...,,3,0,1,1,1,0,0,0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5860400,2014,UU,U,UU,2,UU,UU,01,U,U,...,1,1,0,1,1,0,1,0,0,
5860401,2014,UU,U,23,2,01,06,05,1,1,...,1,5,0,1,1,0,0,1,0,8.0
5860402,2014,UU,U,14,2,01,02,01,1,5,...,0,1,1,0,1,0,0,0,0,8.0
5860403,2014,UU,U,22,1,01,06,01,2,4,...,0,U,0,1,1,0,0,0,1,


In [47]:
# Realizamos un one hot encoding sobre V_TYPE para determinar los distintos tipos de vehículos por accidente
vtype_enc = pd.get_dummies(data['V_TYPE'])
data = data.join(vtype_enc)
data

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,...,A_PADU,A_POLD,A_VAGE,1,2,3,4,5,6,7
0,1999,01,1,20,2,02,34,UU,1,5,...,1,0,9.0,0,1,0,0,0,0,0
1,1999,01,1,20,2,02,34,UU,1,5,...,0,0,12.0,1,0,0,0,0,0,0
2,1999,01,1,20,2,02,34,UU,1,5,...,0,0,12.0,1,0,0,0,0,0,0
3,1999,01,1,08,2,01,01,UU,5,3,...,1,0,13.0,1,0,0,0,0,0,0
4,1999,01,1,08,2,01,01,UU,5,3,...,0,0,,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5860400,2014,UU,U,UU,2,UU,UU,01,U,U,...,0,0,,0,0,1,0,0,0,0
5860401,2014,UU,U,23,2,01,06,05,1,1,...,1,0,8.0,0,0,0,0,1,0,0
5860402,2014,UU,U,14,2,01,02,01,1,5,...,0,0,8.0,1,0,0,0,0,0,0
5860403,2014,UU,U,22,1,01,06,01,2,4,...,0,1,,0,0,0,0,0,0,1


In [48]:
# Renombramos las variables 
data = data.rename(columns={'1': 'A_CAR', '2': 'A_LVAN', '3': 'A_TRUC', '4': 'A_BUS', '5': 'A_MOT', '6': 'A_BYC', '7': 'A_VOTH'})
data

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,...,A_PADU,A_POLD,A_VAGE,A_CAR,A_LVAN,A_TRUC,A_BUS,A_MOT,A_BYC,A_VOTH
0,1999,01,1,20,2,02,34,UU,1,5,...,1,0,9.0,0,1,0,0,0,0,0
1,1999,01,1,20,2,02,34,UU,1,5,...,0,0,12.0,1,0,0,0,0,0,0
2,1999,01,1,20,2,02,34,UU,1,5,...,0,0,12.0,1,0,0,0,0,0,0
3,1999,01,1,08,2,01,01,UU,5,3,...,1,0,13.0,1,0,0,0,0,0,0
4,1999,01,1,08,2,01,01,UU,5,3,...,0,0,,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5860400,2014,UU,U,UU,2,UU,UU,01,U,U,...,0,0,,0,0,1,0,0,0,0
5860401,2014,UU,U,23,2,01,06,05,1,1,...,1,0,8.0,0,0,0,0,1,0,0
5860402,2014,UU,U,14,2,01,02,01,1,5,...,0,0,8.0,1,0,0,0,0,0,0
5860403,2014,UU,U,22,1,01,06,01,2,4,...,0,1,,0,0,0,0,0,0,1


## 02.Eliminación de variables con información redundante o irrelevante

Algunas de las variables que se recogen en el dataset contienen información ya recogida por otra variable, o bien, se considera que no aportan ningún valor sobre el modelo que se plantea. Por ello, se van a eliminar del conjunto de datos.
Las siguientes columnas se consideran innecesarias al no aportar información relevante para el modelo:
* V_ID y P_ID: los identificadores, tanto de personas como vehículos, no tienen ninguna capacidad explicativa sobre la mortalidad del accidente, ya que únicamente se utilizan a modo de índice sobre el número de vehículos y personas involucradas en cada accidente, información que además ya está contenida en otras variables.
* C_YEAR y V_YEAR: como se ha explicado anteriormente, ni el año de la colisión ni el de producción del vehículo se consideran relevantes, habiéndose creado una nueva variable de antigüedad del vehículo que recoge la información de ambas. C_YEAR, sin embargo, se eliminará tras hacer la agregación ya que es necesaria para diferenciar los distintos accidentes que se han producido durante el periodo de estudio.
* P_USER: tiene información ya contenida en las variables P_PSN y en V_TYPE, por lo que no aporta nignuna utilidad.
* P_PSN: se considera que a nivel agregado, esta variable no aporta suficiente valor al modelo, motivo por el cuál no será considerada.
* P_ISEV: detalla la información contenida en la variable que se utilizará como target C_SEV. Esta desagregación no se considera necesaria para la modelización sobre la posibilidad de fatalidad en un accidente.

Además de las variables codificadas anteriormente con el objetivo de prepararlas para poder agregar el dataframe a nivel de accidentes: P_SEX, P_AGE y V_TYPE. La variable P_SAFE se eliminará tras ser transformada a nivel agregado

In [49]:
unnecessary_columns = ['V_ID','P_ID','V_YEAR','P_USER', 'P_PSN', 'P_ISEV', 'P_SEX', 'P_AGE', 'V_TYPE']
# Eliminamos las variables innecesarias
data_cleaned = data.drop(unnecessary_columns,1)
data_cleaned

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,...,A_PADU,A_POLD,A_VAGE,A_CAR,A_LVAN,A_TRUC,A_BUS,A_MOT,A_BYC,A_VOTH
0,1999,01,1,20,2,02,34,UU,1,5,...,1,0,9.0,0,1,0,0,0,0,0
1,1999,01,1,20,2,02,34,UU,1,5,...,0,0,12.0,1,0,0,0,0,0,0
2,1999,01,1,20,2,02,34,UU,1,5,...,0,0,12.0,1,0,0,0,0,0,0
3,1999,01,1,08,2,01,01,UU,5,3,...,1,0,13.0,1,0,0,0,0,0,0
4,1999,01,1,08,2,01,01,UU,5,3,...,0,0,,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5860400,2014,UU,U,UU,2,UU,UU,01,U,U,...,0,0,,0,0,1,0,0,0,0
5860401,2014,UU,U,23,2,01,06,05,1,1,...,1,0,8.0,0,0,0,0,1,0,0
5860402,2014,UU,U,14,2,01,02,01,1,5,...,0,0,8.0,1,0,0,0,0,0,0
5860403,2014,UU,U,22,1,01,06,01,2,4,...,0,1,,0,0,0,0,0,0,1


## 03. Agregación del dataset por accidente y tratamiento de variables agregadas

In [63]:
# Extraemos las columnas que contienen información sobre la colisión 
c_cols = [col for col in data_cleaned.columns if col[0]=="C"]
# Agregamos los datos en función de estas columnas, agrupando por accidentes
data_agg = data_cleaned.groupby(c_cols).agg({'P_SAFE' : 'sum', 'A_PFEM': 'sum', 'A_PMAS': 'sum',
                                             'A_PERS': 'sum', 'A_PKID': 'sum', 'A_PYOU': 'sum',
                                             'A_PADU': 'sum', 'A_POLD': 'sum', 'A_VAGE': np.mean,
                                             'A_CAR': 'sum', 'A_LVAN': 'sum', 'A_TRUC': 'sum',
                                             'A_BUS': 'sum', 'A_MOT': 'sum', 'A_BYC': 'sum', 'A_VOTH': 'sum'}).reset_index()
data_agg

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,...,A_PADU,A_POLD,A_VAGE,A_CAR,A_LVAN,A_TRUC,A_BUS,A_MOT,A_BYC,A_VOTH
0,1999,01,1,00,2,01,01,01,1,4,...,0,0,8.0,0,1,0,0,0,0,0
1,1999,01,1,00,2,01,01,01,1,5,...,1,0,18.0,1,0,0,0,0,0,0
2,1999,01,1,00,2,01,01,01,2,1,...,0,0,9.0,1,0,0,0,0,0,0
3,1999,01,1,00,2,01,01,01,6,3,...,1,0,,1,0,0,0,0,0,1
4,1999,01,1,00,2,01,01,UU,1,2,...,1,0,13.0,1,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1850390,2014,12,7,UU,2,02,UU,02,U,U,...,0,0,8.0,2,0,0,0,0,0,0
1850391,2014,UU,U,14,2,01,02,01,1,5,...,0,0,8.0,1,0,0,0,0,0,0
1850392,2014,UU,U,22,1,01,06,01,2,4,...,0,1,,0,0,0,0,0,0,2
1850393,2014,UU,U,23,2,01,06,05,1,1,...,1,0,8.0,0,0,0,0,1,0,0


### Variable P_SAFE

Como se ha descrito anteriormente, con el objetivo de incrementar el valor de la variable, se va a estimar como porcentaje sobre el total de individuos involucrados en el accidente creándose una nueva variable A_PSAF que recoja esta información y eliminándose la anterior P_SAFE.
Asimismo, como se ha comentado anteriormente, se eliminará la variable C_YEAR ya que se considera que no aporta información relevante al modelo.

In [17]:
data_agg['A_PSAF'] = data_agg['P_SAFE']/data_agg['A_PERS']
data_agg = data_agg.drop(['C_YEAR','P_SAFE'], axis=1)
data_agg

Unnamed: 0,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,C_RALN,...,A_POLD,A_VAGE,A_CAR,A_LVAN,A_TRUC,A_BUS,A_MOT,A_BYC,A_VOTH,A_PSAF
0,01,1,00,2,01,01,01,1,4,1,...,0,8.0,0,1,0,0,0,0,0,1.0
1,01,1,00,2,01,01,01,1,5,1,...,0,18.0,1,0,0,0,0,0,0,0.0
2,01,1,00,2,01,01,01,2,1,1,...,0,9.0,1,0,0,0,0,0,0,1.0
3,01,1,00,2,01,01,01,6,3,2,...,0,,1,0,0,0,0,0,1,0.0
4,01,1,00,2,01,01,UU,1,2,3,...,0,13.0,1,0,0,0,0,0,0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1850390,12,7,UU,2,02,UU,02,U,U,1,...,0,8.0,2,0,0,0,0,0,0,1.0
1850391,UU,U,14,2,01,02,01,1,5,4,...,0,8.0,1,0,0,0,0,0,0,0.0
1850392,UU,U,22,1,01,06,01,2,4,Q,...,1,,0,0,0,0,0,0,2,0.0
1850393,UU,U,23,2,01,06,05,1,1,U,...,0,8.0,0,0,0,0,1,0,0,1.0


### Variable C_HOUR

A continuación, vamos a transformar la variable que recoge información sobre la hora en la que se produjeron las distintas colisiones. Originalmente, esta variable recoge las horas en las que se produjeron los accidentes, sin embargo, se considera que agregando la información en tramos horarios, puede aportar un mayor valor al modelo que considerando de manera independiente cada hora. Las categorías generadas son las siguientes:
* Madrugada (de 00:00-6:00)
* Mañana (6:00-12:00)
* Tarde (12:00-18:00)
* Tarde-noche (18:00-24:00)

Para ello se ha utilizado la función definida con este propósito, en el apartado correspondiente

In [18]:
# Aplicamos la función transdorm_hour a la columna de la hora de colisión
data_agg['C_HOUR'] = data_agg['C_HOUR'].apply(transform_hour) 
data_agg

Unnamed: 0,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,C_RALN,...,A_POLD,A_VAGE,A_CAR,A_LVAN,A_TRUC,A_BUS,A_MOT,A_BYC,A_VOTH,A_PSAF
0,01,1,0,2,01,01,01,1,4,1,...,0,8.0,0,1,0,0,0,0,0,1.0
1,01,1,0,2,01,01,01,1,5,1,...,0,18.0,1,0,0,0,0,0,0,0.0
2,01,1,0,2,01,01,01,2,1,1,...,0,9.0,1,0,0,0,0,0,0,1.0
3,01,1,0,2,01,01,01,6,3,2,...,0,,1,0,0,0,0,0,1,0.0
4,01,1,0,2,01,01,UU,1,2,3,...,0,13.0,1,0,0,0,0,0,0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1850390,12,7,,2,02,UU,02,U,U,1,...,0,8.0,2,0,0,0,0,0,0,1.0
1850391,UU,U,2,2,01,02,01,1,5,4,...,0,8.0,1,0,0,0,0,0,0,0.0
1850392,UU,U,3,1,01,06,01,2,4,Q,...,1,,0,0,0,0,0,0,2,0.0
1850393,UU,U,3,2,01,06,05,1,1,U,...,0,8.0,0,0,0,0,1,0,0,1.0


## 04. Tratamiento de valores indeterminados

En el dataset se incluyen algunas categorías de cada una de las variables, representadas por combinaciones de letras (UU, NN, QQ...). En este apartado se pretende asignarles un valor, ya sea inputándoles como missing o con un valor extremo de la escala dentro de la variable a la que pertenecen.
Con este propósito se ha diferenciado entre dos tipos de valores indeterminados:
* Valores missing: aquellos pertenecientes a las categorías de unknown (U), Data element is not applicable (N), Jurisdiction does not provide this data element (X).
* Valores dentro de la escala: aquellos pertenecientes a la categoría de Choice is other than the preceding values (Q), ya que realmente sí aportan información sobre la variable. En este caso, se ha obtado por asignar el valor inmediatamente siguiente al mayor de los valores de la escala de la variable a la que pertenecen.

En primer lugar, debido a que únicamente las variables categóricas pueden tener valores Q, vamos a diferenciar entre los distintos tipos de variables disponibles.

Asimismo, a la hora de inputar los valores NA, se ha tenido en cuenta por motivos computacionales de capacidad, que únicamente es necesario asignarlos a las variables categóricas, ya que en el caso de las numéricas cuando posteriormente se especifique el tipo de variable, automáticamente los valores no numéricos son asignados como NA.

In [22]:
# Tipos de variables
target_column = ["C_SEV"]  #variable objetivo
int_types = ["C_VEHS","A_PFEM", "A_PMAS", 'A_PERS',"A_PKID", "A_PYOU",
            "A_PADU", "A_POLD", "A_VAGE","A_CAR", "A_LVAN",  "A_TRUC",
            "A_BUS", "A_MOT", "A_BYC", "A_VOTH", "A_PSAF"] #variables numéricas
categories = [col for col in data_agg.columns if col not in int_types + target_column] #variables categóricas

In [23]:
categories

['C_MNTH',
 'C_WDAY',
 'C_HOUR',
 'C_CONF',
 'C_RCFG',
 'C_WTHR',
 'C_RSUR',
 'C_RALN',
 'C_TRAF']

In [24]:
nas = ["UU","XX","U","X","XXXX","NN","NNNN","N","UUUU"]
others = {
    "C_CONF": "42",
    "C_RCFG": "13",
    "C_WTHR": "8",
    "C_RSUR": "10",
    "C_RALN": "7",
    "C_TRAF": "19",
}

In [25]:
# Asignamos los valores de a los casos con "Choice is other than the preceding values" (Q)
for key,value in others.items():
    data_agg[key] = data_agg[key].replace(to_replace=r'^Q.*', value=value, regex=True)
data_agg

Unnamed: 0,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,C_RALN,...,A_POLD,A_VAGE,A_CAR,A_LVAN,A_TRUC,A_BUS,A_MOT,A_BYC,A_VOTH,A_PSAF
0,01,1,0,2,01,01,01,1,4,1,...,0,8.0,0,1,0,0,0,0,0,1.0
1,01,1,0,2,01,01,01,1,5,1,...,0,18.0,1,0,0,0,0,0,0,0.0
2,01,1,0,2,01,01,01,2,1,1,...,0,9.0,1,0,0,0,0,0,0,1.0
3,01,1,0,2,01,01,01,6,3,2,...,0,,1,0,0,0,0,0,1,0.0
4,01,1,0,2,01,01,UU,1,2,3,...,0,13.0,1,0,0,0,0,0,0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1850390,12,7,,2,02,UU,02,U,U,1,...,0,8.0,2,0,0,0,0,0,0,1.0
1850391,UU,U,2,2,01,02,01,1,5,4,...,0,8.0,1,0,0,0,0,0,0,0.0
1850392,UU,U,3,1,01,06,01,2,4,7,...,1,,0,0,0,0,0,0,2,0.0
1850393,UU,U,3,2,01,06,05,1,1,U,...,0,8.0,0,0,0,0,1,0,0,1.0


In [26]:
# Asignamos los valores na 
data_agg[categories] = data_agg[categories].replace(to_replace=rf'^({"|".join(nas)})',value=pd.NA,regex=True)
data_agg

Unnamed: 0,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,C_RALN,...,A_POLD,A_VAGE,A_CAR,A_LVAN,A_TRUC,A_BUS,A_MOT,A_BYC,A_VOTH,A_PSAF
0,01,1,0,2,01,01,01,1,4,1,...,0,8.0,0,1,0,0,0,0,0,1.0
1,01,1,0,2,01,01,01,1,5,1,...,0,18.0,1,0,0,0,0,0,0,0.0
2,01,1,0,2,01,01,01,2,1,1,...,0,9.0,1,0,0,0,0,0,0,1.0
3,01,1,0,2,01,01,01,6,3,2,...,0,,1,0,0,0,0,0,1,0.0
4,01,1,0,2,01,01,,1,2,3,...,0,13.0,1,0,0,0,0,0,0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1850390,12,7,,2,02,,02,,,1,...,0,8.0,2,0,0,0,0,0,0,1.0
1850391,,,2,2,01,02,01,1,5,4,...,0,8.0,1,0,0,0,0,0,0,0.0
1850392,,,3,1,01,06,01,2,4,7,...,1,,0,0,0,0,0,0,2,0.0
1850393,,,3,2,01,06,05,1,1,,...,0,8.0,0,0,0,0,1,0,0,1.0


## 05. Asignación del tipo de las variables

A continuación, para poder trabajar posteriomente con la información del dataset, se va a indicar el tipo de variables que es cada una de las recogidas en el conjunto de datos.

In [28]:
data_agg.dtypes.to_dict()

{'C_MNTH': dtype('O'),
 'C_WDAY': dtype('O'),
 'C_HOUR': dtype('O'),
 'C_SEV': dtype('int64'),
 'C_VEHS': dtype('O'),
 'C_CONF': dtype('O'),
 'C_RCFG': dtype('O'),
 'C_WTHR': dtype('O'),
 'C_RSUR': dtype('O'),
 'C_RALN': dtype('O'),
 'C_TRAF': dtype('O'),
 'A_PFEM': dtype('uint8'),
 'A_PMAS': dtype('uint8'),
 'A_PERS': dtype('uint8'),
 'A_PKID': dtype('uint8'),
 'A_PYOU': dtype('uint8'),
 'A_PADU': dtype('uint8'),
 'A_POLD': dtype('uint8'),
 'A_VAGE': dtype('float64'),
 'A_CAR': dtype('uint8'),
 'A_LVAN': dtype('uint8'),
 'A_TRUC': dtype('uint8'),
 'A_BUS': dtype('uint8'),
 'A_MOT': dtype('uint8'),
 'A_BYC': dtype('uint8'),
 'A_VOTH': dtype('uint8'),
 'A_PSAF': dtype('float64')}

In [29]:
data_agg[int_types] = data_agg[int_types].apply(pd.to_numeric, errors='coerce',downcast='integer')
data_agg[categories] = data_agg[categories].astype('category')

In [31]:
data_agg.dtypes.to_dict()

{'C_MNTH': CategoricalDtype(categories=['01', '02', '03', '04', '05', '06', '07', '08', '09', '10',
                   '11', '12'],
 , ordered=False),
 'C_WDAY': CategoricalDtype(categories=['1', '2', '3', '4', '5', '6', '7'], ordered=False),
 'C_HOUR': CategoricalDtype(categories=['0', '1', '2', '3'], ordered=False),
 'C_SEV': dtype('int64'),
 'C_VEHS': dtype('float64'),
 'C_CONF': CategoricalDtype(categories=['01', '02', '03', '04', '05', '06', '21', '22', '23', '24',
                   '25', '31', '32', '33', '34', '35', '36', '41', '42'],
 , ordered=False),
 'C_RCFG': CategoricalDtype(categories=['01', '02', '03', '04', '05', '06', '07', '08', '09', '10',
                   '13'],
 , ordered=False),
 'C_WTHR': CategoricalDtype(categories=['1', '2', '3', '4', '5', '6', '7', '8'], ordered=False),
 'C_RSUR': CategoricalDtype(categories=['1', '10', '2', '3', '4', '5', '6', '7', '8', '9'], ordered=False),
 'C_RALN': CategoricalDtype(categories=['1', '2', '3', '4', '5', '6', '7'], ordere

## 06. Tratamiento inicial de la variable objetivo

En este apartado, se modificará los valores de la variable objetivo, transformándola en categórica con valores:
* 1: Collision producing at least one fatality 
* 0: Cualquier otro caso

Por último se establecerá como nuevo índice del dataframe

In [32]:
data_agg[target_column] = data_agg[target_column].replace({2: 0, 1: 1})

In [33]:
data_agg[target_column] = data_agg[target_column].astype('category')

In [34]:
data_agg = data_agg.set_index(target_column)
data_agg

Unnamed: 0_level_0,C_MNTH,C_WDAY,C_HOUR,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,C_RALN,C_TRAF,...,A_POLD,A_VAGE,A_CAR,A_LVAN,A_TRUC,A_BUS,A_MOT,A_BYC,A_VOTH,A_PSAF
C_SEV,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,01,1,0,1.0,01,01,1,4,1,18,...,0,8.0,0,1,0,0,0,0,0,1.0
0,01,1,0,1.0,01,01,1,5,1,18,...,0,18.0,1,0,0,0,0,0,0,0.0
0,01,1,0,1.0,01,01,2,1,1,18,...,0,9.0,1,0,0,0,0,0,0,1.0
0,01,1,0,1.0,01,01,6,3,2,18,...,0,,1,0,0,0,0,0,1,0.0
0,01,1,0,1.0,01,,1,2,3,18,...,0,13.0,1,0,0,0,0,0,0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
0,12,7,,2.0,,02,,,1,03,...,0,8.0,2,0,0,0,0,0,0,1.0
0,,,2,1.0,02,01,1,5,4,18,...,0,8.0,1,0,0,0,0,0,0,0.0
1,,,3,1.0,06,01,2,4,7,18,...,1,,0,0,0,0,0,0,2,0.0
0,,,3,1.0,06,05,1,1,,18,...,0,8.0,0,0,0,0,1,0,0,1.0


In [35]:
data_agg.dtypes.to_dict()

{'C_MNTH': CategoricalDtype(categories=['01', '02', '03', '04', '05', '06', '07', '08', '09', '10',
                   '11', '12'],
 , ordered=False),
 'C_WDAY': CategoricalDtype(categories=['1', '2', '3', '4', '5', '6', '7'], ordered=False),
 'C_HOUR': CategoricalDtype(categories=['0', '1', '2', '3'], ordered=False),
 'C_VEHS': dtype('float64'),
 'C_CONF': CategoricalDtype(categories=['01', '02', '03', '04', '05', '06', '21', '22', '23', '24',
                   '25', '31', '32', '33', '34', '35', '36', '41', '42'],
 , ordered=False),
 'C_RCFG': CategoricalDtype(categories=['01', '02', '03', '04', '05', '06', '07', '08', '09', '10',
                   '13'],
 , ordered=False),
 'C_WTHR': CategoricalDtype(categories=['1', '2', '3', '4', '5', '6', '7', '8'], ordered=False),
 'C_RSUR': CategoricalDtype(categories=['1', '10', '2', '3', '4', '5', '6', '7', '8', '9'], ordered=False),
 'C_RALN': CategoricalDtype(categories=['1', '2', '3', '4', '5', '6', '7'], ordered=False),
 'C_TRAF': Categ

In [36]:
# Guardar el dataset transformado
data_agg.to_csv("data/pd_data_initial_preprocessing.csv")