# Tratamiento de nulos en el campo Edad
Siguiendo el trabajo de mi compañero Luca, existen muchos valores nulos en el campo de edad que habrá de tratar.

## Hipótesis
La predicción de la edad solo será la del conductor, que es quién determina lógicamente tiene más correlación con el número de accidentes.

Para predecir el campo de la edad se tendrán en cuenta las siguientes variables del csv Accidentes_20XX
1. La edad de los demás pasajeros: La edad de los demás pasajeros guarda relación con la edad del conductor. Un conductor jóven es más improbable que lleve a pasajeros menores de edad que un conductor más mayor.
2. La fecha y hora del accidente: Es posible que la fecha y la hora guarde alguna relación con la edad del conductor.
3. El distrito: Es posible que algunos distritos tengan conductores más jóvenes y otros conductores más mayores.
4. Género: Es posible que existan distinta distribución por edad en relación con el género.
5. Tipo de accidente: Es posible que los jóvenes tengan más accidentes de un tipo que los mayores.
6. Drogas y alcohol: Es posible que los jóvenes sean más propensos a conducir bajo influencia de drogas que las personas más mayores.

A continuación se seleccionan los campos a tratar en el dataframe y se proporciona una vista previa a fin de refrescar al lector sobre la estructura de los datos

In [18]:
import pandas as pd
accidentes_2022 = pd.read_csv('./Datasets/2022_Accidentalidad.csv', sep = ';')
accidentes_2022.head()

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,...,rango_edad,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga,Unnamed: 19,Unnamed: 20
0,2022S000001,01/01/2022,1:30:00,"AVDA. ALBUFERA, 19",19,13,PUENTE DE VALLECAS,Alcance,Despejado,Turismo,...,De 30 a 34 años,Mujer,,,443359226,4472082272,N,,,
1,2022S000001,01/01/2022,1:30:00,"AVDA. ALBUFERA, 19",19,13,PUENTE DE VALLECAS,Alcance,Despejado,Turismo,...,De 45 a 49 años,Hombre,,,443359226,4472082272,N,,,
2,2022S000002,01/01/2022,0:30:00,PLAZA. CANOVAS DEL CASTILLO / PASEO. PRADO,2,3,RETIRO,Colisión fronto-lateral,,Motocicleta hasta 125cc,...,De 30 a 34 años,Hombre,,,441155351,4474129588,S,,,
3,2022S000002,01/01/2022,0:30:00,PLAZA. CANOVAS DEL CASTILLO / PASEO. PRADO,2,3,RETIRO,Colisión fronto-lateral,,Motocicleta hasta 125cc,...,De 35 a 39 años,Mujer,,,441155351,4474129588,N,,,
4,2022S000002,01/01/2022,0:30:00,PLAZA. CANOVAS DEL CASTILLO / PASEO. PRADO,2,3,RETIRO,Colisión fronto-lateral,,Turismo,...,De 40 a 44 años,Hombre,,,441155351,4474129588,N,,,


A continuación, se extraen los campos num_expediente, fecha y hora, distrito, género, tipo de accidente, drogas y alcohol

In [24]:
df_2022 = accidentes_2022.drop(columns=['coordenada_x_utm', 'coordenada_y_utm', 'localizacion', 'numero', 'cod_lesividad', 'Unnamed: 19', 'Unnamed: 20', 'estado_meteorológico', 'lesividad'])
df_2022.head()

Unnamed: 0,num_expediente,fecha,hora,cod_distrito,distrito,tipo_accidente,tipo_vehiculo,tipo_persona,rango_edad,sexo,positiva_alcohol,positiva_droga
0,2022S000001,01/01/2022,1:30:00,13,PUENTE DE VALLECAS,Alcance,Turismo,Conductor,De 30 a 34 años,Mujer,N,
1,2022S000001,01/01/2022,1:30:00,13,PUENTE DE VALLECAS,Alcance,Turismo,Conductor,De 45 a 49 años,Hombre,N,
2,2022S000002,01/01/2022,0:30:00,3,RETIRO,Colisión fronto-lateral,Motocicleta hasta 125cc,Conductor,De 30 a 34 años,Hombre,S,
3,2022S000002,01/01/2022,0:30:00,3,RETIRO,Colisión fronto-lateral,Motocicleta hasta 125cc,Pasajero,De 35 a 39 años,Mujer,N,
4,2022S000002,01/01/2022,0:30:00,3,RETIRO,Colisión fronto-lateral,Turismo,Conductor,De 40 a 44 años,Hombre,N,


Existe un dato redundante, que es el distrito. Se sustituirá por su correspondiente código. Pero antes, vamos a verificar que no existe ningún nulo en la columna cod_distrito

In [20]:
df_2022['cod_distrito'].count() == df_2022['num_expediente'].count()

True

Por tanto, existen tantos no nulos como números de expediente en cod_distrito. Podemos eliminar la columna distrito.

In [25]:
df_2022.pop('distrito')
df_2022.head()

Unnamed: 0,num_expediente,fecha,hora,cod_distrito,tipo_accidente,tipo_vehiculo,tipo_persona,rango_edad,sexo,positiva_alcohol,positiva_droga
0,2022S000001,01/01/2022,1:30:00,13,Alcance,Turismo,Conductor,De 30 a 34 años,Mujer,N,
1,2022S000001,01/01/2022,1:30:00,13,Alcance,Turismo,Conductor,De 45 a 49 años,Hombre,N,
2,2022S000002,01/01/2022,0:30:00,3,Colisión fronto-lateral,Motocicleta hasta 125cc,Conductor,De 30 a 34 años,Hombre,S,
3,2022S000002,01/01/2022,0:30:00,3,Colisión fronto-lateral,Motocicleta hasta 125cc,Pasajero,De 35 a 39 años,Mujer,N,
4,2022S000002,01/01/2022,0:30:00,3,Colisión fronto-lateral,Turismo,Conductor,De 40 a 44 años,Hombre,N,


Para poder tratar correctamente con los datos, vamos a convertir todos los datos posibles en números. Empezamos por positivo_alcohol y positivo_droga, que se cambiarán por 0 y 1.

Esta parte del código nos la propociona el compañero Luca