# Análisis de datos en el ecosistema Python

### 22/04/2023

## Análisis de accidentes de tráfico en la ciudad de Madrid

La ciudad de Madrid es una de las más grandes y transitadas de España, lo que la convierte en un lugar propenso a **accidentes de tráfico**. En este trabajo, se realizará un análisis de datos de los **accidentes de tráfico** registrados en la ciudad de **Madrid** por la Policía Municipal **desde 2019 hasta el presente año 2023**.

Gracias a la **web de [Datos Abiertos del Ayuntamiento de Madrid](https://datos.madrid.es/portal/site/egob/menuitem.400a817358ce98c34e937436a8a409a0/?vgnextoid=eba412b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextchannel=eba412b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextfmt=default)**, los datos de accidentalidad en la ciudad de Madrid están públicamente disponibles e incluyen **datos históricos desde 2010 hasta la actualidad**.

Vamos a utilizar **una muestra** que se ha preparado en base a estos datos que muestran los **accidentes de tráfico** en la ciudad de **Madrid** según diferentes variables. Se incluye un registro por persona implicada en el accidente.

El objetivo de este análisis es **determinar patrones y tendencias** en los accidentes de tráfico para poder entender mejor las causas de estos incidentes y **tomar medidas para prevenirlos**. Para ello, se utilizarán herramientas de **análisis de datos en Python**, lo que permitirá una exploración detallada de los datos y la generación de gráficos y estadísticas relevantes.

In [154]:
# importamos las librerías necesarias 
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import datetime as dt
%matplotlib inline

In [155]:
# Modificamos los parámetros de los gráficos en matplotlib
from matplotlib.pyplot import rcParams

rcParams['figure.figsize'] = 12, 6 # el primer dígito es el ancho y el segundo el alto
rcParams["font.weight"] = "bold"
rcParams["font.size"] = 10
rcParams["axes.labelweight"] = "bold"

### Cargar los datospara el modelo

In [156]:
# Cargar el dataset desde un archivo
df_accidentes = pd.read_csv('../data/2023-2019_Accidentalidad.csv',delimiter=';',on_bad_lines='skip')

In [157]:
# Consultar los resgistro de DataFrame
df_accidentes

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga
0,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Conductor,De 55 a 59 años,Mujer,14.0,Sin asistencia sanitaria,443397166,4478129388,N,
1,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,De 21 a 24 años,Hombre,14.0,Sin asistencia sanitaria,443397166,4478129388,N,
2,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,De 21 a 24 años,Hombre,14.0,Sin asistencia sanitaria,443397166,4478129388,N,
3,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,De 21 a 24 años,Mujer,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,
4,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,De 55 a 59 años,Hombre,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
138210,2019S039993,10/11/2019,11:00:00,PLAZA. ELIPTICA / CALL. MARCELO USERA,1,12.0,USERA,Colisión lateral,Despejado,Turismo,Pasajero,De 60 a 64 años,Mujer,14.0,Sin asistencia sanitaria,439115482,4470746354,N,
138211,2019S040001,13/03/2019,12:47:00,"CALL. ALFONSO FERNANDEZ CLAUSELLS, 7",7,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,Despejado,Turismo,Conductor,Desconocido,Desconocido,,,438541541,4479292853,N,
138212,2019S040001,13/03/2019,12:47:00,"CALL. ALFONSO FERNANDEZ CLAUSELLS, 7",7,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,Despejado,Turismo,Conductor,Más de 74 años,Mujer,,,438541541,4479292853,N,
138213,2019S040007,03/11/2019,10:10:00,"CALL. HALCONERO DEL REY, 0",0,11.0,CARABANCHEL,Colisión fronto-lateral,Despejado,Turismo,Conductor,De 25 a 29 años,Mujer,,,438343989,4468673466,N,


In [158]:
# Contar datos perdidio/fantantes
df_accidentes.isna().sum()

num_expediente               0
fecha                        0
hora                         0
localizacion                 0
numero                       6
cod_distrito                 6
distrito                     6
tipo_accidente               4
estado_meteorológico     14169
tipo_vehiculo              464
tipo_persona                 3
rango_edad                   0
sexo                         0
cod_lesividad            61455
lesividad                61455
coordenada_x_utm             4
coordenada_y_utm             4
positiva_alcohol           430
positiva_droga          137832
dtype: int64

In [159]:
# La información útil sobre los datos guardados en formato dataFrame
df_accidentes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 138215 entries, 0 to 138214
Data columns (total 19 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   num_expediente        138215 non-null  object 
 1   fecha                 138215 non-null  object 
 2   hora                  138215 non-null  object 
 3   localizacion          138215 non-null  object 
 4   numero                138209 non-null  object 
 5   cod_distrito          138209 non-null  float64
 6   distrito              138209 non-null  object 
 7   tipo_accidente        138211 non-null  object 
 8   estado_meteorológico  124046 non-null  object 
 9   tipo_vehiculo         137751 non-null  object 
 10  tipo_persona          138212 non-null  object 
 11  rango_edad            138215 non-null  object 
 12  sexo                  138215 non-null  object 
 13  cod_lesividad         76760 non-null   float64
 14  lesividad             76760 non-null   object 
 15  

In [160]:
# Consultar los datos perdido/nulo
df_accidentes['estado_meteorológico'].isna()

0         False
1         False
2         False
3         False
4         False
          ...  
138210    False
138211    False
138212    False
138213    False
138214    False
Name: estado_meteorológico, Length: 138215, dtype: bool

In [161]:
#Contar los valores nulos para este campo

df_accidentes['positiva_droga'].isna().sum()

137832

In [162]:
#Mostrar los valores nulos de este campo
df_accidentes['positiva_droga'][df_accidentes['positiva_droga'].isna()]

0        NaN
1        NaN
2        NaN
3        NaN
4        NaN
          ..
138210   NaN
138211   NaN
138212   NaN
138213   NaN
138214   NaN
Name: positiva_droga, Length: 137832, dtype: float64

In [163]:
df_accidentes['positiva_droga']= df_accidentes['positiva_droga'].fillna(0)

In [164]:
df_accidentes

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga
0,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Conductor,De 55 a 59 años,Mujer,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0
1,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,De 21 a 24 años,Hombre,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0
2,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,De 21 a 24 años,Hombre,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0
3,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,De 21 a 24 años,Mujer,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,0.0
4,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,De 55 a 59 años,Hombre,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
138210,2019S039993,10/11/2019,11:00:00,PLAZA. ELIPTICA / CALL. MARCELO USERA,1,12.0,USERA,Colisión lateral,Despejado,Turismo,Pasajero,De 60 a 64 años,Mujer,14.0,Sin asistencia sanitaria,439115482,4470746354,N,0.0
138211,2019S040001,13/03/2019,12:47:00,"CALL. ALFONSO FERNANDEZ CLAUSELLS, 7",7,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,Despejado,Turismo,Conductor,Desconocido,Desconocido,,,438541541,4479292853,N,0.0
138212,2019S040001,13/03/2019,12:47:00,"CALL. ALFONSO FERNANDEZ CLAUSELLS, 7",7,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,Despejado,Turismo,Conductor,Más de 74 años,Mujer,,,438541541,4479292853,N,0.0
138213,2019S040007,03/11/2019,10:10:00,"CALL. HALCONERO DEL REY, 0",0,11.0,CARABANCHEL,Colisión fronto-lateral,Despejado,Turismo,Conductor,De 25 a 29 años,Mujer,,,438343989,4468673466,N,0.0


In [165]:
#Consulta los registro que tienen algun valor nulo
df_accidentes.drop(df_accidentes.dropna().index)

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga
10,2023S000003,01/01/2023,2:00:00,"CUSTA. SAN VICENTE, 34",34,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,,Turismo,Conductor,De 45 a 49 años,Hombre,,,439187099,4474647474,N,0.0
12,2023S000004,01/01/2023,1:35:00,INTER. PLAZA DE CASTILLA / CALL. MATEO INURRIA,0,5.0,CHAMARTÍN,Alcance,Despejado,Turismo,Conductor,Desconocido,Desconocido,,,441564657,4479662718,N,0.0
18,2023S000007,01/01/2023,5:35:00,"CALL. ARROYO DE LA BULERA, 11A",11A,17.0,VILLAVERDE,Otro,Despejado,Turismo,Conductor,De 21 a 24 años,Hombre,,,442149475,4465639237,N,0.0
21,2023S000009,01/01/2023,6:15:00,CALL. CARABIAS / AUTOV. A-5,1,10.0,LATINA,Choque contra obstáculo fijo,,Turismo,Conductor,De 55 a 59 años,Hombre,,,43481993,4472083195,S,0.0
22,2023S000010,01/01/2023,1:50:00,"AVDA. LOGROÑO, 179",179,21.0,BARAJAS,Alcance,Despejado,Turismo,Conductor,De 21 a 24 años,Mujer,,,449521612,4478953903,N,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
138205,2019S039986,17/12/2019,15:36:00,"CALL. EMBAJADORES, 470",470,13.0,PUENTE DE VALLECAS,Otro,Despejado,Camión rígido,Conductor,De 45 a 49 años,Hombre,,,442426146,446895696,N,0.0
138211,2019S040001,13/03/2019,12:47:00,"CALL. ALFONSO FERNANDEZ CLAUSELLS, 7",7,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,Despejado,Turismo,Conductor,Desconocido,Desconocido,,,438541541,4479292853,N,0.0
138212,2019S040001,13/03/2019,12:47:00,"CALL. ALFONSO FERNANDEZ CLAUSELLS, 7",7,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,Despejado,Turismo,Conductor,Más de 74 años,Mujer,,,438541541,4479292853,N,0.0
138213,2019S040007,03/11/2019,10:10:00,"CALL. HALCONERO DEL REY, 0",0,11.0,CARABANCHEL,Colisión fronto-lateral,Despejado,Turismo,Conductor,De 25 a 29 años,Mujer,,,438343989,4468673466,N,0.0


In [166]:
# El tamanio esperado para el dataset limpio
df_accidentes.shape[0]-63167

75048

In [167]:
# Convertir la columna "fecha" a un objeto de tipo fecha
df_accidentes['fecha'] = pd.to_datetime(df_accidentes['fecha'], format='%d/%m/%Y')

# Extraer los componentes de fecha necesarios en tres nuevas columnas
df_accidentes['dia'] = df_accidentes['fecha'].dt.day
df_accidentes['mes'] = df_accidentes['fecha'].dt.month
df_accidentes['año'] = df_accidentes['fecha'].dt.year

# Verificar los resultados
print(df_accidentes.head())

df_accidentes

  num_expediente      fecha     hora            localizacion numero  \
0    2023S000001 2023-01-01  1:15:00  AVDA. ALFONSO XIII, 33     33   
1    2023S000001 2023-01-01  1:15:00  AVDA. ALFONSO XIII, 33     33   
2    2023S000001 2023-01-01  1:15:00  AVDA. ALFONSO XIII, 33     33   
3    2023S000001 2023-01-01  1:15:00  AVDA. ALFONSO XIII, 33     33   
4    2023S000001 2023-01-01  1:15:00  AVDA. ALFONSO XIII, 33     33   

   cod_distrito   distrito tipo_accidente estado_meteorológico tipo_vehiculo  \
0           5.0  CHAMARTÍN        Alcance            Despejado  Todo terreno   
1           5.0  CHAMARTÍN        Alcance            Despejado  Todo terreno   
2           5.0  CHAMARTÍN        Alcance            Despejado  Todo terreno   
3           5.0  CHAMARTÍN        Alcance            Despejado  Todo terreno   
4           5.0  CHAMARTÍN        Alcance            Despejado  Todo terreno   

   ...    sexo cod_lesividad  \
0  ...   Mujer          14.0   
1  ...  Hombre          14.0

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,...,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga,dia,mes,año
0,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,Mujer,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0,1,1,2023
1,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,Hombre,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0,1,1,2023
2,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,Hombre,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0,1,1,2023
3,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,Mujer,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,0.0,1,1,2023
4,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,Hombre,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,0.0,1,1,2023
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
138210,2019S039993,2019-11-10,11:00:00,PLAZA. ELIPTICA / CALL. MARCELO USERA,1,12.0,USERA,Colisión lateral,Despejado,Turismo,...,Mujer,14.0,Sin asistencia sanitaria,439115482,4470746354,N,0.0,10,11,2019
138211,2019S040001,2019-03-13,12:47:00,"CALL. ALFONSO FERNANDEZ CLAUSELLS, 7",7,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,Despejado,Turismo,...,Desconocido,,,438541541,4479292853,N,0.0,13,3,2019
138212,2019S040001,2019-03-13,12:47:00,"CALL. ALFONSO FERNANDEZ CLAUSELLS, 7",7,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,Despejado,Turismo,...,Mujer,,,438541541,4479292853,N,0.0,13,3,2019
138213,2019S040007,2019-11-03,10:10:00,"CALL. HALCONERO DEL REY, 0",0,11.0,CARABANCHEL,Colisión fronto-lateral,Despejado,Turismo,...,Mujer,,,438343989,4468673466,N,0.0,3,11,2019


In [168]:
# Eliminamos la columna fecha
df_accidentes.drop('fecha', axis=1, inplace=True)

In [182]:
df_accidentes["intervalo"] = 0

def obtener_hora(hora):
    partes = hora.split(":")
    return int(partes[0])

df_accidentes["intervalo"] = df_accidentes["hora"].apply(obtener_hora)


def asignar_intervalo(hora):
    return hora // 1  # Obtiene la parte entera de la hora, es decir, el intervalo horario correspondiente

    
df_accidentes["intervalo"] = df_accidentes["intervalo"].apply(asignar_intervalo)

df_accidentes.to_csv("archivo_con_intervalos.csv", index=False)


In [170]:
df_accidentes

Unnamed: 0,num_expediente,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,...,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga,dia,mes,año,intervalo
0,2023S000001,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Conductor,...,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0,1,1,2023,1
1,2023S000001,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,...,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0,1,1,2023,1
2,2023S000001,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,...,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0,1,1,2023,1
3,2023S000001,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,...,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,0.0,1,1,2023,1
4,2023S000001,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,...,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,0.0,1,1,2023,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
138210,2019S039993,11:00:00,PLAZA. ELIPTICA / CALL. MARCELO USERA,1,12.0,USERA,Colisión lateral,Despejado,Turismo,Pasajero,...,14.0,Sin asistencia sanitaria,439115482,4470746354,N,0.0,10,11,2019,11
138211,2019S040001,12:47:00,"CALL. ALFONSO FERNANDEZ CLAUSELLS, 7",7,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,Despejado,Turismo,Conductor,...,,,438541541,4479292853,N,0.0,13,3,2019,12
138212,2019S040001,12:47:00,"CALL. ALFONSO FERNANDEZ CLAUSELLS, 7",7,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,Despejado,Turismo,Conductor,...,,,438541541,4479292853,N,0.0,13,3,2019,12
138213,2019S040007,10:10:00,"CALL. HALCONERO DEL REY, 0",0,11.0,CARABANCHEL,Colisión fronto-lateral,Despejado,Turismo,Conductor,...,,,438343989,4468673466,N,0.0,3,11,2019,10


Para evitar problemas posteriores, usamos el método ``dropna()`` para limpiar el tablón de valores perdidos (**missing values**) y reiniciamos el índice. Comprobamos la cantidad de las filas filtradas.

In [171]:
df_accident_filt=df_accidentes.dropna().reset_index(drop=True)
df_accident_filt

Unnamed: 0,num_expediente,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,...,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga,dia,mes,año,intervalo
0,2023S000001,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Conductor,...,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0,1,1,2023,1
1,2023S000001,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,...,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0,1,1,2023,1
2,2023S000001,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,...,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0,1,1,2023,1
3,2023S000001,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,...,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,0.0,1,1,2023,1
4,2023S000001,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,...,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,0.0,1,1,2023,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
75043,2019S039987,14:45:00,AVDA. REINA VICTORIA / AVDA. PABLO IGLESIAS,21,7.0,CHAMBERÍ,Atropello a persona,Despejado,Motocicleta hasta 125cc,Conductor,...,7.0,Asistencia sanitaria sólo en el lugar del acci...,439961798,4477600669,N,0.0,16,11,2019,14
75044,2019S039987,14:45:00,AVDA. REINA VICTORIA / AVDA. PABLO IGLESIAS,21,7.0,CHAMBERÍ,Atropello a persona,Despejado,Motocicleta hasta 125cc,Peatón,...,7.0,Asistencia sanitaria sólo en el lugar del acci...,439961798,4477600669,N,0.0,16,11,2019,14
75045,2019S039993,11:00:00,PLAZA. ELIPTICA / CALL. MARCELO USERA,1,12.0,USERA,Colisión lateral,Despejado,Motocicleta hasta 125cc,Conductor,...,7.0,Asistencia sanitaria sólo en el lugar del acci...,439115482,4470746354,N,0.0,10,11,2019,11
75046,2019S039993,11:00:00,PLAZA. ELIPTICA / CALL. MARCELO USERA,1,12.0,USERA,Colisión lateral,Despejado,Turismo,Conductor,...,14.0,Sin asistencia sanitaria,439115482,4470746354,N,0.0,10,11,2019,11


In [172]:
df_accident_filt.info()
df_accident_filt['positiva_alcohol']

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 75048 entries, 0 to 75047
Data columns (total 22 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   num_expediente        75048 non-null  object 
 1   hora                  75048 non-null  object 
 2   localizacion          75048 non-null  object 
 3   numero                75048 non-null  object 
 4   cod_distrito          75048 non-null  float64
 5   distrito              75048 non-null  object 
 6   tipo_accidente        75048 non-null  object 
 7   estado_meteorológico  75048 non-null  object 
 8   tipo_vehiculo         75048 non-null  object 
 9   tipo_persona          75048 non-null  object 
 10  rango_edad            75048 non-null  object 
 11  sexo                  75048 non-null  object 
 12  cod_lesividad         75048 non-null  float64
 13  lesividad             75048 non-null  object 
 14  coordenada_x_utm      75048 non-null  object 
 15  coordenada_y_utm   

0        N
1        N
2        N
3        N
4        N
        ..
75043    N
75044    N
75045    N
75046    N
75047    N
Name: positiva_alcohol, Length: 75048, dtype: object

### Analisis

In [173]:
#La caracteristicas de cad columna
df_accident_filt.describe()

Unnamed: 0,cod_distrito,cod_lesividad,positiva_droga,dia,mes,año,intervalo
count,75048.0,75048.0,75048.0,75048.0,75048.0,75048.0,75048.0
mean,9.60376,9.925141,0.003997,15.787176,6.35957,2020.152542,14.301207
std,5.677768,4.737002,0.063099,8.84129,3.628251,1.183553,5.471384
min,1.0,1.0,0.0,1.0,1.0,2019.0,0.0
25%,5.0,7.0,0.0,8.0,3.0,2019.0,11.0
50%,9.0,14.0,0.0,16.0,6.0,2020.0,15.0
75%,14.0,14.0,0.0,24.0,10.0,2021.0,19.0
max,21.0,77.0,1.0,31.0,12.0,2023.0,23.0


In [174]:
#Consultamos el tipo de datos
df_accident_filt.dtypes

num_expediente           object
hora                     object
localizacion             object
numero                   object
cod_distrito            float64
distrito                 object
tipo_accidente           object
estado_meteorológico     object
tipo_vehiculo            object
tipo_persona             object
rango_edad               object
sexo                     object
cod_lesividad           float64
lesividad                object
coordenada_x_utm         object
coordenada_y_utm         object
positiva_alcohol         object
positiva_droga          float64
dia                       int64
mes                       int64
año                       int64
intervalo                 int64
dtype: object

Los algoritmos **entienden de números y no otra cosa!**, con lo cual para que el algoritmo pueda trabajar con toda la información del dataset, los datos se tienen que **transformar en valores numéricos**.

In [175]:
#Consultar las variables que son del tipo "string"
df_accident_filt.dtypes[df_accident_filt.dtypes=='object']

num_expediente          object
hora                    object
localizacion            object
numero                  object
distrito                object
tipo_accidente          object
estado_meteorológico    object
tipo_vehiculo           object
tipo_persona            object
rango_edad              object
sexo                    object
lesividad               object
coordenada_x_utm        object
coordenada_y_utm        object
positiva_alcohol        object
dtype: object

Nos interesa el tipo de accidentes, vehiculo ,persona ,levisidad y el positiva de alcohol

In [176]:
#Analizar las tipo de accidentes
df_accident_filt['tipo_accidente'].value_counts()

Colisión fronto-lateral         20955
Alcance                         18634
Atropello a persona              8406
Colisión lateral                 7801
Caída                            7578
Colisión múltiple                5081
Choque contra obstáculo fijo     3624
Colisión frontal                 1868
Otro                              499
Vuelco                            284
Solo salida de la vía             230
Atropello a animal                 83
Despeñamiento                       5
Name: tipo_accidente, dtype: int64

In [177]:
df_accident_filt['tipo_persona'].value_counts()

Conductor    56386
Pasajero     14269
Peatón        4393
Name: tipo_persona, dtype: int64

In [178]:
df_accident_filt['tipo_vehiculo'].value_counts()

Turismo                              47026
Motocicleta hasta 125cc               7309
Motocicleta > 125cc                   5772
Furgoneta                             4338
Bicicleta                             2177
Autobús                               2142
Ciclomotor                            1773
Camión rígido                         1130
Todo terreno                           965
VMU eléctrico                          829
Otros vehículos con motor              389
Bicicleta EPAC (pedaleo asistido)      269
Tractocamión                           178
Autobús articulado                     168
Maquinaria de obras                    136
Autobus EMT                             93
Vehículo articulado                     72
Ciclo                                   62
Sin especificar                         51
Patinete                                35
Cuadriciclo no ligero                   31
Cuadriciclo ligero                      30
Moto de tres ruedas > 125cc             20
Ciclomotor 

In [179]:
df_accident_filt['positiva_alcohol'].value_counts()

N    73339
S     1709
Name: positiva_alcohol, dtype: int64

En la lista ``columnas_drop`` definimos las columnas a eliminar del dataset por ser meramente informativas.

In [180]:
columnas_drop = ["num_expediente",
                 "fecha",
                 "hora",
                 "localizacion",
                 "numero",
                 "cod_distrito",
                 "distrito",
                 "sexo",
                 "rango_edad",
                 "estado_meteorológico"
                 ,"lesividad"
                 ]

Creamos un nuevo dataset que sea como el tablón anterior, eliminando las columnas de la lista indicada. Utilizamos el método `drop` para _DataFrames_ de _pandas_.

In [181]:
df_accident_filt2 = df_accident_filt.drop(columns=columnas_drop)
print("Tamaño del tablón filtrado: ", df_accident_filt.shape)
print("Tamaño del tablón nuevo: ", df_accident_filt2.shape)

KeyError: "['fecha'] not found in axis"

In [None]:
# Tipología de las variables exsitentes en el nuevo dataset
df_accident_filt2.dtypes.value_counts()

object     6
int64      3
float64    2
dtype: int64

In [None]:
from sklearn.preprocessing import LabelEncoder
etiquetado = LabelEncoder()
etiquetado.fit(df_accident_filt2['positiva_alcohol'])

ModuleNotFoundError: No module named 'sklearn'

In [None]:
etiquetado.classes_

array(['N', 'S'], dtype=object)

In [None]:
# Transformamos el dataset aplicando el mapeado:
etiquetado.transform(df_accident_filt2['positiva_alcohol'])

array([0, 0, 0, ..., 0, 0, 0])

In [None]:
# Asignar una nueva columna
df_accident_filt2['Positiva_alcohol']= etiquetado.transform(df_accident_filt2['positiva_alcohol'])


In [None]:
# Definimos un nuevo dataframe con solamente datos transformados a valores númericos.
df_accident_filt2 = df_accident_filt2.drop('positiva_alcohol', axis = 'columns')

# Consultar e tipo de las variables
df_accident_filt2.dtypes.value_counts()

object     5
float64    2
int64      1
dtype: int64

In [None]:
etiquetado.fit(df_accident_filt2['tipo_persona'])

In [None]:
etiquetado.transform(df_accident_filt2['tipo_persona'])

array([0, 1, 1, ..., 0, 0, 1])

In [None]:
df_accident_filt2['Tipo_persona'] = etiquetado.transform(df_accident_filt2['tipo_persona'])

df_accident_filt3 = df_accident_filt2.drop('tipo_persona',axis='columns')

In [None]:
# utilizamos estas listas como categorías para poder agruparlos.
coche = ['turismo','Todo terreno','Otros vehículos con motor','Moto de tres ruedas hasta 125cc']
moto = ['Motocicleta hasta 125cc','Motocicleta > 125cc','Moto de tres ruedas > 125cc',]
vehículos_grandes= ['Furgoneta','Autobús','Camión rígido','Tractocamión','Autobús articulado','Maquinaria de obras','Autobus EMT','Vehículo articulado','Autocaravana','Autobús articulado EMT','Microbús <= 17 plazas','Ambulancia SAMUR','Camión de bomberos']
ciclo = ['Ciclomotor','VMU eléctrico','Ciclo','Cuadriciclo no ligero','Cuadriciclo ligero','Ciclomotor de dos ruedas L1e-B','Ciclomotor de tres ruedas','Ciclo de motor L1e-A']
otro =['Bicicleta','Bicicleta EPAC (pedaleo asistido)','Sin especificar','Patinete','Otros vehículos sin motor','Maquinaria agrícola','Patinete no eléctrico','Remolque','Semiremolque']


In [None]:
df_accident_filt4 = df_accident_filt3.copy()

df_accident_filt4['tipo_vehiculo'] = df_accident_filt4['tipo_vehiculo'].apply(lambda x: 'coche' if x in coche else 
                                                                                                'vehiculo_grnade' if x in vehículos_grandes else
                                                                                                'moto' if x in moto else
                                                                                                'ciclo' if x in ciclo else
                                                                                                'otro' )

In [None]:
df_accident_filt4['tipo_vehiculo'].value_counts()
etiquetado.fit(df_accident_filt4['tipo_vehiculo'])

In [None]:
df_accident_filt4['Tipo_vehiculo'] = etiquetado.transform(df_accident_filt4['tipo_vehiculo'])
df_accident_filt4 = df_accident_filt4.drop('tipo_vehiculo',axis='columns')
df_accident_filt4

Unnamed: 0,tipo_accidente,cod_lesividad,coordenada_x_utm,coordenada_y_utm,positiva_droga,Positiva_alcohol,Tipo_persona,Tipo_vehiculo
0,Alcance,14.0,443397166,4478129388,0.0,0,0,1
1,Alcance,14.0,443397166,4478129388,0.0,0,1,1
2,Alcance,14.0,443397166,4478129388,0.0,0,1,1
3,Alcance,7.0,443397166,4478129388,0.0,0,1,1
4,Alcance,7.0,443397166,4478129388,0.0,0,1,1
...,...,...,...,...,...,...,...,...
75043,Atropello a persona,7.0,439961798,4477600669,0.0,0,0,2
75044,Atropello a persona,7.0,439961798,4477600669,0.0,0,2,2
75045,Colisión lateral,7.0,439115482,4470746354,0.0,0,0,2
75046,Colisión lateral,14.0,439115482,4470746354,0.0,0,0,3


In [None]:
# utilizamos estas listas como categorías para poder agruparlos.
choque = ['Colisión fronto-lateral',' Colisión lateral','Colisión múltiple','Colisión frontal','Choque contra obstáculo fijo']
atopello = ['Atropello a peatón','Atropello a animal']
caida = ['Caída', 'Despeñamiento','Alcance']
otros = ['Otro', 'Solo salida de la vía','vuelco']
df_accident_filt4['tipo_accidente'] = df_accident_filt4['tipo_accidente'].apply(lambda x: 'choque' if x in choque else 
                                                                                                'atopello' if x in atopello else
                                                                                                'caida' if x in caida else
                                                                                                'otros' )



In [None]:
etiquetado.fit(df_accident_filt4['tipo_accidente'])
df_accident_filt4['Tipo_accidente'] = etiquetado.transform(df_accident_filt4['tipo_accidente'])
df_accident_filt4 = df_accident_filt4.drop('tipo_accidente',axis='columns')
df_accident_filt4

Unnamed: 0,cod_lesividad,coordenada_x_utm,coordenada_y_utm,positiva_droga,Positiva_alcohol,Tipo_persona,Tipo_vehiculo,Tipo_accidente
0,14.0,443397166,4478129388,0.0,0,0,1,1
1,14.0,443397166,4478129388,0.0,0,1,1,1
2,14.0,443397166,4478129388,0.0,0,1,1,1
3,7.0,443397166,4478129388,0.0,0,1,1,1
4,7.0,443397166,4478129388,0.0,0,1,1,1
...,...,...,...,...,...,...,...,...
75043,7.0,439961798,4477600669,0.0,0,0,2,3
75044,7.0,439961798,4477600669,0.0,0,2,2,3
75045,7.0,439115482,4470746354,0.0,0,0,2,3
75046,14.0,439115482,4470746354,0.0,0,0,3,3


In [None]:
df_accident_filt4.dtypes.value_counts()

int64      4
float64    2
object     2
dtype: int64

In [None]:
# Generar la lita de features y la variable target
target = 'Positiva_alcohol'
features = [x for x in df_accident_filt4.columns if x!= target]

print(target)
print(features)