# Análisis de datos en el ecosistema Python

### 22/04/2023

## Análisis de accidentes de tráfico en la ciudad de Madrid

La ciudad de Madrid es una de las más grandes y transitadas de España, lo que la convierte en un lugar propenso a **accidentes de tráfico**. En este trabajo, se realizará un análisis de datos de los **accidentes de tráfico** registrados en la ciudad de **Madrid** por la Policía Municipal **desde 2019 hasta el presente año 2023**.

Gracias a la **web de [Datos Abiertos del Ayuntamiento de Madrid](https://datos.madrid.es/portal/site/egob/menuitem.400a817358ce98c34e937436a8a409a0/?vgnextoid=eba412b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextchannel=eba412b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextfmt=default)**, los datos de accidentalidad en la ciudad de Madrid están públicamente disponibles e incluyen **datos históricos desde 2010 hasta la actualidad**.

Vamos a utilizar **una muestra** que se ha preparado en base a estos datos que muestran los **accidentes de tráfico** en la ciudad de **Madrid** según diferentes variables. Se incluye un registro por persona implicada en el accidente.

El objetivo de este análisis es **determinar patrones y tendencias** en los accidentes de tráfico para poder entender mejor las causas de estos incidentes y **tomar medidas para prevenirlos**. Para ello, se utilizarán herramientas de **análisis de datos en Python**, lo que permitirá una exploración detallada de los datos y la generación de gráficos y estadísticas relevantes.

In [1]:
# importamos las librerías necesarias 
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import datetime as dt
%matplotlib inline

In [2]:
# Modificamos los parámetros de los gráficos en matplotlib
from matplotlib.pyplot import rcParams

rcParams['figure.figsize'] = 12, 6 # el primer dígito es el ancho y el segundo el alto
rcParams["font.weight"] = "bold"
rcParams["font.size"] = 10
rcParams["axes.labelweight"] = "bold"

### Cargar los datospara el modelo

In [4]:
# Cargar el dataset desde un archivo
df_accidentes = pd.read_csv('../data/2023-2019_Accidentalidad.csv', delimeter =';')

TypeError: read_csv() got an unexpected keyword argument 'delimeter'

In [None]:
# Consultar los resgistro de DataFrame
df_accidentes

Unnamed: 0,"num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga,dia,mes,año,Hora"
0,"2023S000001,2023-01-01,1:15:00,""AVDA. ALFONSO ..."
1,"2023S000001,2023-01-01,1:15:00,""AVDA. ALFONSO ..."
2,"2023S000001,2023-01-01,1:15:00,""AVDA. ALFONSO ..."
3,"2023S000001,2023-01-01,1:15:00,""AVDA. ALFONSO ..."
4,"2023S000001,2023-01-01,1:15:00,""AVDA. ALFONSO ..."
...,...
138209,"2019S039993,2019-11-10,11:00:00,PLAZA. ELIPTIC..."
138210,"2019S040001,2019-03-13,12:47:00,""CALL. ALFONSO..."
138211,"2019S040001,2019-03-13,12:47:00,""CALL. ALFONSO..."
138212,"2019S040007,2019-11-03,10:10:00,""CALL. HALCONE..."


In [None]:
# Contar datos perdidio/fantantes
df_accidentes.isna().sum()

num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga,dia,mes,año,Hora    0
dtype: int64

In [None]:
# La información útil sobre los datos guardados en formato dataFrame
df_accidentes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 138214 entries, 0 to 138213
Data columns (total 1 columns):
 #   Column                                                                                                                                                                                                                                                         Non-Null Count   Dtype 
---  ------                                                                                                                                                                                                                                                         --------------   ----- 
 0   num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga,dia,mes,año,Hora  138214 non-null  object
dtypes: object(1)
memory usage: 1.1+ M

In [None]:
#Contar los valores nulos para este campo

df_accidentes['positiva_droga'].isna().sum()

137832

In [None]:
#Mostrar los valores nulos de este campo
df_accidentes['positiva_droga'][df_accidentes['positiva_droga'].isna()]

0        NaN
1        NaN
2        NaN
3        NaN
4        NaN
          ..
138210   NaN
138211   NaN
138212   NaN
138213   NaN
138214   NaN
Name: positiva_droga, Length: 137832, dtype: float64

In [None]:
df_accidentes['positiva_droga']= df_accidentes['positiva_droga'].fillna(0)

In [None]:
df_accidentes

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga
0,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Conductor,De 55 a 59 años,Mujer,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0
1,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,De 21 a 24 años,Hombre,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0
2,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,De 21 a 24 años,Hombre,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0
3,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,De 21 a 24 años,Mujer,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,0.0
4,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,De 55 a 59 años,Hombre,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
138210,2019S039993,10/11/2019,11:00:00,PLAZA. ELIPTICA / CALL. MARCELO USERA,1,12.0,USERA,Colisión lateral,Despejado,Turismo,Pasajero,De 60 a 64 años,Mujer,14.0,Sin asistencia sanitaria,439115482,4470746354,N,0.0
138211,2019S040001,13/03/2019,12:47:00,"CALL. ALFONSO FERNANDEZ CLAUSELLS, 7",7,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,Despejado,Turismo,Conductor,Desconocido,Desconocido,,,438541541,4479292853,N,0.0
138212,2019S040001,13/03/2019,12:47:00,"CALL. ALFONSO FERNANDEZ CLAUSELLS, 7",7,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,Despejado,Turismo,Conductor,Más de 74 años,Mujer,,,438541541,4479292853,N,0.0
138213,2019S040007,03/11/2019,10:10:00,"CALL. HALCONERO DEL REY, 0",0,11.0,CARABANCHEL,Colisión fronto-lateral,Despejado,Turismo,Conductor,De 25 a 29 años,Mujer,,,438343989,4468673466,N,0.0


In [None]:
#Consulta los registro que tienen algun valor nulo
df_accidentes.drop(df_accidentes.dropna().index)

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga
10,2023S000003,01/01/2023,2:00:00,"CUSTA. SAN VICENTE, 34",34,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,,Turismo,Conductor,De 45 a 49 años,Hombre,,,439187099,4474647474,N,0.0
12,2023S000004,01/01/2023,1:35:00,INTER. PLAZA DE CASTILLA / CALL. MATEO INURRIA,0,5.0,CHAMARTÍN,Alcance,Despejado,Turismo,Conductor,Desconocido,Desconocido,,,441564657,4479662718,N,0.0
18,2023S000007,01/01/2023,5:35:00,"CALL. ARROYO DE LA BULERA, 11A",11A,17.0,VILLAVERDE,Otro,Despejado,Turismo,Conductor,De 21 a 24 años,Hombre,,,442149475,4465639237,N,0.0
21,2023S000009,01/01/2023,6:15:00,CALL. CARABIAS / AUTOV. A-5,1,10.0,LATINA,Choque contra obstáculo fijo,,Turismo,Conductor,De 55 a 59 años,Hombre,,,43481993,4472083195,S,0.0
22,2023S000010,01/01/2023,1:50:00,"AVDA. LOGROÑO, 179",179,21.0,BARAJAS,Alcance,Despejado,Turismo,Conductor,De 21 a 24 años,Mujer,,,449521612,4478953903,N,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
138205,2019S039986,17/12/2019,15:36:00,"CALL. EMBAJADORES, 470",470,13.0,PUENTE DE VALLECAS,Otro,Despejado,Camión rígido,Conductor,De 45 a 49 años,Hombre,,,442426146,446895696,N,0.0
138211,2019S040001,13/03/2019,12:47:00,"CALL. ALFONSO FERNANDEZ CLAUSELLS, 7",7,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,Despejado,Turismo,Conductor,Desconocido,Desconocido,,,438541541,4479292853,N,0.0
138212,2019S040001,13/03/2019,12:47:00,"CALL. ALFONSO FERNANDEZ CLAUSELLS, 7",7,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,Despejado,Turismo,Conductor,Más de 74 años,Mujer,,,438541541,4479292853,N,0.0
138213,2019S040007,03/11/2019,10:10:00,"CALL. HALCONERO DEL REY, 0",0,11.0,CARABANCHEL,Colisión fronto-lateral,Despejado,Turismo,Conductor,De 25 a 29 años,Mujer,,,438343989,4468673466,N,0.0


In [None]:
# El tamanio esperado para el dataset limpio
df_accidentes.shape[0]-63167

75048

In [None]:
# Convertir la columna "fecha" a un objeto de tipo fecha
df_accidentes['fecha'] = pd.to_datetime(df_accidentes['fecha'], format='%d/%m/%Y')

# Extraer los componentes de fecha necesarios en tres nuevas columnas
df_accidentes['dia'] = df_accidentes['fecha'].dt.day
df_accidentes['mes'] = df_accidentes['fecha'].dt.month
df_accidentes['año'] = df_accidentes['fecha'].dt.year

# Verificar los resultados
print(df_accidentes.head())

df_accidentes

  num_expediente      fecha     hora            localizacion numero  \
0    2023S000001 2023-01-01  1:15:00  AVDA. ALFONSO XIII, 33     33   
1    2023S000001 2023-01-01  1:15:00  AVDA. ALFONSO XIII, 33     33   
2    2023S000001 2023-01-01  1:15:00  AVDA. ALFONSO XIII, 33     33   
3    2023S000001 2023-01-01  1:15:00  AVDA. ALFONSO XIII, 33     33   
4    2023S000001 2023-01-01  1:15:00  AVDA. ALFONSO XIII, 33     33   

   cod_distrito   distrito tipo_accidente estado_meteorológico tipo_vehiculo  \
0           5.0  CHAMARTÍN        Alcance            Despejado  Todo terreno   
1           5.0  CHAMARTÍN        Alcance            Despejado  Todo terreno   
2           5.0  CHAMARTÍN        Alcance            Despejado  Todo terreno   
3           5.0  CHAMARTÍN        Alcance            Despejado  Todo terreno   
4           5.0  CHAMARTÍN        Alcance            Despejado  Todo terreno   

   ...    sexo cod_lesividad  \
0  ...   Mujer          14.0   
1  ...  Hombre          14.0

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,...,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga,dia,mes,año
0,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,Mujer,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0,1,1,2023
1,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,Hombre,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0,1,1,2023
2,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,Hombre,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0,1,1,2023
3,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,Mujer,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,0.0,1,1,2023
4,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,Hombre,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,0.0,1,1,2023
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
138210,2019S039993,2019-11-10,11:00:00,PLAZA. ELIPTICA / CALL. MARCELO USERA,1,12.0,USERA,Colisión lateral,Despejado,Turismo,...,Mujer,14.0,Sin asistencia sanitaria,439115482,4470746354,N,0.0,10,11,2019
138211,2019S040001,2019-03-13,12:47:00,"CALL. ALFONSO FERNANDEZ CLAUSELLS, 7",7,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,Despejado,Turismo,...,Desconocido,,,438541541,4479292853,N,0.0,13,3,2019
138212,2019S040001,2019-03-13,12:47:00,"CALL. ALFONSO FERNANDEZ CLAUSELLS, 7",7,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,Despejado,Turismo,...,Mujer,,,438541541,4479292853,N,0.0,13,3,2019
138213,2019S040007,2019-11-03,10:10:00,"CALL. HALCONERO DEL REY, 0",0,11.0,CARABANCHEL,Colisión fronto-lateral,Despejado,Turismo,...,Mujer,,,438343989,4468673466,N,0.0,3,11,2019


In [None]:
df_accidentes["Hora"] = 0

def obtener_hora(hora):
    partes = hora.split(":")
    return int(partes[0])

df_accidentes["Hora"] = df_accidentes["hora"].apply(obtener_hora)


def asignar_intervalo(hora):
    return hora // 1  # Obtiene la parte entera de la hora, es decir, el intervalo horario correspondiente

    
df_accidentes["Hora"] = df_accidentes["Hora"].apply(asignar_intervalo)

df_accidentes.to_csv("../data/2023-2019_Accidentalidad.csv", index=False)


In [None]:
df_accidentes

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,...,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga,dia,mes,año,Hora
0,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0,1,1,2023,1
1,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0,1,1,2023,1
2,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0,1,1,2023,1
3,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,0.0,1,1,2023,1
4,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,0.0,1,1,2023,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
138210,2019S039993,2019-11-10,11:00:00,PLAZA. ELIPTICA / CALL. MARCELO USERA,1,12.0,USERA,Colisión lateral,Despejado,Turismo,...,14.0,Sin asistencia sanitaria,439115482,4470746354,N,0.0,10,11,2019,11
138211,2019S040001,2019-03-13,12:47:00,"CALL. ALFONSO FERNANDEZ CLAUSELLS, 7",7,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,Despejado,Turismo,...,,,438541541,4479292853,N,0.0,13,3,2019,12
138212,2019S040001,2019-03-13,12:47:00,"CALL. ALFONSO FERNANDEZ CLAUSELLS, 7",7,9.0,MONCLOA-ARAVACA,Choque contra obstáculo fijo,Despejado,Turismo,...,,,438541541,4479292853,N,0.0,13,3,2019,12
138213,2019S040007,2019-11-03,10:10:00,"CALL. HALCONERO DEL REY, 0",0,11.0,CARABANCHEL,Colisión fronto-lateral,Despejado,Turismo,...,,,438343989,4468673466,N,0.0,3,11,2019,10


Para evitar problemas posteriores, usamos el método ``dropna()`` para limpiar el tablón de valores perdidos (**missing values**) y reiniciamos el índice. Comprobamos la cantidad de las filas filtradas.

In [None]:
df_accident_filt=df_accidentes.dropna().reset_index(drop=True)
df_accident_filt

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,...,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga,dia,mes,año,Hora
0,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0,1,1,2023,1
1,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0,1,1,2023,1
2,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0,1,1,2023,1
3,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,0.0,1,1,2023,1
4,2023S000001,2023-01-01,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,...,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,0.0,1,1,2023,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
75043,2019S039987,2019-11-16,14:45:00,AVDA. REINA VICTORIA / AVDA. PABLO IGLESIAS,21,7.0,CHAMBERÍ,Atropello a persona,Despejado,Motocicleta hasta 125cc,...,7.0,Asistencia sanitaria sólo en el lugar del acci...,439961798,4477600669,N,0.0,16,11,2019,14
75044,2019S039987,2019-11-16,14:45:00,AVDA. REINA VICTORIA / AVDA. PABLO IGLESIAS,21,7.0,CHAMBERÍ,Atropello a persona,Despejado,Motocicleta hasta 125cc,...,7.0,Asistencia sanitaria sólo en el lugar del acci...,439961798,4477600669,N,0.0,16,11,2019,14
75045,2019S039993,2019-11-10,11:00:00,PLAZA. ELIPTICA / CALL. MARCELO USERA,1,12.0,USERA,Colisión lateral,Despejado,Motocicleta hasta 125cc,...,7.0,Asistencia sanitaria sólo en el lugar del acci...,439115482,4470746354,N,0.0,10,11,2019,11
75046,2019S039993,2019-11-10,11:00:00,PLAZA. ELIPTICA / CALL. MARCELO USERA,1,12.0,USERA,Colisión lateral,Despejado,Turismo,...,14.0,Sin asistencia sanitaria,439115482,4470746354,N,0.0,10,11,2019,11


In [None]:
df_accident_filt.info()
df_accident_filt['positiva_alcohol']

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 75048 entries, 0 to 75047
Data columns (total 23 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   num_expediente        75048 non-null  object        
 1   fecha                 75048 non-null  datetime64[ns]
 2   hora                  75048 non-null  object        
 3   localizacion          75048 non-null  object        
 4   numero                75048 non-null  object        
 5   cod_distrito          75048 non-null  float64       
 6   distrito              75048 non-null  object        
 7   tipo_accidente        75048 non-null  object        
 8   estado_meteorológico  75048 non-null  object        
 9   tipo_vehiculo         75048 non-null  object        
 10  tipo_persona          75048 non-null  object        
 11  rango_edad            75048 non-null  object        
 12  sexo                  75048 non-null  object        
 13  cod_lesividad   

0        N
1        N
2        N
3        N
4        N
        ..
75043    N
75044    N
75045    N
75046    N
75047    N
Name: positiva_alcohol, Length: 75048, dtype: object

### Analisis

In [None]:
#La caracteristicas de cad columna
df_accident_filt.describe()

Unnamed: 0,cod_distrito,cod_lesividad,positiva_droga,dia,mes,año,Hora
count,75048.0,75048.0,75048.0,75048.0,75048.0,75048.0,75048.0
mean,9.60376,9.925141,0.003997,15.787176,6.35957,2020.152542,14.301207
std,5.677768,4.737002,0.063099,8.84129,3.628251,1.183553,5.471384
min,1.0,1.0,0.0,1.0,1.0,2019.0,0.0
25%,5.0,7.0,0.0,8.0,3.0,2019.0,11.0
50%,9.0,14.0,0.0,16.0,6.0,2020.0,15.0
75%,14.0,14.0,0.0,24.0,10.0,2021.0,19.0
max,21.0,77.0,1.0,31.0,12.0,2023.0,23.0


In [None]:
#Consultamos el tipo de datos
df_accident_filt.dtypes

num_expediente                  object
fecha                   datetime64[ns]
hora                            object
localizacion                    object
numero                          object
cod_distrito                   float64
distrito                        object
tipo_accidente                  object
estado_meteorológico            object
tipo_vehiculo                   object
tipo_persona                    object
rango_edad                      object
sexo                            object
cod_lesividad                  float64
lesividad                       object
coordenada_x_utm                object
coordenada_y_utm                object
positiva_alcohol                object
positiva_droga                 float64
dia                              int64
mes                              int64
año                              int64
Hora                             int64
dtype: object

Los algoritmos **entienden de números y no otra cosa!**, con lo cual para que el algoritmo pueda trabajar con toda la información del dataset, los datos se tienen que **transformar en valores numéricos**.

In [None]:
#Consultar las variables que son del tipo "string"
df_accident_filt.dtypes[df_accident_filt.dtypes=='object']

num_expediente          object
hora                    object
localizacion            object
numero                  object
distrito                object
tipo_accidente          object
estado_meteorológico    object
tipo_vehiculo           object
tipo_persona            object
rango_edad              object
sexo                    object
lesividad               object
coordenada_x_utm        object
coordenada_y_utm        object
positiva_alcohol        object
dtype: object

Nos interesa el tipo de accidentes, vehiculo ,persona ,levisidad y el positiva de alcohol

In [None]:
#Analizar las tipo de accidentes
df_accident_filt['tipo_accidente'].value_counts()

Colisión fronto-lateral         20955
Alcance                         18634
Atropello a persona              8406
Colisión lateral                 7801
Caída                            7578
Colisión múltiple                5081
Choque contra obstáculo fijo     3624
Colisión frontal                 1868
Otro                              499
Vuelco                            284
Solo salida de la vía             230
Atropello a animal                 83
Despeñamiento                       5
Name: tipo_accidente, dtype: int64

In [None]:
df_accident_filt['tipo_persona'].value_counts()

Conductor    56386
Pasajero     14269
Peatón        4393
Name: tipo_persona, dtype: int64

In [None]:
df_accident_filt['tipo_vehiculo'].value_counts()

Turismo                              47026
Motocicleta hasta 125cc               7309
Motocicleta > 125cc                   5772
Furgoneta                             4338
Bicicleta                             2177
Autobús                               2142
Ciclomotor                            1773
Camión rígido                         1130
Todo terreno                           965
VMU eléctrico                          829
Otros vehículos con motor              389
Bicicleta EPAC (pedaleo asistido)      269
Tractocamión                           178
Autobús articulado                     168
Maquinaria de obras                    136
Autobus EMT                             93
Vehículo articulado                     72
Ciclo                                   62
Sin especificar                         51
Patinete                                35
Cuadriciclo no ligero                   31
Cuadriciclo ligero                      30
Moto de tres ruedas > 125cc             20
Ciclomotor 

In [None]:
df_accident_filt['positiva_alcohol'].value_counts()

N    73339
S     1709
Name: positiva_alcohol, dtype: int64

En la lista ``columnas_drop`` definimos las columnas a eliminar del dataset por ser meramente informativas.

In [None]:
columnas_drop = ["num_expediente",
                 "hora",
                 'fecha'
                 "localizacion",
                 "numero",
                 "distrito",
                 "sexo",
                 "estado_meteorológico"
                 ,"lesividad"
                 ,'coordenada_x_utm',
                 'coordenada_y_utm'
                 ]

Creamos un nuevo dataset que sea como el tablón anterior, eliminando las columnas de la lista indicada. Utilizamos el método `drop` para _DataFrames_ de _pandas_.

In [None]:
df_accident_filt2 = df_accident_filt.drop(columns=columnas_drop)
print("Tamaño del tablón filtrado: ", df_accident_filt.shape)
print("Tamaño del tablón nuevo: ", df_accident_filt2.shape)

Tamaño del tablón filtrado:  (75048, 23)
Tamaño del tablón nuevo:  (75048, 13)


In [None]:
# Tipología de las variables exsitentes en el nuevo dataset
df_accident_filt2.dtypes.value_counts()

object            5
int64             4
float64           3
datetime64[ns]    1
dtype: int64

In [None]:
from sklearn.preprocessing import LabelEncoder
etiquetado = LabelEncoder()
etiquetado.fit(df_accident_filt2['positiva_alcohol'])

In [None]:
etiquetado.classes_

array(['N', 'S'], dtype=object)

In [None]:
# Transformamos el dataset aplicando el mapeado:
etiquetado.transform(df_accident_filt2['positiva_alcohol'])

array([0, 0, 0, ..., 0, 0, 0])

In [None]:
# Asignar una nueva columna
df_accident_filt2['Positiva_alcohol']= etiquetado.transform(df_accident_filt2['positiva_alcohol'])


In [None]:
# Definimos un nuevo dataframe con solamente datos transformados a valores númericos.
df_accident_filt2 = df_accident_filt2.drop('positiva_alcohol', axis = 'columns')

# Consultar e tipo de las variables
df_accident_filt2.dtypes.value_counts()

int64             5
object            4
float64           3
datetime64[ns]    1
dtype: int64

In [None]:
etiquetado.fit(df_accident_filt2['tipo_persona'])

In [None]:
etiquetado.transform(df_accident_filt2['tipo_persona'])

array([0, 1, 1, ..., 0, 0, 1])

In [None]:
df_accident_filt2['Tipo_persona'] = etiquetado.transform(df_accident_filt2['tipo_persona'])

df_accident_filt3 = df_accident_filt2.drop('tipo_persona',axis='columns')

In [None]:
# utilizamos estas listas como categorías para poder agruparlos.
coche = ['turismo','Todo terreno','Otros vehículos con motor','Moto de tres ruedas hasta 125cc']
moto = ['Motocicleta hasta 125cc','Motocicleta > 125cc','Moto de tres ruedas > 125cc',]
vehículos_grandes= ['Furgoneta','Autobús','Camión rígido','Tractocamión','Autobús articulado','Maquinaria de obras','Autobus EMT','Vehículo articulado','Autocaravana','Autobús articulado EMT','Microbús <= 17 plazas','Ambulancia SAMUR','Camión de bomberos']
ciclo = ['Ciclomotor','VMU eléctrico','Ciclo','Cuadriciclo no ligero','Cuadriciclo ligero','Ciclomotor de dos ruedas L1e-B','Ciclomotor de tres ruedas','Ciclo de motor L1e-A']
otro =['Bicicleta','Bicicleta EPAC (pedaleo asistido)','Sin especificar','Patinete','Otros vehículos sin motor','Maquinaria agrícola','Patinete no eléctrico','Remolque','Semiremolque']


In [None]:
df_accident_filt4 = df_accident_filt3.copy()

df_accident_filt4['tipo_vehiculo'] = df_accident_filt4['tipo_vehiculo'].apply(lambda x: 'coche' if x in coche else 
                                                                                                'vehiculo_grnade' if x in vehículos_grandes else
                                                                                                'moto' if x in moto else
                                                                                                'ciclo' if x in ciclo else
                                                                                                'otro' )

In [None]:
df_accident_filt4['tipo_vehiculo'].value_counts()
etiquetado.fit(df_accident_filt4['tipo_vehiculo'])

In [None]:
df_accident_filt4['Tipo_vehiculo'] = etiquetado.transform(df_accident_filt4['tipo_vehiculo'])
df_accident_filt4 = df_accident_filt4.drop('tipo_vehiculo',axis='columns')
df_accident_filt4

Unnamed: 0,fecha,cod_distrito,tipo_accidente,rango_edad,cod_lesividad,positiva_droga,dia,mes,año,Hora,Positiva_alcohol,Tipo_persona,Tipo_vehiculo
0,2023-01-01,5.0,Alcance,De 55 a 59 años,14.0,0.0,1,1,2023,1,0,0,1
1,2023-01-01,5.0,Alcance,De 21 a 24 años,14.0,0.0,1,1,2023,1,0,1,1
2,2023-01-01,5.0,Alcance,De 21 a 24 años,14.0,0.0,1,1,2023,1,0,1,1
3,2023-01-01,5.0,Alcance,De 21 a 24 años,7.0,0.0,1,1,2023,1,0,1,1
4,2023-01-01,5.0,Alcance,De 55 a 59 años,7.0,0.0,1,1,2023,1,0,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
75043,2019-11-16,7.0,Atropello a persona,De 25 a 29 años,7.0,0.0,16,11,2019,14,0,0,2
75044,2019-11-16,7.0,Atropello a persona,De 25 a 29 años,7.0,0.0,16,11,2019,14,0,2,2
75045,2019-11-10,12.0,Colisión lateral,De 25 a 29 años,7.0,0.0,10,11,2019,11,0,0,2
75046,2019-11-10,12.0,Colisión lateral,De 55 a 59 años,14.0,0.0,10,11,2019,11,0,0,3


In [None]:
# utilizamos estas listas como categorías para poder agruparlos.
choque = ['Colisión fronto-lateral',' Colisión lateral','Colisión múltiple','Colisión frontal','Choque contra obstáculo fijo']
atopello = ['Atropello a peatón','Atropello a animal']
caida = ['Caída', 'Despeñamiento','Alcance']
otros = ['Otro', 'Solo salida de la vía','vuelco']
df_accident_filt4['tipo_accidente'] = df_accident_filt4['tipo_accidente'].apply(lambda x: 'choque' if x in choque else 
                                                                                                'atopello' if x in atopello else
                                                                                                'caida' if x in caida else
                                                                                                'otros' )



In [None]:
etiquetado.fit(df_accident_filt4['tipo_accidente'])
df_accident_filt4['Tipo_accidente'] = etiquetado.transform(df_accident_filt4['tipo_accidente'])
df_accident_filt4 = df_accident_filt4.drop('tipo_accidente',axis='columns')
df_accident_filt4

Unnamed: 0,fecha,cod_distrito,rango_edad,cod_lesividad,positiva_droga,dia,mes,año,Hora,Positiva_alcohol,Tipo_persona,Tipo_vehiculo,Tipo_accidente
0,2023-01-01,5.0,De 55 a 59 años,14.0,0.0,1,1,2023,1,0,0,1,1
1,2023-01-01,5.0,De 21 a 24 años,14.0,0.0,1,1,2023,1,0,1,1,1
2,2023-01-01,5.0,De 21 a 24 años,14.0,0.0,1,1,2023,1,0,1,1,1
3,2023-01-01,5.0,De 21 a 24 años,7.0,0.0,1,1,2023,1,0,1,1,1
4,2023-01-01,5.0,De 55 a 59 años,7.0,0.0,1,1,2023,1,0,1,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
75043,2019-11-16,7.0,De 25 a 29 años,7.0,0.0,16,11,2019,14,0,0,2,3
75044,2019-11-16,7.0,De 25 a 29 años,7.0,0.0,16,11,2019,14,0,2,2,3
75045,2019-11-10,12.0,De 25 a 29 años,7.0,0.0,10,11,2019,11,0,0,2,3
75046,2019-11-10,12.0,De 55 a 59 años,14.0,0.0,10,11,2019,11,0,0,3,3


In [None]:
#Agrupamos el rango de edad
cero_diez = ["De 6 a 9 años",'Menor de 5 años']
diez_vente = ['De 10 a 14 años','De 15 a 17 años','De 18 a 20 años']
vente_trenta = ['De 21 a 24 años','De 25 a 29 años']
trenta_curenta = ['De 30 a 34 años','De 35 a 39 años']
cuarenta_cincuenta = ['De 40 a 44 años','De 45 a 49 años']
cincuenta_sesenta =['De 55 a 59 años','De 50 a 54 años']
sesenta_setenta= ['De 60 a 64 años','De 65 a 69 años']
mas = ['De 70 a 74 años','Más de 74 años']
otro = ['Desconocido']
df_accident_filt4['rango_edad'] = df_accident_filt4['rango_edad'].apply(lambda x: 'cero_diez' if x in cero_diez else
                                                                                          'diez_vente' if x in diez_vente else
                                                                                          'vente_trenta' if x in vente_trenta else
                                                                                          'trenta_curenta' if x in trenta_curenta else
                                                                                          'cuarenta_cincuenta' if x in cuarenta_cincuenta else
                                                                                          'cincuenta_sesenta' if x in cincuenta_sesenta else
                                                                                          'sesenta_setenta' if x in sesenta_setenta else
                                                                                          'mas' if x in mas else
                                                                                          'otro' )

etiquetado.fit(df_accident_filt4['rango_edad'])
df_accident_filt4['Rango_edad'] = etiquetado.transform(df_accident_filt4['rango_edad'])
df_accident_filt4 = df_accident_filt4.drop('rango_edad',axis='columns')
df_accident_filt4

In [None]:
df_accident_filt4.dtypes.value_counts()

int64             8
float64           3
datetime64[ns]    1
object            1
dtype: int64

In [None]:
# Generar la lita de features y la variable target
target = 'cod_lesividad'
features = [x for x in df_accident_filt4.columns if x!= target]

print(target)
print(features)

cod_lesividad
['fecha', 'cod_distrito', 'rango_edad', 'positiva_droga', 'dia', 'mes', 'año', 'Hora', 'Positiva_alcohol', 'Tipo_persona', 'Tipo_vehiculo', 'Tipo_accidente']


In [None]:
#Consultar la variable salida
df_accident_filt4[target]

0        14.0
1        14.0
2        14.0
3         7.0
4         7.0
         ... 
75043     7.0
75044     7.0
75045     7.0
75046    14.0
75047    14.0
Name: cod_lesividad, Length: 75048, dtype: float64

In [None]:
df_accident_filt4[target].value_counts()

14.0    40491
7.0     18155
2.0      5442
1.0      3862
6.0      3580
5.0      1789
3.0      1622
4.0       101
77.0        6
Name: cod_lesividad, dtype: int64

In [None]:
# Importar el algoritmo de árboles de decisión
from sklearn.tree import DecisionTreeRegressor

# Asignar el algortimo e indicar la profundidad máxima del árbol (con un número rotandamente grande para sobreajustar)
arbol_importancia = DecisionTreeRegressor(max_depth=len(features)+10, random_state=100)

# Entrenar un árbol con todo el conjunto de datos
arbol_importancia.fit(X=df_accident_filt4[features], y=df_accident_filt4[target])

TypeError: float() argument must be a string or a real number, not 'Timestamp'

In [None]:
# Comprobamos que se obtiene un R^2 muy alto. Lo desesable es que sea 1.
y_pred_arbol = arbol_importancia.predict(X=df_accident_filt4[features])

from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_absolute_percentage_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

# Métricas para evaluar la calidad del modelo
print('Mean Absolute Error:', mean_absolute_error(df_accident_filt4[target], y_pred_arbol))
print('Mean Absolute Percentage Error:', mean_absolute_percentage_error(df_accident_filt4[target], y_pred_arbol)*100)
print('Mean Squared Error:', mean_squared_error(df_accident_filt4[target], y_pred_arbol))
print('Root Mean Squared Error:', np.sqrt(mean_squared_error(df_accident_filt4[target], y_pred_arbol)))
print('R^2 coefficient of determination:', r2_score(df_accident_filt4[target], y_pred_arbol))

El modelo consigue un rendimiento perfecto!! Ahora vamos a sacar **las variables más importantes** que ha detectado el modelo. El **árbol devuelve la importancia de cada una de ellas** en el orden en el que están las columnas en el dataframe. 

In [None]:
#importacias de cada variable en el árbile ajustado 
arbol_importancia.feature_importances_

In [None]:
importancia = pd.DataFrame(arbol_importancia.feature_importances_, index=features, columns=["Importancia"])

# Ordenamos los datos
importancia.sort_values(by=importancia.columns[0], ascending=False, inplace=True)
importancia

Podemos obtener una lista con **las variables que aglutinan el 85% de la información**. Procedemos a añadir al DataFrame "_importancia_" que hemos creado en el caso anterior **la columna `imp_acum` que acumule la suma**.

In [None]:
importancia["imp_acum"] = importancia["Importancia"].cumsum()
importancia

In [None]:
# Conjunto de variables más importantes
importancia.loc[importancia['imp_acum']<=0.9]

In [None]:
# Definimos la lista de variables no tan importantes, cortando por el porcentaje de 85% de la información necesaria
variables = importancia.loc[importancia['imp_acum']>0.9].index.to_list()
print(variables)

In [None]:
print("Variables iniciales: ", len(features))
print("Variables no importantes (a eliminar): ", len(variables))

In [None]:
df_accident_filt5 = df_accident_filt4.drop(labels=variables,axis = 'columns')
df_accident_filt5

In [None]:
# Generar la lita de features y la variable target
target1 = 'dia'
features1 = [x for x in df_accident_filt4.columns if x!= target1]

print(target1)
print(features1)
# Importar el algoritmo de árboles de decisión
from sklearn.tree import DecisionTreeRegressor

# Asignar el algortimo e indicar la profundidad máxima del árbol (con un número rotandamente grande para sobreajustar)
arbol_importancia1 = DecisionTreeRegressor(max_depth=len(features1)+10, random_state=100)

# Entrenar un árbol con todo el conjunto de datos
arbol_importancia1.fit(X=df_accident_filt4[features1], y=df_accident_filt4[target1])
# Comprobamos que se obtiene un R^2 muy alto. Lo desesable es que sea 1.
y_pred_arbol1 = arbol_importancia1.predict(X=df_accident_filt4[features1])

from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_absolute_percentage_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

# Métricas para evaluar la calidad del modelo
print('Mean Absolute Error:', mean_absolute_error(df_accident_filt4[target1], y_pred_arbol1))
print('Mean Absolute Percentage Error:', mean_absolute_percentage_error(df_accident_filt4[target1], y_pred_arbol1)*100)
print('Mean Squared Error:', mean_squared_error(df_accident_filt4[target1], y_pred_arbol1))
print('Root Mean Squared Error:', np.sqrt(mean_squared_error(df_accident_filt4[target1], y_pred_arbol1)))
print('R^2 coefficient of determination:', r2_score(df_accident_filt4[target1], y_pred_arbol1))
importancia1 = pd.DataFrame(arbol_importancia.feature_importances_, index=features, columns=["Importancia"])

# Ordenamos los datos
importancia1.sort_values(by=importancia1.columns[0], ascending=False, inplace=True)
# Definimos la lista de variables no tan importantes, cortando por el porcentaje de 85% de la información necesaria
importancia1["imp_acum"] = importancia1["Importancia"].cumsum()
variables1 = importancia1.loc[importancia1['imp_acum']>0.9].index.to_list()
print(variables1)

### **Planteamiento del ejercicio de clasificación**

Vamos a crear una variable objetivo de nombre ***Escenario*** con 2 clases como 0,1 del modo que:  

* El **nivel 0** se corresponda a los valores **por debajo del percentil 25** de la variable _target_ (`Tipo_accidente`).    
* El **nivel 1** se corresponde a los valores **por encima del percentil 25**.  

Eliminamos después la columna `Tipo_accidente` del nuevo dataset y procedemos a dividir el datset en conjuntos de train y test (usualmente con un reparto de 80% - 20%).  

**Vamos a intentar predecir si la calidad de aire de las distintas zonas está en el nivel 0, 1.**



In [None]:
#Hacemos una copia del tabla filtrado para no trbajar sobre original
df_cod_levisidad = df_accident_filt5.copy()

In [None]:
#Crear la columna nueva "Escenario" y borrar la columna target antigua
df_cod_levisidad['Escenario'] = np.where(df_cod_levisidad['cod_lesividad']<df_cod_levisidad['cod_lesividad'].quantile(0.25),0,1)
df_cod_levisidad.drop(['cod_lesividad'],axis = 'columns', inplace = True)
df_cod_levisidad

In [None]:
# MEDIA, LOS CUARTILES
df_cod_levisidad.describe()

In [None]:
# Graficar la distribución de los valores originales
plt.figure(figsize=(10,6))
sns.violinplot(data=df_cod_levisidad, orient='v')
plt.show()

In [None]:
df_dia = df_accident_filt5.copy()
df_dia['Escenario'] = np.where(df_dia['dia']<df_dia['dia'].quantile(0.25),0,1)
df_dia.drop(['dia'],axis = 'columns', inplace = True)

plt.figure(figsize=(10,6))
sns.violinplot(data=df_dia, orient='v')
plt.show()

### **PASO1.** 


In [None]:
## Preparar el conjunto de datos del modelo

# Variables independientes (features)
X = df_cod_levisidad.drop('Escenario', axis='columns')

# Variable dependiente (target) que son los niveles de aire con menos contaminación
y = df_cod_levisidad['Escenario']

In [None]:
# Lo convertimos en un DataFrame, añadiendole sus etiquetas
X_normal = pd.DataFrame(dataset_normal, columns=X.columns)
print(type(X_normal))
X_normal


In [None]:
X_normal.describe().round(4)

In [None]:
# Graficar la distribución de los valores estandarizados
plt.figure(figsize=(10,6))
sns.boxplot(data=X_normal, orient='v')
plt.show()

In [None]:
X1 = df_dia.drop('Escenario', axis='columns')

y = df_dia['Escenario']

from sklearn.preprocessing import StandardScaler
escalado1 = StandardScaler().fit(X1)
dataset_normal1 = escalado1.transform(X1)

X_normal1 = pd.DataFrame(dataset_normal1, columns=X1.columns)

plt.figure(figsize=(10,6))
sns.boxplot(data=X_normal1, orient='v')
plt.show()

### **Paso 2.**  Dividir el dataset en Training y Test

In [None]:
# Separar los conjuntos de datos de entrenamiento (Training) y de prueba (Test) para las variables de entrada y salida
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_normal, y, test_size=0.2, random_state=88)


In [None]:
# "test_size" representa la proporción del conjunto de datos a incluir en la división de Test
print(X_train.shape[0])
print(X_test.shape[0])
X_train.shape[0] + X_test.shape[0]

In [None]:
# la segunda escencia (dia)

from sklearn.model_selection import train_test_split
X_train1, X_test1, y_train1, y_test1 = train_test_split(X_normal1, y, test_size=0.2, random_state=88)

print(X_train1.shape[0])
print(X_test1.shape[0])
X_train1.shape[0] + X_test1.shape[0]


In [None]:
### **Paso 3.** Cargar y elegir el modelo de regresión logística

In [None]:
# Importar el módulo que corresponde al algoritmo
from sklearn.linear_model import LogisticRegression

# Asignar el algoritmo que vamos a aplicar 
log_r = LogisticRegression(max_iter=1000,
                           random_state=100)

In [None]:
from sklearn.linear_model import LogisticRegression
log_r1 = LogisticRegression(max_iter=1000,
                            random_state=100)


### **``Paso 4``**. Entrenar el modelo de regresión logística con los datos de entrenamiento

In [None]:
# Entrenar el modelo
log_r.fit(X_train, y_train)


In [None]:
# LA SEGUNDA 
log_r.fit(X_train1,y_train1)

### **``Paso 5.``** Obetener las predicciones

In [None]:
# Calcular las predicciones con el conjunto de datos de prueba
y_pred = log_r.predict(X_test)

# Imprimir la salida del modelo( la lesividad)

print(y_pred) 

In [None]:
y_pred1 = log_r.predict(X_test1)
print(y_pred1)

### **Paso 6.** Evalución del modelo a través de sus métricas

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred)

In [None]:
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

disp = ConfusionMatrixDisplay(confusion_matrix=confusion_matrix(y_test, y_pred),
                                display_labels=log_r.classes_)
disp.plot()

plt.show()

In [None]:
# Calcular el área bajo la curva de funcionamiento del receptor 
from sklearn.metrics import roc_auc_score
roc_auc_score(y_test, y_pred)

In [None]:
# Graficar la curva ROC( Receiver Operating Characteristic)
# AUC (Area Under the Curve)
from sklearn.metrics import RocCurveDisplay

RocCurveDisplay.from_predictions(y_test,y_pred)
plt.show()