# Crystal Ball ++

## Introducción-.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;En este proyecto vamos a analizar los datos de accidentalidad en la ciudad de Madrid entre 2019 y 2023, y ver si podemos predecir que índice de accidentalidad tendremos en el año 2024. Para ello utilizaremos los datos abiertos que podemos recoger en la web del ayuntamiento de Madrid:
  - https://datos.madrid.es/portal/site/egob/menuitem.c05c1f754a33a9fbe4b2e4b284f1a5a0/?vgnextoid=7c2843010d9c3610VgnVCM2000001f4a900aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextfmt=default

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Cabría comentar que tener el dato del volúmen de tráfico podría haber dado una mejor dimensión estadística de los accidentes ocurridos, y nos permitiría tener un mejor entendimiento de lo que podría estar causando los accidentes en la ciudad de Madrid.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Lo primero que haremos es entender los datos que podemos ver en los archivos csv que nos bajaremos desde la web y para eso veremos la estructura del conjunto del fichero que nos facilita también la web. Podremos observar los siguientes datos:
| Nº de columna | Nombre de columna | Descripción | Valores Esperados |
|:-------------:|:-----------------:|:-----------|:-----------------:|
| 1 | num_expediente |AAAASNNNNNN, donde:<br>- AAAA es el año del accidente.<br>- S cuando se trata de un expediente con accidente.| texto |
| 2             | fecha             | Fecha en formato dd/mm/aaaa       | fecha             |
| 3             | hora              | La hora se establece en rangos horarios de 1 hora | hora |
| 4             | localizacion      | Calle 1 - Calle 2 (cruce) o una calle | Texto |
| 5             | numero            | Número de la calle, cuando tiene sentido | Número |
| 6             | cod_distrito          | Código del distrito                     | Número            |
| 7             | distrito              | Nombre del Distrito                     | Texto             |
| 8             | tipo_accidente*       | Tipo de accidente: tipificado mas abajo | Texto             |
| 9             | estado_meteorologico  | Descripción climatología                | Texto             |
| 10            | tipo_vehiculo         | Tipo vehículo implicado                 | Texto             |
| 11            | tipo_persona          | Tipo persona implicada                  | Texto             |
| 12            | rango_edad            | Tramo edad persona afectada             | Texto             |
| 13            | sexo                  | Puede ser: hombre, mujer o no asignado | Texto             |
| 14            | cod_lesividad*        | Viene tipificado mas abajo              | Número            |
| 15            | lesividad             | Descripción lesividad                   | Texto             |
| 16            | coordenada_x_utm      | Ubicación coordenada x                  | Número            |
| 17            | coordenada_y_utm      | Ubicación coordenada y                  | Número            |
| 18            | positiva_alcohol      | Puede ser: N o S                        | N o S             |
| 19            | positiva_droga        | Puede ser: NULL o 1                     | NULL o 1          |


También nos dan una breve descripción sobre como interpretar como han sido los accidentes de tráfico:

  - **Colisión doble:** haría referencia a un accidente de tráfico ocurrido entre 2 vehículos en movimiento, ya sea una colisión frontal, fronto lateral o lateral.
  - **Colisión múltiple:** haría referencia a un accidente de tráfico ocurrido entre más de dos vehículos en movimiento.
  - **Alcance:** haría referencia a un accidente que se produce cuando un vehículo circulando o detenido por las circunstancias del tráfico es golpeado en su parte posterior por otro vehículo.
  - **Choque contra obstáculo o elemento de la vía:** haría referencia a un accidente ocurrido entre un vehículo en movimiento con conductor y un objeto inmóvil que ocupa la vía o zona apartada de la misma, ya sea vehículo estacionado, árbol, farola, etc.
  - **Atropello a persona:** ocurrido ente un vehículo y un peatón que ocupa la calzada o que transita por aceras, refugios, paseos o zonas de la vía pública no destinada a la circulación de vehículos.
  - **Vuelco:** haría referencia a un accidente sufrido por un vehículo con más de dos ruedas y que por alguna circunstancia sus neumáticos pierden el contacto con la calzada quedando apoyado sobre un costado o sobre el techo.
  - **Caida:** aquí se agrupan todas las caídas relacionadas con el desarrollo y las circunstancias del tráfico, (motocicleta, ciclomotor, bicicleta, viajero bus, etc.,)
  - **Otras causas:** donde tendríamos los accidentes por atropello a un animal, despeñamiento, salida de la vía, y otros.


Y ya por último nos describe los códigos de ***lesividad***, donde entre los códigos 01 al 07 son todos **LEVES** excepto el 03 que es **GRAVE** y el 04 que es **FALLECIDO**, mientras que el 14 y el 77 la lesividad es inexistente:

  - **01**, atención en urgencias sin posterior ingreso.
  - **02**, ingreso inferior o igual a 24 horas.
  - **03**, ingreso superior a 24 horas.
  - **04**, fallecido 24 horas.
  - **05**, asistencia sanitaria ambulatoria con posterioridad.
  - **06**, asistencia sanitaria inmediata en centro de salud o mutua.
  - **07**, asistencia sanitaria sólo en el lugar del accidente.
  - **14**, sin asistencia sanitaria.
  - **77**, se desconoce.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Lo primero, es que deberemos unificar en un único archivo csv todos los años de datos que vamos recibiendo del ayuntamiento de Madrid, para posteriormente tratar las variables y entradas. 
<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Después de observar la tipología de la tabla ofrecida por los archivos csv, borraremos la variable del **número de expediente** ya que no influye de ninguna manera en el análisis estadístico que pretendemos realizar o a nivel informativo. Hay ciertas variables que son solo descriptivas como el **distrito** que completa la información del **código de distrito**, y ocurre lo mismo con el **código de lesividad** y **lesividad**, que nos da una pequeña descripción que hemos detallado antes; por tanto las dejaremos en nuestro dataframe.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;También añadiremos columnas y cambiaremos algunas de ellas dadas el formato que nos ofrecen. Observamos que en la columna de **hora** nos da unas entradas o registros del tipo: *30/12/1899 1:15:00*, y convertiremos en *01:15* y a partir de ella crearemos una nueva variable de **franjas horarias** para poder analizar en que franja se producen más accidentes.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;De la variable **fecha** extraeremos dos nuevas variables: **día de la semana** y **mes**, que creo que nos pueden dar datos relevantes de cuando se producen los accidentes. Podemos también observar en la forma de expresar las coordenadas UTM (Universal Transverse Mercator) que están mal expresadas en algúno de los archivos csv: *444.578.15* o *445.094,90* y deberían ser todas unificadas como *444578.15 o 445094.90*. Y posteriormente las transformaremos en nuevas columnas de latitud y longitud para que en Tableau podamos tener una representación gráfica de los accidentes en un mapa.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Una vez hecho todo esto con python empezaremos a sacar conclusiones que nos ofrecen los datos recogidos por la policía municipal de Madrid, y trataremos de representar gráficamente nuestras conclusiones. A partir de las conclusiones, sacaremos un modelo predictivo que nos permita predecir datos estadísticos de accidentes de una zona, mes, día, etc. 

## Preparación del Dataframe.

### Uniendo los csv.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Como hemos comentado antes nos bajamos los archivos de accidentes en Madrid por año en formato csv, así que tendremos que unir en un único archivo para luego tratar los datos. Lo primero es importar las librerías que usaremos para tratar y crear nuestro dataframe: **pandas**, que nos permitirá crear el dataframe y tratarlo, y **glob**, que nos permitirá seguir un patrón de búsqueda para unir los archivos.

In [1]:
# Importamos las librerías

import pandas as pd
import glob

# Creamos el dataframe donde guardaremos todos los csv
df_list = []

# Creamos una variable con la ruta y patrón de los archivos usando asterico para recoger lo que varía en los diferentes archivos
pattern = 'C:/CSV/*Accidentalidad.csv'

# Bucle para recoger todos los archivos y los vamos añadiendo a nuestro dataframe
for file in glob.glob(pattern):
    try:
        df = pd.read_csv(file, encoding='utf-8', delimiter = ';')
        df_list.append(df)
    except Exception as e:
        print("Error al leer el archivo:", file)
        print("Mensaje de error:", str(e))

# Tenemos que concatenar los csv almacenados en uno solo, ignorando los índices que pudieran existir
df_Madrid = pd.concat(df_list, ignore_index = True)

# Comprobamos las primeras 5 columnas
df_Madrid.head()

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,...,rango_edad,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga,Unnamed: 19,Unnamed: 20
0,2018S017842,04/02/2019,9:10:00,"CALL. ALBERTO AGUILERA, 1",1,1.0,CENTRO,Colisión lateral,Despejado,Motocicleta > 125cc,...,De 45 a 49 años,Hombre,7.0,Asistencia sanitaria sólo en el lugar del acci...,440068049,447567917,N,,,
1,2018S017842,04/02/2019,9:10:00,"CALL. ALBERTO AGUILERA, 1",1,1.0,CENTRO,Colisión lateral,Despejado,Turismo,...,De 30 a 34 años,Mujer,7.0,Asistencia sanitaria sólo en el lugar del acci...,440068049,447567917,N,,,
2,2019S000001,01/01/2019,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11.0,CARABANCHEL,Alcance,,Furgoneta,...,De 40 a 44 años,Hombre,,,439139603,4470836854,S,,,
3,2019S000001,01/01/2019,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11.0,CARABANCHEL,Alcance,,Turismo,...,De 40 a 44 años,Mujer,,,439139603,4470836854,N,,,
4,2019S000001,01/01/2019,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11.0,CARABANCHEL,Alcance,,Turismo,...,De 45 a 49 años,Mujer,,,439139603,4470836854,N,,,


In [2]:
# Comprobamos las últimas 5 columnas
df_Madrid.tail()

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,...,rango_edad,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga,Unnamed: 19,Unnamed: 20
221905,2023S040267,31/12/2023,21:15:00,AVDA. GRAN VIA DE VILLAVERDE / AVDA. ANDALUCIA,10,17.0,VILLAVERDE,Colisión fronto-lateral,Despejado,Turismo,...,De 45 a 49 años,Mujer,7.0,Asistencia sanitaria sólo en el lugar del acci...,441152.627,4466350.125,N,,,
221906,2023S040267,31/12/2023,21:15:00,AVDA. GRAN VIA DE VILLAVERDE / AVDA. ANDALUCIA,10,17.0,VILLAVERDE,Colisión fronto-lateral,Despejado,Turismo,...,De 6 a 9 años,Hombre,7.0,Asistencia sanitaria sólo en el lugar del acci...,441152.627,4466350.125,N,,,
221907,2023S040277,29/12/2023,9:35:00,"PTA. TOLEDO, 0",0,1.0,CENTRO,Alcance,Despejado,Motocicleta hasta 125cc,...,De 45 a 49 años,Hombre,,,439594.878,4473163.747,N,,,
221908,2023S040277,29/12/2023,9:35:00,"PTA. TOLEDO, 0",0,1.0,CENTRO,Alcance,Despejado,Turismo,...,De 21 a 24 años,Hombre,,,439594.878,4473163.747,N,,,
221909,2023S040290,29/12/2023,5:10:00,CALL. HERNANDEZ DE TEJADA / CALL. AGASTIA,2,15.0,CIUDAD LINEAL,Solo salida de la vía,Despejado,Turismo,...,De 21 a 24 años,Hombre,,,444544.675,4477557.087,S,,,


In [3]:
# También podemos inspeccionar un poco la tabla con el método .info()
df_Madrid.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 221910 entries, 0 to 221909
Data columns (total 21 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   num_expediente        221910 non-null  object 
 1   fecha                 221910 non-null  object 
 2   hora                  221910 non-null  object 
 3   localizacion          221910 non-null  object 
 4   numero                221902 non-null  object 
 5   cod_distrito          221902 non-null  float64
 6   distrito              221902 non-null  object 
 7   tipo_accidente        221906 non-null  object 
 8   estado_meteorológico  198163 non-null  object 
 9   tipo_vehiculo         220966 non-null  object 
 10  tipo_persona          221907 non-null  object 
 11  rango_edad            221910 non-null  object 
 12  sexo                  221910 non-null  object 
 13  cod_lesividad         121342 non-null  float64
 14  lesividad             121342 non-null  object 
 15  

## Eliminación de columnas.

In [4]:
# Procedemos a borrar las columnas
df_Madrid.drop(columns=['num_expediente', 'Unnamed: 19', 'Unnamed: 20','cod_distrito','sexo','numero','lesividad'], inplace=True)

In [5]:
# Comprobamos
df_Madrid.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 221910 entries, 0 to 221909
Data columns (total 14 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   fecha                 221910 non-null  object 
 1   hora                  221910 non-null  object 
 2   localizacion          221910 non-null  object 
 3   distrito              221902 non-null  object 
 4   tipo_accidente        221906 non-null  object 
 5   estado_meteorológico  198163 non-null  object 
 6   tipo_vehiculo         220966 non-null  object 
 7   tipo_persona          221907 non-null  object 
 8   rango_edad            221910 non-null  object 
 9   cod_lesividad         121342 non-null  float64
 10  coordenada_x_utm      221902 non-null  object 
 11  coordenada_y_utm      221902 non-null  object 
 12  positiva_alcohol      221128 non-null  object 
 13  positiva_droga        688 non-null     float64
dtypes: float64(2), object(12)
memory usage: 23.7+ MB


## Limpieza de datos (Null / NaN).

In [6]:
# Observamos también que hay columnas donde hay columnas con nulls o NaN, todas las que no tienen 221.910
# Comprobamos que columnas tienen null o NaN y su cuenta
df_Madrid.isnull().sum()

fecha                        0
hora                         0
localizacion                 0
distrito                     8
tipo_accidente               4
estado_meteorológico     23747
tipo_vehiculo              944
tipo_persona                 3
rango_edad                   0
cod_lesividad           100568
coordenada_x_utm             8
coordenada_y_utm             8
positiva_alcohol           782
positiva_droga          221222
dtype: int64

In [7]:
# Comprobamos las filas con NaN en la columna 'numero' y coinciden con la de cod_distrito y distrito
# df_Madrid[df_Madrid['numero'].isna()]

In [8]:
df_Madrid[df_Madrid['distrito'].isna()]

Unnamed: 0,fecha,hora,localizacion,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,cod_lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga
79446,23/11/2020,7:45:00,"AUTOV. M-23, 0 (0.8 ENTRADA)",,Colisión lateral,Despejado,Turismo,Conductor,De 50 a 54 años,7.0,44497542.0,4474103079.0,N,
79447,23/11/2020,7:45:00,"AUTOV. M-23, 0 (0.8 ENTRADA)",,Colisión lateral,Despejado,Turismo,Conductor,De 50 a 54 años,14.0,44497542.0,4474103079.0,N,
109988,11/09/2021,19:40:00,AUTOV. M-500 / AUTOV. M-30,,Colisión fronto-lateral,Despejado,Turismo,Conductor,De 25 a 29 años,,437390155.0,4476258031.0,N,
109989,11/09/2021,19:40:00,AUTOV. M-500 / AUTOV. M-30,,Colisión fronto-lateral,Despejado,Turismo,Conductor,De 55 a 59 años,,437390155.0,4476258031.0,N,
109990,11/09/2021,19:40:00,AUTOV. M-500 / AUTOV. M-30,,Colisión fronto-lateral,Despejado,Turismo,Pasajero,De 55 a 59 años,14.0,437390155.0,4476258031.0,N,
183190,16/03/2023,22:40:00,GTA. ISIDRO GONZALEZ VELAZQUEZ / CALL. FRANCIS...,,Choque contra obstáculo fijo,Despejado,Turismo,Conductor,De 45 a 49 años,,446979.419,4481398.946,N,
211319,21/10/2023,0:40:00,VILLAVERDE A VALLECAS (FAROLA 11),,Alcance,Despejado,Turismo,Conductor,De 25 a 29 años,14.0,441291.089,4467125.159,N,
211320,21/10/2023,0:40:00,VILLAVERDE A VALLECAS (FAROLA 11),,Alcance,Despejado,VMU eléctrico,Conductor,De 18 a 20 años,3.0,441291.089,4467125.159,N,


Tanto 79446 y 79447 sería el distrito de Moratalaz.
109988, 109989 y 109990 serían el distrito de Moncloa-Aravaca
183190 es el distrito de Hortaleza
211319 y 211320 serían el distrito de Villaverde

In [9]:
# Cambiamos las entradas NaN por los valores encontrados
df_Madrid.at[79446, 'distrito'] = 'MORATALAZ'
df_Madrid.at[79447, 'distrito'] = 'MORATALAZ'
df_Madrid.at[109988, 'distrito'] = 'MONCLOA-ARAVACA'
df_Madrid.at[109989, 'distrito'] = 'MONCLOA-ARAVACA'
df_Madrid.at[109990, 'distrito'] = 'MONCLOA-ARAVACA'
df_Madrid.at[183190, 'distrito'] = 'HORTALEZA'
df_Madrid.at[211319, 'distrito'] = 'VILLAVERDE'
df_Madrid.at[211320, 'distrito'] = 'VILLAVERDE'

In [10]:
# Cambiamos los NaN de la columna 'estado_meteorológico' por 'Desconocido'
df_Madrid['estado_meteorológico'].fillna('Desconocido', inplace=True)

# Cambiamos los NaN de la columna 'tipo_vehiculo' por 'Desconocido'
df_Madrid['tipo_vehiculo'].fillna('Desconocido', inplace=True)

# Cambiamos los NaN de la columna 'tipo_persona' por 'Desconocido'
df_Madrid['tipo_persona'].fillna('Desconocido', inplace=True)

# Cambiamos los NaN de la columna 'cod_lesividad' por 77 (desconocido)
df_Madrid['cod_lesividad'].fillna(77, inplace=True)

# Cambiamos los NaN de la columna 'tipo_accidente' por 'Desconocido'
df_Madrid['tipo_accidente'].fillna('Desconocido', inplace=True)

# Cambiamos los NaN de la columna 'positiva_alcohol' por 'N'
df_Madrid['positiva_alcohol'].fillna('N', inplace=True)

# Cambiamos los NaN de la columna 'positiva_droga' por 0
df_Madrid['positiva_droga'].fillna(0.0, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_Madrid['estado_meteorológico'].fillna('Desconocido', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_Madrid['tipo_vehiculo'].fillna('Desconocido', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediat

In [11]:
# Vamos a través de la localización obtener las coordenadas UTM en la página web https://coordinates-converter.com/es/decimal/40.416775,-3.703790?karte=OpenStreetMap&zoom=8
df_Madrid[df_Madrid['coordenada_x_utm'].isna()]

Unnamed: 0,fecha,hora,localizacion,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,cod_lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga
84241,18/11/2020,10:57:00,"CALL. LOPE DE HARO, 8",TETUÁN,Colisión fronto-lateral,Despejado,Camión rígido,Conductor,De 40 a 44 años,77.0,,,N,0.0
84242,18/11/2020,10:57:00,"CALL. LOPE DE HARO, 8",TETUÁN,Colisión fronto-lateral,Despejado,Furgoneta,Conductor,De 45 a 49 años,77.0,,,N,0.0
219220,14/12/2023,9:45:00,"CALL. ATOCHA, 112",CENTRO,Choque contra obstáculo fijo,Despejado,Camión rígido,Conductor,De 50 a 54 años,77.0,,,N,0.0
219791,17/12/2023,2:45:00,PASARELA DE LA PRINCESA,ARGANZUELA,Atropello a persona,Despejado,VMU eléctrico,Conductor,De 18 a 20 años,14.0,,,N,0.0
219792,17/12/2023,2:45:00,PASARELA DE LA PRINCESA,ARGANZUELA,Atropello a persona,Despejado,VMU eléctrico,Peatón,De 50 a 54 años,2.0,,,N,0.0
219807,17/12/2023,7:35:00,AVDA. PALOMERAS / CALL. PUERTO DEL PICO,PUENTE DE VALLECAS,Colisión fronto-lateral,Despejado,Desconocido,Conductor,De 55 a 59 años,7.0,,,N,0.0
219992,18/12/2023,13:40:00,"AUTOV. M-30, 07NC40",SALAMANCA,Alcance,Despejado,Motocicleta > 125cc,Conductor,De 35 a 39 años,5.0,,,N,0.0
219993,18/12/2023,13:40:00,"AUTOV. M-30, 07NC40",SALAMANCA,Alcance,Despejado,Todo terreno,Conductor,De 35 a 39 años,14.0,,,N,1.0


In [12]:
# - Calle Lope de Haro 8 - X-UTM = 440301.600 , Y_UTM = 4478557.900
# - Calle de Atocha 112 - X-UTM = 441156.796 , Y_UTM = 4473444.959
# - Pasarela de la Princesa - X-UTM = 440839.556 , Y_UTM = 4471102.673
# - M-30, 07NC40 (como no sabemos que punto km al que se refiere pondremos unas coord por defecto de la M-30) - X-UTM = 440839.556 , Y_UTM = 4471102.673
# - Avenida Palomeras 150 - X-UTM = 444900.672 , Y_UTM = 4470784.810
# Utilizaremos el método dataframe.at[índice, campo] = entrada (podríamos utilizar también loc en vez de at, tiene el mismo funcionamiento)
df_Madrid.at[84241, 'coordenada_x_utm'] = 440301.600
df_Madrid.at[84241, 'coordenada_y_utm'] = 4478557.900
df_Madrid.at[84242, 'coordenada_x_utm'] = 440301.600
df_Madrid.at[84242, 'coordenada_y_utm'] = 4478557.900
df_Madrid.at[219220, 'coordenada_x_utm'] = 441156.796
df_Madrid.at[219220, 'coordenada_y_utm'] = 4473444.959
df_Madrid.at[219791, 'coordenada_x_utm'] = 440839.556
df_Madrid.at[219791, 'coordenada_y_utm'] = 4471102.673
df_Madrid.at[219792, 'coordenada_x_utm'] = 440839.556
df_Madrid.at[219792, 'coordenada_y_utm'] = 4471102.673
df_Madrid.at[219807, 'coordenada_x_utm'] = 444900.672
df_Madrid.at[219807, 'coordenada_y_utm'] = 4470784.810
df_Madrid.at[219992, 'coordenada_x_utm'] = 440839.556
df_Madrid.at[219992, 'coordenada_y_utm'] = 4471102.673
df_Madrid.at[219993, 'coordenada_x_utm'] = 440839.556
df_Madrid.at[219993, 'coordenada_y_utm'] = 4471102.673

In [13]:
# Comprobamos los cambios en alguna línea
df_Madrid.iloc[84241:84243]

Unnamed: 0,fecha,hora,localizacion,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,cod_lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga
84241,18/11/2020,10:57:00,"CALL. LOPE DE HARO, 8",TETUÁN,Colisión fronto-lateral,Despejado,Camión rígido,Conductor,De 40 a 44 años,77.0,440301.6,4478557.9,N,0.0
84242,18/11/2020,10:57:00,"CALL. LOPE DE HARO, 8",TETUÁN,Colisión fronto-lateral,Despejado,Furgoneta,Conductor,De 45 a 49 años,77.0,440301.6,4478557.9,N,0.0


In [14]:
df_Madrid.isnull().sum()

fecha                   0
hora                    0
localizacion            0
distrito                0
tipo_accidente          0
estado_meteorológico    0
tipo_vehiculo           0
tipo_persona            0
rango_edad              0
cod_lesividad           0
coordenada_x_utm        0
coordenada_y_utm        0
positiva_alcohol        0
positiva_droga          0
dtype: int64

## Conversión del tipo de los campos de nuestro dataframe.

In [15]:
df_Madrid.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 221910 entries, 0 to 221909
Data columns (total 14 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   fecha                 221910 non-null  object 
 1   hora                  221910 non-null  object 
 2   localizacion          221910 non-null  object 
 3   distrito              221910 non-null  object 
 4   tipo_accidente        221910 non-null  object 
 5   estado_meteorológico  221910 non-null  object 
 6   tipo_vehiculo         221910 non-null  object 
 7   tipo_persona          221910 non-null  object 
 8   rango_edad            221910 non-null  object 
 9   cod_lesividad         221910 non-null  float64
 10  coordenada_x_utm      221910 non-null  object 
 11  coordenada_y_utm      221910 non-null  object 
 12  positiva_alcohol      221910 non-null  object 
 13  positiva_droga        221910 non-null  float64
dtypes: float64(2), object(12)
memory usage: 23.7+ MB


In [16]:
# Conversión de positivo_droga a string sin decimales -> integer -> string
df_Madrid['positiva_droga'] = df_Madrid['positiva_droga'].astype(int)
df_Madrid['positiva_droga'] = df_Madrid['positiva_droga'].astype(str)

In [17]:
# Cambiamos los valores 0 por N y 1 por S
df_Madrid['positiva_droga'] = df_Madrid['positiva_droga'].replace({'0': 'N', '1': 'S'})
df_Madrid.tail(3)

Unnamed: 0,fecha,hora,localizacion,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,cod_lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga
221907,29/12/2023,9:35:00,"PTA. TOLEDO, 0",CENTRO,Alcance,Despejado,Motocicleta hasta 125cc,Conductor,De 45 a 49 años,77.0,439594.878,4473163.747,N,N
221908,29/12/2023,9:35:00,"PTA. TOLEDO, 0",CENTRO,Alcance,Despejado,Turismo,Conductor,De 21 a 24 años,77.0,439594.878,4473163.747,N,N
221909,29/12/2023,5:10:00,CALL. HERNANDEZ DE TEJADA / CALL. AGASTIA,CIUDAD LINEAL,Solo salida de la vía,Despejado,Turismo,Conductor,De 21 a 24 años,77.0,444544.675,4477557.087,S,N


In [18]:
df_Madrid.isnull().sum()

fecha                   0
hora                    0
localizacion            0
distrito                0
tipo_accidente          0
estado_meteorológico    0
tipo_vehiculo           0
tipo_persona            0
rango_edad              0
cod_lesividad           0
coordenada_x_utm        0
coordenada_y_utm        0
positiva_alcohol        0
positiva_droga          0
dtype: int64

In [19]:
# Reemplazar la coma por un punto solo en los valores que tienen una coma
df_Madrid['coordenada_x_utm'] = df_Madrid['coordenada_x_utm'].apply(lambda x: x.replace(',', '.') if isinstance(x, str) else x)
df_Madrid['coordenada_y_utm'] = df_Madrid['coordenada_y_utm'].apply(lambda x: x.replace(',', '.') if isinstance(x, str) else x)

# Convertimos a float los campos de coordenada_x_utm y coordenada_y_utm
# Nos generará un campo NaN si hay errores
df_Madrid['coordenada_x_utm'] = pd.to_numeric(df_Madrid['coordenada_x_utm'], errors='coerce')
df_Madrid['coordenada_y_utm'] = pd.to_numeric(df_Madrid['coordenada_y_utm'], errors='coerce')
df_Madrid.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 221910 entries, 0 to 221909
Data columns (total 14 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   fecha                 221910 non-null  object 
 1   hora                  221910 non-null  object 
 2   localizacion          221910 non-null  object 
 3   distrito              221910 non-null  object 
 4   tipo_accidente        221910 non-null  object 
 5   estado_meteorológico  221910 non-null  object 
 6   tipo_vehiculo         221910 non-null  object 
 7   tipo_persona          221910 non-null  object 
 8   rango_edad            221910 non-null  object 
 9   cod_lesividad         221910 non-null  float64
 10  coordenada_x_utm      221880 non-null  float64
 11  coordenada_y_utm      221880 non-null  float64
 12  positiva_alcohol      221910 non-null  object 
 13  positiva_droga        221910 non-null  object 
dtypes: float64(3), object(11)
memory usage: 23.7+ MB


In [20]:
df_Madrid[df_Madrid['coordenada_x_utm'].isna()]

Unnamed: 0,fecha,hora,localizacion,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,cod_lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga
29308,23/07/2019,8:45:00,"AUTOV. M-30, +03200E",FUENCARRAL-EL PARDO,Alcance,Despejado,Motocicleta > 125cc,Conductor,De 30 a 34 años,7.0,,,N,N
29309,23/07/2019,8:45:00,"AUTOV. M-30, +03200E",FUENCARRAL-EL PARDO,Alcance,Despejado,Turismo,Conductor,De 50 a 54 años,14.0,,,N,N
69764,09/08/2020,18:10:00,"CALL. POLVORANCA, 13",CARABANCHEL,Choque contra obstáculo fijo,Despejado,Desconocido,Conductor,Desconocido,77.0,,,N,N
69765,09/08/2020,18:10:00,"CALL. POLVORANCA, 13",CARABANCHEL,Choque contra obstáculo fijo,Despejado,Furgoneta,Conductor,Desconocido,77.0,,,N,N
69766,09/08/2020,18:10:00,"CALL. POLVORANCA, 13",CARABANCHEL,Choque contra obstáculo fijo,Despejado,Turismo,Conductor,Desconocido,77.0,,,N,N
72304,13/09/2020,17:45:00,AVDA. ALBUFERA / AVDA. PABLO NERUDA,PUENTE DE VALLECAS,Colisión fronto-lateral,Despejado,Turismo,Conductor,De 30 a 34 años,14.0,,,N,N
72305,13/09/2020,17:45:00,AVDA. ALBUFERA / AVDA. PABLO NERUDA,PUENTE DE VALLECAS,Colisión fronto-lateral,Despejado,Turismo,Conductor,De 40 a 44 años,14.0,,,N,N
72306,13/09/2020,17:45:00,AVDA. ALBUFERA / AVDA. PABLO NERUDA,PUENTE DE VALLECAS,Colisión fronto-lateral,Despejado,Turismo,Pasajero,De 25 a 29 años,14.0,,,N,N
115061,17/10/2021,12:20:00,RONDA. SUR / CALL. MARTOS,PUENTE DE VALLECAS,Alcance,Despejado,Furgoneta,Conductor,Desconocido,77.0,,,N,N
115062,17/10/2021,12:20:00,RONDA. SUR / CALL. MARTOS,PUENTE DE VALLECAS,Alcance,Despejado,Turismo,Conductor,De 18 a 20 años,77.0,,,N,N


In [21]:
# Procedemos a introducir los valores de las coordenadas
df_Madrid.at[29308, 'coordenada_x_utm'] = 436432.168
df_Madrid.at[29308, 'coordenada_y_utm'] = 4480599.260
df_Madrid.at[29309, 'coordenada_x_utm'] = 436432.168
df_Madrid.at[29309, 'coordenada_y_utm'] = 4480599.260

df_Madrid.at[69764, 'coordenada_x_utm'] = 432477.331
df_Madrid.at[69764, 'coordenada_y_utm'] = 4459959.173
df_Madrid.at[69765, 'coordenada_x_utm'] = 432477.331
df_Madrid.at[69765, 'coordenada_y_utm'] = 4459959.173
df_Madrid.at[69766, 'coordenada_x_utm'] = 432477.331
df_Madrid.at[69766, 'coordenada_y_utm'] = 4459959.173

df_Madrid.at[72304, 'coordenada_x_utm'] = 445302.242
df_Madrid.at[72304, 'coordenada_y_utm'] = 4471156.069
df_Madrid.at[72305, 'coordenada_x_utm'] = 445302.242
df_Madrid.at[72305, 'coordenada_y_utm'] = 4471156.069
df_Madrid.at[72306, 'coordenada_x_utm'] = 445302.242
df_Madrid.at[72306, 'coordenada_y_utm'] = 4471156.069

df_Madrid.at[115061, 'coordenada_x_utm'] = 443894.339
df_Madrid.at[115061, 'coordenada_y_utm'] = 4469676.887
df_Madrid.at[115062, 'coordenada_x_utm'] = 443894.339
df_Madrid.at[115062, 'coordenada_y_utm'] = 4469676.887

df_Madrid.at[122183, 'coordenada_x_utm'] = 439092.309
df_Madrid.at[122183, 'coordenada_y_utm'] = 4475315.926
df_Madrid.at[122184, 'coordenada_x_utm'] = 439092.309
df_Madrid.at[122184, 'coordenada_y_utm'] = 4475315.926

df_Madrid.at[123687, 'coordenada_x_utm'] = 444731.062
df_Madrid.at[123687, 'coordenada_y_utm'] = 4474213.984

df_Madrid.at[123688, 'coordenada_x_utm'] = 444731.062
df_Madrid.at[123688, 'coordenada_y_utm'] = 4474213.984
df_Madrid.at[123689, 'coordenada_x_utm'] = 444731.062
df_Madrid.at[123689, 'coordenada_y_utm'] = 4474213.984

df_Madrid.at[125475, 'coordenada_x_utm'] = 445063.833
df_Madrid.at[125475, 'coordenada_y_utm'] = 4475362.909

df_Madrid.at[125669, 'coordenada_x_utm'] = 441111.754
df_Madrid.at[125669, 'coordenada_y_utm'] = 4477732.611

df_Madrid.at[125768, 'coordenada_x_utm'] = 438010.148
df_Madrid.at[125768, 'coordenada_y_utm'] = 4471237.295

df_Madrid.at[125858, 'coordenada_x_utm'] = 444790.650
df_Madrid.at[125858, 'coordenada_y_utm'] = 4473965.359
df_Madrid.at[125859, 'coordenada_x_utm'] = 444790.650
df_Madrid.at[125859, 'coordenada_y_utm'] = 4473965.359

df_Madrid.at[126829, 'coordenada_x_utm'] = 439110.247
df_Madrid.at[126829, 'coordenada_y_utm'] = 4472050.069

df_Madrid.at[168597, 'coordenada_x_utm'] = 442817.511
df_Madrid.at[168597, 'coordenada_y_utm'] = 4475153.037
df_Madrid.at[168598, 'coordenada_x_utm'] = 442817.511
df_Madrid.at[168598, 'coordenada_y_utm'] = 4475153.037

df_Madrid.at[169146, 'coordenada_x_utm'] = 444094.054
df_Madrid.at[169146, 'coordenada_y_utm'] = 4471642.517

df_Madrid.at[170224, 'coordenada_x_utm'] = 439539.588
df_Madrid.at[170224, 'coordenada_y_utm'] = 4471257.897
df_Madrid.at[170225, 'coordenada_x_utm'] = 439539.588
df_Madrid.at[170225, 'coordenada_y_utm'] = 4471257.897

df_Madrid.at[171337, 'coordenada_x_utm'] = 443229.003
df_Madrid.at[171337, 'coordenada_y_utm'] = 4472166.963

df_Madrid.at[173064, 'coordenada_x_utm'] = 440901.496
df_Madrid.at[173064, 'coordenada_y_utm'] = 4477557.433
df_Madrid.at[173065, 'coordenada_x_utm'] = 440901.496
df_Madrid.at[173065, 'coordenada_y_utm'] = 4477557.433
df_Madrid.at[173066, 'coordenada_x_utm'] = 440901.496
df_Madrid.at[173066, 'coordenada_y_utm'] = 4477557.433

In [22]:
# Pasamos a entero para eliminar el decimal y luego a cadena
df_Madrid['cod_lesividad'] = df_Madrid['cod_lesividad'].astype(int)
df_Madrid['cod_lesividad'] = df_Madrid['cod_lesividad'].astype(str)

In [23]:
# Cambiamos el tipo de fecha de cadena a tipo fecha
df_Madrid['fecha'] = pd.to_datetime(df_Madrid['fecha'], format='%d/%m/%Y')

In [24]:
df_Madrid.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 221910 entries, 0 to 221909
Data columns (total 14 columns):
 #   Column                Non-Null Count   Dtype         
---  ------                --------------   -----         
 0   fecha                 221910 non-null  datetime64[ns]
 1   hora                  221910 non-null  object        
 2   localizacion          221910 non-null  object        
 3   distrito              221910 non-null  object        
 4   tipo_accidente        221910 non-null  object        
 5   estado_meteorológico  221910 non-null  object        
 6   tipo_vehiculo         221910 non-null  object        
 7   tipo_persona          221910 non-null  object        
 8   rango_edad            221910 non-null  object        
 9   cod_lesividad         221910 non-null  object        
 10  coordenada_x_utm      221910 non-null  float64       
 11  coordenada_y_utm      221910 non-null  float64       
 12  positiva_alcohol      221910 non-null  object        
 13 

## Creación de nuevas columnas.

In [25]:
# Crea una nueva columna para las franjas horarias
def asignar_franja_horaria(hora):
    hora_inicio = hora.split(':')[0] + ':00'
    hora_fin = hora.split(':')[0] + ':59'
    return f"{hora_inicio} - {hora_fin}"

df_Madrid['franja_horaria'] = df_Madrid['hora'].apply(asignar_franja_horaria)

In [26]:
# Creamos nueva columna de dia de la semana, primero transformamos la clase de la columna a datetime
import calendar

dias_semana_espanol = {0: 'lunes', 1: 'martes', 2: 'miércoles', 3: 'jueves', 4: 'viernes', 5: 'sábado', 6: 'domingo'}
df_Madrid['dia_semana'] = df_Madrid['fecha'].dt.dayofweek.map(dias_semana_espanol)

In [27]:
# Nueva columna del mes en español
mes_espanol = {1: 'enero', 2: 'febrero', 3: 'marzo', 
               4: 'abril', 5: 'mayo', 6: 'junio',
               7: 'julio', 8: 'agosto', 9: 'septiembre', 
               10: 'octubre', 11: 'noviembre', 12: 'diciembre'}
df_Madrid['mes'] = df_Madrid['fecha'].dt.month.map(mes_espanol)

In [28]:
from pyproj import Transformer

# Definir el transformer para la conversión de UTM "EPSG:25830" a latitud/longitud "EPSG:4326"
transformer = Transformer.from_crs("EPSG:25830", "EPSG:4326")

# Función para convertir coordenadas UTM a longitud y latitud
def utm_to_lat_lon(x, y):
    lon, lat = transformer.transform(x, y)
    return lon, lat

# Aplicar la función a las columnas 'coordenada_x_utm' y 'coordenada_y_utm'
df_Madrid['latitud'], df_Madrid['longitud'] = utm_to_lat_lon(df_Madrid['coordenada_x_utm'].values, 
                                                             df_Madrid['coordenada_y_utm'].values)

In [29]:
latitud_cerca_de_cero = df_Madrid[df_Madrid['latitud'].abs() < 0.000001]
latitud_cerca_de_cero

Unnamed: 0,fecha,hora,localizacion,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,cod_lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga,franja_horaria,dia_semana,mes,latitud,longitud
197869,2023-07-03,8:50:00,"AEROP. TERMINAL T-4, 0",BARAJAS,Colisión lateral,Despejado,Todo terreno,Conductor,De 50 a 54 años,77,0.0,0.0,N,N,8:00 - 8:59,lunes,julio,0.0,-7.488744
197870,2023-07-03,8:50:00,"AEROP. TERMINAL T-4, 0",BARAJAS,Colisión lateral,Despejado,Turismo,Conductor,De 35 a 39 años,77,0.0,0.0,N,N,8:00 - 8:59,lunes,julio,0.0,-7.488744
208840,2023-10-04,14:27:00,"CALL. CEA BERMUDEZ, 57",CHAMBERÍ,Caída,Despejado,VMU eléctrico,Conductor,De 50 a 54 años,7,0.0,0.0,N,N,14:00 - 14:59,miércoles,octubre,0.0,-7.488744


In [30]:
df_Madrid.at[197869, 'latitud'] = 40.490622
df_Madrid.at[197869, 'longitud'] = -3.5950471
df_Madrid.at[197870, 'latitud'] = 40.490622
df_Madrid.at[197870, 'longitud'] = -3.5950471
df_Madrid.at[208840, 'latitud'] = 40.43902
df_Madrid.at[208840, 'longitud'] = -3.714237

In [31]:
df_Madrid.isnull().sum()

fecha                   0
hora                    0
localizacion            0
distrito                0
tipo_accidente          0
estado_meteorológico    0
tipo_vehiculo           0
tipo_persona            0
rango_edad              0
cod_lesividad           0
coordenada_x_utm        0
coordenada_y_utm        0
positiva_alcohol        0
positiva_droga          0
franja_horaria          0
dia_semana              0
mes                     0
latitud                 0
longitud                0
dtype: int64

In [32]:
# Eliminaremos las columnas de coordenadas UTM, ya que solo trabajaremos con latitud y longitud
df_Madrid.drop(columns=['coordenada_x_utm','coordenada_y_utm'], inplace=True)

In [33]:
# Guardamos el dataframe en un archivo para ir explorando los resultados
df_Madrid.to_csv('C:/CSV/' + 'Madrid_Final.csv', index=False, decimal=',')

In [34]:
df_Madrid.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 221910 entries, 0 to 221909
Data columns (total 17 columns):
 #   Column                Non-Null Count   Dtype         
---  ------                --------------   -----         
 0   fecha                 221910 non-null  datetime64[ns]
 1   hora                  221910 non-null  object        
 2   localizacion          221910 non-null  object        
 3   distrito              221910 non-null  object        
 4   tipo_accidente        221910 non-null  object        
 5   estado_meteorológico  221910 non-null  object        
 6   tipo_vehiculo         221910 non-null  object        
 7   tipo_persona          221910 non-null  object        
 8   rango_edad            221910 non-null  object        
 9   cod_lesividad         221910 non-null  object        
 10  positiva_alcohol      221910 non-null  object        
 11  positiva_droga        221910 non-null  object        
 12  franja_horaria        221910 non-null  object        
 13 

In [35]:
df_Madrid.head(3)

Unnamed: 0,fecha,hora,localizacion,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,cod_lesividad,positiva_alcohol,positiva_droga,franja_horaria,dia_semana,mes,latitud,longitud
0,2019-02-04,9:10:00,"CALL. ALBERTO AGUILERA, 1",CENTRO,Colisión lateral,Despejado,Motocicleta > 125cc,Conductor,De 45 a 49 años,7,N,N,9:00 - 9:59,lunes,febrero,40.429592,-3.706555
1,2019-02-04,9:10:00,"CALL. ALBERTO AGUILERA, 1",CENTRO,Colisión lateral,Despejado,Turismo,Conductor,De 30 a 34 años,7,N,N,9:00 - 9:59,lunes,febrero,40.429592,-3.706555
2,2019-01-01,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,CARABANCHEL,Alcance,Desconocido,Furgoneta,Conductor,De 40 a 44 años,77,S,N,3:00 - 3:59,martes,enero,40.385903,-3.717037


## Modelo de predicción

In [39]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import KFold
import numpy as np
import time

inicio=time.time()
X = df_Madrid.drop('cod_lesividad', axis=1)
y = df_Madrid['cod_lesividad']

# Dividir datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Datos de entrenamiento y prueba divididos.")

# Definir columnas categóricas explícitamente (excluyendo las numéricas y otras columnas específicas)
cat_features = ['franja_horaria', 'estado_meteorológico', 'rango_edad', 'distrito', 'tipo_accidente', 
                'tipo_vehiculo', 'tipo_persona', 'positiva_alcohol', 'positiva_droga', 'dia_semana', 'mes']

# Verificar que estas columnas existan en el DataFrame
print("Columnas categóricas:", cat_features)

# Crear preprocesador solo para las columnas categóricas
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(handle_unknown='ignore'), cat_features)
    ])
print("Preprocesador creado.")

# Crear pipeline con preprocesador y modelo
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42))
])
print("Pipeline creado.")

# Evaluar el modelo usando validación cruzada
print("Evaluando modelo con validación cruzada...")
cv_scores = cross_val_score(model, X_train, y_train, cv=5)
print("Porcentaje de acierto en validación cruzada:", np.mean(cv_scores))
print("Desviación estándar en validación cruzada:", np.std(cv_scores))

# Entrenar el modelo completo y predecir en el conjunto de prueba
print("Entrenando el modelo completo...")
model.fit(X_train, y_train)
print("Modelo entrenado.")
y_pred = model.predict(X_test)
print("Predicciones realizadas.")

# Evaluar el modelo en el conjunto de prueba
print("Porcentaje de acierto en nuestro banco de test:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))
final = time.time()
duracion = final-inicio
print ("Tiempo de duración en hacer el modelo de predicción: ",duracion)

Reemplazo realizado en X.
Datos de entrenamiento y prueba divididos.
Columnas categóricas: ['franja_horaria', 'estado_meteorológico', 'rango_edad', 'distrito', 'tipo_accidente', 'tipo_vehiculo', 'tipo_persona', 'positiva_alcohol', 'positiva_droga', 'dia_semana', 'mes']
Preprocesador creado.
Pipeline creado.
Evaluando modelo con validación cruzada...
Porcentaje de acierto en validación cruzada: 0.5931402295942365
Desviación estándar en validación cruzada: 0.0020153821257838616
Entrenando el modelo completo...
Modelo entrenado.
Predicciones realizadas.
Porcentaje de acierto en nuestro banco de test: 0.6027668874769051
              precision    recall  f1-score   support

           1       0.21      0.05      0.08      1289
          14       0.57      0.61      0.59     13469
           2       0.20      0.09      0.12      1741
           3       0.16      0.05      0.08       489
           4       0.00      0.00      0.00        26
           5       0.24      0.03      0.05       5

In [40]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import KFold
import numpy as np
import time

inicio=time.time()
# Separamos características (X) y la variable objetivo (y)
X = df_Madrid.drop('cod_lesividad', axis=1)
y = df_Madrid['cod_lesividad']


# Dividimos datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Datos de entrenamiento y prueba divididos.")

# Definimos columnas numéricas
num_features = ['latitud', 'longitud']

# Creamos la lista de columnas categóricas de manera explícita
cat_features = ['franja_horaria', 'estado_meteorológico', 'rango_edad', 'distrito', 'tipo_accidente', 
                'tipo_vehiculo', 'tipo_persona', 'positiva_alcohol', 'positiva_droga', 'dia_semana', 'mes']

# Verificamos que estas columnas existan en el DataFrame
print("Columnas numéricas:", num_features)
print("Columnas categóricas:", cat_features)

# Creamos preprocesador
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), num_features),
        ('cat', OneHotEncoder(handle_unknown='ignore'), cat_features)
    ])
print("Preprocesador creado.")

# Creamos pipeline con preprocesador y modelo
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42))
])
print("Pipeline creado.")

# Evaluamos el modelo usando validación cruzada
cv_scores = cross_val_score(model, X_train, y_train, cv=5)
print("Porcentaje de acierto en validación cruzada:", np.mean(cv_scores))
print("Desviación estándar en validación cruzada:", np.std(cv_scores))

# Entrenamos el modelo completo y predecir en el conjunto de prueba
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("Modelo entrenado y predicciones realizadas.")

# Evaluamos el modelo en el conjunto de prueba
print("Porcentaje de acierto en nuestro banco de test:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))
final = time.time()
duracion = final-inicio
print ("Tiempo de duración en hacer el modelo de predicción: ",duracion)

Datos de entrenamiento y prueba divididos.
Columnas numéricas: ['latitud', 'longitud']
Columnas categóricas: ['franja_horaria', 'estado_meteorológico', 'rango_edad', 'distrito', 'tipo_accidente', 'tipo_vehiculo', 'tipo_persona', 'positiva_alcohol', 'positiva_droga', 'dia_semana', 'mes']
Preprocesador creado.
Pipeline creado.
Porcentaje de acierto en validación cruzada: 0.6141397359324946
Desviación estándar en validación cruzada: 0.0009870389760889564
Modelo entrenado y predicciones realizadas.
Porcentaje de acierto en nuestro banco de test: 0.6272362669550718
              precision    recall  f1-score   support

           1       0.22      0.05      0.08      1289
          14       0.59      0.64      0.61     13469
           2       0.25      0.09      0.13      1741
           3       0.24      0.06      0.10       489
           4       0.00      0.00      0.00        26
           5       0.30      0.03      0.06       548
           6       0.24      0.04      0.07      1111


In [43]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import KFold
import numpy as np
import time

inicio=time.time()
X = df_Madrid.drop('cod_lesividad', axis=1)
y = df_Madrid['cod_lesividad']

# Dividir datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Datos de entrenamiento y prueba divididos.")

# Definir columnas categóricas explícitamente (excluyendo las numéricas y otras columnas específicas)
cat_features = ['franja_horaria', 'estado_meteorológico', 'rango_edad', 'distrito', 'dia_semana', 'mes']

# Verificar que estas columnas existan en el DataFrame
print("Columnas categóricas:", cat_features)

# Crear preprocesador solo para las columnas categóricas
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(handle_unknown='ignore'), cat_features)
    ])
print("Preprocesador creado.")

# Crear pipeline con preprocesador y modelo
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42))
])
print("Pipeline creado.")

# Evaluar el modelo usando validación cruzada
print("Evaluando modelo con validación cruzada...")
cv_scores = cross_val_score(model, X_train, y_train, cv=5)
print("Porcentaje de acierto en validación cruzada:", np.mean(cv_scores))
print("Desviación estándar en validación cruzada:", np.std(cv_scores))

# Entrenar el modelo completo y predecir en el conjunto de prueba
print("Entrenando el modelo completo...")
model.fit(X_train, y_train)
print("Modelo entrenado.")
y_pred = model.predict(X_test)
print("Predicciones realizadas.")

# Evaluar el modelo en el conjunto de prueba
print("Porcentaje de acierto en nuestro banco de test:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))
final = time.time()
duracion = final-inicio
print ("Tiempo de duración en hacer el modelo de predicción: ",duracion)

Datos de entrenamiento y prueba divididos.
Columnas categóricas: ['franja_horaria', 'estado_meteorológico', 'rango_edad', 'distrito', 'dia_semana', 'mes']
Preprocesador creado.
Pipeline creado.
Evaluando modelo con validación cruzada...
Porcentaje de acierto en validación cruzada: 0.4931954400990106
Desviación estándar en validación cruzada: 0.0015661791497223584
Entrenando el modelo completo...
Modelo entrenado.
Predicciones realizadas.
Porcentaje de acierto en nuestro banco de test: 0.5013068361047271
              precision    recall  f1-score   support

           1       0.15      0.04      0.07      1289
          14       0.41      0.50      0.45     13469
           2       0.15      0.06      0.08      1741
           3       0.06      0.02      0.03       489
           4       0.00      0.00      0.00        26
           5       0.11      0.03      0.05       548
           6       0.07      0.02      0.03      1111
           7       0.23      0.14      0.17      5634
    

In [38]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import KFold
import numpy as np
import time

inicio=time.time()
# Separar características (X) y la variable objetivo (y)
X = df_Madrid.drop('cod_lesividad', axis=1)
y = df_Madrid['cod_lesividad']

# Dividir datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Datos de entrenamiento y prueba divididos.")

# Definir columnas numéricas
num_features = ['latitud', 'longitud']

# Crear la lista de columnas categóricas de manera explícita
cat_features = ['franja_horaria', 'estado_meteorológico', 'rango_edad', 'distrito', 'dia_semana', 'mes']

# Verificar que estas columnas existan en el DataFrame
print("Columnas numéricas:", num_features)
print("Columnas categóricas:", cat_features)

# Crear preprocesador
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), num_features),
        ('cat', OneHotEncoder(handle_unknown='ignore'), cat_features)
    ])
print("Preprocesador creado.")

# Crear pipeline con preprocesador y modelo
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42))
])
print("Pipeline creado.")

# Evaluar el modelo usando validación cruzada
cv_scores = cross_val_score(model, X_train, y_train, cv=5)
print("Porcentaje de acierto en validación cruzada:", np.mean(cv_scores))
print("Desviación estándar en validación cruzada:", np.std(cv_scores))

# Entrenar el modelo completo y predecir en el conjunto de prueba
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("Modelo entrenado y predicciones realizadas.")

# Evaluar el modelo en el conjunto de prueba
print("Porcentaje de acierto en nuestro banco de test:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))
final = time.time()
duracion = final-inicio
print ("Tiempo de duración en hacer el modelo de predicción: ",duracion)

Datos de entrenamiento y prueba divididos.
Columnas numéricas: ['latitud', 'longitud']
Columnas categóricas: ['franja_horaria', 'estado_meteorológico', 'rango_edad', 'distrito', 'dia_semana', 'mes']
Preprocesador creado.
Pipeline creado.
Porcentaje de acierto en validación cruzada: 0.5332623410100895
Desviación estándar en validación cruzada: 0.002249025328851927
Modelo entrenado y predicciones realizadas.
Porcentaje de acierto en nuestro banco de test: 0.5443423009328106
              precision    recall  f1-score   support

           1       0.23      0.04      0.08      1289
          14       0.43      0.56      0.49     13469
           2       0.23      0.06      0.09      1741
           3       0.07      0.01      0.02       489
           4       0.00      0.00      0.00        26
           5       0.19      0.04      0.07       548
           6       0.12      0.02      0.04      1111
           7       0.27      0.13      0.18      5634
          77       0.68      0.78   

In [38]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import KFold
import numpy as np
import time

inicio=time.time()
X = df_Madrid.drop('cod_lesividad', axis=1)
y = df_Madrid['cod_lesividad']

# Dividir datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Datos de entrenamiento y prueba divididos.")

# Definir columnas categóricas explícitamente (excluyendo las numéricas y otras columnas específicas)
cat_features = ['franja_horaria','mes']

# Verificar que estas columnas existan en el DataFrame
print("Columnas categóricas:", cat_features)

# Crear preprocesador solo para las columnas categóricas
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(handle_unknown='ignore'), cat_features)
    ])
print("Preprocesador creado.")

# Crear pipeline con preprocesador y modelo
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42))
])
print("Pipeline creado.")

# Evaluar el modelo usando validación cruzada
print("Evaluando modelo con validación cruzada...")
cv_scores = cross_val_score(model, X_train, y_train, cv=5)
print("Porcentaje de acierto en validación cruzada:", np.mean(cv_scores))
print("Desviación estándar en validación cruzada:", np.std(cv_scores))

# Entrenar el modelo completo y predecir en el conjunto de prueba
print("Entrenando el modelo completo...")
model.fit(X_train, y_train)
print("Modelo entrenado.")
y_pred = model.predict(X_test)
print("Predicciones realizadas.")

# Evaluar el modelo en el conjunto de prueba
print("Porcentaje de acierto en nuestro banco de test:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))
final = time.time()
duracion = final-inicio
print ("Tiempo de duración en hacer el modelo de predicción: ",duracion)

Datos de entrenamiento y prueba divididos.
Columnas categóricas: ['franja_horaria', 'mes']
Preprocesador creado.
Pipeline creado.
Evaluando modelo con validación cruzada...
Porcentaje de acierto en validación cruzada: 0.45232301979058215
Desviación estándar en validación cruzada: 0.0006377528057739635
Entrenando el modelo completo...
Modelo entrenado.
Predicciones realizadas.
Porcentaje de acierto en nuestro banco de test: 0.45293136857284483


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


              precision    recall  f1-score   support

           1       0.00      0.00      0.00      1289
          14       0.41      0.01      0.02     13469
           2       0.00      0.00      0.00      1741
           3       0.00      0.00      0.00       489
           4       0.00      0.00      0.00        26
           5       0.00      0.00      0.00       548
           6       0.00      0.00      0.00      1111
           7       0.00      0.00      0.00      5634
          77       0.45      0.99      0.62     20075

    accuracy                           0.45     44382
   macro avg       0.10      0.11      0.07     44382
weighted avg       0.33      0.45      0.29     44382

Tiempo de duración en hacer el modelo de predicción:  89.52699685096741


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [39]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import KFold
import numpy as np
import time

inicio=time.time()
# Separamos características (X) y la variable objetivo (y)
X = df_Madrid.drop('cod_lesividad', axis=1)
y = df_Madrid['cod_lesividad']


# Dividimos datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Datos de entrenamiento y prueba divididos.")

# Definimos columnas numéricas
num_features = ['latitud', 'longitud']

# Creamos la lista de columnas categóricas de manera explícita
cat_features = ['franja_horaria', 'mes']

# Verificamos que estas columnas existan en el DataFrame
print("Columnas numéricas:", num_features)
print("Columnas categóricas:", cat_features)

# Creamos preprocesador
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), num_features),
        ('cat', OneHotEncoder(handle_unknown='ignore'), cat_features)
    ])
print("Preprocesador creado.")

# Creamos pipeline con preprocesador y modelo
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42))
])
print("Pipeline creado.")

# Evaluamos el modelo usando validación cruzada
cv_scores = cross_val_score(model, X_train, y_train, cv=5)
print("Porcentaje de acierto en validación cruzada:", np.mean(cv_scores))
print("Desviación estándar en validación cruzada:", np.std(cv_scores))

# Entrenamos el modelo completo y predecir en el conjunto de prueba
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("Modelo entrenado y predicciones realizadas.")

# Evaluamos el modelo en el conjunto de prueba
print("Porcentaje de acierto en nuestro banco de test:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))
final = time.time()
duracion = final-inicio
print ("Tiempo de duración en hacer el modelo de predicción: ",duracion)

Datos de entrenamiento y prueba divididos.
Columnas numéricas: ['latitud', 'longitud']
Columnas categóricas: ['franja_horaria', 'mes']
Preprocesador creado.
Pipeline creado.
Porcentaje de acierto en validación cruzada: 0.5482966036321234
Desviación estándar en validación cruzada: 0.00043984371976018454
Modelo entrenado y predicciones realizadas.
Porcentaje de acierto en nuestro banco de test: 0.5759316840160426
              precision    recall  f1-score   support

           1       0.13      0.09      0.11      1289
          14       0.44      0.48      0.46     13469
           2       0.16      0.11      0.13      1741
           3       0.07      0.05      0.06       489
           4       0.00      0.00      0.00        26
           5       0.12      0.09      0.10       548
           6       0.11      0.07      0.09      1111
           7       0.24      0.19      0.21      5634
          77       0.82      0.88      0.85     20075

    accuracy                           0.58