# **Exploratory Data Analysis: Reported Road Accidents in Guadalajara Metropolitan Zone**

#### **1. Imports and Data Loading**

**Import modules**

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

**Load data**

In [2]:
df = pd.read_csv("data.csv", encoding='latin-1')

#### **2. Data Exploration**

**Check dataset first 5 rows**

In [3]:
df.head(5)

Unnamed: 0.1,Unnamed: 0,consecutivo,Id,fecha,anio,mes,dia,dia_sem,rango_hora,mun,...,calle_2,x,y,tipo_siniestro,condicion_usuario,tipo_usuario,ibaen_atro,sexo,rango_edad,consecuencia
0,1,1,2015-01-01-1-EHGR-20:00 A 21:59,2015-01-01,2015,Enero,1,jueves,20:00 a 20:59,Guadalajara,...,Rio Rhin,-103.33658,20.653207,Colisión con peatón/Atropellamiento,Conductor,Motociclista,Motocicleta,Hombre,No disponible,Ileso
1,2,2,2015-01-01-1-EHGR-20:00 A 21:59,2015-01-01,2015,Enero,1,jueves,20:00 a 20:59,Guadalajara,...,Rio Rhin,-103.33658,20.653207,Colisión con peatón/Atropellamiento,Peatón,Peatón,Motocicleta,Mujer,28-37,Lesionado
2,3,3,2015-01-01-620850-SISCAV-08:00 A 09:59,2015-01-01,2015,Enero,1,jueves,09:00 a 09:59,Sin datos,...,Tlaquepaque,,,Colisión con objeto fijo,Conductor,Vehiculo Particular,Automovil,Hombre,18-27,Ileso
3,4,4,2015-01-01-620850-SISCAV-08:00 A 09:59,2015-01-01,2015,Enero,1,jueves,09:00 a 09:59,Sin datos,...,Tlaquepaque,,,Colisión con objeto fijo,Pasajero,Vehiculo Particular,Automovil,Mujer,No disponible,Lesionado
4,5,5,2015-01-01-622260-SISCAV-04:00 A 05:59,2015-01-01,2015,Enero,1,jueves,05:00 a 05:59,Guadalajara,...,Plutarco Elias Calles,-103.29641,20.670602,Colisión con objeto fijo,Conductor,Transporte Empresarial o de Personal,Camioneta De Pasajeros,Hombre,38-47,Fallecido


**Inspect data types and missing values**

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46005 entries, 0 to 46004
Data columns (total 21 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Unnamed: 0         46005 non-null  int64 
 1   consecutivo        46005 non-null  int64 
 2   Id                 46005 non-null  object
 3   fecha              46005 non-null  object
 4   anio               46005 non-null  int64 
 5   mes                46005 non-null  object
 6   dia                46005 non-null  int64 
 7   dia_sem            46005 non-null  object
 8   rango_hora         46005 non-null  object
 9   mun                46005 non-null  object
 10  calle_1            46005 non-null  object
 11  calle_2            46005 non-null  object
 12  x                  41873 non-null  object
 13  y                  41873 non-null  object
 14  tipo_siniestro     46005 non-null  object
 15  condicion_usuario  46005 non-null  object
 16  tipo_usuario       46005 non-null  objec

**Check summary statistic of numerical columns**

In [5]:
df.describe()

Unnamed: 0.1,Unnamed: 0,consecutivo,anio,dia
count,46005.0,46005.0,46005.0,46005.0
mean,23003.0,23003.637496,2018.336529,15.737768
std,13280.643904,13281.396145,2.507583,8.718242
min,1.0,1.0,2015.0,1.0
25%,11502.0,11502.0,2016.0,8.0
50%,23003.0,23003.0,2018.0,16.0
75%,34504.0,34506.0,2020.0,23.0
max,46005.0,46007.0,2024.0,31.0


- We can observe that Unamed column is the index, and the year and day arent a datetime objects

**Check Count of Categorical Columns**

In [6]:
df['tipo_siniestro'].value_counts()

tipo_siniestro
Colisión entre dos o más vehículos     34726
Colisión con peatón/Atropellamiento     5372
Colisión con objeto fijo                3059
Caída del vehículo                      1271
Caída al interior                        548
Volcadura                                463
Otro                                     416
Colisión con vehículo estacionado        130
Automovil                                  6
Motocicleta                                5
Sin datos                                  4
Conductor                                  2
Camioneta De Carga                         1
Bicicleta                                  1
Colisión con obstáculo no fijo             1
Name: count, dtype: int64

- Checking the different categories we can observe that labels arent consistent, we will need to plan how to handle this so we can later perform one hot or label enconding for training our model

In [7]:
df['condicion_usuario'].value_counts()

condicion_usuario
Conductor                               31817
Pasajero                                10883
Peatón                                   3290
Hombre                                     12
Motociclista                                1
Transporte Empresarial o de Personal        1
Mujer                                       1
Name: count, dtype: int64

In [8]:
df['tipo_usuario'].value_counts()

tipo_usuario
Vehiculo Particular                     13875
Motociclista                             9505
Transporte Publico de Pasajeros          7548
Transporte de Carga                      5762
Transporte Empresarial o de Personal     3719
Peatón                                   3290
Sin datos                                1198
Ciclista                                  818
Otro Vehiculo                             217
Tren Ligero                                58
18-27                                       4
28-37                                       4
38-47                                       2
48-59                                       2
Motocicleta                                 1
Camioneta De Pasajeros                      1
0-17                                        1
Name: count, dtype: int64

In [9]:
df['ibaen_atro'].value_counts()

ibaen_atro
Automovil                 13553
Motocicleta                9892
Transporte Publico         7963
Camioneta De Carga         5030
Camioneta De Pasajeros     3873
Sin datos                  1691
Taxi                       1236
Bicicleta                   828
Camion De Carga             802
Trailer                     328
Foraneo                     239
Otro                        139
Transporte De Personal      129
Ferrocarril                  98
Ambulancia                   95
Tren Ligero                  75
Motocarro                    16
Lesionado                     6
Ileso                         6
Transporte Escolar            3
Hombre                        1
Mujer                         1
Fallecido                     1
Name: count, dtype: int64

In [10]:
df['sexo'].value_counts()

sexo
Hombre             28338
Mujer              10092
No especificado     7560
18-27                  2
Name: count, dtype: int64

In [11]:
df['rango_edad'].value_counts()

rango_edad
No disponible    13735
18-27            10991
28-37             7201
38-47             5434
48-59             4119
0-17              2383
60+               2127
Lesionado            1
Ileso                1
Name: count, dtype: int64

In [12]:
df['consecuencia'].value_counts()

consecuencia
Lesionado    24344
Ileso        19576
Fallecido     2070
Name: count, dtype: int64

In [13]:
df['mun'].value_counts()

mun
Guadalajara              21190
Zapopan                  11274
San Pedro Tlaquepaque     4376
Sin datos                 4139
Tlajomulco de Zúñiga      2483
Tonalá                    2287
El Salto                   256
Name: count, dtype: int64

#### **2. Data Cleaning**

**Drop columns that arent relevant for analysis and classification**

In [14]:
df.drop("Unnamed: 0", axis = 1, inplace=True)

df.drop("Id", axis = 1, inplace=True)

df.drop("consecutivo", axis = 1, inplace=True)

df.drop("anio", axis = 1, inplace=True)

df.drop("mes", axis = 1, inplace=True)

df.drop("dia", axis = 1, inplace=True)

**Convert date Columns into datetime objects**

In [15]:
df['fecha'] = pd.to_datetime(df['fecha'], errors='coerce')

df['year'] = df['fecha'].dt.year
df['month'] = df['fecha'].dt.month
df['day'] = df['fecha'].dt.day

**Convert missing values from age range into its own category**

In [16]:
df['rango_edad'] = df["rango_edad"].replace("No disponible", "Desconocido")

df['rango_edad'].value_counts()

rango_edad
Desconocido    13735
18-27          10991
28-37           7201
38-47           5434
48-59           4119
0-17            2383
60+             2127
Lesionado          1
Ileso              1
Name: count, dtype: int64

**Convert missing values into NaN**

In [17]:
df.replace(["Sin datos", "No disponible", "No especificado"], np.nan, inplace=True)

In [18]:
df.head(10)

Unnamed: 0,fecha,dia_sem,rango_hora,mun,calle_1,calle_2,x,y,tipo_siniestro,condicion_usuario,tipo_usuario,ibaen_atro,sexo,rango_edad,consecuencia,year,month,day
0,2015-01-01,jueves,20:00 a 20:59,Guadalajara,Del Ejercito Calz,Rio Rhin,-103.33658,20.653207,Colisión con peatón/Atropellamiento,Conductor,Motociclista,Motocicleta,Hombre,Desconocido,Ileso,2015,1,1
1,2015-01-01,jueves,20:00 a 20:59,Guadalajara,Del Ejercito Calz,Rio Rhin,-103.33658,20.653207,Colisión con peatón/Atropellamiento,Peatón,Peatón,Motocicleta,Mujer,28-37,Lesionado,2015,1,1
2,2015-01-01,jueves,09:00 a 09:59,,Lazaro Cardenas Calz,Tlaquepaque,,,Colisión con objeto fijo,Conductor,Vehiculo Particular,Automovil,Hombre,18-27,Ileso,2015,1,1
3,2015-01-01,jueves,09:00 a 09:59,,Lazaro Cardenas Calz,Tlaquepaque,,,Colisión con objeto fijo,Pasajero,Vehiculo Particular,Automovil,Mujer,Desconocido,Lesionado,2015,1,1
4,2015-01-01,jueves,05:00 a 05:59,Guadalajara,Industria,Plutarco Elias Calles,-103.29641,20.670602,Colisión con objeto fijo,Conductor,Transporte Empresarial o de Personal,Camioneta De Pasajeros,Hombre,38-47,Fallecido,2015,1,1
5,2015-01-01,jueves,05:00 a 05:59,Guadalajara,Industria,Plutarco Elias Calles,-103.29641,20.670602,Colisión con objeto fijo,Pasajero,Transporte Empresarial o de Personal,Camioneta De Pasajeros,Mujer,Desconocido,Lesionado,2015,1,1
6,2015-01-01,jueves,05:00 a 05:59,Guadalajara,Industria,Plutarco Elias Calles,-103.29641,20.670602,Colisión con objeto fijo,Pasajero,Transporte Empresarial o de Personal,Camioneta De Pasajeros,,Desconocido,Lesionado,2015,1,1
7,2015-01-01,jueves,05:00 a 05:59,Guadalajara,Industria,Plutarco Elias Calles,-103.29641,20.670602,Colisión con objeto fijo,Pasajero,Transporte Empresarial o de Personal,Camioneta De Pasajeros,Mujer,Desconocido,Lesionado,2015,1,1
8,2015-01-01,jueves,05:00 a 05:59,Guadalajara,Industria,Plutarco Elias Calles,-103.29641,20.670602,Colisión con objeto fijo,Pasajero,Transporte Empresarial o de Personal,Camioneta De Pasajeros,Hombre,Desconocido,Fallecido,2015,1,1
9,2015-01-01,jueves,05:00 a 05:59,Guadalajara,Industria,Plutarco Elias Calles,-103.29641,20.670602,Colisión con objeto fijo,Pasajero,Transporte Empresarial o de Personal,Camioneta De Pasajeros,Mujer,Desconocido,Lesionado,2015,1,1


**Clean rare categories and anomalies**

In [19]:
threshold = 10
value_counts = df["tipo_siniestro"].value_counts()
rare_categories = value_counts[value_counts < threshold].index.tolist()

df["tipo_siniestro"] = df["tipo_siniestro"].replace(rare_categories, "Otro")

df["tipo_siniestro"].value_counts(dropna=False)

tipo_siniestro
Colisión entre dos o más vehículos     34726
Colisión con peatón/Atropellamiento     5372
Colisión con objeto fijo                3059
Caída del vehículo                      1271
Caída al interior                        548
Volcadura                                463
Otro                                     432
Colisión con vehículo estacionado        130
NaN                                        4
Name: count, dtype: int64

In [20]:
anomalies = ['Hombre', 'Motociclista', 'Transporte Empresarial o de Personal', 'Mujer']

df['condicion_usuario'] = df['condicion_usuario'].replace(anomalies, np.nan)

df['condicion_usuario'].value_counts(dropna=False)

condicion_usuario
Conductor    31817
Pasajero     10883
Peatón        3290
NaN             15
Name: count, dtype: int64

In [21]:
anomalies = ['18-27', '28-37', '38-47', '48-59','0-17']

df['tipo_usuario'] = df['tipo_usuario'].replace(anomalies, np.nan)

df["tipo_usuario"] = df["tipo_usuario"].replace({
    "Motocicleta": "Motociclista",
    "Camioneta De Pasajeros": "Transporte Publico de Pasajeros"
})

df['tipo_usuario'].value_counts(dropna=False)

tipo_usuario
Vehiculo Particular                     13875
Motociclista                             9506
Transporte Publico de Pasajeros          7549
Transporte de Carga                      5762
Transporte Empresarial o de Personal     3719
Peatón                                   3290
NaN                                      1211
Ciclista                                  818
Otro Vehiculo                             217
Tren Ligero                                58
Name: count, dtype: int64

In [22]:
anomalies = ['Lesionado', 'Ileso', 'Hombre', 'Mujer','Fallecido']

df['ibaen_atro'] = df['ibaen_atro'].replace(anomalies, np.nan)

df['sexo'].value_counts(dropna=False)

sexo
Hombre    28338
Mujer     10092
NaN        7573
18-27         2
Name: count, dtype: int64

In [23]:
anomalies = ['18-27']

df['sexo'] = df['sexo'].replace(anomalies, np.nan)

df['sexo'].value_counts(dropna=False)

sexo
Hombre    28338
Mujer     10092
NaN        7575
Name: count, dtype: int64

In [24]:
anomalies = ['Lesionado','Ileso']

df['rango_edad'] = df['rango_edad'].replace(anomalies, np.nan)

df['rango_edad'].value_counts(dropna=False)

rango_edad
Desconocido    13735
18-27          10991
28-37           7201
38-47           5434
48-59           4119
0-17            2383
60+             2127
NaN               15
Name: count, dtype: int64

In [25]:
df['consecuencia'].value_counts(dropna=False)

consecuencia
Lesionado    24344
Ileso        19576
Fallecido     2070
NaN             15
Name: count, dtype: int64

In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46005 entries, 0 to 46004
Data columns (total 18 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   fecha              46005 non-null  datetime64[ns]
 1   dia_sem            46005 non-null  object        
 2   rango_hora         45883 non-null  object        
 3   mun                41866 non-null  object        
 4   calle_1            46005 non-null  object        
 5   calle_2            46005 non-null  object        
 6   x                  41873 non-null  object        
 7   y                  41873 non-null  object        
 8   tipo_siniestro     46001 non-null  object        
 9   condicion_usuario  45990 non-null  object        
 10  tipo_usuario       44794 non-null  object        
 11  ibaen_atro         44299 non-null  object        
 12  sexo               38430 non-null  object        
 13  rango_edad         45990 non-null  object        
 14  consec

#### **3. Visualizations**