# 01 - Exploración inicial de datos

##Descripción del dataset

Los datos provienen del Observatorio de Movilidad de Bogotá y fueron obtenidos de la Secretaría Distrital de Movilidad. El conjunto es de acceso público y contiene información sobre los siniestros viales ocurridos en las 20 localidades de la ciudad durante el año 2023.

El dataset original corresponde a un archivo de Excel (aprox. 14 MB) que registra un total de 14.106 siniestros viales. La información se encuentra organizada en tres tablas principales:

- **Siniestros:** Contiene la información general de cada accidente, incluyendo código de identificación, fecha, hora y ubicación.
- **Vehículos:** Incluye las características de los vehículos involucrados en cada siniestro.
- **Actor_vial:** Registra información sobre las personas implicadas, sus roles y condiciones.

El conjunto incluye tanto variables numéricas como categóricas, así como múltiples campos binarios relacionados con condiciones específicas del evento.

El diccionario de datos original se encuentra disponible dentro del repositorio en la carpeta `data/raw`.

## Importación de librerías

In [1]:
import pandas as pd


##Carga de datos

In [3]:
#importar datos
ruta ="https://raw.githubusercontent.com/Josemena95/data-portfolio/refs/heads/main/etl-traffic-accidents-bogota-2023/data/raw/SIGAT_ANUARIO_2023.xlsx"

siniestros = pd.read_excel(ruta)
vehiculos = pd.read_excel(ruta, sheet_name="Vehiculos")
actores = pd.read_excel(ruta, sheet_name="Actor_vial")

Nota: Los datos se cargan desde el repositorio en GitHub para permitir la ejecución directa en Google Colab.

##Muestra inicial

In [8]:
siniestros.head()


Unnamed: 0,Codigo_Accidente,Formulario,Longitud,Latitud,Direccion,Fecha_Acc,AA_Acc,MM_Acc,DD_Mes_Acc,Dia_Semana_Acc,...,Con_Velocidad,Con_Sitp,Con_Troncal,Con_Alimentador,Con_Zonal,Con_Provisional,Con_Articulado,Con_Biarticulado,Con_Padron_Dual,Con_Trans_Public
0,10591851,A001571139,-74.162129,4.599679,AV AVENIDA CIUDAD DE VILLAVICENCIO - CL 57 B S 02,2023-05-26,2023,Mayo,26,viernes,...,,,,,,,,,,SI
1,10591854,A001571298,-74.158336,4.570567,KR 44 D - DG 69 K S 02,2023-05-31,2023,Mayo,31,miércoles,...,,,,,,,,,,NO
2,10592149,A001570489,-74.079035,4.623901,CL 26 - KR 25 02,2023-06-08,2023,Junio,8,jueves,...,,,,,,,,,,NO
3,10592358,A001572190,-74.077354,4.590091,CL 6 - KR 5 02,2023-06-14,2023,Junio,14,miércoles,...,,,,,,,,,,SI
4,10592361,A001570128,-74.029972,4.763974,CL 187 A - KR 8 C 02,2023-06-14,2023,Junio,14,miércoles,...,,,,,,,,,,SI


In [9]:
vehiculos.head()

Unnamed: 0,Codigo_Accidente,Formulario,Fecha_Acc,AA_Acc,Codigo_Vehiculo,Clase,Servicio,Modalidad,Vehiculo_Viajaba_Clasificado,Tipo_SITP,...,Con_Tpp,Con_Velocidad,Con_Sitp,Con_Troncal,Con_Alimentador,Con_Zonal,Con_Provisional,Con_Articulado,Con_Biarticulado,Con_Padron_Dual
0,10602173,A001604925,2023-11-22,2023,1,Bus,Publico,,TRANSPORTE DE PASAJEROS,ZONAL,...,SI,,SI,,,SI,,,,
1,10602475,A001613821,2023-10-26,2023,1,Campero,Particular,,LIVIANO,,...,,,,,,,,,,
2,10602483,A001574236,2023-09-29,2023,1,Motocicleta,Particular,,MOTOCICLETA,,...,,,,,,,,,,
3,10602483,A001574236,2023-09-29,2023,2,Automovil,Particular,,LIVIANO,,...,,,,,,,,,,
4,10587615,A001566854,2023-02-14,2023,2,Automovil,Particular,,LIVIANO,,...,,,,,,,,,,


In [10]:
actores.head()

Unnamed: 0,Codigo_Accidentado,Codigo_Accidente,Formulario,Codigo_Vehiculo,Ccodigo_Victima,FechaAcc,AnnoAcc,mesAcc,DD_Mes_Acc,Dia_Semana_Acc,...,Con_Tpp,Con_Velocidad,Con_Sitp,Con_Troncal,Con_Alimentador,Con_Zonal,Con_Provisional,Con_Articulado,Con_Biarticulado,Con_Padron_Dual
0,12874170,10596253,A001576573,1,0,2023-09-23,2023,Septiembre,23,sábado,...,,,,,,,,,,
1,12874172,10596253,A001576573,2,1,2023-09-23,2023,Septiembre,23,sábado,...,,,,,,,,,,
2,12874174,10596254,A001576072,1,0,2023-09-20,2023,Septiembre,20,miércoles,...,,,,,,,,,,
3,12874177,10596254,A001576072,2,2,2023-09-20,2023,Septiembre,20,miércoles,...,,,,,,,,,,
4,12874175,10596254,A001576072,2,1,2023-09-20,2023,Septiembre,20,miércoles,...,,,,,,,,,,


## Dimensiones

In [11]:

siniestros.shape


(14106, 40)

In [12]:
vehiculos.shape

(24403, 30)

In [13]:
actores.shape

(33542, 42)

## Información

In [14]:
siniestros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14106 entries, 0 to 14105
Data columns (total 40 columns):
 #   Column                          Non-Null Count  Dtype         
---  ------                          --------------  -----         
 0   Codigo_Accidente                14106 non-null  int64         
 1   Formulario                      14106 non-null  object        
 2   Longitud                        14106 non-null  float64       
 3   Latitud                         14106 non-null  float64       
 4   Direccion                       14106 non-null  object        
 5   Fecha_Acc                       14106 non-null  datetime64[ns]
 6   AA_Acc                          14106 non-null  int64         
 7   MM_Acc                          14106 non-null  object        
 8   DD_Mes_Acc                      14106 non-null  int64         
 9   Dia_Semana_Acc                  14106 non-null  object        
 10  Hora_Acc                        14106 non-null  int64         
 11  Mi

In [15]:
vehiculos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24403 entries, 0 to 24402
Data columns (total 30 columns):
 #   Column                        Non-Null Count  Dtype         
---  ------                        --------------  -----         
 0   Codigo_Accidente              24403 non-null  int64         
 1   Formulario                    24403 non-null  object        
 2   Fecha_Acc                     24403 non-null  datetime64[ns]
 3   AA_Acc                        24403 non-null  int64         
 4   Codigo_Vehiculo               24403 non-null  int64         
 5   Clase                         24399 non-null  object        
 6   Servicio                      24403 non-null  object        
 7   Modalidad                     2505 non-null   object        
 8   Vehiculo_Viajaba_Clasificado  24403 non-null  object        
 9   Tipo_SITP                     2222 non-null   object        
 10  Con_Bicicleta                 4314 non-null   object        
 11  Con_Carga                   

In [16]:
actores.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33542 entries, 0 to 33541
Data columns (total 42 columns):
 #   Column                          Non-Null Count  Dtype         
---  ------                          --------------  -----         
 0   Codigo_Accidentado              33542 non-null  int64         
 1   Codigo_Accidente                33542 non-null  int64         
 2   Formulario                      33542 non-null  object        
 3   Codigo_Vehiculo                 33542 non-null  int64         
 4   Ccodigo_Victima                 33542 non-null  int64         
 5   FechaAcc                        33542 non-null  datetime64[ns]
 6   AnnoAcc                         33542 non-null  int64         
 7   mesAcc                          33542 non-null  object        
 8   DD_Mes_Acc                      33542 non-null  int64         
 9   Dia_Semana_Acc                  33542 non-null  object        
 10  hourAcc                         33542 non-null  int64         
 11  mi

## Estadísticas

In [17]:

siniestros.describe()

Unnamed: 0,Codigo_Accidente,Longitud,Latitud,Fecha_Acc,AA_Acc,DD_Mes_Acc,Hora_Acc,Min_Acc,Con_Provisional
count,14106.0,14106.0,14106.0,14106,14106.0,14106.0,14106.0,14106.0,0.0
mean,10593050.0,-74.112613,4.635928,2023-07-01 02:29:51.578051840,2023.0,15.884375,12.755281,25.936835,
min,10585780.0,-74.24727,4.043953,2023-01-01 00:00:00,2023.0,1.0,0.0,0.0,
25%,10589480.0,-74.140454,4.596117,2023-03-31 00:00:00,2023.0,8.0,8.0,10.0,
50%,10593050.0,-74.110264,4.627947,2023-06-29 00:00:00,2023.0,16.0,13.0,29.0,
75%,10596620.0,-74.084074,4.678757,2023-09-29 00:00:00,2023.0,24.0,18.0,40.0,
max,10602480.0,-74.012266,4.823186,2023-12-31 00:00:00,2023.0,31.0,23.0,59.0,
std,4122.326,0.039632,0.059465,,0.0,8.826856,6.126223,17.460509,


In [18]:
vehiculos.describe()

Unnamed: 0,Codigo_Accidente,Fecha_Acc,AA_Acc,Codigo_Vehiculo,Con_Provisional
count,24403.0,24403,24403.0,24403.0,0.0
mean,10593040.0,2023-06-30 18:43:07.255665408,2023.0,1.463222,
min,10585780.0,2023-01-01 00:00:00,2023.0,1.0,
25%,10589480.0,2023-03-31 00:00:00,2023.0,1.0,
50%,10593030.0,2023-06-28 00:00:00,2023.0,1.0,
75%,10596600.0,2023-09-29 00:00:00,2023.0,2.0,
max,10602480.0,2023-12-31 00:00:00,2023.0,9.0,
std,4117.147,,0.0,0.59358,


In [19]:
actores.describe()

Unnamed: 0,Codigo_Accidentado,Codigo_Accidente,Codigo_Vehiculo,Ccodigo_Victima,FechaAcc,AnnoAcc,DD_Mes_Acc,hourAcc,minuAcc,Edad,Fecha_CambioGravedad,Con_Provisional
count,33542.0,33542.0,33542.0,33542.0,33542,33542.0,33542.0,33542.0,33542.0,32418.0,213,0.0
mean,12866610.0,10593060.0,1.409636,0.905343,2023-07-01 07:37:46.555363328,2023.0,15.885994,12.794526,25.942311,36.102844,2023-07-14 13:51:32.957746432,
min,12849290.0,10585780.0,1.0,0.0,2023-01-01 00:00:00,2023.0,1.0,0.0,0.0,0.0,2023-01-05 00:00:00,
25%,12858140.0,10589490.0,1.0,0.0,2023-03-31 00:00:00,2023.0,8.0,8.0,10.0,24.0,2023-04-20 00:00:00,
50%,12866630.0,10593080.0,1.0,1.0,2023-06-30 00:00:00,2023.0,16.0,13.0,29.0,32.0,2023-07-06 00:00:00,
75%,12875090.0,10596640.0,2.0,1.0,2023-09-29 00:00:00,2023.0,24.0,18.0,40.0,45.75,2023-10-15 00:00:00,
max,12893100.0,10602480.0,9.0,44.0,2023-12-31 00:00:00,2023.0,31.0,23.0,59.0,112.0,2024-03-03 00:00:00,
std,9807.164,4129.429,0.571779,1.498899,,0.0,8.802146,6.123024,17.434718,15.553848,,


## Nulos

In [20]:

siniestros.isnull().sum()

Unnamed: 0,0
Codigo_Accidente,0
Formulario,0
Longitud,0
Latitud,0
Direccion,0
Fecha_Acc,0
AA_Acc,0
MM_Acc,0
DD_Mes_Acc,0
Dia_Semana_Acc,0


In [21]:
vehiculos.isnull().sum()

Unnamed: 0,0
Codigo_Accidente,0
Formulario,0
Fecha_Acc,0
AA_Acc,0
Codigo_Vehiculo,0
Clase,4
Servicio,0
Modalidad,21898
Vehiculo_Viajaba_Clasificado,0
Tipo_SITP,22181


In [22]:
actores.isnull().sum()

Unnamed: 0,0
Codigo_Accidentado,0
Codigo_Accidente,0
Formulario,0
Codigo_Vehiculo,0
Ccodigo_Victima,0
FechaAcc,0
AnnoAcc,0
mesAcc,0
DD_Mes_Acc,0
Dia_Semana_Acc,0


##Observaciones preliminares

- El dataset contiene tres tablas principales relacionadas con siniestros, vehículos y actores viales.
- Se identifican múltiples columnas categóricas.
- Existen valores nulos en varias variables, particularmente en campos categóricos.
- Será necesario revisar la consistencia de tipos de datos, especialmente en variables de fecha.