In [2]:
import pandas as pd 
import seaborn as sb 
import numpy as np 
import matplotlib.pyplot as plt 
import requests
%matplotlib inline

<b>Traemos la información del vehiculo implicado mediante un llamado de API</b>

In [3]:
# URL de la API
url = "https://sig.simur.gov.co/arcgis/rest/services/Accidentalidad/AccidentalidadAnalisis/FeatureServer/5/query?where=1%3D1&outFields=FORMULARIO,CLASE,SERVICIO&outSR=4326&f=json"

# Hacer la solicitud GET
response = requests.get(url)

# Verificar si la solicitud fue exitosa
if response.status_code == 200:
    # Convertir la respuesta a JSON
    data = response.json()
    print("Datos obtenidos exitosamente")

Datos obtenidos exitosamente


In [4]:
features = data.get('features', [])  # Obtener la lista de features
rows = []  # Lista para almacenar los datos

# Recorrer cada feature y extraer los atributos
for feature in features:
    attributes = feature.get('attributes', {})  # Obtener el diccionario de atributos
    rows.append(attributes)  # Agregar los atributos a la lista

In [5]:
# Convertir la lista de diccionarios a DataFrame
vehiculo_data = pd.DataFrame(rows)
vehiculo_data.head(5)

Unnamed: 0,FORMULARIO,CLASE,SERVICIO
0,A001511605,AUTOMOVIL,PARTICULAR
1,A001512418,AUTOMOVIL,PUBLICO
2,A001512418,MOTOCICLETA,PARTICULAR
3,A001512410,CAMIONETA,PUBLICO
4,A001512410,AUTOMOVIL,PARTICULAR


In [6]:
vehiculo_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   FORMULARIO  2000 non-null   object
 1   CLASE       1990 non-null   object
 2   SERVICIO    2000 non-null   object
dtypes: object(3)
memory usage: 47.0+ KB


In [7]:
vehiculo_data.isna().sum()

FORMULARIO     0
CLASE         10
SERVICIO       0
dtype: int64

In [8]:
# Reemplazar cadenas vacías o espacios con NaN
vehiculo_data.replace(["", "SIN INFORMACION"," ", "NaN", "null"], np.nan, inplace=True)

# Ahora aplicar dropna()
vehiculo_data.dropna(inplace=True)

In [9]:
vehiculo_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1990 entries, 0 to 1999
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   FORMULARIO  1990 non-null   object
 1   CLASE       1990 non-null   object
 2   SERVICIO    1990 non-null   object
dtypes: object(3)
memory usage: 62.2+ KB


In [10]:
vehiculo_data["CLASE"].value_counts()

CLASE
AUTOMOVIL          615
MOTOCICLETA        549
CAMIONETA          246
BUS                216
BICICLETA          136
CAMION, FURGON      85
CAMPERO             57
TRACTOCAMION        29
VOLQUETA            20
MICROBUS            19
BUSETA               9
MOTOTRICICLO         4
NO IDENTIFICADO      2
CUATRIMOTO           2
MOTOCARRO            1
Name: count, dtype: int64

In [11]:
vehiculo_data["SERVICIO"].value_counts()

SERVICIO
PARTICULAR          1155
PUBLICO              626
 SIN INFORMACION     168
OFICIAL               36
DIPLOMATICO            5
Name: count, dtype: int64

<b>Traemos la información de las condiciones de la via mediante un llamado de API</b>

In [12]:
# URL de la API
url ="https://sig.simur.gov.co/arcgis/rest/services/Accidentalidad/AccidentalidadAnalisis/FeatureServer/6/query?where=1%3D1&outFields=FORMULARIO,GEOMETRICA_A,GEOMETRICA_B,GEOMETRICA_C,UTILIZACION,CALZADAS,CARRILES,MATERIAL,ESTADO,CONDICIONES,ILUMINACION_A,AGENTE_TRANSITO,SEMAFORO,CODIGO_ACCIDENTE&outSR=4326&f=json"

# Hacer la solicitud GET
response = requests.get(url)

# Verificar si la solicitud fue exitosa
if response.status_code == 200:
    # Convertir la respuesta a JSON
    data = response.json()
    print("Datos obtenidos exitosamente")

Datos obtenidos exitosamente


In [13]:
features = data.get('features', [])  # Obtener la lista de features
rows = []  # Lista para almacenar los datos

# Recorrer cada feature y extraer los atributos
for feature in features:
    attributes = feature.get('attributes', {})  # Obtener el diccionario de atributos
    rows.append(attributes)  # Agregar los atributos a la lista

In [14]:
via_data = pd.DataFrame(rows)
via_data.head(5)


Unnamed: 0,FORMULARIO,GEOMETRICA_A,GEOMETRICA_B,GEOMETRICA_C,UTILIZACION,CALZADAS,CARRILES,MATERIAL,ESTADO,CONDICIONES,ILUMINACION_A,AGENTE_TRANSITO,SEMAFORO,CODIGO_ACCIDENTE
0,A000600237,RECTA,PLANO,CON BERMAS,UN SENTIDO,UNA,UNO,ASFALTO,BUENO,SECA,SIN,NO,OPERANDO,4476074.0
1,A000599427,RECTA,PLANO,CON BERMAS,UN SENTIDO,UNA,DOS,ASFALTO,BUENO,SECA,CON,NO,OPERANDO,4476077.0
2,A000599774,RECTA,PLANO,CON BERMAS,UN SENTIDO,UNA,UNO,ASFALTO,BUENO,SECA,SIN,NO,OPERANDO,4476078.0
3,A000600115,RECTA,PLANO,CON ANDEN,DOBLE SENTIDO,UNA,TRES O MAS,ASFALTO,BUENO,SECA,SIN,NO,OPERANDO,4476084.0
4,A000600175,RECTA,PLANO,CON BERMAS,DOBLE SENTIDO,DOS,TRES O MAS,ASFALTO,BUENO,SECA,CON,NO,OPERANDO,4476083.0


In [15]:
via_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   FORMULARIO        2000 non-null   object 
 1   GEOMETRICA_A      1996 non-null   object 
 2   GEOMETRICA_B      1974 non-null   object 
 3   GEOMETRICA_C      1964 non-null   object 
 4   UTILIZACION       1986 non-null   object 
 5   CALZADAS          1984 non-null   object 
 6   CARRILES          1991 non-null   object 
 7   MATERIAL          1989 non-null   object 
 8   ESTADO            1982 non-null   object 
 9   CONDICIONES       1985 non-null   object 
 10  ILUMINACION_A     1935 non-null   object 
 11  AGENTE_TRANSITO   1898 non-null   object 
 12  SEMAFORO          1855 non-null   object 
 13  CODIGO_ACCIDENTE  2000 non-null   float64
dtypes: float64(1), object(13)
memory usage: 218.9+ KB


In [16]:
via_data.isna().sum()

FORMULARIO            0
GEOMETRICA_A          4
GEOMETRICA_B         26
GEOMETRICA_C         36
UTILIZACION          14
CALZADAS             16
CARRILES              9
MATERIAL             11
ESTADO               18
CONDICIONES          15
ILUMINACION_A        65
AGENTE_TRANSITO     102
SEMAFORO            145
CODIGO_ACCIDENTE      0
dtype: int64

In [17]:
# Reemplazar cadenas vacías o espacios con NaN
via_data.replace(["", "SIN INFORMACION"," ", "NaN", "null"], np.nan, inplace=True)

# Ahora aplicar dropna()
via_data.dropna(inplace=True)

In [18]:
via_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1770 entries, 0 to 1998
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   FORMULARIO        1770 non-null   object 
 1   GEOMETRICA_A      1770 non-null   object 
 2   GEOMETRICA_B      1770 non-null   object 
 3   GEOMETRICA_C      1770 non-null   object 
 4   UTILIZACION       1770 non-null   object 
 5   CALZADAS          1770 non-null   object 
 6   CARRILES          1770 non-null   object 
 7   MATERIAL          1770 non-null   object 
 8   ESTADO            1770 non-null   object 
 9   CONDICIONES       1770 non-null   object 
 10  ILUMINACION_A     1770 non-null   object 
 11  AGENTE_TRANSITO   1770 non-null   object 
 12  SEMAFORO          1770 non-null   object 
 13  CODIGO_ACCIDENTE  1770 non-null   float64
dtypes: float64(1), object(13)
memory usage: 207.4+ KB


In [19]:
via_data["SEMAFORO"].value_counts()

SEMAFORO
OPERANDO    1362
NINGUNO      404
APAGADO        2
OCULTO         2
Name: count, dtype: int64

In [20]:
via_data["ESTADO"].value_counts()

ESTADO
BUENO            1724
CON HUECOS         34
FISURADA            6
EN REPARACION       3
HUNDIMIENTOS        2
PARCHADA            1
Name: count, dtype: int64

In [21]:
print (via_data["GEOMETRICA_A"].value_counts())
print (via_data["GEOMETRICA_B"].value_counts())
print (via_data["GEOMETRICA_C"].value_counts())

GEOMETRICA_A
RECTA    1736
CURVA      34
Name: count, dtype: int64
GEOMETRICA_B
PLANO        1731
PENDIENTE      39
Name: count, dtype: int64
GEOMETRICA_C
CON ANDEN        962
CON BERMAS       806
BAHIA DE EST.      2
Name: count, dtype: int64


In [22]:
via_data["UTILIZACION"].value_counts()

UTILIZACION
UN SENTIDO       1129
DOBLE SENTIDO     632
REVERSIBLE          9
Name: count, dtype: int64

In [23]:
via_data["CALZADAS"].value_counts()

CALZADAS
UNA             1289
DOS              347
TRES O MAS       130
VARIABLE           2
CUATRO O MAS       2
Name: count, dtype: int64

In [24]:
via_data["CARRILES"].value_counts()

CARRILES
DOS             847
TRES O MAS      613
UNO             300
VARIABLE          7
CUATRO O MAS      3
Name: count, dtype: int64

In [25]:
via_data["MATERIAL"].value_counts()

MATERIAL
ASFALTO     1651
CONCRETO     108
AFIRMADO       7
ADOQUIN        3
TIERRA         1
Name: count, dtype: int64

In [26]:
via_data["CONDICIONES"].value_counts()

CONDICIONES
SECA                      1582
HUMEDA                     187
ALCANTARILLA DESTAPADA       1
Name: count, dtype: int64

In [27]:
via_data["ILUMINACION_A"].value_counts()

ILUMINACION_A
SIN    949
CON    821
Name: count, dtype: int64

In [28]:
via_data["AGENTE_TRANSITO"].value_counts()

AGENTE_TRANSITO
NO    1756
SI      14
Name: count, dtype: int64

In [29]:
# Podemos crear dummies para las variables categóricas que solo toman dos valores
# como Iluminación A y Agente de Tránsito, tal que el 1 indique si y el 0 indique no

In [30]:
dummies_iluminacion = pd.get_dummies(via_data["ILUMINACION_A"],dtype=int)
dummies_iluminacion

Unnamed: 0,CON,SIN
0,0,1
1,1,0
2,0,1
3,0,1
4,1,0
...,...,...
1986,1,0
1987,1,0
1988,1,0
1997,1,0


In [31]:
via_data = via_data.join(dummies_iluminacion)
via_data.drop("ILUMINACION_A", axis=1, inplace=True)

In [32]:
via_data.drop("SIN", axis=1, inplace=True)
via_data.rename(columns={"CON": "ILUMINACION"}, inplace=True)

In [33]:
via_data.head(5)

Unnamed: 0,FORMULARIO,GEOMETRICA_A,GEOMETRICA_B,GEOMETRICA_C,UTILIZACION,CALZADAS,CARRILES,MATERIAL,ESTADO,CONDICIONES,AGENTE_TRANSITO,SEMAFORO,CODIGO_ACCIDENTE,ILUMINACION
0,A000600237,RECTA,PLANO,CON BERMAS,UN SENTIDO,UNA,UNO,ASFALTO,BUENO,SECA,NO,OPERANDO,4476074.0,0
1,A000599427,RECTA,PLANO,CON BERMAS,UN SENTIDO,UNA,DOS,ASFALTO,BUENO,SECA,NO,OPERANDO,4476077.0,1
2,A000599774,RECTA,PLANO,CON BERMAS,UN SENTIDO,UNA,UNO,ASFALTO,BUENO,SECA,NO,OPERANDO,4476078.0,0
3,A000600115,RECTA,PLANO,CON ANDEN,DOBLE SENTIDO,UNA,TRES O MAS,ASFALTO,BUENO,SECA,NO,OPERANDO,4476084.0,0
4,A000600175,RECTA,PLANO,CON BERMAS,DOBLE SENTIDO,DOS,TRES O MAS,ASFALTO,BUENO,SECA,NO,OPERANDO,4476083.0,1


In [34]:
dummies_agentes = pd.get_dummies(via_data["AGENTE_TRANSITO"],dtype=int)
dummies_agentes

Unnamed: 0,NO,SI
0,1,0
1,1,0
2,1,0
3,1,0
4,1,0
...,...,...
1986,1,0
1987,1,0
1988,0,1
1997,1,0


In [35]:
via_data = via_data.join(dummies_agentes)
via_data.drop("AGENTE_TRANSITO", axis=1, inplace=True)

via_data.drop("NO", axis=1, inplace=True)
via_data.rename(columns={"SI": "AGENTE_TRANSITO"}, inplace=True)

In [36]:
via_data.head(5)

Unnamed: 0,FORMULARIO,GEOMETRICA_A,GEOMETRICA_B,GEOMETRICA_C,UTILIZACION,CALZADAS,CARRILES,MATERIAL,ESTADO,CONDICIONES,SEMAFORO,CODIGO_ACCIDENTE,ILUMINACION,AGENTE_TRANSITO
0,A000600237,RECTA,PLANO,CON BERMAS,UN SENTIDO,UNA,UNO,ASFALTO,BUENO,SECA,OPERANDO,4476074.0,0,0
1,A000599427,RECTA,PLANO,CON BERMAS,UN SENTIDO,UNA,DOS,ASFALTO,BUENO,SECA,OPERANDO,4476077.0,1,0
2,A000599774,RECTA,PLANO,CON BERMAS,UN SENTIDO,UNA,UNO,ASFALTO,BUENO,SECA,OPERANDO,4476078.0,0,0
3,A000600115,RECTA,PLANO,CON ANDEN,DOBLE SENTIDO,UNA,TRES O MAS,ASFALTO,BUENO,SECA,OPERANDO,4476084.0,0,0
4,A000600175,RECTA,PLANO,CON BERMAS,DOBLE SENTIDO,DOS,TRES O MAS,ASFALTO,BUENO,SECA,OPERANDO,4476083.0,1,0


<b>Traemos la información de las causas del accidente mediante un llamado de API</b>

In [37]:
# URL de la API
url = "https://sig.simur.gov.co/arcgis/rest/services/Accidentalidad/AccidentalidadAnalisis/FeatureServer/4/query?where=1%3D1&outFields=FORMULARIO,NOMBRE,TIPO_CAUSA,TIPO&outSR=4326&f=json"

# Hacer la solicitud GET
response = requests.get(url)

# Verificar si la solicitud fue exitosa
if response.status_code == 200:
    # Convertir la respuesta a JSON
    data = response.json()
    print("Datos obtenidos exitosamente")

Datos obtenidos exitosamente


In [38]:
features = data.get('features', [])  # Obtener la lista de features
rows = []  # Lista para almacenar los datos

# Recorrer cada feature y extraer los atributos
for feature in features:
    attributes = feature.get('attributes', {})  # Obtener el diccionario de atributos
    rows.append(attributes)  # Agregar los atributos a la lista

In [39]:
causa_data = pd.DataFrame(rows)
causa_data.head()

Unnamed: 0,FORMULARIO,NOMBRE,TIPO_CAUSA,TIPO
0,A001681472,TRANSITAR ENTRE VEHICULOS,CONDUCTOR,CE
1,A001682291,EMBRIAGUEZ APARENTE,CONDUCTOR,CG
2,A001682291,NO MANTENER DISTANCIA DE SEGURIDAD,CONDUCTOR,CG
3,A001682147,ADELANTAR CERRANDO,CONDUCTOR,CG
4,A001681770,EMBRIAGUEZ O DROGA,CONDUCTOR,CG


In [40]:
causa_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   FORMULARIO  2000 non-null   object
 1   NOMBRE      2000 non-null   object
 2   TIPO_CAUSA  2000 non-null   object
 3   TIPO        2000 non-null   object
dtypes: object(4)
memory usage: 62.6+ KB


In [41]:
causa_data["TIPO_CAUSA"].value_counts()

TIPO_CAUSA
CONDUCTOR    1869
PEATON         79
VIA            23
PASAJERO       19
VEHICULO       10
Name: count, dtype: int64

In [42]:
causa_data["TIPO"].value_counts()

TIPO
CG    1837
PE      79
CE      32
VI      23
PA      19
VH      10
Name: count, dtype: int64

<b>Traemos la información del actor del accidente mediante un llamado de API</b>

In [43]:
# URL de la API
url = "https://sig.simur.gov.co/arcgis/rest/services/Accidentalidad/AccidentalidadAnalisis/FeatureServer/3/query?where=1%3D1&outFields=FORMULARIO,CONDICION,ESTADO,MUERTE_POSTERIOR,GENERO,EDAD&outSR=4326&f=json"

# Hacer la solicitud GET
response = requests.get(url)

# Verificar si la solicitud fue exitosa
if response.status_code == 200:
    # Convertir la respuesta a JSON
    data = response.json()
    print("Datos obtenidos exitosamente")

Datos obtenidos exitosamente


In [44]:
features = data.get('features', [])  # Obtener la lista de features
rows = []  # Lista para almacenar los datos

# Recorrer cada feature y extraer los atributos
for feature in features:
    attributes = feature.get('attributes', {})  # Obtener el diccionario de atributos
    rows.append(attributes)  # Agregar los atributos a la lista

In [45]:
actor_data = pd.DataFrame(rows)
actor_data.head(5)

Unnamed: 0,FORMULARIO,CONDICION,ESTADO,MUERTE_POSTERIOR,GENERO,EDAD
0,A001682285,MOTOCICLISTA,ILESO,N,FEMENINO,22.0
1,A001681999,CONDUCTOR,ILESO,N,FEMENINO,25.0
2,A001681999,MOTOCICLISTA,HERIDO,N,MASCULINO,27.0
3,A001681844,CONDUCTOR,ILESO,N,,
4,A001681844,MOTOCICLISTA,HERIDO,N,MASCULINO,30.0


In [46]:
actor_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   FORMULARIO        2000 non-null   object 
 1   CONDICION         1999 non-null   object 
 2   ESTADO            1999 non-null   object 
 3   MUERTE_POSTERIOR  2000 non-null   object 
 4   GENERO            1931 non-null   object 
 5   EDAD              1932 non-null   float64
dtypes: float64(1), object(5)
memory usage: 93.9+ KB


In [47]:
actor_data.isna().sum()

FORMULARIO           0
CONDICION            1
ESTADO               1
MUERTE_POSTERIOR     0
GENERO              69
EDAD                68
dtype: int64

In [48]:
# Reemplazar cadenas vacías o espacios con NaN
actor_data.replace(["", "SIN INFORMACION"," ", "NaN", "null"], np.nan, inplace=True)

# Ahora aplicar dropna()
actor_data.dropna(inplace=True)

In [49]:
actor_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1930 entries, 0 to 1999
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   FORMULARIO        1930 non-null   object 
 1   CONDICION         1930 non-null   object 
 2   ESTADO            1930 non-null   object 
 3   MUERTE_POSTERIOR  1930 non-null   object 
 4   GENERO            1930 non-null   object 
 5   EDAD              1930 non-null   float64
dtypes: float64(1), object(5)
memory usage: 105.5+ KB


In [50]:
actor_data["ESTADO"].value_counts()

ESTADO
HERIDO    1253
ILESO      640
MUERTO      37
Name: count, dtype: int64

In [51]:
actor_data["GENERO"].value_counts()

GENERO
MASCULINO    1442
FEMENINO      488
Name: count, dtype: int64

In [52]:
actor_data["MUERTE_POSTERIOR"].value_counts()   

MUERTE_POSTERIOR
N    1913
S      17
Name: count, dtype: int64

In [53]:
# Para la variable MUERTE_POSTERIOR y GENERO, podemos crear dummies. 
# tal que el 1 indique si y el 0 indique no en el caso de Muerte Posterior y
# y el 1 indique Femenino y el 0 indique masculino en el caso de Género
dummies_genero = pd.get_dummies(actor_data["GENERO"],dtype=int)
dummies_genero

Unnamed: 0,FEMENINO,MASCULINO
0,1,0
1,1,0
2,0,1
4,0,1
5,0,1
...,...,...
1995,0,1
1996,0,1
1997,0,1
1998,1,0


In [54]:
actor_data = actor_data.join(dummies_genero)
actor_data.drop("GENERO", axis=1, inplace=True)

actor_data.drop("MASCULINO", axis=1, inplace=True)
actor_data.rename(columns={"FEMENINO": "GENERO"}, inplace=True)

In [55]:
actor_data.head()

Unnamed: 0,FORMULARIO,CONDICION,ESTADO,MUERTE_POSTERIOR,EDAD,GENERO
0,A001682285,MOTOCICLISTA,ILESO,N,22.0,1
1,A001681999,CONDUCTOR,ILESO,N,25.0,1
2,A001681999,MOTOCICLISTA,HERIDO,N,27.0,0
4,A001681844,MOTOCICLISTA,HERIDO,N,30.0,0
5,A001681835,MOTOCICLISTA,HERIDO,N,17.0,0


In [56]:
dummies_muertePosterior = pd.get_dummies(actor_data["MUERTE_POSTERIOR"],dtype=int)
dummies_muertePosterior

Unnamed: 0,N,S
0,1,0
1,1,0
2,1,0
4,1,0
5,1,0
...,...,...
1995,1,0
1996,1,0
1997,1,0
1998,1,0


In [57]:
actor_data = actor_data.join(dummies_muertePosterior)
actor_data.drop("MUERTE_POSTERIOR", axis=1, inplace=True)

actor_data.drop("N", axis=1, inplace=True)
actor_data.rename(columns={"S": "MUERTE_POSTERIOR"}, inplace=True)

In [58]:
actor_data.head()

Unnamed: 0,FORMULARIO,CONDICION,ESTADO,EDAD,GENERO,MUERTE_POSTERIOR
0,A001682285,MOTOCICLISTA,ILESO,22.0,1,0
1,A001681999,CONDUCTOR,ILESO,25.0,1,0
2,A001681999,MOTOCICLISTA,HERIDO,27.0,0,0
4,A001681844,MOTOCICLISTA,HERIDO,30.0,0,0
5,A001681835,MOTOCICLISTA,HERIDO,17.0,0,0
