# Importación de las librerías

In [5]:
import pandas as pd, datetime as dt, numpy as np

# Importación de datos

Se utilizaron los datasets de reportes de incidentes vehiculares en la ciudad de México de los años 2017, 2018, 2019 y 2021 provistos por el sitio oficial de la Secretaría de seguridad ciudadana y disponibles en https://www.kaggle.com/laloromero/mexico-road-accidents-during-2019 (2017-2019) y en https://datos.cdmx.gob.mx/dataset/incidentes-viales-c5 (2021)

In [8]:
data = pd.read_csv("data/incidentes-viales-c5-2017.csv")

In [9]:
years = ["2018", "2019", "2021"]
for y in years:
    df = pd.read_csv(f"data/incidentes-viales-c5-{y}.csv")
    data = pd.concat([data, df], axis=0, ignore_index=True)

# Análisis exploratorio

In [10]:
data.head()

Unnamed: 0.1,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,incidente_c4,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes,Unnamed: 0,ano
0,C5/170622/06952,22/06/2017,20:34:45,Jueves,(D) El incidente reportado se registró en dos ...,22/06/2017,2017.0,Junio,20:39:42,MILPA ALTA,accidente-choque sin lesionados,19.20137,-99.00732,EMERGENCIA,LLAMADA DEL 911,MILPA ALTA,"19.20137004,-99.00731988",6,,
1,C5/170622/05115,22/06/2017,16:41:14,Jueves,(D) El incidente reportado se registró en dos ...,22/06/2017,2017.0,Junio,16:46:02,TLAHUAC,accidente-choque sin lesionados,19.29659,-99.03443,EMERGENCIA,LLAMADA DEL 911,TLAHUAC,"19.29659004,-99.03443004",6,,
2,C5/170622/03715,22/06/2017,13:44:52,Jueves,(N) La unidad de atención a emergencias fue de...,22/06/2017,2017.0,Junio,16:48:07,VENUSTIANO CARRANZA,accidente-choque sin lesionados,19.43053,-99.0526,EMERGENCIA,LLAMADA DEL 911,VENUSTIANO CARRANZA,"19.43053002,-99.05259996",6,,
3,C5/170622/05317,22/06/2017,17:08:58,Jueves,(D) El incidente reportado se registró en dos ...,22/06/2017,2017.0,Junio,17:20:34,IZTAPALAPA,accidente-choque con lesionados,19.36189,-99.12243,URGENCIAS MEDICAS,LLAMADA DEL 911,IZTAPALAPA,"19.36188999,-99.12242988",6,,
4,C5/170622/05348,22/06/2017,17:12:38,Jueves,(D) El incidente reportado se registró en dos ...,22/06/2017,2017.0,Junio,17:25:27,IZTAPALAPA,accidente-choque con lesionados,19.36168,-99.1221,URGENCIAS MEDICAS,LLAMADA DEL 911,IZTAPALAPA,"19.36168002,-99.12210012",6,,


In [11]:
data.tail()

Unnamed: 0.1,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,incidente_c4,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes,Unnamed: 0,ano
693688,C5/210228/09309,28/02/2021,22:24:48,Domingo,N,28/02/2021,,,23:44:19,IZTAPALAPA,accidente-choque sin lesionados,19.34994,-99.06689,EMERGENCIA,LLAMADA DEL 911,IZTAPALAPA,,2,12943.0,2021.0
693689,C5/210228/09401,28/02/2021,22:45:49,Domingo,N,28/02/2021,,,22:58:58,GUSTAVO A. MADERO,lesionado-atropellado,19.49166,-99.09215,URGENCIAS MEDICAS,LLAMADA DEL 911,GUSTAVO A. MADERO,,2,12944.0,2021.0
693690,C5/210228/09405,28/02/2021,22:45:59,Domingo,D,28/02/2021,,,22:49:07,MIGUEL HIDALGO,accidente-choque con lesionados,19.39677,-99.23712,URGENCIAS MEDICAS,LLAMADA DEL 911,MIGUEL HIDALGO,,2,12945.0,2021.0
693691,C5/210228/09417,28/02/2021,22:48:36,Domingo,A,28/02/2021,,,23:48:19,AZCAPOTZALCO,accidente-choque sin lesionados,19.48166,-99.21856,EMERGENCIA,LLAMADA DEL 911,AZCAPOTZALCO,,2,12946.0,2021.0
693692,IZ/210228/07916,28/02/2021,19:46:33,Domingo,A,28/02/2021,,,20:17:58,XOCHIMILCO,accidente-choque sin lesionados,19.244195,-99.108017,EMERGENCIA,BOTÓN DE AUXILIO,XOCHIMILCO,,2,12947.0,2021.0


# Limpieza

## Conversiones de tipo

In [12]:
data.dtypes

folio                 object
fecha_creacion        object
hora_creacion         object
dia_semana            object
codigo_cierre         object
fecha_cierre          object
año_cierre           float64
mes_cierre            object
hora_cierre           object
delegacion_inicio     object
incidente_c4          object
latitud              float64
longitud             float64
clas_con_f_alarma     object
tipo_entrada          object
delegacion_cierre     object
geopoint              object
mes                    int64
Unnamed: 0           float64
ano                  float64
dtype: object

Para su posterior análisis, es necesario convertir los tipos de datos de las siguientes columnas:

* Datetime
    - Fecha de creacion 
    - Hora de creación 
    - Fecha de cierre
    - Hora cierre 
    
* Categórico
    - codigo de cierre
    - Delgación
    - inciente_c4
    - clas_on_f_alarma 
    - tipo_etrada 
    - delegacon_cierre
    - mes

Además se decide unir las columnas de fecha y hora de creación en un timestamp común. Lo mismo para las columnas de cierre.

In [13]:
# timestamp de cierre
data['fecha_hora_cierre'] = data['fecha_cierre']+ " " + data['hora_cierre']

In [14]:
# timestamp de creación
data['fecha_hora_creacion'] = data['fecha_creacion']+ " " + data['hora_creacion']

In [None]:
data['tipo_entrada'].unique()

In [None]:
data.columns

In [19]:
dS1 = data.drop(columns=['dia_semana', 'año_cierre', 'mes_cierre','fecha_cierre', 'fecha_creacion', 'hora_cierre', 'hora_creacion', 'Unnamed: 0', 'ano', "geopoint"])

In [20]:
# Borrar columnas 
diccionario_de_conversion = {
    'codigo_cierre': 'category',
    'fecha_hora_creacion': 'datetime64[ns]',
    'fecha_hora_cierre': 'datetime64[ns]', 
    'delegacion_inicio': 'category',
    'incidente_c4': 'category', 
    'clas_con_f_alarma': 'category', 
    'tipo_entrada': 'category',
    'delegacion_cierre':'category',
    'mes':'category'
}

In [21]:
dS1 = dS1.astype(diccionario_de_conversion)

In [None]:
dS1.dtypes

## Tratamiento de valores nulos

In [28]:
dS1.isnull().sum()

folio                    0
codigo_cierre            0
delegacion_inicio       59
incidente_c4             0
latitud                443
longitud               435
clas_con_f_alarma        0
tipo_entrada             0
delegacion_cierre       41
mes                      0
fecha_hora_cierre        2
fecha_hora_creacion      0
dtype: int64

In [30]:
dS1.dropna(inplace = True)

In [None]:
dS1["codigo_cierre"].unique()

In [31]:
data_clean = dS1[~dS1['codigo_cierre'].str.contains("D", regex=True)]   
data_clean.head()

Unnamed: 0,folio,codigo_cierre,delegacion_inicio,incidente_c4,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,mes,fecha_hora_cierre,fecha_hora_creacion
2,C5/170622/03715,(N) La unidad de atención a emergencias fue de...,VENUSTIANO CARRANZA,accidente-choque sin lesionados,19.43053,-99.0526,EMERGENCIA,LLAMADA DEL 911,VENUSTIANO CARRANZA,6,2017-06-22 16:48:07,2017-06-22 13:44:52
5,C5/170621/07339,(A) La unidad de atención a emergencias fue de...,IZTAPALAPA,accidente-choque sin lesionados,19.38676,-99.0335,EMERGENCIA,LLAMADA DEL 911,IZTAPALAPA,6,2017-06-22 03:53:51,2017-06-21 23:29:01
8,C5/170622/01694,(N) La unidad de atención a emergencias fue de...,IZTAPALAPA,accidente-choque sin lesionados,19.35017,-99.07324,EMERGENCIA,LLAMADA DEL 911,IZTAPALAPA,6,2017-06-22 10:47:19,2017-06-22 08:51:30
9,C5/170622/03779,(N) La unidad de atención a emergencias fue de...,CUAJIMALPA,accidente-choque sin lesionados,19.37273,-99.27753,EMERGENCIA,LLAMADA DEL 911,CUAJIMALPA,6,2017-06-22 14:17:46,2017-06-22 13:49:44
12,C5/170622/04693,(N) La unidad de atención a emergencias fue de...,MIGUEL HIDALGO,accidente-choque sin lesionados,19.45316,-99.19868,EMERGENCIA,LLAMADA DEL 911,MIGUEL HIDALGO,6,2017-06-22 16:47:41,2017-06-22 15:48:39


In [32]:
import datetime as dt
data_clean = data_clean[data_clean["fecha_hora_creacion"].dt.year!=2020]

In [33]:
data_clean.to_csv("data/incidentes-viales-c5-limpio.csv", sep="$")

NameError: name 'dt' is not defined