In [1]:
import pandas as pd
import numpy as np
import datetime

In [2]:
import os, sys
sys.path.insert(0, os.path.abspath(".."))

In [3]:
from src.utils import eda

In [4]:
df_incidentes = pd.read_csv('../data/incidentes-viales-c5.csv')

In [5]:
df_incidentes.sample()

Unnamed: 0,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,incidente_c4,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes
1158922,C4/150602/02846,02/06/2015,16:30:16,Martes,(A) La unidad de atención a emergencias fue de...,02/06/2015,2015,Junio,17:24:43,MIGUEL HIDALGO,accidente-choque con lesionados,19.39705,-99.18529,URGENCIAS MEDICAS,RADIO,MIGUEL HIDALGO,"19.39705002,-99.18528984",6


In [6]:
len(df_incidentes)

1383138

Se tienen 1,383,138 registros de incidentes viales en la ciudad de México.

In [7]:
df_incidentes['folio'].nunique()

1383138

El folio efectivamente identifica a cada renglón con un valor único.

In [8]:
len(df_incidentes.columns)

18

Se tienen 18 columnas o variables, las cuales son:

In [9]:
list(df_incidentes.columns)

['folio',
 'fecha_creacion',
 'hora_creacion',
 'dia_semana',
 'codigo_cierre',
 'fecha_cierre',
 'año_cierre',
 'mes_cierre',
 'hora_cierre',
 'delegacion_inicio',
 'incidente_c4',
 'latitud',
 'longitud',
 'clas_con_f_alarma',
 'tipo_entrada',
 'delegacion_cierre',
 'geopoint',
 'mes']

Los tipos de dato que tiene cada variable inicialmente son:

In [10]:
df_incidentes.dtypes

folio                 object
fecha_creacion        object
hora_creacion         object
dia_semana            object
codigo_cierre         object
fecha_cierre          object
año_cierre             int64
mes_cierre            object
hora_cierre           object
delegacion_inicio     object
incidente_c4          object
latitud              float64
longitud             float64
clas_con_f_alarma     object
tipo_entrada          object
delegacion_cierre     object
geopoint              object
mes                    int64
dtype: object

## Perfilamiento general

In [11]:
eda.genera_profiling_general(df_incidentes)

El dataframe tiene 18 columnas.
Hay 5 columnas que tienen NA's.


Unnamed: 0,Estadisticas,Resultado
0,Total de variables,18
1,Conteo de observaciones,1383138
2,Total de celdas,24896484
3,Cantidad de variables numericas,4
4,Cantidad de variables de fecha,0
5,Cantidad de variables categóricas,0
6,Cantidad de variables de texto,14
7,Valores faltantes,1622
8,Porcentaje de valores faltantes,0.0%
9,Renglones duplicados,0


En la base de datos, tenemos alrededor de 1,622 elementos faltantes, distribuidos de la siguiente forma:

In [12]:
eda.cuenta_nulos_por_columnas(df_incidentes)

El dataframe tiene 18 columnas.
Hay 5 columnas que tienen NA's.


Unnamed: 0,Missing Values,% del Total
geopoint,446,0.0
latitud,443,0.0
longitud,435,0.0
delegacion_inicio,158,0.0
delegacion_cierre,140,0.0


En cuanto a los tipos de datos, están de la siguiente forma:

In [13]:
df_incidentes.dtypes

folio                 object
fecha_creacion        object
hora_creacion         object
dia_semana            object
codigo_cierre         object
fecha_cierre          object
año_cierre             int64
mes_cierre            object
hora_cierre           object
delegacion_inicio     object
incidente_c4          object
latitud              float64
longitud             float64
clas_con_f_alarma     object
tipo_entrada          object
delegacion_cierre     object
geopoint              object
mes                    int64
dtype: object

folio                 object --> Object  
fecha_creacion        object --> Date  
hora_creacion         object --> Date  
dia_semana            object --> Category  
codigo_cierre         object --> Category  
fecha_cierre          object --> Date  
año_cierre             int64 --> Category  
mes_cierre            object --> Category  
hora_cierre           object --> Date  
delegacion_inicio     object --> Category  
incidente_c4          object --> Category  
latitud              float64 --> float  
longitud             float64 --> float  
clas_con_f_alarma     object --> Category  
tipo_entrada          object --> Category  
delegacion_cierre     object --> Category  
geopoint              object --> Object  
mes                    int64 --> Category  

Primero, arreglamos los strings en las fechas:

In [14]:
# fix Dates
for ano in range(2013,2021):
    string_correccion_ano = str(ano)
    string_correccion_ano=string_correccion_ano[-2:]
    print(string_correccion_ano)
    
    for mes in range (1,13):
        if(mes<10):
            string_correccion_mes = '0'+str(mes)
        else:
            string_correccion_mes = str(mes)
            
        for dia in range(1, 32):
            elemento = dia

            if(elemento<10):
                string_correccion = '0'+str(dia)+'/'+string_correccion_mes+'/'+string_correccion_ano
                string_correcto = '0'+str(dia)+'/'+string_correccion_mes+'/20'+string_correccion_ano
            else:
                string_correccion = str(dia)+'/'+string_correccion_mes+'/'+string_correccion_ano
                string_correcto = str(dia)+'/'+string_correccion_mes+'/20'+string_correccion_ano
            #print(string_correccion)
            df_incidentes.loc[df_incidentes["fecha_creacion"] == string_correccion, "fecha_creacion"] = string_correcto
            df_incidentes.loc[df_incidentes["fecha_cierre"] == string_correccion, "fecha_cierre"] = string_correcto

13
14
15
16
17
18
19
20


In [15]:
# Convertir columna en datetime 
df_incidentes['fecha_creacion']=pd.to_datetime(df_incidentes['fecha_creacion'], format='%d/%m/%Y')
df_incidentes['fecha_cierre']=pd.to_datetime(df_incidentes['fecha_cierre'], format='%d/%m/%Y')

In [16]:
df_incidentes.loc[df_incidentes["fecha_creacion"] == '31/07/19']

Unnamed: 0,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,incidente_c4,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes
199549,C5/190731/07496,2019-07-31,22:09:39,Miércoles,(A) La unidad de atención a emergencias fue de...,2019-08-01,2019,Agosto,2:45:09,GUSTAVO A. MADERO,accidente-choque sin lesionados,19.50277,-99.09382,EMERGENCIA,LLAMADA DEL 911,GUSTAVO A. MADERO,"19.50276996,-99.09381996",8
199559,C5/190731/07697,2019-07-31,22:41:57,Miércoles,(A) La unidad de atención a emergencias fue de...,2019-08-01,2019,Agosto,4:09:07,GUSTAVO A. MADERO,accidente-choque con lesionados,19.51804,-99.15612,URGENCIAS MEDICAS,RADIO,GUSTAVO A. MADERO,"19.51803999,-99.15612012",8
199562,C5/190731/06194,2019-07-31,19:30:49,Miércoles,(A) La unidad de atención a emergencias fue de...,2019-08-01,2019,Agosto,3:11:54,VENUSTIANO CARRANZA,accidente-choque sin lesionados,19.44261,-99.10895,EMERGENCIA,LLAMADA DEL 911,VENUSTIANO CARRANZA,"19.44261,-99.10895004",8
199574,C5/190731/07242,2019-07-31,21:32:45,Miércoles,(A) La unidad de atención a emergencias fue de...,2019-08-01,2019,Agosto,0:20:22,IZTACALCO,accidente-choque sin lesionados,19.38104,-99.10895,EMERGENCIA,LLAMADA DEL 911,IZTAPALAPA,"19.38104001,-99.10895004",8
199605,C5/190731/08080,2019-07-31,23:38:39,Miércoles,(N) La unidad de atención a emergencias fue de...,2019-08-01,2019,Agosto,0:21:03,IZTACALCO,accidente-choque con lesionados,19.41750,-99.05641,URGENCIAS MEDICAS,LLAMADA DEL 911,IZTACALCO,"19.4175,-99.05640984",8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1124425,C5/190731/07720,2019-07-31,22:44:20,Miércoles,(A) La unidad de atención a emergencias fue de...,2019-08-01,2019,Agosto,1:03:00,BENITO JUAREZ,accidente-choque sin lesionados,19.39476,-99.13467,EMERGENCIA,LLAMADA DEL 911,BENITO JUAREZ,"19.39475997,-99.13466988",8
1124439,C5/190731/07272,2019-07-31,21:35:33,Miércoles,(A) La unidad de atención a emergencias fue de...,2019-08-01,2019,Agosto,2:18:32,GUSTAVO A. MADERO,accidente-choque sin lesionados,19.46464,-99.13112,EMERGENCIA,LLAMADA DEL 911,GUSTAVO A. MADERO,"19.46464002,-99.13111992",8
1124440,C5/190731/08112,2019-07-31,23:44:02,Miércoles,(A) La unidad de atención a emergencias fue de...,2019-08-01,2019,Agosto,0:35:47,MIGUEL HIDALGO,accidente-choque con lesionados,19.44340,-99.17201,URGENCIAS MEDICAS,LLAMADA APP911,MIGUEL HIDALGO,"19.44340002,-99.17201016",8
1124449,C5/190731/07578,2019-07-31,22:23:05,Miércoles,(A) La unidad de atención a emergencias fue de...,2019-08-01,2019,Agosto,4:48:17,IZTAPALAPA,accidente-choque sin lesionados,19.38177,-99.08706,EMERGENCIA,LLAMADA DEL 911,IZTAPALAPA,"19.38177,-99.08705988",8


Ahora, corregimos las horas de creación y de cierre.

In [17]:
df_incidentes['hora_creacion'].unique()

array(['22:35:04', '22:50:49', '09:40:11', ..., '0.986863426',
       '0.996238426', '04:33:05'], dtype=object)

In [18]:
df_incidentes['hora_creacion'].min()

'0.000138889'

In [19]:
df_hrs_raras = df_incidentes.loc[~df_incidentes["hora_creacion"].str.contains(':', case=False, na=None)]

In [20]:
df_hrs_raras.head(2)

Unnamed: 0,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,incidente_c4,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes
831339,C5/200217/09463,2020-02-17,0.985266204,Lunes,(A) La unidad de atención a emergencias fue de...,2020-02-18,2020,Febrero,0.147476852,MIGUEL HIDALGO,accidente-choque sin lesionados,19.45393,-99.19447,EMERGENCIA,LLAMADA DEL 911,MIGUEL HIDALGO,"19.45393002,-99.19446984",2
831341,C5/200218/03696,2020-02-18,0.53494213,Martes,(A) La unidad de atención a emergencias fue de...,2020-02-18,2020,Febrero,0.592511574,AZCAPOTZALCO,lesionado-atropellado,19.49486,-99.19591,URGENCIAS MEDICAS,LLAMADA DEL 911,AZCAPOTZALCO,"19.49486004,-99.19590984",2


In [21]:
len(df_hrs_raras)

1544

In [22]:
hrs_raras = df_hrs_raras['hora_creacion']

In [23]:
hrs_raras

831339     0.985266204
831341      0.53494213
831343     0.366539352
831345      0.51306713
831347     0.541273148
              ...     
1382352    0.921678241
1382353    0.967268519
1382354    0.976018519
1382355    0.986863426
1382356    0.996238426
Name: hora_creacion, Length: 1544, dtype: object

In [24]:
print(datetime.timedelta(days=0.985266204))

23:38:47.000026


In [25]:
print(datetime.timedelta(days=float(list(hrs_raras)[0])))

23:38:47.000026


In [26]:
datetime.timedelta(days=float(list(hrs_raras)[0]))

datetime.timedelta(seconds=85127, microseconds=26)

In [27]:
hrs_raras = hrs_raras.astype('float')
hours = [datetime.timedelta(days=float(num)) for num in hrs_raras]

In [28]:
data_hr_corregida = {'folio':df_hrs_raras['folio'],'hora_creacion':df_hrs_raras['hora_creacion'],'hora_creacion_corregida':hours}

In [29]:
dataframe_hrcorregida = pd.DataFrame(data=data_hr_corregida)

In [30]:
dataframe_hrcorregida = df_hrs_raras.copy()
dataframe_hrcorregida['hora_creacion_corregida'] = hours

In [31]:
dataframe_hrcorregida.head(2)

Unnamed: 0,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,incidente_c4,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes,hora_creacion_corregida
831339,C5/200217/09463,2020-02-17,0.985266204,Lunes,(A) La unidad de atención a emergencias fue de...,2020-02-18,2020,Febrero,0.147476852,MIGUEL HIDALGO,accidente-choque sin lesionados,19.45393,-99.19447,EMERGENCIA,LLAMADA DEL 911,MIGUEL HIDALGO,"19.45393002,-99.19446984",2,0 days 23:38:47.000026
831341,C5/200218/03696,2020-02-18,0.53494213,Martes,(A) La unidad de atención a emergencias fue de...,2020-02-18,2020,Febrero,0.592511574,AZCAPOTZALCO,lesionado-atropellado,19.49486,-99.19591,URGENCIAS MEDICAS,LLAMADA DEL 911,AZCAPOTZALCO,"19.49486004,-99.19590984",2,0 days 12:50:19.000032


In [32]:
# Eliminamos microsegundos
dataframe_hrcorregida['hora_creacion_corregida']= dataframe_hrcorregida['hora_creacion_corregida'].dt.floor('s')

In [33]:
dataframe_hrcorregida.head(2)

Unnamed: 0,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,incidente_c4,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes,hora_creacion_corregida
831339,C5/200217/09463,2020-02-17,0.985266204,Lunes,(A) La unidad de atención a emergencias fue de...,2020-02-18,2020,Febrero,0.147476852,MIGUEL HIDALGO,accidente-choque sin lesionados,19.45393,-99.19447,EMERGENCIA,LLAMADA DEL 911,MIGUEL HIDALGO,"19.45393002,-99.19446984",2,0 days 23:38:47
831341,C5/200218/03696,2020-02-18,0.53494213,Martes,(A) La unidad de atención a emergencias fue de...,2020-02-18,2020,Febrero,0.592511574,AZCAPOTZALCO,lesionado-atropellado,19.49486,-99.19591,URGENCIAS MEDICAS,LLAMADA DEL 911,AZCAPOTZALCO,"19.49486004,-99.19590984",2,0 days 12:50:19


In [34]:
dataframe_hrcorregida.dtypes

folio                               object
fecha_creacion              datetime64[ns]
hora_creacion                       object
dia_semana                          object
codigo_cierre                       object
fecha_cierre                datetime64[ns]
año_cierre                           int64
mes_cierre                          object
hora_cierre                         object
delegacion_inicio                   object
incidente_c4                        object
latitud                            float64
longitud                           float64
clas_con_f_alarma                   object
tipo_entrada                        object
delegacion_cierre                   object
geopoint                            object
mes                                  int64
hora_creacion_corregida    timedelta64[ns]
dtype: object

In [35]:
#La pasamos a string para eliminar el texto de 0 días
dataframe_hrcorregida['hora_creacion_corregida'] = dataframe_hrcorregida['hora_creacion_corregida'].astype(str)

In [36]:
#Eliminamos el string de 0 dias
dataframe_hrcorregida['hora_creacion_corregida'] = dataframe_hrcorregida['hora_creacion_corregida'].str.replace('0 days ', '')

In [37]:
dataframe_hrcorregida.head(2)

Unnamed: 0,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,incidente_c4,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes,hora_creacion_corregida
831339,C5/200217/09463,2020-02-17,0.985266204,Lunes,(A) La unidad de atención a emergencias fue de...,2020-02-18,2020,Febrero,0.147476852,MIGUEL HIDALGO,accidente-choque sin lesionados,19.45393,-99.19447,EMERGENCIA,LLAMADA DEL 911,MIGUEL HIDALGO,"19.45393002,-99.19446984",2,23:38:47
831341,C5/200218/03696,2020-02-18,0.53494213,Martes,(A) La unidad de atención a emergencias fue de...,2020-02-18,2020,Febrero,0.592511574,AZCAPOTZALCO,lesionado-atropellado,19.49486,-99.19591,URGENCIAS MEDICAS,LLAMADA DEL 911,AZCAPOTZALCO,"19.49486004,-99.19590984",2,12:50:19


In [38]:
dataframe_hrcorregida['hora_creacion'] = dataframe_hrcorregida['hora_creacion_corregida']

In [39]:
df_incidentes = df_incidentes.append(dataframe_hrcorregida)

In [40]:
df_incidentes.drop_duplicates(keep='last',subset=['folio'],inplace = True)

In [41]:
df_incidentes.head(2)

Unnamed: 0,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,incidente_c4,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes,hora_creacion_corregida
0,GA/160123/05714,2016-01-23,22:35:04,Sábado,(A) La unidad de atención a emergencias fue de...,2016-01-24,2016,Enero,00:21:08,VENUSTIANO CARRANZA,accidente-choque sin lesionados,19.422113,-99.084643,EMERGENCIA,BOTÓN DE AUXILIO,VENUSTIANO CARRANZA,"19.422113,-99.084643",1,
1,AO/160123/05826,2016-01-23,22:50:49,Sábado,(A) La unidad de atención a emergencias fue de...,2016-01-24,2016,Enero,04:40:37,CUAJIMALPA,accidente-choque con lesionados,19.35832,-99.297641,URGENCIAS MEDICAS,BOTÓN DE AUXILIO,CUAJIMALPA,"19.35832,-99.297641",1,


In [42]:
# Verificamos:
df_incidentes['hora_creacion'].unique()

array(['22:35:04', '22:50:49', '09:40:11', ..., '03:08:57', '02:05:12',
       '04:33:05'], dtype=object)

Repetimos el procedimiento para las horas de cierre:

In [43]:
df_hrs_raras = df_incidentes.loc[~df_incidentes["hora_cierre"].str.contains(':', case=False, na=None)]

In [44]:
df_hrs_raras.head(2)

Unnamed: 0,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,incidente_c4,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes,hora_creacion_corregida
831387,C5/200218/04419,2020-02-18,14:14:33,Martes,(N) La unidad de atención a emergencias fue de...,2020-02-18,2020,Febrero,0.635243056,ALVARO OBREGON,accidente-choque sin lesionados,19.35964,-99.209128,EMERGENCIA,LLAMADA DEL 911,ALVARO OBREGON,"19.35964,-99.20912778",2,
831459,C5/200218/02272,2020-02-18,09:49:30,Martes,(D) El incidente reportado se registró en dos ...,2020-02-18,2020,Febrero,0.421828704,MIGUEL HIDALGO,lesionado-atropellado,19.47115,-99.20682,URGENCIAS MEDICAS,LLAMADA APP911,MIGUEL HIDALGO,"19.47114999,-99.20682",2,


In [45]:
len(df_hrs_raras)

1542

In [46]:
hrs_raras = df_hrs_raras['hora_cierre']

In [47]:
hrs_raras

831387     0.635243056
831459     0.421828704
831467     0.979803241
831615     0.634780093
831749     0.585763889
              ...     
1382352    0.047685185
1382353    0.101643519
1382354    0.053009259
1382355    0.048530093
1382356    0.021076389
Name: hora_cierre, Length: 1542, dtype: object

In [48]:
print(datetime.timedelta(days=0.985266204))

23:38:47.000026


In [49]:
print(datetime.timedelta(days=float(list(hrs_raras)[0])))

15:14:45.000038


In [50]:
datetime.timedelta(days=float(list(hrs_raras)[0]))

datetime.timedelta(seconds=54885, microseconds=38)

In [51]:
hrs_raras = hrs_raras.astype('float')
hours = [datetime.timedelta(days=float(num)) for num in hrs_raras]

In [52]:
data_hr_corregida = {'folio':df_hrs_raras['folio'],'hora_cierre':df_hrs_raras['hora_creacion'],'hora_cierre_corregida':hours}

In [53]:
dataframe_hrcorregida = pd.DataFrame(data=data_hr_corregida)

In [54]:
dataframe_hrcorregida = df_hrs_raras.copy()
dataframe_hrcorregida['hora_cierre_corregida'] = hours

In [55]:
dataframe_hrcorregida.head(2)

Unnamed: 0,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,incidente_c4,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes,hora_creacion_corregida,hora_cierre_corregida
831387,C5/200218/04419,2020-02-18,14:14:33,Martes,(N) La unidad de atención a emergencias fue de...,2020-02-18,2020,Febrero,0.635243056,ALVARO OBREGON,accidente-choque sin lesionados,19.35964,-99.209128,EMERGENCIA,LLAMADA DEL 911,ALVARO OBREGON,"19.35964,-99.20912778",2,,0 days 15:14:45.000038
831459,C5/200218/02272,2020-02-18,09:49:30,Martes,(D) El incidente reportado se registró en dos ...,2020-02-18,2020,Febrero,0.421828704,MIGUEL HIDALGO,lesionado-atropellado,19.47115,-99.20682,URGENCIAS MEDICAS,LLAMADA APP911,MIGUEL HIDALGO,"19.47114999,-99.20682",2,,0 days 10:07:26.000026


In [56]:
# Eliminamos microsegundos
dataframe_hrcorregida['hora_cierre_corregida']= dataframe_hrcorregida['hora_cierre_corregida'].dt.floor('s')

In [57]:
dataframe_hrcorregida.head(2)

Unnamed: 0,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,incidente_c4,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes,hora_creacion_corregida,hora_cierre_corregida
831387,C5/200218/04419,2020-02-18,14:14:33,Martes,(N) La unidad de atención a emergencias fue de...,2020-02-18,2020,Febrero,0.635243056,ALVARO OBREGON,accidente-choque sin lesionados,19.35964,-99.209128,EMERGENCIA,LLAMADA DEL 911,ALVARO OBREGON,"19.35964,-99.20912778",2,,0 days 15:14:45
831459,C5/200218/02272,2020-02-18,09:49:30,Martes,(D) El incidente reportado se registró en dos ...,2020-02-18,2020,Febrero,0.421828704,MIGUEL HIDALGO,lesionado-atropellado,19.47115,-99.20682,URGENCIAS MEDICAS,LLAMADA APP911,MIGUEL HIDALGO,"19.47114999,-99.20682",2,,0 days 10:07:26


In [58]:
dataframe_hrcorregida.dtypes

folio                               object
fecha_creacion              datetime64[ns]
hora_creacion                       object
dia_semana                          object
codigo_cierre                       object
fecha_cierre                datetime64[ns]
año_cierre                           int64
mes_cierre                          object
hora_cierre                         object
delegacion_inicio                   object
incidente_c4                        object
latitud                            float64
longitud                           float64
clas_con_f_alarma                   object
tipo_entrada                        object
delegacion_cierre                   object
geopoint                            object
mes                                  int64
hora_creacion_corregida             object
hora_cierre_corregida      timedelta64[ns]
dtype: object

In [59]:
#La pasamos a string para eliminar el texto de 0 días
dataframe_hrcorregida['hora_cierre_corregida'] = dataframe_hrcorregida['hora_cierre_corregida'].astype(str)

In [60]:
#Eliminamos el string de 0 dias
dataframe_hrcorregida['hora_cierre_corregida'] = dataframe_hrcorregida['hora_cierre_corregida'].str.replace('0 days ', '')

In [61]:
dataframe_hrcorregida.head(2)

Unnamed: 0,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,incidente_c4,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes,hora_creacion_corregida,hora_cierre_corregida
831387,C5/200218/04419,2020-02-18,14:14:33,Martes,(N) La unidad de atención a emergencias fue de...,2020-02-18,2020,Febrero,0.635243056,ALVARO OBREGON,accidente-choque sin lesionados,19.35964,-99.209128,EMERGENCIA,LLAMADA DEL 911,ALVARO OBREGON,"19.35964,-99.20912778",2,,15:14:45
831459,C5/200218/02272,2020-02-18,09:49:30,Martes,(D) El incidente reportado se registró en dos ...,2020-02-18,2020,Febrero,0.421828704,MIGUEL HIDALGO,lesionado-atropellado,19.47115,-99.20682,URGENCIAS MEDICAS,LLAMADA APP911,MIGUEL HIDALGO,"19.47114999,-99.20682",2,,10:07:26


In [62]:
dataframe_hrcorregida['hora_cierre'] = dataframe_hrcorregida['hora_cierre_corregida']

In [63]:
df_incidentes = df_incidentes.append(dataframe_hrcorregida)

In [64]:
df_incidentes.drop_duplicates(keep='last',subset=['folio'],inplace = True)

In [65]:
df_incidentes.head(2)

Unnamed: 0,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,incidente_c4,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes,hora_creacion_corregida,hora_cierre_corregida
0,GA/160123/05714,2016-01-23,22:35:04,Sábado,(A) La unidad de atención a emergencias fue de...,2016-01-24,2016,Enero,00:21:08,VENUSTIANO CARRANZA,accidente-choque sin lesionados,19.422113,-99.084643,EMERGENCIA,BOTÓN DE AUXILIO,VENUSTIANO CARRANZA,"19.422113,-99.084643",1,,
1,AO/160123/05826,2016-01-23,22:50:49,Sábado,(A) La unidad de atención a emergencias fue de...,2016-01-24,2016,Enero,04:40:37,CUAJIMALPA,accidente-choque con lesionados,19.35832,-99.297641,URGENCIAS MEDICAS,BOTÓN DE AUXILIO,CUAJIMALPA,"19.35832,-99.297641",1,,


In [66]:
# Verificamos:
df_incidentes['hora_cierre'].unique()

array(['00:21:08', '04:40:37', '11:13:03', ..., '04:21:49', '02:44:31',
       '04:35:21'], dtype=object)

In [67]:
# Eliminamos columnas auxiliares
df_incidentes.drop(columns = 'hora_creacion_corregida',inplace = True)
df_incidentes.drop(columns = 'hora_cierre_corregida',inplace = True)

In [68]:
# Cambiamos tipos de datos
df_incidentes = df_incidentes.astype({"dia_semana":'category',"año_cierre":'category', "codigo_cierre":'category', "año_cierre":'int64', "mes_cierre":'category',"delegacion_inicio":'category', "incidente_c4":'category' , "clas_con_f_alarma":'category', "tipo_entrada":'category',  "delegacion_cierre":'category' , "mes":'int64'}) 

In [69]:
df_incidentes.dtypes

folio                        object
fecha_creacion       datetime64[ns]
hora_creacion                object
dia_semana                 category
codigo_cierre              category
fecha_cierre         datetime64[ns]
año_cierre                    int64
mes_cierre                 category
hora_cierre                  object
delegacion_inicio          category
incidente_c4               category
latitud                     float64
longitud                    float64
clas_con_f_alarma          category
tipo_entrada               category
delegacion_cierre          category
geopoint                     object
mes                           int64
dtype: object

In [70]:
df_incidentes['año_cierre'] = df_incidentes['año_cierre'].astype('category')
df_incidentes['mes'] = df_incidentes['mes'].astype('category')

### Perfilamiento por variables

In [71]:
profiling_numericas,profiling_categoricas,profiling_texto = eda.genera_profiling_por_variable(df_incidentes)

In [72]:
profiling_numericas

Unnamed: 0,metrica,latitud,longitud
0,tipo,float64,float64
1,numero de observaciones,1.3827e+06,1.3827e+06
2,media,19.38,-99.14
3,desviacion estándar,0.27,2.4
4,cuartil 25%,19.34,-99.18
5,cuartil 50%,19.38,-99.14
6,cuartil 75%,19.43,-99.1
7,minimo,19.09,-991.76
8,maximo,195.3,-98.95
9,numero de observaciones unicas,82501,78984


In [73]:
profiling_categoricas

Unnamed: 0,metrica,dia_semana,codigo_cierre,año_cierre,mes_cierre,delegacion_inicio,incidente_c4,clas_con_f_alarma,tipo_entrada,delegacion_cierre,mes
0,tipo,category,category,category,category,category,category,category,category,category,category
1,numero de categorias,7,5,7,12,16,26,4,9,16,12
2,numero de observaciones,1383138,1383138,1383138,1383138,1383138,1383138,1383138,1383138,1383138,1383138
3,observaciones nulas,0,0,0,0,158,0,0,0,140,0
4,% observaciones nulas,0,0,0,0,0.000114233,0,0,0,0.000101219,0
5,valores unicos,"[Sábado, Domingo, Lunes, Martes, Miércoles, Ju...",[(A) La unidad de atención a emergencias fue d...,"[2016, 2017, 2018, 2019, 2015, 2014, 2020]","[Enero, Febrero, Marzo, Septiembre, Octubre, M...","[VENUSTIANO CARRANZA, CUAJIMALPA, TLALPAN, MAG...","[accidente-choque sin lesionados, accidente-ch...","[EMERGENCIA, URGENCIAS MEDICAS, FALSA ALARMA, ...","[BOTÓN DE AUXILIO, LLAMADA DEL 066, RADIO, CÁM...","[VENUSTIANO CARRANZA, CUAJIMALPA, TLALPAN, MAG...","[1, 2, 3, 9, 10, 5, 6, 4, 8, 12, 7, 11]"
6,moda1/veces/porcentaje,"[Viernes, 229,681, 16.61%]",[(A) La unidad de atención a emergencias fue d...,"[2018, 246,577, 17.83%]","[Octubre, 133,641, 9.66%]","[IZTAPALAPA, 223,687, 16.17%]","[accidente-choque sin lesionados, 760,506, 54....","[EMERGENCIA, 799,037, 57.77%]","[LLAMADA DEL 911, 739,339, 53.45%]","[IZTAPALAPA, 225,202, 16.28%]","[10, 133,641, 9.66%]"
7,moda2/veces/porcentaje,"[Sábado, 214,134, 15.48%]",[(D) El incidente reportado se registró en dos...,"[2019, 229,467, 16.59%]","[Agosto, 121,123, 8.76%]","[GUSTAVO A. MADERO, 144,620, 10.46%]","[accidente-choque con lesionados, 315,031, 22....","[URGENCIAS MEDICAS, 572,619, 41.4%]","[LLAMADA DEL 066, 463,432, 33.51%]","[GUSTAVO A. MADERO, 147,582, 10.67%]","[8, 121,123, 8.76%]"
8,moda3/veces/porcentaje,"[Jueves, 198,147, 14.33%]",[(N) La unidad de atención a emergencias fue d...,"[2017, 226,535, 16.38%]","[Septiembre, 120,581, 8.72%]","[CUAUHTEMOC, 141,391, 10.22%]","[lesionado-atropellado, 193,553, 13.99%]","[FALSA ALARMA, 10,630, 0.77%]","[BOTÓN DE AUXILIO, 78,630, 5.68%]","[CUAUHTEMOC, 141,781, 10.25%]","[9, 120,581, 8.72%]"


Regresar mes a numérica

Creamos la variable de timestamp

In [74]:
df_incidentes['hora_creacion'] = df_incidentes['hora_creacion'].astype('str')

In [75]:
df_incidentes['fecha_creacion'] = df_incidentes['fecha_creacion'].astype('str')

In [76]:
df_incidentes['timestamp_creacion'] = df_incidentes['fecha_creacion']+' '+df_incidentes['hora_creacion']

In [77]:
# convert the 'Date' column to datetime format
df_incidentes['timestamp_creacion']= pd.to_datetime(df_incidentes['timestamp_creacion'])

In [78]:
df_incidentes['hora_cierre'] = df_incidentes['hora_cierre'].astype('str')

In [79]:
df_incidentes['fecha_cierre'] = df_incidentes['fecha_cierre'].astype('str')

In [80]:
df_incidentes['timestamp_cierre'] = df_incidentes['fecha_cierre']+' '+df_incidentes['hora_cierre']

In [81]:
# convert the 'Date' column to datetime format
df_incidentes['timestamp_cierre']= pd.to_datetime(df_incidentes['timestamp_cierre'])

In [82]:
diferencia_de_tiempo = df_incidentes['timestamp_cierre'] - df_incidentes['timestamp_creacion']

In [83]:
diferencia_de_tiempo.min()

Timedelta('-1 days +23:59:00')

In [84]:
diferencia_de_tiempo.max()

Timedelta('397 days 03:59:16')

In [85]:
df_incidentes['dif_solucion'] = diferencia_de_tiempo

In [86]:
df_incidentes.sample()

Unnamed: 0,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,...,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes,timestamp_creacion,timestamp_cierre,dif_solucion
933837,C4/150213/00845,2015-02-13,08:19:31,Viernes,(A) La unidad de atención a emergencias fue de...,2015-02-13,2015,Febrero,12:23:33,IZTAPALAPA,...,19.35733,-99.08172,URGENCIAS MEDICAS,LLAMADA DEL 066,IZTAPALAPA,"19.35732996,-99.08172",2,2015-02-13 08:19:31,2015-02-13 12:23:33,0 days 04:04:02


In [87]:
df_incidentes.iloc[df_incidentes['dif_solucion'].idxmin()]

folio                                                   C5/190820/07924
fecha_creacion                                               2019-08-20
hora_creacion                                                  23:37:03
dia_semana                                                       Martes
codigo_cierre         (D) El incidente reportado se registró en dos ...
fecha_cierre                                                 2019-08-20
año_cierre                                                         2019
mes_cierre                                                       Agosto
hora_cierre                                                    23:45:10
delegacion_inicio                                            XOCHIMILCO
incidente_c4                            accidente-choque con lesionados
latitud                                                         19.2525
longitud                                                       -99.1014
clas_con_f_alarma                                     URGENCIAS 

In [88]:
df_incidentes['timestamp_creacion'].max()

Timestamp('2020-10-31 23:57:20')

In [89]:
df_incidentes['timestamp_creacion'].min()

Timestamp('2013-12-31 13:01:33')

In [90]:
#df_incidentes['timestamp_creacion']

In [91]:
df_incidentes['hora_creacion'].unique()

array(['22:35:04', '22:50:49', '09:40:11', ..., '03:08:57', '02:05:12',
       '04:33:05'], dtype=object)

In [92]:
df_incidentes.loc[df_incidentes["latitud"] > 20]

Unnamed: 0,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,...,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes,timestamp_creacion,timestamp_cierre,dif_solucion
284145,C5/181231/06094,2018-12-31,17:03:39,Lunes,(A) La unidad de atención a emergencias fue de...,2018-12-31,2018,Diciembre,17:21:08,BENITO JUAREZ,...,193.815,,URGENCIAS MEDICAS,LLAMADA DEL 911,BENITO JUAREZ,,12,2018-12-31 17:03:39,2018-12-31 17:21:08,0 days 00:17:29
436981,C5/181231/06971,2018-12-31,18:46:55,Lunes,(N) La unidad de atención a emergencias fue de...,2018-12-31,2018,Diciembre,19:00:13,IZTAPALAPA,...,193.446,,EMERGENCIA,LLAMADA DEL 911,IZTAPALAPA,,12,2018-12-31 18:46:55,2018-12-31 19:00:13,0 days 00:13:18
714661,GA/181231/04533,2018-12-31,14:15:47,Lunes,(A) La unidad de atención a emergencias fue de...,2018-12-31,2018,Diciembre,17:16:38,GUSTAVO A. MADERO,...,195.303,,EMERGENCIA,BOTÓN DE AUXILIO,GUSTAVO A. MADERO,,12,2018-12-31 14:15:47,2018-12-31 17:16:38,0 days 03:00:51


In [93]:
df_incidentes.loc[df_incidentes["longitud"] < -100]

Unnamed: 0,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,...,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes,timestamp_creacion,timestamp_cierre,dif_solucion
284110,C5/181231/01210,2018-12-31,06:02:10,Lunes,(D) El incidente reportado se registró en dos ...,2018-12-31,2018,Diciembre,06:05:35,IZTAPALAPA,...,,-990.369,URGENCIAS MEDICAS,LLAMADA DEL 911,IZTAPALAPA,,12,2018-12-31 06:02:10,2018-12-31 06:05:35,0 days 00:03:25
284125,C5/181231/05350,2018-12-31,15:42:11,Lunes,(D) El incidente reportado se registró en dos ...,2018-12-31,2018,Diciembre,15:50:06,CUAUHTEMOC,...,,-991.692,URGENCIAS MEDICAS,LLAMADA DEL 911,CUAUHTEMOC,,12,2018-12-31 15:42:11,2018-12-31 15:50:06,0 days 00:07:55
436964,C5/181231/06210,2018-12-31,17:18:40,Lunes,(A) La unidad de atención a emergencias fue de...,2018-12-31,2018,Diciembre,19:09:52,IZTACALCO,...,,-990.765,URGENCIAS MEDICAS,RADIO,IZTACALCO,,12,2018-12-31 17:18:40,2018-12-31 19:09:52,0 days 01:51:12
436990,C5/181231/01068,2018-12-31,04:51:42,Lunes,(D) El incidente reportado se registró en dos ...,2018-12-31,2018,Diciembre,05:18:29,AZCAPOTZALCO,...,,-991.764,URGENCIAS MEDICAS,LLAMADA DEL 911,AZCAPOTZALCO,,12,2018-12-31 04:51:42,2018-12-31 05:18:29,0 days 00:26:47
437000,C5/181231/05354,2018-12-31,15:42:14,Lunes,(D) El incidente reportado se registró en dos ...,2018-12-31,2018,Diciembre,15:49:03,CUAUHTEMOC,...,,-991.692,URGENCIAS MEDICAS,LLAMADA DEL 911,CUAUHTEMOC,,12,2018-12-31 15:42:14,2018-12-31 15:49:03,0 days 00:06:49
437042,C5/181231/05353,2018-12-31,15:41:59,Lunes,(D) El incidente reportado se registró en dos ...,2018-12-31,2018,Diciembre,15:49:27,CUAUHTEMOC,...,,-991.692,URGENCIAS MEDICAS,LLAMADA DEL 911,CUAUHTEMOC,,12,2018-12-31 15:41:59,2018-12-31 15:49:27,0 days 00:07:28
437075,C5/181231/00961,2018-12-31,04:08:37,Lunes,(D) El incidente reportado se registró en dos ...,2018-12-31,2018,Diciembre,04:18:48,AZCAPOTZALCO,...,,-991.764,URGENCIAS MEDICAS,LLAMADA DEL 911,AZCAPOTZALCO,,12,2018-12-31 04:08:37,2018-12-31 04:18:48,0 days 00:10:11
714449,C5/181231/05744,2018-12-31,16:22:20,Lunes,(A) La unidad de atención a emergencias fue de...,2018-12-31,2018,Diciembre,18:10:39,IZTAPALAPA,...,,-990.495,EMERGENCIA,LLAMADA DEL 911,IZTAPALAPA,,12,2018-12-31 16:22:20,2018-12-31 18:10:39,0 days 01:48:19
714483,C5/181231/00956,2018-12-31,04:06:15,Lunes,(A) La unidad de atención a emergencias fue de...,2018-12-31,2018,Diciembre,06:22:55,AZCAPOTZALCO,...,,-991.764,URGENCIAS MEDICAS,LLAMADA DEL 911,AZCAPOTZALCO,,12,2018-12-31 04:06:15,2018-12-31 06:22:55,0 days 02:16:40
714513,C5/181231/04311,2018-12-31,13:34:03,Lunes,(A) La unidad de atención a emergencias fue de...,2018-12-31,2018,Diciembre,16:01:07,TLAHUAC,...,,-989.595,EMERGENCIA,LLAMADA DEL 911,TLAHUAC,,12,2018-12-31 13:34:03,2018-12-31 16:01:07,0 days 02:27:04


In [94]:
eda.CreaTablaConteoPorcentaje(df_delitos,"año_cierre", False)

NameError: name 'df_delitos' is not defined

In [None]:
df_incidentes.columns

In [None]:
eda.CreaTablaConteoPorcentaje(df_incidentes,"incidente_c4", False)

In [None]:
def rename_incidente_c4(df):
    df.loc[df["incidente_c4"].str.contains('accidente-', case=False, na=None), "incidente_c4"] = 'accidente'
    df.loc[df["incidente_c4"].str.contains('cadaver-', case=False, na=None), "incidente_c4"] = 'cadaver'
    df.loc[df["incidente_c4"].str.contains('sismo-', case=False, na=None), "incidente_c4"] = 'sismo'
    df.loc[df["incidente_c4"].str.contains('mi ciudad-', case=False, na=None), "incidente_c4"] = 'mi ciudad'
    df.loc[df["incidente_c4"].str.contains('detencion ciudadana-', case=False, na=None), "incidente_c4"] = 'detencion ciudadana'
    df.loc[df["incidente_c4"].str.contains('lesionado-', case=False, na=None), "incidente_c4"] = 'lesionado'
    return df