# Data Profiling

---

## Imports

#### Python libraries

In [14]:
import pandas as pd

import sys

#### Ancillary modules

In [33]:
## Reload modules
%load_ext autoreload
%autoreload 2

sys.path.append("..")

from src.utils.utils import (
    json_dump_dict,
    count_vars,
    count_obs,
    count_unique_obs,
    vars_classif_by_type,
    data_profiling_numeric,
    data_profiling_categ
)

from src.utils.data_dict import (
    data_dict
)

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


---

## Reading data

In [3]:
df_c5 = pd.read_csv("../incidentes-viales-c5.csv")

In [31]:
df_c5

Unnamed: 0,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,incidente_c4,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes
0,GA/160123/05714,23/01/2016,22:35:04,Sábado,(A) La unidad de atención a emergencias fue de...,24/01/2016,2016,Enero,00:21:08,VENUSTIANO CARRANZA,accidente-choque sin lesionados,19.422113,-99.084643,EMERGENCIA,BOTÓN DE AUXILIO,VENUSTIANO CARRANZA,"19.422113,-99.084643",1
1,AO/160123/05826,23/01/2016,22:50:49,Sábado,(A) La unidad de atención a emergencias fue de...,24/01/2016,2016,Enero,04:40:37,CUAJIMALPA,accidente-choque con lesionados,19.358320,-99.297641,URGENCIAS MEDICAS,BOTÓN DE AUXILIO,CUAJIMALPA,"19.35832,-99.297641",1
2,C4/160124/02187,24/01/2016,09:40:11,Domingo,(N) La unidad de atención a emergencias fue de...,24/01/2016,2016,Enero,11:13:03,TLALPAN,accidente-choque sin lesionados,19.217070,-99.219070,EMERGENCIA,LLAMADA DEL 066,TLALPAN,"19.21707,-99.21907008",1
3,C4/160124/05723,24/01/2016,22:40:57,Domingo,(N) La unidad de atención a emergencias fue de...,24/01/2016,2016,Enero,22:55:51,MAGDALENA CONTRERAS,accidente-choque sin lesionados,19.320580,-99.241010,EMERGENCIA,LLAMADA DEL 066,MAGDALENA CONTRERAS,"19.32057999,-99.24100992",1
4,C4/160124/01334,24/01/2016,04:25:15,Domingo,(A) La unidad de atención a emergencias fue de...,24/01/2016,2016,Enero,05:03:59,MIGUEL HIDALGO,accidente-choque sin lesionados,19.452900,-99.215870,EMERGENCIA,LLAMADA DEL 066,MIGUEL HIDALGO,"19.45289997,-99.21587004",1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1383133,GA/201022/03443,22/10/2020,16:17:05,Jueves,(A) La unidad de atención a emergencias fue de...,22/10/2020,2020,Octubre,16:58:49,GUSTAVO A. MADERO,lesionado-atropellado,19.486310,-99.118120,URGENCIAS MEDICAS,BOTÓN DE AUXILIO,GUSTAVO A. MADERO,"19.48631004,-99.11811996",10
1383134,GA/201022/03492,22/10/2020,16:29:13,Jueves,(A) La unidad de atención a emergencias fue de...,22/10/2020,2020,Octubre,18:54:22,VENUSTIANO CARRANZA,accidente-choque con lesionados,19.427274,-99.115814,URGENCIAS MEDICAS,BOTÓN DE AUXILIO,VENUSTIANO CARRANZA,"19.427274,-99.115814",10
1383135,C5/201022/02030,22/10/2020,12:00:26,Jueves,(D) El incidente reportado se registró en dos ...,22/10/2020,2020,Octubre,12:02:30,AZCAPOTZALCO,accidente-choque sin lesionados,19.467180,-99.175250,EMERGENCIA,LLAMADA DEL 911,AZCAPOTZALCO,"19.46718,-99.17525016",10
1383136,C5/201022/02039,22/10/2020,12:01:25,Jueves,(D) El incidente reportado se registró en dos ...,22/10/2020,2020,Octubre,12:05:59,VENUSTIANO CARRANZA,accidente-choque con lesionados,19.427280,-99.096860,URGENCIAS MEDICAS,LLAMADA DEL 911,VENUSTIANO CARRANZA,"19.42728003,-99.09686016",10


---

## Data profiling

### Generic exploration

#### Number of variables in data

In [16]:
count_vars(df_c5)

Número de variables en los datos --> 18


#### Number of observations in data

In [17]:
count_obs(df_c5)

Número de observaciones en los datos --> 1383138


#### Number of unique observations in data per column

In [18]:
count_unique_obs(df_c5)

folio                1383138
fecha_creacion          2637
hora_creacion         105887
dia_semana                 7
codigo_cierre              5
fecha_cierre            2621
año_cierre                 7
mes_cierre                12
hora_cierre           106827
delegacion_inicio         16
incidente_c4              26
latitud                82501
longitud               78984
clas_con_f_alarma          4
tipo_entrada               9
delegacion_cierre         16
geopoint              134288
mes                       12
dtype: int64

#### Classifying variables according to data type

In [19]:
vars_classif_by_type()

Unnamed: 0,categoric,date_and_time,coordenate
0,folio,fecha_creacion,latitud
1,dia_semana,hora_creacion,longitud
2,codigo_cierre,fecha_cierre,geopoint
3,delegacion_inicio,año_cierre,-
4,incidente_c4,mes_cierre,-
5,clas_con_f_alarma,hora_cierre,-
6,tipo_entrada,mes,-
7,delegacion_cierre,-,-


None


### Data profilling - numeric variables

El dataset analizado no contiene variables numéricas.

### Data profilling - categoric variables

In [34]:
cat_vars = [var for var in data_dict if data_dict[var]["data_type"] == "categoric"]

data_profiling_categ(df_c5, cat_vars)

*************************************
** Conteo y proporción de entradas **
*************************************
Variable categorica -> folio


Unnamed: 0_level_0,Observaciones,Proporción
Categoría,Unnamed: 1_level_1,Unnamed: 2_level_1
C5/180622/10071,1,0.0%
C4/150811/01143,1,0.0%
C5/160529/04014,1,0.0%
C5/170531/07032,1,0.0%
IZ/160204/05246,1,0.0%
...,...,...
C5/160906/00603,1,0.0%
C5/180506/08316,1,0.0%
BJ/170517/06878,1,0.0%
C5/190409/06769,1,0.0%


None



Variable categorica -> dia_semana


Unnamed: 0_level_0,Observaciones,Proporción
Categoría,Unnamed: 1_level_1,Unnamed: 2_level_1
Viernes,229681,16.6%
Sábado,214134,15.5%
Jueves,198147,14.3%
Miércoles,193857,14.0%
Martes,189669,13.7%
Lunes,182448,13.2%
Domingo,175202,12.7%


None



Variable categorica -> codigo_cierre


Unnamed: 0_level_0,Observaciones,Proporción
Categoría,Unnamed: 1_level_1,Unnamed: 2_level_1
"(A) La unidad de atención a emergencias fue despachada, llegó al lugar de los hechos y confirmó la emergencia reportada",600108,43.4%
"(D) El incidente reportado se registró en dos o más ocasiones procediendo a mantener un único reporte (afirmativo, informativo, negativo o falso) como el identificador para el incidente",495631,35.8%
"(N) La unidad de atención a emergencias fue despachada, llegó al lugar de los hechos, pero en el sitio del evento nadie solicitó el apoyo de la unidad",271677,19.6%
"(F) El operador/a o despachador/a identifican, antes de dar respuesta a la emergencia, que ésta es falsa. O al ser despachada una unidad de atención a emergencias en el lugar de los hechos se percatan que el incidente no corresponde al reportado inicialmente",10626,0.8%
(I) El incidente reportado es afirmativo y se añade información adicional al evento,5096,0.4%


None



Variable categorica -> delegacion_inicio


Unnamed: 0_level_0,Observaciones,Proporción
Categoría,Unnamed: 1_level_1,Unnamed: 2_level_1
IZTAPALAPA,223687,16.2%
GUSTAVO A. MADERO,144620,10.5%
CUAUHTEMOC,141391,10.2%
MIGUEL HIDALGO,115864,8.4%
COYOACAN,110146,8.0%
BENITO JUAREZ,104322,7.5%
ALVARO OBREGON,102071,7.4%
VENUSTIANO CARRANZA,94393,6.8%
TLALPAN,87339,6.3%
AZCAPOTZALCO,60823,4.4%


None



Variable categorica -> incidente_c4


Unnamed: 0_level_0,Observaciones,Proporción
Categoría,Unnamed: 1_level_1,Unnamed: 2_level_1
accidente-choque sin lesionados,760506,55.0%
accidente-choque con lesionados,315031,22.8%
lesionado-atropellado,193553,14.0%
accidente-motociclista,55646,4.0%
accidente-volcadura,31766,2.3%
lesionado-accidente automovilístico,6054,0.4%
accidente-persona atrapada / desbarrancada,5607,0.4%
accidente-ciclista,2718,0.2%
accidente-otros,2465,0.2%
accidente-choque con prensados,2334,0.2%


None



Variable categorica -> clas_con_f_alarma


Unnamed: 0_level_0,Observaciones,Proporción
Categoría,Unnamed: 1_level_1,Unnamed: 2_level_1
EMERGENCIA,799037,57.8%
URGENCIAS MEDICAS,572619,41.4%
FALSA ALARMA,10630,0.8%
DELITO,852,0.1%


None



Variable categorica -> tipo_entrada


Unnamed: 0_level_0,Observaciones,Proporción
Categoría,Unnamed: 1_level_1,Unnamed: 2_level_1
LLAMADA DEL 911,739339,53.5%
LLAMADA DEL 066,463432,33.5%
BOTÓN DE AUXILIO,78630,5.7%
RADIO,77749,5.6%
LLAMADA APP911,9483,0.7%
ZELLO,6451,0.5%
REDES,4697,0.3%
CÁMARA,3276,0.2%
APLICATIVOS,81,0.0%


None



Variable categorica -> delegacion_cierre


Unnamed: 0_level_0,Observaciones,Proporción
Categoría,Unnamed: 1_level_1,Unnamed: 2_level_1
IZTAPALAPA,225202,16.3%
GUSTAVO A. MADERO,147582,10.7%
CUAUHTEMOC,141781,10.3%
MIGUEL HIDALGO,113910,8.2%
COYOACAN,107251,7.8%
ALVARO OBREGON,104073,7.5%
BENITO JUAREZ,103602,7.5%
TLALPAN,92122,6.7%
VENUSTIANO CARRANZA,91661,6.6%
AZCAPOTZALCO,59776,4.3%


None



***************************************
** Impresión de resumen de variables **
***************************************


Info,folio,dia_semana,codigo_cierre,delegacion_inicio,incidente_c4,clas_con_f_alarma,tipo_entrada,delegacion_cierre
Num_Registros,1383138,1383138,1383138,1383138,1383138,1383138,1383138,1383138
Num_de_categorias,1383138,7,5,16,26,4,9,16
Moda,AO/140101/01144,Viernes,(A) La unidad de atención a emergencias fue de...,IZTAPALAPA,accidente-choque sin lesionados,EMERGENCIA,LLAMADA DEL 911,IZTAPALAPA
Valores_faltantes,0,0,0,158,0,0,0,140
Top1,"[C5/180622/10071, 1]","[Viernes, 229681]",[(A) La unidad de atención a emergencias fue d...,"[IZTAPALAPA, 223687]","[accidente-choque sin lesionados, 760506]","[EMERGENCIA, 799037]","[LLAMADA DEL 911, 739339]","[IZTAPALAPA, 225202]"
Top2,"[C4/150811/01143, 1]","[Sábado, 214134]",[(D) El incidente reportado se registró en dos...,"[GUSTAVO A. MADERO, 144620]","[accidente-choque con lesionados, 315031]","[URGENCIAS MEDICAS, 572619]","[LLAMADA DEL 066, 463432]","[GUSTAVO A. MADERO, 147582]"
Top3,"[C5/160529/04014, 1]","[Jueves, 198147]",[(N) La unidad de atención a emergencias fue d...,"[CUAUHTEMOC, 141391]","[lesionado-atropellado, 193553]","[FALSA ALARMA, 10630]","[BOTÓN DE AUXILIO, 78630]","[CUAUHTEMOC, 141781]"


None


**Con base en el profiling realizado, nos damos cuenta de los siguientes aspectos importantes acerca de los datos:**
- Observaciones principales
    1. Sí tenemos un folio único para cada una de las observaciones.
    2. El 20% de los envíos de asistencia registrados en la base (271,677) son inútiles debido a que la ambulancia llega al lugar pero no hay emergencia que atender.
    3. El 55% de los accidentes no requieren que se envíe una ambulancia de asistencia.
- Observaciones secundarias
    1. Solamente el 0.8% de las llamadas son identificadas como "Falsas" antes de enviar asistencia (información útil para definir *baseline*)

### Data profilling - date variables

In [35]:
dat_vars = [var for var in data_dict if data_dict[var]["data_type"] == "date_and_time"]

['fecha_creacion',
 'hora_creacion',
 'fecha_cierre',
 'año_cierre',
 'mes_cierre',
 'hora_cierre',
 'mes']

In [39]:
df_dat = df_c5.loc[:, dat_vars]
df_dat

Unnamed: 0,fecha_creacion,hora_creacion,fecha_cierre,año_cierre,mes_cierre,hora_cierre,mes
0,23/01/2016,22:35:04,24/01/2016,2016,Enero,00:21:08,1
1,23/01/2016,22:50:49,24/01/2016,2016,Enero,04:40:37,1
2,24/01/2016,09:40:11,24/01/2016,2016,Enero,11:13:03,1
3,24/01/2016,22:40:57,24/01/2016,2016,Enero,22:55:51,1
4,24/01/2016,04:25:15,24/01/2016,2016,Enero,05:03:59,1
...,...,...,...,...,...,...,...
1383133,22/10/2020,16:17:05,22/10/2020,2020,Octubre,16:58:49,10
1383134,22/10/2020,16:29:13,22/10/2020,2020,Octubre,18:54:22,10
1383135,22/10/2020,12:00:26,22/10/2020,2020,Octubre,12:02:30,10
1383136,22/10/2020,12:01:25,22/10/2020,2020,Octubre,12:05:59,10


In [37]:
df_c5.loc[:, dat_vars].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1383138 entries, 0 to 1383137
Data columns (total 7 columns):
 #   Column          Non-Null Count    Dtype 
---  ------          --------------    ----- 
 0   fecha_creacion  1383138 non-null  object
 1   hora_creacion   1383138 non-null  object
 2   fecha_cierre    1383138 non-null  object
 3   año_cierre      1383138 non-null  int64 
 4   mes_cierre      1383138 non-null  object
 5   hora_cierre     1383138 non-null  object
 6   mes             1383138 non-null  int64 
dtypes: int64(2), object(5)
memory usage: 73.9+ MB


---

## *Notes*

### Creating data dictionary

#### From scratch

In [None]:
data_dict = {}
for col in df_c5.columns:
    data_dict[col] = {}
    data_dict[col]["relevant"] = True
    data_dict[col]["data_type"] = "-"

In [None]:
json_dump_dict(data_dict)

In [None]:
data_dict

---

---
---