# Data Profiling

---

## Imports

#### Python libraries

In [2]:
import pandas as pd

import sys

#### Asistin configuration

In [3]:
sys.path.append("..")

#### Ancillary modules

In [9]:
## Reload modules
%load_ext autoreload
%autoreload 2

from src.utils.utils import (
    json_dump_dict,
    count_vars,
    count_obs,
    count_unique_obs,
    vars_classif_by_type,
    data_profiling_numeric,
    data_profiling_categ,
    data_profiling_date
)

from src.utils.data_dict import (
    data_dict
)

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


---

## Reading data

In [5]:
df_c5 = pd.read_csv("../incidentes-viales-c5.csv")

In [6]:
df_c5

Unnamed: 0,folio,fecha_creacion,hora_creacion,dia_semana,codigo_cierre,fecha_cierre,año_cierre,mes_cierre,hora_cierre,delegacion_inicio,incidente_c4,latitud,longitud,clas_con_f_alarma,tipo_entrada,delegacion_cierre,geopoint,mes
0,GA/160123/05714,23/01/2016,22:35:04,Sábado,(A) La unidad de atención a emergencias fue de...,24/01/2016,2016,Enero,00:21:08,VENUSTIANO CARRANZA,accidente-choque sin lesionados,19.422113,-99.084643,EMERGENCIA,BOTÓN DE AUXILIO,VENUSTIANO CARRANZA,"19.422113,-99.084643",1
1,AO/160123/05826,23/01/2016,22:50:49,Sábado,(A) La unidad de atención a emergencias fue de...,24/01/2016,2016,Enero,04:40:37,CUAJIMALPA,accidente-choque con lesionados,19.358320,-99.297641,URGENCIAS MEDICAS,BOTÓN DE AUXILIO,CUAJIMALPA,"19.35832,-99.297641",1
2,C4/160124/02187,24/01/2016,09:40:11,Domingo,(N) La unidad de atención a emergencias fue de...,24/01/2016,2016,Enero,11:13:03,TLALPAN,accidente-choque sin lesionados,19.217070,-99.219070,EMERGENCIA,LLAMADA DEL 066,TLALPAN,"19.21707,-99.21907008",1
3,C4/160124/05723,24/01/2016,22:40:57,Domingo,(N) La unidad de atención a emergencias fue de...,24/01/2016,2016,Enero,22:55:51,MAGDALENA CONTRERAS,accidente-choque sin lesionados,19.320580,-99.241010,EMERGENCIA,LLAMADA DEL 066,MAGDALENA CONTRERAS,"19.32057999,-99.24100992",1
4,C4/160124/01334,24/01/2016,04:25:15,Domingo,(A) La unidad de atención a emergencias fue de...,24/01/2016,2016,Enero,05:03:59,MIGUEL HIDALGO,accidente-choque sin lesionados,19.452900,-99.215870,EMERGENCIA,LLAMADA DEL 066,MIGUEL HIDALGO,"19.45289997,-99.21587004",1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1383133,GA/201022/03443,22/10/2020,16:17:05,Jueves,(A) La unidad de atención a emergencias fue de...,22/10/2020,2020,Octubre,16:58:49,GUSTAVO A. MADERO,lesionado-atropellado,19.486310,-99.118120,URGENCIAS MEDICAS,BOTÓN DE AUXILIO,GUSTAVO A. MADERO,"19.48631004,-99.11811996",10
1383134,GA/201022/03492,22/10/2020,16:29:13,Jueves,(A) La unidad de atención a emergencias fue de...,22/10/2020,2020,Octubre,18:54:22,VENUSTIANO CARRANZA,accidente-choque con lesionados,19.427274,-99.115814,URGENCIAS MEDICAS,BOTÓN DE AUXILIO,VENUSTIANO CARRANZA,"19.427274,-99.115814",10
1383135,C5/201022/02030,22/10/2020,12:00:26,Jueves,(D) El incidente reportado se registró en dos ...,22/10/2020,2020,Octubre,12:02:30,AZCAPOTZALCO,accidente-choque sin lesionados,19.467180,-99.175250,EMERGENCIA,LLAMADA DEL 911,AZCAPOTZALCO,"19.46718,-99.17525016",10
1383136,C5/201022/02039,22/10/2020,12:01:25,Jueves,(D) El incidente reportado se registró en dos ...,22/10/2020,2020,Octubre,12:05:59,VENUSTIANO CARRANZA,accidente-choque con lesionados,19.427280,-99.096860,URGENCIAS MEDICAS,LLAMADA DEL 911,VENUSTIANO CARRANZA,"19.42728003,-99.09686016",10


---

## Data profiling

### Generic exploration

#### Number of variables in data

In [None]:
count_vars(df_c5)

#### Number of observations in data

In [None]:
count_obs(df_c5)

#### Number of unique observations in data per column

In [None]:
count_unique_obs(df_c5)

#### Classifying variables according to data type

In [None]:
vars_classif_by_type()

### Data profilling - numeric variables

El dataset analizado no contiene variables numéricas.

### Data profilling - categoric variables

In [None]:
cat_vars = [var for var in data_dict if data_dict[var]["data_type"] == "categoric"]

data_profiling_categ(df_c5, cat_vars)

**Con base en el profiling realizado, nos damos cuenta de los siguientes aspectos importantes acerca de los datos:**
- Observaciones principales
    1. Sí tenemos un folio único para cada una de las observaciones.
    2. El 20% de los envíos de asistencia registrados en la base (271,677) son inútiles debido a que la ambulancia llega al lugar pero no hay emergencia que atender.
    3. El 55% de los accidentes no requieren que se envíe una ambulancia de asistencia.
- Observaciones secundarias
    1. Solamente el 0.8% de las llamadas son identificadas como "Falsas" antes de enviar asistencia (información útil para definir *baseline*)

### Data profilling - date variables

Current processing assumptions:
1. All time entries which 3rd character is not ":" will be ignored. The first two characters of the rest will be taken as the correct hour.

In [10]:
dat_vars = [var for var in data_dict if 
            (data_dict[var]["data_type"] == "date_and_time")
            & ("_cierre" not in var)
           ]

df_dat = data_profiling_date(df_c5, dat_vars)
df_dat

Unnamed: 0,fecha_creacion,hora_creacion,dia_semana,mes,dia_creacion,mes_creacion,año_creacion
0,23/01/2016,22,Sábado,1,23,01,2016
1,23/01/2016,22,Sábado,1,23,01,2016
2,24/01/2016,09,Domingo,1,24,01,2016
3,24/01/2016,22,Domingo,1,24,01,2016
4,24/01/2016,04,Domingo,1,24,01,2016
...,...,...,...,...,...,...,...
1383133,22/10/2020,16,Jueves,10,22,10,2020
1383134,22/10/2020,16,Jueves,10,22,10,2020
1383135,22/10/2020,12,Jueves,10,22,10,2020
1383136,22/10/2020,12,Jueves,10,22,10,2020


---

## *Notes*

### Creating data dictionary

#### From scratch

In [None]:
data_dict = {}
for col in df_c5.columns:
    data_dict[col] = {}
    data_dict[col]["relevant"] = True
    data_dict[col]["data_type"] = "-"

In [None]:
json_dump_dict(data_dict)

In [None]:
data_dict

---

---
---