# Read and clean a single file
--------------------
Nombre: John Luis Gonzalez Padilla

In [318]:
import os
import sys
import logging
import pandas as pd
import datetime
import time

from pandas_profiling import ProfileReport


project_dir = os.path.dirname(os.path.abspath('.')) # get the path of the project, if doesn't work use os.getcwd() instead and use rfind to find the project dir
sys.path.append(os.path.join(project_dir, 'src', 'data'))

from data_manipulator import get_input_data

bucket = 'espbigdata_jg'
directory = 'BigData'

## Read Metadata
-----
General info for each relevant column

In [319]:
file = 'gs://{}/{}/data/metadatos-llamadas-urg-y-emer.csv'.format(bucket, directory)
df_metadata = pd.read_csv(file, encoding='latin1', sep=';')
df_metadata

Unnamed: 0,NOMBRE,DESCRIPCION
0,FECHA_INCIDENTE,Es la fecha el cual se registra la llamada del...
1,FECHA_INICIO_DESPLAZAMIENTO_MOVIL,Es la fecha el cual se inicia el desplazamient...
2,CODIGO LOCALIDAD,Es el código de las 20 localidades de la ciuda...
3,LOCALIDAD,Es la localidad donde sucede el incidente.
4,EDAD,La edad del paciente.
5,UNIDAD,"La descripción de la edad si es en horas, días..."
6,GENERO,Es la distinción de genero del paciente
7,RED,Es la localización a nivel bogota de la red de...
8,TIPO_INCIDENTE,Es la descripción inicial que tipifica el cent...
9,PRIORIDAD,Es la tipificación según la prioridad del inci...


The final data must contains this and only this columns with that specific headers in order to standarize the data, this is a type of data dictionary but it also must include the data types (**schema**) of each field (**column**)

## Get raw data

In [320]:
raw_data = get_input_data(
    bucket = bucket,
    initial_directory= directory,
    filename = 'datos-abiertos-agosto-2019.csv'
)
print(raw_data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18141 entries, 0 to 18140
Data columns (total 12 columns):
 #   Column                             Non-Null Count  Dtype 
---  ------                             --------------  ----- 
 0   NUMERO_INCIDENTE                   18141 non-null  int64 
 1   FECHA_INICIO_DESPLAZAMIENTO-MOVIL  18141 non-null  object
 2   CODIGO DE LOCALIDAD                18141 non-null  int64 
 3   LOCALIDAD                          18141 non-null  object
 4   EDAD                               18141 non-null  object
 5   UNIDAD                             18141 non-null  object
 6   GENERO                             18141 non-null  object
 7   RED                                18141 non-null  object
 8   TIPO DE INCIDIDENT                 18141 non-null  object
 9   PRIORIDAD                          18141 non-null  object
 10  MES                                18141 non-null  object
 11  CLASIFICACION FINAL                18138 non-null  object
dtypes: i

In [321]:
#list_cols_to_drop =["Unnamed: {}".format(i) for i in range(10, 37)]
#raw_data = raw_data.drop(list_cols_to_drop, axis=1)
#raw_data.head()

raw_data = get_input_data(
    bucket = bucket,
    initial_directory= directory,
    processed = proc,
    filename = 'clean_llamadas_123_agosto_2019.csv'
)
print(raw_data.info())It seems that this file contains already the fields, but need to rename them

### Rename Columns

In [322]:
# Don't let white spaces between headers to avoid errors during the pipeline
# This is sometimes called a recipe for etl
raw_data.rename(
    columns = {
        'FECHA_INICIO_DESPLAZAMIENTO-MOVIL' : 'FECHA_INICIO_DESPLAZAMIENTO_MOVIL',
        'CODIGO DE LOCALIDAD'               : 'CODIGO_LOCALIDAD',
        'CLASIFICACION FINAL'               : 'CLASIFICACION_FINAL',
        'TIPO DE INCIDIDENT'               : 'TIPO_INCIDENTE'
    },
    inplace=True
)
raw_data.head()

Unnamed: 0,NUMERO_INCIDENTE,FECHA_INICIO_DESPLAZAMIENTO_MOVIL,CODIGO_LOCALIDAD,LOCALIDAD,EDAD,UNIDAD,GENERO,RED,TIPO_INCIDENTE,PRIORIDAD,MES,CLASIFICACION_FINAL
0,809224194,1/08/2019 0:28,1,Usaquen,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Inconsciente/Paro Cardiorrespiratorio,ALTA,AGOSTO,Cancelado
1,809224194,1/08/2019 0:28,1,Usaquen,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Inconsciente/Paro Cardiorrespiratorio,ALTA,AGOSTO,Cancelado
2,809240194,1/08/2019 0:15,11,Suba,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Accidente cerebro vascular,BAJA,AGOSTO,Cancelado
3,809240194,1/08/2019 0:15,11,Suba,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Accidente cerebro vascular,BAJA,AGOSTO,Cancelado
4,809240194,1/08/2019 0:15,11,Suba,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Accidente cerebro vascular,BAJA,AGOSTO,Cancelado


### Check values per field
--------
1. LOCALIDAD
2. GENERO

In [323]:
raw_data['LOCALIDAD'].value_counts(dropna=False)

Kennedy                2717
 Engativa              1805
 Suba                  1678
 Bosa                  1264
Ciudad Bolivar         1220
Puente Aranda           977
 San Cristobal          906
Usaquen                 894
 Rafael Uribe Uribe     892
Fontibon                878
Chapinero               707
Santa Fe                682
 Usme                   637
 Barrios Unidos         608
 Teusaquillo            599
Tunjuelito              595
Los Martires            593
 Antonio Nariño         369
 La Candelaria          119
 Sumapaz                  1
Name: LOCALIDAD, dtype: int64

It seems that in some fields exist a white space at the begining of the values, probably at the end too, lets clean them all

In [324]:
# Let's use the function strip(), this property works for string objects in python that removes whitespaces
raw_data['LOCALIDAD'].apply(
    lambda x: x.strip()        # here we use a lambda function, exclusively for python. Is a one-line function
).value_counts()

Kennedy               2717
Engativa              1805
Suba                  1678
Bosa                  1264
Ciudad Bolivar        1220
Puente Aranda          977
San Cristobal          906
Usaquen                894
Rafael Uribe Uribe     892
Fontibon               878
Chapinero              707
Santa Fe               682
Usme                   637
Barrios Unidos         608
Teusaquillo            599
Tunjuelito             595
Los Martires           593
Antonio Nariño         369
La Candelaria          119
Sumapaz                  1
Name: LOCALIDAD, dtype: int64

In [325]:
raw_data['LOCALIDAD'] = raw_data['LOCALIDAD'].apply(lambda x: x.strip()) # we assign the output of the function apply to the same column

In [326]:
raw_data.head()

Unnamed: 0,NUMERO_INCIDENTE,FECHA_INICIO_DESPLAZAMIENTO_MOVIL,CODIGO_LOCALIDAD,LOCALIDAD,EDAD,UNIDAD,GENERO,RED,TIPO_INCIDENTE,PRIORIDAD,MES,CLASIFICACION_FINAL
0,809224194,1/08/2019 0:28,1,Usaquen,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Inconsciente/Paro Cardiorrespiratorio,ALTA,AGOSTO,Cancelado
1,809224194,1/08/2019 0:28,1,Usaquen,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Inconsciente/Paro Cardiorrespiratorio,ALTA,AGOSTO,Cancelado
2,809240194,1/08/2019 0:15,11,Suba,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Accidente cerebro vascular,BAJA,AGOSTO,Cancelado
3,809240194,1/08/2019 0:15,11,Suba,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Accidente cerebro vascular,BAJA,AGOSTO,Cancelado
4,809240194,1/08/2019 0:15,11,Suba,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Accidente cerebro vascular,BAJA,AGOSTO,Cancelado


In [327]:
col = 'GENERO'
#raw_data[col] = raw_data[col].apply(lambda x: x.strip())
#raw_data[col].value_counts(dropna=False)   # here we could apply the same technique as before to avoid errors
raw_data[col].fillna('SIN_DATO').value_counts()

SIN_DATO     8617
MASCULINO    5143
FEMENINO     4381
Name: GENERO, dtype: int64

In [328]:
col = 'TIPO_INCIDENTE'
raw_data[col] = raw_data[col].apply(lambda x: x.strip())
raw_data[col].value_counts(dropna=False)
raw_data[col].fillna('SIN_DATO').value_counts()

Accidente de tránsito con heridos/Muertos    6827
Inconsciente/Paro Cardiorrespiratorio        1875
Dificultad Respiratoria                      1504
Enfermo                                      1233
Convulsiones                                 1135
Heridos                                       847
Lesiones personales                           718
Trastorno mental                              670
Dolor torácico                                628
Intento de suicidio                           555
Síntomas gastrointestinales                   418
Accidente cerebro vascular                    401
Patología Gineco - obstétrica                 353
Caída                                         295
Intoxicaciones                                181
Ideas de suicidio                             102
SIN_DATO                                       58
Incendio estructural                           51
Muerte Natural                                 35
Violencia Sexual                               33


In [329]:
col = 'LOCALIDAD'
raw_data[col] = raw_data[col].apply(lambda x: x.strip())
raw_data[col].value_counts(dropna=False)   # here we could apply the same technique as before to avoid errors
raw_data[col].fillna('SIN_DATO').value_counts()

Kennedy               2717
Engativa              1805
Suba                  1678
Bosa                  1264
Ciudad Bolivar        1220
Puente Aranda          977
San Cristobal          906
Usaquen                894
Rafael Uribe Uribe     892
Fontibon               878
Chapinero              707
Santa Fe               682
Usme                   637
Barrios Unidos         608
Teusaquillo            599
Tunjuelito             595
Los Martires           593
Antonio Nariño         369
La Candelaria          119
Sumapaz                  1
Name: LOCALIDAD, dtype: int64

In [330]:
col = 'RED'
raw_data[col] = raw_data[col].apply(lambda x: x.strip())
raw_data[col].value_counts(dropna=False)   # here we could apply the same technique as before to avoid errors
raw_data[col].fillna('SIN_DATO').value_counts()

Norte      7925
Sur        6507
Privada    3709
Name: RED, dtype: int64

In [331]:
col = 'PRIORIDAD'
raw_data[col] = raw_data[col].apply(lambda x: x.strip())
raw_data[col].value_counts(dropna=False)   # here we could apply the same technique as before to avoid errors
raw_data[col].fillna('SIN_DATO').value_counts()

ALTA        15314
MEDIA        2539
BAJA          246
SIN_DATO       42
Name: PRIORIDAD, dtype: int64

In [332]:
col = 'NUMERO_INCIDENTE'
raw_data[col].fillna('SIN_DATO').value_counts()

490880196    20
890637194    18
347522196    16
333930196    12
522326196    12
             ..
933610194     1
933616194     1
933621194     1
933624194     1
894020194     1
Name: NUMERO_INCIDENTE, Length: 14746, dtype: int64

In [335]:
col = 'FECHA_INICIO_DESPLAZAMIENTO_MOVIL'
raw_data[col].fillna('SIN_DATO').value_counts()

8/08/2019 14:00     19
27/08/2019 17:07    13
13/08/2019 6:52     12
12/08/2019 22:38     9
7/08/2019 19:13      8
                    ..
12/08/2019 20:34     1
12/08/2019 20:47     1
12/08/2019 20:35     1
12/08/2019 21:28     1
8/08/2019 19:29      1
Name: FECHA_INICIO_DESPLAZAMIENTO_MOVIL, Length: 13752, dtype: int64

In [336]:
#col = 'FECHA_DESPACHO_518'
#raw_data[col].fillna('SIN_DATO').value_counts()

In [338]:
#col = 'FECHA_DESPACHO_518'
#raw_data[col] = pd.to_datetime(raw_data[col])
#raw_data

In [339]:
col = 'CODIGO_LOCALIDAD'
raw_data[col].fillna('SIN_DATO').value_counts()

8     2717
10    1805
11    1678
7     1264
19    1220
16     977
4      906
1      894
18     892
9      878
2      707
3      682
5      637
12     608
13     599
6      595
14     593
15     369
17     119
20       1
Name: CODIGO_LOCALIDAD, dtype: int64

In [340]:
col = 'EDAD'
raw_data[col].fillna('SIN_DATO').value_counts()

SIN_DATO    8637
22           323
23           280
25           272
24           271
            ... 
99            19
6             18
4             17
97            15
98            12
Name: EDAD, Length: 100, dtype: int64

In [341]:
col = 'PRIORIDAD'
raw_data[col].fillna('SIN_DATO').value_counts()

ALTA        15314
MEDIA        2539
BAJA          246
SIN_DATO       42
Name: PRIORIDAD, dtype: int64

In [342]:
col = 'RED'
raw_data[col].fillna('SIN_DATO').value_counts()

Norte      7925
Sur        6507
Privada    3709
Name: RED, dtype: int64

In [343]:
col = 'FECHA_INICIO_DESPLAZAMIENTO_MOVIL'
raw_data[col] = pd.to_datetime(raw_data[col])
raw_data

Unnamed: 0,NUMERO_INCIDENTE,FECHA_INICIO_DESPLAZAMIENTO_MOVIL,CODIGO_LOCALIDAD,LOCALIDAD,EDAD,UNIDAD,GENERO,RED,TIPO_INCIDENTE,PRIORIDAD,MES,CLASIFICACION_FINAL
0,809224194,2019-01-08 00:28:00,1,Usaquen,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Inconsciente/Paro Cardiorrespiratorio,ALTA,AGOSTO,Cancelado
1,809224194,2019-01-08 00:28:00,1,Usaquen,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Inconsciente/Paro Cardiorrespiratorio,ALTA,AGOSTO,Cancelado
2,809240194,2019-01-08 00:15:00,11,Suba,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Accidente cerebro vascular,BAJA,AGOSTO,Cancelado
3,809240194,2019-01-08 00:15:00,11,Suba,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Accidente cerebro vascular,BAJA,AGOSTO,Cancelado
4,809240194,2019-01-08 00:15:00,11,Suba,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Accidente cerebro vascular,BAJA,AGOSTO,Cancelado
...,...,...,...,...,...,...,...,...,...,...,...,...
18136,892657194,2019-08-08 17:26:00,7,Bosa,30,Años,MASCULINO,Privada,Accidente de tránsito con heridos/Muertos,ALTA,AGOSTO,Traslado
18137,893082194,2019-08-08 18:18:00,16,Puente Aranda,17,Años,MASCULINO,Privada,Heridos,MEDIA,AGOSTO,Traslado
18138,893602194,2019-08-08 19:29:00,10,Engativa,SIN_DATO,SIN_DATO,SIN_DATO,Privada,Accidente de tránsito con heridos/Muertos,ALTA,AGOSTO,Cancelado
18139,893721194,2019-08-08 19:19:00,10,Engativa,73,Años,MASCULINO,Privada,Accidente de tránsito con heridos/Muertos,ALTA,AGOSTO,Traslado


Here this columns contains a null value, aka NaN (this is numeric value that is Null), lets replace them first
* NaN --> SIN_DATO

In [344]:
raw_data[col].fillna('SIN_DATO').value_counts()

2019-08-08 14:00:00    19
2019-08-27 17:07:00    13
2019-08-13 06:52:00    12
2019-12-08 22:38:00     9
2019-07-08 19:13:00     8
                       ..
2019-12-08 20:34:00     1
2019-12-08 20:47:00     1
2019-12-08 20:35:00     1
2019-12-08 21:28:00     1
2019-08-08 19:29:00     1
Name: FECHA_INICIO_DESPLAZAMIENTO_MOVIL, Length: 13752, dtype: int64

In [345]:
col = 'CLASIFICACION_FINAL'
raw_data[col].fillna('SIN_DATO', inplace=True)
raw_data[col] = raw_data[col].apply(lambda x: x.strip())
raw_data.head()

Unnamed: 0,NUMERO_INCIDENTE,FECHA_INICIO_DESPLAZAMIENTO_MOVIL,CODIGO_LOCALIDAD,LOCALIDAD,EDAD,UNIDAD,GENERO,RED,TIPO_INCIDENTE,PRIORIDAD,MES,CLASIFICACION_FINAL
0,809224194,2019-01-08 00:28:00,1,Usaquen,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Inconsciente/Paro Cardiorrespiratorio,ALTA,AGOSTO,Cancelado
1,809224194,2019-01-08 00:28:00,1,Usaquen,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Inconsciente/Paro Cardiorrespiratorio,ALTA,AGOSTO,Cancelado
2,809240194,2019-01-08 00:15:00,11,Suba,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Accidente cerebro vascular,BAJA,AGOSTO,Cancelado
3,809240194,2019-01-08 00:15:00,11,Suba,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Accidente cerebro vascular,BAJA,AGOSTO,Cancelado
4,809240194,2019-01-08 00:15:00,11,Suba,SIN_DATO,SIN_DATO,SIN_DATO,Norte,Accidente cerebro vascular,BAJA,AGOSTO,Cancelado


In [346]:
col = 'CLASIFICACION_FINAL'
raw_data[col].fillna('SIN_DATO').value_counts()

Traslado                       7311
Cancelado                      4935
Trasladado por Otro Recurso    1813
Falsa Alarma                   1738
Desistimiento                  1449
No Amerita Traslado             452
No Ubica                        235
Fallecido                       205
SIN_DATO                          3
Name: CLASIFICACION_FINAL, dtype: int64

# Profile of the Data
------
first install pandas profiling, from a terminal

````
pip install pandas-profiling
````

In [347]:
profile = ProfileReport(df=raw_data)
profile.to_file(output_file=project_dir + '/reports/'+'profile_raw_data_agosto_2019.html')

Summarize dataset:   0%|          | 0/25 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Form the initial report of the file we see that are duplicates rows in the table, we need to subtract them

### Remove duplicates

In [348]:
print('Number of rows before cleaning:', raw_data.shape[0] )
raw_data.drop_duplicates(inplace=True)
print('Number of rows after cleaning:', raw_data.shape[0] )

Number of rows before cleaning: 18141
Number of rows after cleaning: 16807


### Save the final table
use to_csv to save the table]

In [349]:
#saving in a local directory
raw_data.to_csv(project_dir + '/data/processed/' +'clean_llamadas_123_agosto_2019.csv', encoding='latin1', sep=';', index=False)