# Data Quality Tutorial

Dataset: Homicidos, Colombia

In [2]:
# Importing required libraries
import re
from random import randint
from datetime import datetime

import numpy as np
import pandas as pd

import pylev

In [3]:
# Parameter for showing all columns when printing a dataframe
pd.set_option('display.max_columns', None)

In [4]:
# Loading data
homicides_df = pd.read_csv("./data/homicides.csv")

In [5]:
# Printing the dataset dimensions
homicides_df.shape

(12400, 23)

In [6]:
# Printing column data types
homicides_df.dtypes

FECHA                 object
DEPARTAMENTO          object
MUNICIPIO             object
DIA                   object
HORA                  object
BARRIO                object
ZONA                  object
CLASE DE SITIO        object
ARMA O MEDIO          object
MOVIL VICTIMA         object
MOVIL AGRESOR         object
EDAD                 float64
GENERO                object
ESTADO CIVIL          object
CLASE EMPLEADO        object
PROFESION             object
ESCOLARIDAD           object
PAIS NACE             object
CODIGO DANE          float64
2015                   int64
AÑO DE NACIMIENTO    float64
CÉDULA                object
CORREO                object
dtype: object

In [7]:
homicides_df.head(20)

Unnamed: 0,FECHA,DEPARTAMENTO,MUNICIPIO,DIA,HORA,BARRIO,ZONA,CLASE DE SITIO,ARMA O MEDIO,MOVIL VICTIMA,MOVIL AGRESOR,EDAD,GENERO,ESTADO CIVIL,CLASE EMPLEADO,PROFESION,ESCOLARIDAD,PAIS NACE,CODIGO DANE,2015,AÑO DE NACIMIENTO,CÉDULA,CORREO
0,01/01/2015 12:00:00 AM,ANTIOQUIA,AMAGÁ,Jueves,6:00,EL VOLCAN,RURAL,TIENDA,ARMA BLANCA,A PIE,A PIE,44.0,MASCULINO,CASADO,INDEPENDIENTE,NO REPORTADO,PRIMARIA,COLOMBIA,5030000.0,1,1971.0,42-908,agbnqg2122@unidatos.edu.co
1,01/01/2015 12:00:00 AM,ANTIOQUIA,BARBOSA,Jueves,9:00,VDA. MATASANOS,RURAL,VIAS PUBLICAS,ARMA BLANCA,A PIE,A PIE,30.0,MASCULINO,SOLTERO,DESEMPLEADO,NO REPORTADO,SECUNDARIA,NO REPORTADO,5079000.0,1,1985.0,15-183,rbkeui3584@gmail.com
2,01/01/2015 12:00:00 AM,ANTIOQUIA,EL BAGRE,Jueves,19:00,PUERTO CLAVER,RURAL,FINCAS Y SIMILARES,ARMA BLANCA,A PIE,A PIE,33.0,MASCULINO,UNION LIBRE,AGRICULTOR,NO REPORTADO,PRIMARIA,COLOMBIA,5250000.0,1,1982.0,84-786,aorkhf9155@unidatos.edu.co
3,01/01/2015 12:00:00 AM,ANTIOQUIA,JARDÍN,Jueves,11:20,CRISTIANIA,RURAL,FINCAS Y SIMILARES,ARMA BLANCA,A PIE,A PIE,40.0,MASCULINO,CASADO,AGRICULTOR,NO REPORTADO,PRIMARIA,COLOMBIA,5364000.0,1,1975.0,31-289,dhtemr6623@unidatos.edu.co
4,01/01/2015 12:00:00 AM,ANTIOQUIA,MEDELLÍN (CT),Juees,15:00,PICACHITO CNO REPORTADO6,URBANA,FRENTE A RESIDENCIAS - VIA PUBLICA,CONTUNDENTES,A PIE,A PIE,66.0,MASCULINO,UNION LIBRE,DESEMPLEADO,NO REPORTADO,PRIMARIA,COLOMBIA,5001000.0,1,1949.0,66-363,artatj9268@unidatos.edu.co
5,01/01/2015 12:00:00 AM,ANTIOQUIA,MEDELLÍN (CT),Juees,0:47,CORDOBA CNO REPORTADO7,URBANA,VIAS PUBLICAS,ARMA DE FUEGO,A PIE,A PIE,42.0,MASCULINO,SOLTERO,INDEPENDIENTE,NO REPORTADO,SECUNDARIA,COLOMBIA,5001000.0,1,1973.0,54-450,grlcsj8696@unidatos.edu.co
6,01/01/2015 12:00:00 AM,ANTIOQUIA,MEDELLÍN (CT),Jueves,11:00,CRISTO REY CNO REPORTADO15,URBANA,VIAS PUBLICAS,ARMA BLANCA,A PIE,A PIE,25.0,MASCULINO,SOLTERO,DESEMPLEADO,NO REPORTADO,SECUNDARIA,COLOMBIA,5001000.0,1,1990.0,45-052,pkdakc6682@gmail.com
7,01/01/2015 12:00:00 AM,ANTIOQUIA,MEDELLÍN (CT),Jueves,19:35,LA SALLE CNO REPORTADO3,URBANA,VIAS PUBLICAS,ARMA BLANCA,A PIE,A PIE,37.0,MASCULINO,CASADO,INDEPENDIENTE,NO REPORTADO,SECUNDARIA,COLOMBIA,5001000.0,1,1978.0,45-298,qledtq1884@gmail.com
8,01/01/2015 12:00:00 AM,ANTIOQUIA,MEDELLÍN (CT),Jueves,20:35,KENNEDY CNO REPORTADO6,URBANA,VIAS PUBLICAS,ARMA DE FUEGO,A PIE,PASAJERO MOTOCICLETA,25.0,MASCULINO,SOLTERO,INDEPENDIENTE,NO REPORTADO,SECUNDARIA,COLOMBIA,5001000.0,1,1990.0,37-281,mipgfg2758@unidatos.edu.co
9,01/01/2015 12:00:00 AM,ANTIOQUIA,MUTATÁ,Jueves,14:00,VDA CASA ROJA,RURAL,FINCAS Y SIMILARES,ARMA BLANCA,A PIE,A PIE,30.0,MASCULINO,SOLTERO,ETNIA INDIGENA,NO REPORTADO,SECUNDARIA,NO REPORTADO,5480000.0,1,1985.0,78-013,dgepmg5536@unidatos.edu.co


In [8]:
# Deleting constant column

del homicides_df["2015"]

In [9]:
homicides_df.head()

Unnamed: 0,FECHA,DEPARTAMENTO,MUNICIPIO,DIA,HORA,BARRIO,ZONA,CLASE DE SITIO,ARMA O MEDIO,MOVIL VICTIMA,MOVIL AGRESOR,EDAD,GENERO,ESTADO CIVIL,CLASE EMPLEADO,PROFESION,ESCOLARIDAD,PAIS NACE,CODIGO DANE,AÑO DE NACIMIENTO,CÉDULA,CORREO
0,01/01/2015 12:00:00 AM,ANTIOQUIA,AMAGÁ,Jueves,6:00,EL VOLCAN,RURAL,TIENDA,ARMA BLANCA,A PIE,A PIE,44.0,MASCULINO,CASADO,INDEPENDIENTE,NO REPORTADO,PRIMARIA,COLOMBIA,5030000.0,1971.0,42-908,agbnqg2122@unidatos.edu.co
1,01/01/2015 12:00:00 AM,ANTIOQUIA,BARBOSA,Jueves,9:00,VDA. MATASANOS,RURAL,VIAS PUBLICAS,ARMA BLANCA,A PIE,A PIE,30.0,MASCULINO,SOLTERO,DESEMPLEADO,NO REPORTADO,SECUNDARIA,NO REPORTADO,5079000.0,1985.0,15-183,rbkeui3584@gmail.com
2,01/01/2015 12:00:00 AM,ANTIOQUIA,EL BAGRE,Jueves,19:00,PUERTO CLAVER,RURAL,FINCAS Y SIMILARES,ARMA BLANCA,A PIE,A PIE,33.0,MASCULINO,UNION LIBRE,AGRICULTOR,NO REPORTADO,PRIMARIA,COLOMBIA,5250000.0,1982.0,84-786,aorkhf9155@unidatos.edu.co
3,01/01/2015 12:00:00 AM,ANTIOQUIA,JARDÍN,Jueves,11:20,CRISTIANIA,RURAL,FINCAS Y SIMILARES,ARMA BLANCA,A PIE,A PIE,40.0,MASCULINO,CASADO,AGRICULTOR,NO REPORTADO,PRIMARIA,COLOMBIA,5364000.0,1975.0,31-289,dhtemr6623@unidatos.edu.co
4,01/01/2015 12:00:00 AM,ANTIOQUIA,MEDELLÍN (CT),Juees,15:00,PICACHITO CNO REPORTADO6,URBANA,FRENTE A RESIDENCIAS - VIA PUBLICA,CONTUNDENTES,A PIE,A PIE,66.0,MASCULINO,UNION LIBRE,DESEMPLEADO,NO REPORTADO,PRIMARIA,COLOMBIA,5001000.0,1949.0,66-363,artatj9268@unidatos.edu.co


In [10]:
# Creating a lambda expression for datetime parsing
dateparse = lambda x: datetime.strptime(x, "%m/%d/%Y %H:%M:%S %p")

In [11]:
# Applying the validation to all values in column
#homicides_df["FECHA"].apply(dateparse)
# IT IS EXPECTED TO HAVE AN ERROR INTENTIONALLY

In [12]:
# Creating a function for validating which value is causing the previous error
def error_in_format(x):
    try:
        datetime.strptime(x, "%m/%d/%Y %H:%M:%S %p")
        return False
    except:
        return True

In [13]:
# Using the function for validation
homicides_df.loc[homicides_df["FECHA"].apply(error_in_format)]

# THE LAST ERROR IS CAUSING THE ERROR

Unnamed: 0,FECHA,DEPARTAMENTO,MUNICIPIO,DIA,HORA,BARRIO,ZONA,CLASE DE SITIO,ARMA O MEDIO,MOVIL VICTIMA,MOVIL AGRESOR,EDAD,GENERO,ESTADO CIVIL,CLASE EMPLEADO,PROFESION,ESCOLARIDAD,PAIS NACE,CODIGO DANE,AÑO DE NACIMIENTO,CÉDULA,CORREO
12399,TOTAL,,,,,,,,,,,,,,,,,,,,,


In [14]:
# Deleting an error by its index
homicides_df = homicides_df.drop([12399])

In [15]:
# Trying to parse the datetime string again
homicides_df["FECHA"] = homicides_df["FECHA"].apply(dateparse)

In [16]:
# Counting homicides hour
homicides_df["FECHA"].dt.hour.value_counts()

# All datetime hour parts are the same

12    12399
Name: FECHA, dtype: int64

In [17]:
# The homicide hour is available in a different column!!!
# Merging both columns
homicides_df["FECHA"] = homicides_df["FECHA"].astype(str).apply(lambda x: x[:11]) + homicides_df["HORA"]

In [18]:
del homicides_df["HORA"]

In [19]:
homicides_df["FECHA"].head()

0     2015-01-01 6:00
1     2015-01-01 9:00
2    2015-01-01 19:00
3    2015-01-01 11:20
4    2015-01-01 15:00
Name: FECHA, dtype: object

In [20]:
# Making a new expression for datetime parsing
dateparse = lambda x: datetime.strptime(x, "%Y-%m-%d %H:%M")

In [21]:
# Applying the expression
homicides_df["FECHA"] = homicides_df["FECHA"].apply(dateparse)

In [22]:
homicides_df.dtypes

FECHA                datetime64[ns]
DEPARTAMENTO                 object
MUNICIPIO                    object
DIA                          object
BARRIO                       object
ZONA                         object
CLASE DE SITIO               object
ARMA O MEDIO                 object
MOVIL VICTIMA                object
MOVIL AGRESOR                object
EDAD                        float64
GENERO                       object
ESTADO CIVIL                 object
CLASE EMPLEADO               object
PROFESION                    object
ESCOLARIDAD                  object
PAIS NACE                    object
CODIGO DANE                 float64
AÑO DE NACIMIENTO           float64
CÉDULA                       object
CORREO                       object
dtype: object

In [23]:
homicides_df.head()

Unnamed: 0,FECHA,DEPARTAMENTO,MUNICIPIO,DIA,BARRIO,ZONA,CLASE DE SITIO,ARMA O MEDIO,MOVIL VICTIMA,MOVIL AGRESOR,EDAD,GENERO,ESTADO CIVIL,CLASE EMPLEADO,PROFESION,ESCOLARIDAD,PAIS NACE,CODIGO DANE,AÑO DE NACIMIENTO,CÉDULA,CORREO
0,2015-01-01 06:00:00,ANTIOQUIA,AMAGÁ,Jueves,EL VOLCAN,RURAL,TIENDA,ARMA BLANCA,A PIE,A PIE,44.0,MASCULINO,CASADO,INDEPENDIENTE,NO REPORTADO,PRIMARIA,COLOMBIA,5030000.0,1971.0,42-908,agbnqg2122@unidatos.edu.co
1,2015-01-01 09:00:00,ANTIOQUIA,BARBOSA,Jueves,VDA. MATASANOS,RURAL,VIAS PUBLICAS,ARMA BLANCA,A PIE,A PIE,30.0,MASCULINO,SOLTERO,DESEMPLEADO,NO REPORTADO,SECUNDARIA,NO REPORTADO,5079000.0,1985.0,15-183,rbkeui3584@gmail.com
2,2015-01-01 19:00:00,ANTIOQUIA,EL BAGRE,Jueves,PUERTO CLAVER,RURAL,FINCAS Y SIMILARES,ARMA BLANCA,A PIE,A PIE,33.0,MASCULINO,UNION LIBRE,AGRICULTOR,NO REPORTADO,PRIMARIA,COLOMBIA,5250000.0,1982.0,84-786,aorkhf9155@unidatos.edu.co
3,2015-01-01 11:20:00,ANTIOQUIA,JARDÍN,Jueves,CRISTIANIA,RURAL,FINCAS Y SIMILARES,ARMA BLANCA,A PIE,A PIE,40.0,MASCULINO,CASADO,AGRICULTOR,NO REPORTADO,PRIMARIA,COLOMBIA,5364000.0,1975.0,31-289,dhtemr6623@unidatos.edu.co
4,2015-01-01 15:00:00,ANTIOQUIA,MEDELLÍN (CT),Juees,PICACHITO CNO REPORTADO6,URBANA,FRENTE A RESIDENCIAS - VIA PUBLICA,CONTUNDENTES,A PIE,A PIE,66.0,MASCULINO,UNION LIBRE,DESEMPLEADO,NO REPORTADO,PRIMARIA,COLOMBIA,5001000.0,1949.0,66-363,artatj9268@unidatos.edu.co


In [24]:
# Creating a dictionary representing the valid departments for Colombia
departments_list = ['ANTIOQUIA', 'ATLÁNTICO', 'BOLÍVAR', 'BOYACÁ', 'CALDAS', 'CAQUETÁ',
       'CASANARE', 'CAUCA', 'CESAR', 'CHOCÓ', 'CÓRDOBA', 'META',
       'CUNDINAMARCA', 'HUILA', 'MAGDALENA', 'NARIÑO', 'PUTUMAYO',
       'RISARALDA', 'SANTANDER', 'SUCRE', 'TOLIMA', 'VALLE',
       'NORTE DE SANTANDER', 'GUAJIRA', 'QUINDÍO', 'SAN ANDRÉS Y PROVIDENCIA', 'ARAUCA',
       'GUAINÍA', 'VICHADA', 'VAUPÉS', 'GUAVIARE', 'AMAZONAS']

In [25]:
# Finding values not matching with the dictionary
homicides_df.loc[~homicides_df["DEPARTAMENTO"].isin(departments_list), "DEPARTAMENTO"].unique()


array(['SAN ANDRÉS', 'N. DE SANTANDER'], dtype=object)

<span style="color:red">TODO: Check and replace, if apply, the values identified as error because do not match with the dictionary</span>

In [26]:
homicides_df["DEPARTAMENTO"].value_counts()

VALLE                       2596
ANTIOQUIA                   1895
CUNDINAMARCA                1799
CAUCA                        591
ATLÁNTICO                    568
NARIÑO                       439
BOLÍVAR                      403
TOLIMA                       328
RISARALDA                    313
META                         306
NORTE DE SANTANDER           279
SANTANDER                    277
QUINDÍO                      271
CÓRDOBA                      266
CALDAS                       219
CESAR                        218
HUILA                        204
MAGDALENA                    192
GUAJIRA                      183
CAQUETÁ                      178
CHOCÓ                        158
PUTUMAYO                     145
SUCRE                        131
BOYACÁ                       112
N. DE SANTANDER               87
ARAUCA                        79
CASANARE                      77
GUAVIARE                      34
VICHADA                       17
SAN ANDRÉS                    14
AMAZONAS  

In [27]:
homicides_df.loc[homicides_df["DEPARTAMENTO"] == "SAN ANDRÉS", "DEPARTAMENTO"] = "SAN ANDRÉS Y PROVIDENCIA"

In [28]:
homicides_df.loc[homicides_df["DEPARTAMENTO"] == "N. DE SANTANDER", "DEPARTAMENTO"] = "NORTE DE SANTANDER"

In [29]:
homicides_df["DEPARTAMENTO"].value_counts()

VALLE                       2596
ANTIOQUIA                   1895
CUNDINAMARCA                1799
CAUCA                        591
ATLÁNTICO                    568
NARIÑO                       439
BOLÍVAR                      403
NORTE DE SANTANDER           366
TOLIMA                       328
RISARALDA                    313
META                         306
SANTANDER                    277
QUINDÍO                      271
CÓRDOBA                      266
CALDAS                       219
CESAR                        218
HUILA                        204
MAGDALENA                    192
GUAJIRA                      183
CAQUETÁ                      178
CHOCÓ                        158
PUTUMAYO                     145
SUCRE                        131
BOYACÁ                       112
ARAUCA                        79
CASANARE                      77
GUAVIARE                      34
SAN ANDRÉS Y PROVIDENCIA      18
VICHADA                       17
AMAZONAS                       9
VAUPÉS    

In [30]:
# Detecting duplicates by "CÉDULA" column
duplicates_by_cedula = homicides_df.loc[homicides_df["CÉDULA"].duplicated(keep = False)]

In [31]:
duplicates_by_cedula.shape

(1627, 21)

In [32]:
# Showing some examples
duplicates_by_cedula.sort_values("CÉDULA", ascending = True).head(6)

Unnamed: 0,FECHA,DEPARTAMENTO,MUNICIPIO,DIA,BARRIO,ZONA,CLASE DE SITIO,ARMA O MEDIO,MOVIL VICTIMA,MOVIL AGRESOR,EDAD,GENERO,ESTADO CIVIL,CLASE EMPLEADO,PROFESION,ESCOLARIDAD,PAIS NACE,CODIGO DANE,AÑO DE NACIMIENTO,CÉDULA,CORREO
4041,2015-05-03 23:30:00,CAUCA,EL TAMBO,Domingo,LA VICTORIA,RURAL,"BARES, CANTINAS Y SIMILARES",ARMA DE FUEGO,A PIE,A PIE,45.0,MASCULINO,UNION LIBRE,AGRICULTOR,NO REPORTADO,PRIMARIA,COLOMBIA,19256000.0,1970.0,10-048,aitufn1227@gmail.com
3810,2015-04-26 03:00:00,ANTIOQUIA,SAN JERÓNIMO,Domingo,LA PLAYA,URBANA,"HOTELES, RESIDENCIAS, Y SIMILARES.",CUERDA/SOGA/CADENA,A PIE,A PIE,25.0,MASCULINO,SOLTERO,INDEPENDIENTE,NO REPORTADO,SECUNDARIA,COLOMBIA,5656000.0,1990.0,10-048,ibbcpu2509@unidatos.edu.co
693,2015-01-19 05:30:00,ANTIOQUIA,SALGAR,Lunes,LA HABANA,URBANA,VIAS PUBLICAS,ARMA DE FUEGO,A PIE,A PIE,58.0,MASCULINO,SOLTERO,AGRICULTOR,NO REPORTADO,PRIMARIA,COLOMBIA,5642000.0,57.0,10-079,unhoqj1172@unidatos.edu.co
10796,2015-11-20 03:00:00,VALLE,CALI (CT),Viernes,POTRERO GRANDE E21,URBANA,VIAS PUBLICAS,ARMA DE FUEGO,A PIE,A PIE,21.0,MASCULINO,SOLTERO,EMPLEADO PARTICULAR,NO REPORTADO,SECUNDARIA,COLOMBIA,76001000.0,1994.0,10-079,iknnoj8430@unidatos.edu.co
2386,2015-03-14 02:00:00,META,FUENTE DE ORO,Sábado,VEREDA PUERTO NUEVO,RURAL,"BARES, CANTINAS Y SIMILARES",ARMA BLANCA,A PIE,A PIE,42.0,MASCULINO,SOLTERO,INDEPENDIENTE,NO REPORTADO,PRIMARIA,COLOMBIA,50287000.0,1973.0,10-255,afompq7113@unidatos.edu.co
138,2015-01-02 06:20:00,CAUCA,SOTARA,Viernes,CENTRO,RURAL,VIAS PUBLICAS,ARMA BLANCA,A PIE,A PIE,22.0,MASCULINO,SOLTERO,EMPLEADO EJERCITO,NO REPORTADO,SECUNDARIA,COLOMBIA,19760000.0,1993.0,10-255,cobgqs8819@unidatos.edu.co


<span style="color:red">TODO: Delete records with "CÉDULA" duplicated</span>

<span style="color:red">Hint: You can use drop_duplicates() function. Make sure to update original dataframe. Google it!</span>

In [33]:
homicides_df = homicides_df.drop_duplicates(subset=['CÉDULA'])

In [34]:
duplicates_by_cedula = homicides_df.loc[homicides_df["CÉDULA"].duplicated(keep = False)]

In [35]:
duplicates_by_cedula.shape

(0, 21)

In [36]:
# Using regular expressions for validating if "CÉDULA" values match the pattern XX-XXX
cedula_malformed = homicides_df.loc[homicides_df["CÉDULA"].astype(str).apply(lambda x: (re.match("\d{2}-\d{3}", x) is None))]

In [37]:
cedula_malformed.head(6)

Unnamed: 0,FECHA,DEPARTAMENTO,MUNICIPIO,DIA,BARRIO,ZONA,CLASE DE SITIO,ARMA O MEDIO,MOVIL VICTIMA,MOVIL AGRESOR,EDAD,GENERO,ESTADO CIVIL,CLASE EMPLEADO,PROFESION,ESCOLARIDAD,PAIS NACE,CODIGO DANE,AÑO DE NACIMIENTO,CÉDULA,CORREO
172,2015-01-03 11:00:00,META,MESETAS,Sábado,VEREDA EL CAFRE,RURAL,ZONA SELVÁTICA,MINA ANTIPERSONA,A PIE,A PIE,24.0,MASCULINO,SOLTERO,EMPLEADO EJERCITO,NO REPORTADO,SECUNDARIA,COLOMBIA,50330000.0,1991.0,680-21,oohghd8899@gmail.com
1114,2015-02-01 12:30:00,ATLÁNTICO,BARRANQUILLA (CT),Domingo,LA LUZ,URBANA,VIAS PUBLICAS,ARMA DE FUEGO,A PIE,A PIE,29.0,MASCULINO,SOLTERO,INDEPENDIENTE,NO REPORTADO,PRIMARIA,COLOMBIA,8001000.0,1986.0,140-17,correo5853@colombia.gov.co
2119,2015-03-06 15:30:00,VALLE,CALI (CT),Viernes,QUINTAS DEL SOL E14,URBANA,DENTRO DE LA VIVIENDA,ARMA BLANCA,A PIE,A PIE,20.0,FEMENINO,UNION LIBRE,EMPLEADO PARTICULAR,NO REPORTADO,SECUNDARIA,COLOMBIA,76001000.0,1995.0,975-31,ohbqrk3631@unidatos.edu.co
3309,2015-04-11 10:30:00,CAQUETÁ,FLORENCIA (CT),Sávado,VIA MORELIA,RURAL,CARCELES,CORTANTES,A PIE,A PIE,23.0,MASCULINO,SOLTERO,INDEPENDIENTE,NO REPORTADO,PRIMARIA,COLOMBIA,18001000.0,1992.0,348-66,pdkqur8407@unidatos.edu.co
3409,2015-04-13 23:20:00,CÓRDOBA,SAHAGÚN,Lunes,CORREGIMIENTO DE BAJO GRANDE,URBANA,BILLARES,CONTUNDENTES,A PIE,A PIE,49.0,MASCULINO,SOLTERO,INDEPENDIENTE,NO REPORTADO,SECUNDARIA,COLOMBIA,23660000.0,1966.0,496-18,fdbbeo6751@unidatos.edu.co
3588,2015-04-19 20:00:00,BOLÍVAR,CARTAGENA (CT),Domingo,LA ESPERANZA,URBANA,VIAS PUBLICAS,ARMA DE FUEGO,A PIE,A PIE,45.0,MASCULINO,SOLTERO,DESEMPLEADO,NO REPORTADO,NO REPORTADO,NO REPORTADO,13001000.0,1970.0,188-03,diebuo5651@unidatos.edu.co


<span style="color:red">TODO: Fix the malformed "CÉDULA" values. Make sure to update original dataframe.</span>

In [38]:
cedulaGuion = lambda x: x.replace("-", "")

In [39]:
celudaReplace = lambda x: x[:2] + '-' + x[2:]

In [40]:
cedulaBien = cedula_malformed["CÉDULA"].apply(cedulaGuion).apply(celudaReplace)

In [41]:
cedulaBien.head(20)

172     68-021
1114    14-017
2119    97-531
3309    34-866
3409    49-618
3588    18-803
4565    92-874
4587    27-345
4971    55-963
5372    63-185
5532    98-100
5834    31-949
5849    47-307
6315    89-381
7885    85-455
8094    60-436
8183    35-223
8223    58-651
9033    57-014
9751    51-841
Name: CÉDULA, dtype: object

<span style="color:red">TODO: Make something similar to check and fix the "CORREO" column (PATTERN: 4 digits before the @, only .edu.co and .com domains allowed)</span>

homicides_df["CÉDULA"].apply(cedulaGuion).apply(celudaReplace)

In [42]:
# Using regular expressions for validating if "CORREO" values match the pattern 4 digits before the @, only .edu.co and .com domains
correo_malformed = homicides_df.loc[homicides_df["CORREO"].astype(str).apply(lambda x: (re.match("^((?=[a-zA-Z])[a-zA-Z._0-9]+(?<!\.){4})@(?=[a-z])[a-z\-]+(?<!\-).('.edu.co'|'.co')+$", x) is None))]

In [44]:
correo_malformed.head(50)

Unnamed: 0,FECHA,DEPARTAMENTO,MUNICIPIO,DIA,BARRIO,ZONA,CLASE DE SITIO,ARMA O MEDIO,MOVIL VICTIMA,MOVIL AGRESOR,EDAD,GENERO,ESTADO CIVIL,CLASE EMPLEADO,PROFESION,ESCOLARIDAD,PAIS NACE,CODIGO DANE,AÑO DE NACIMIENTO,CÉDULA,CORREO
0,2015-01-01 06:00:00,ANTIOQUIA,AMAGÁ,Jueves,EL VOLCAN,RURAL,TIENDA,ARMA BLANCA,A PIE,A PIE,44.0,MASCULINO,CASADO,INDEPENDIENTE,NO REPORTADO,PRIMARIA,COLOMBIA,5030000.0,1971.0,42-908,agbnqg2122@unidatos.edu.co
1,2015-01-01 09:00:00,ANTIOQUIA,BARBOSA,Jueves,VDA. MATASANOS,RURAL,VIAS PUBLICAS,ARMA BLANCA,A PIE,A PIE,30.0,MASCULINO,SOLTERO,DESEMPLEADO,NO REPORTADO,SECUNDARIA,NO REPORTADO,5079000.0,1985.0,15-183,rbkeui3584@gmail.com
2,2015-01-01 19:00:00,ANTIOQUIA,EL BAGRE,Jueves,PUERTO CLAVER,RURAL,FINCAS Y SIMILARES,ARMA BLANCA,A PIE,A PIE,33.0,MASCULINO,UNION LIBRE,AGRICULTOR,NO REPORTADO,PRIMARIA,COLOMBIA,5250000.0,1982.0,84-786,aorkhf9155@unidatos.edu.co
3,2015-01-01 11:20:00,ANTIOQUIA,JARDÍN,Jueves,CRISTIANIA,RURAL,FINCAS Y SIMILARES,ARMA BLANCA,A PIE,A PIE,40.0,MASCULINO,CASADO,AGRICULTOR,NO REPORTADO,PRIMARIA,COLOMBIA,5364000.0,1975.0,31-289,dhtemr6623@unidatos.edu.co
4,2015-01-01 15:00:00,ANTIOQUIA,MEDELLÍN (CT),Juees,PICACHITO CNO REPORTADO6,URBANA,FRENTE A RESIDENCIAS - VIA PUBLICA,CONTUNDENTES,A PIE,A PIE,66.0,MASCULINO,UNION LIBRE,DESEMPLEADO,NO REPORTADO,PRIMARIA,COLOMBIA,5001000.0,1949.0,66-363,artatj9268@unidatos.edu.co
5,2015-01-01 00:47:00,ANTIOQUIA,MEDELLÍN (CT),Juees,CORDOBA CNO REPORTADO7,URBANA,VIAS PUBLICAS,ARMA DE FUEGO,A PIE,A PIE,42.0,MASCULINO,SOLTERO,INDEPENDIENTE,NO REPORTADO,SECUNDARIA,COLOMBIA,5001000.0,1973.0,54-450,grlcsj8696@unidatos.edu.co
6,2015-01-01 11:00:00,ANTIOQUIA,MEDELLÍN (CT),Jueves,CRISTO REY CNO REPORTADO15,URBANA,VIAS PUBLICAS,ARMA BLANCA,A PIE,A PIE,25.0,MASCULINO,SOLTERO,DESEMPLEADO,NO REPORTADO,SECUNDARIA,COLOMBIA,5001000.0,1990.0,45-052,pkdakc6682@gmail.com
7,2015-01-01 19:35:00,ANTIOQUIA,MEDELLÍN (CT),Jueves,LA SALLE CNO REPORTADO3,URBANA,VIAS PUBLICAS,ARMA BLANCA,A PIE,A PIE,37.0,MASCULINO,CASADO,INDEPENDIENTE,NO REPORTADO,SECUNDARIA,COLOMBIA,5001000.0,1978.0,45-298,qledtq1884@gmail.com
8,2015-01-01 20:35:00,ANTIOQUIA,MEDELLÍN (CT),Jueves,KENNEDY CNO REPORTADO6,URBANA,VIAS PUBLICAS,ARMA DE FUEGO,A PIE,PASAJERO MOTOCICLETA,25.0,MASCULINO,SOLTERO,INDEPENDIENTE,NO REPORTADO,SECUNDARIA,COLOMBIA,5001000.0,1990.0,37-281,mipgfg2758@unidatos.edu.co
9,2015-01-01 14:00:00,ANTIOQUIA,MUTATÁ,Jueves,VDA CASA ROJA,RURAL,FINCAS Y SIMILARES,ARMA BLANCA,A PIE,A PIE,30.0,MASCULINO,SOLTERO,ETNIA INDIGENA,NO REPORTADO,SECUNDARIA,NO REPORTADO,5480000.0,1985.0,78-013,dgepmg5536@unidatos.edu.co


In [45]:
funcion1 = lambda x: x["CORREO"].str.split('@').str[1]

In [46]:
funcion2 = lambda x: x[:4]

In [47]:
def funcion(x):
   correoParte1 = x[:4]
   correoParte2 = x.split('@')[1]
   return correoParte1 + '@' + correoParte2

In [48]:
correo_malformed["CORREO"] = correo_malformed["CORREO"].apply(lambda x: funcion(x))

In [49]:
correo_malformed["CORREO"]    

0        agbn@unidatos.edu.co
1              rbke@gmail.com
2        aork@unidatos.edu.co
3        dhte@unidatos.edu.co
4        arta@unidatos.edu.co
                 ...         
12394          nggi@gmail.com
12395    corr@colombia.gov.co
12396    fkta@unidatos.edu.co
12397          gafk@gmail.com
12398    corr@unidatos.edu.co
Name: CORREO, Length: 11563, dtype: object

In [51]:
#homicidioCorreoMalFormed

In [52]:
# Calculating the distance between two words using the Levenshtein method
pylev.levenshtein('sábado', 'sabaod')

3

In [53]:
pylev.levenshtein('sábado', 'viernes')

7

<span style="color:red">TODO: Create a function to fix the digitation errors for column "DIA". Make sure to update original dataframe.</span>

In [54]:
# Showing different values for "DIA" column
homicides_df["DIA"].unique()

array(['Jueves', 'Juees', 'Jueces', 'juves', 'Juevrs', 'Viernes',
       'Viermes', 'iernes', 'virnes', 'Vierens', 'Sábado', 'Sabadi',
       'Sabado', 'sábad', 'Sávado', 'Ssbado', 'Domingo', 'Domungo',
       'Doningo', 'domungo', 'Lunes', 'lune', 'Luns', 'Lumes', 'kunes',
       'Lnues', 'Martes', 'Mates', 'Marte', 'mates', 'Miércoles',
       'Miwrcoles', 'Mircoles', 'Voernes', 'domnigo', 'Maryes',
       'Miercoles', 'miércles', 'Dominog', 'Msrtes', 'Mirrcoles'],
      dtype=object)

In [55]:
homicides_df.loc[(homicides_df["DIA"] == "Jueves") | (homicides_df["DIA"] == "Juees") | (homicides_df["DIA"] == "Jueces") | (homicides_df["DIA"] == "juves") | (homicides_df["DIA"] == "Juevrs") , "DIA"] = "jueves"

In [56]:
homicides_df.loc[(homicides_df["DIA"] == "Viernes") | (homicides_df["DIA"] == "Viermes") | (homicides_df["DIA"] == "iernes") | (homicides_df["DIA"] == "virnes") | (homicides_df["DIA"] == "Vierens") | (homicides_df["DIA"] == "Voernes") , "DIA"] = "viernes"

In [57]:
homicides_df.loc[(homicides_df["DIA"] == "Sábado") | (homicides_df["DIA"] == "Sabadi") | (homicides_df["DIA"] == "Sabado") | (homicides_df["DIA"] == "sábad") | (homicides_df["DIA"] == "Sávado") | (homicides_df["DIA"] == "Ssbado") , "DIA"] = "sábado"

In [58]:
homicides_df.loc[(homicides_df["DIA"] == "Domingo") | (homicides_df["DIA"] == "Domungo") | (homicides_df["DIA"] == "Doningo") | (homicides_df["DIA"] == "domungo") | (homicides_df["DIA"] == "Dominog") | (homicides_df["DIA"] == "domnigo")  , "DIA"] = "domingo"

In [59]:
homicides_df.loc[(homicides_df["DIA"] == "Lunes") | (homicides_df["DIA"] == "lune") | (homicides_df["DIA"] == "Luns") | (homicides_df["DIA"] == "Lumes") | (homicides_df["DIA"] == "kunes") | (homicides_df["DIA"] == "Lnues")  , "DIA"] = "lunes"

In [60]:
homicides_df.loc[(homicides_df["DIA"] == "Martes") | (homicides_df["DIA"] == "Mates") | (homicides_df["DIA"] == "Marte") | (homicides_df["DIA"] == "mates") | (homicides_df["DIA"] == "Maryes") | (homicides_df["DIA"] == "Msrtes")  , "DIA"] = "martes"

In [61]:
homicides_df.loc[(homicides_df["DIA"] == "Miércoles") | (homicides_df["DIA"] == "Miwrcoles") | (homicides_df["DIA"] == "Mircoles") | (homicides_df["DIA"] == "Miercoles") | (homicides_df["DIA"] == "miércles") | (homicides_df["DIA"] == "Mirrcoles")  , "DIA"] = "miércoles"

In [62]:
homicides_df["DIA"].unique()

array(['jueves', 'viernes', 'sábado', 'domingo', 'lunes', 'martes',
       'miércoles'], dtype=object)

In [63]:
homicides_df[["AÑO DE NACIMIENTO", "EDAD"]].head(10)

Unnamed: 0,AÑO DE NACIMIENTO,EDAD
0,1971.0,44.0
1,1985.0,30.0
2,1982.0,33.0
3,1975.0,40.0
4,1949.0,66.0
5,1973.0,42.0
6,1990.0,25.0
7,1978.0,37.0
8,1990.0,25.0
9,1985.0,30.0


<span style="color:red">TODO: Check and fix, if apply, the column "AÑO DE NACIMIENTO", using the column "EDAD". Make sure to update original dataframe.</span>

In [64]:
homicides_df['AÑO DE NACIMIENTO'] = np.where((homicides_df['AÑO DE NACIMIENTO'] != (2022 - homicides_df['EDAD'])),(2022 - homicides_df['EDAD']),homicides_df['AÑO DE NACIMIENTO'])

In [65]:
homicides_df[["AÑO DE NACIMIENTO", "EDAD"]].head(10)

Unnamed: 0,AÑO DE NACIMIENTO,EDAD
0,1978.0,44.0
1,1992.0,30.0
2,1989.0,33.0
3,1982.0,40.0
4,1956.0,66.0
5,1980.0,42.0
6,1997.0,25.0
7,1985.0,37.0
8,1997.0,25.0
9,1992.0,30.0
