# Data Quality Tutorial

Dataset: Homicidos, Colombia

In [None]:
pip install pylev



In [None]:
# Importing required libraries

import re
from random import randint
from datetime import datetime

import numpy as np
import pandas as pd

import pylev

In [None]:
# Parameter for showing all columns when printing a dataframe
pd.set_option('display.max_columns', None)

In [None]:
# Loading data
homicides_df = pd.read_csv("homicides.csv")

In [None]:
# Printing the dataset dimensions
homicides_df.shape

(12400, 23)

In [None]:
# Printing column data types
homicides_df.dtypes

FECHA                 object
DEPARTAMENTO          object
MUNICIPIO             object
DIA                   object
HORA                  object
BARRIO                object
ZONA                  object
CLASE DE SITIO        object
ARMA O MEDIO          object
MOVIL VICTIMA         object
MOVIL AGRESOR         object
EDAD                 float64
GENERO                object
ESTADO CIVIL          object
CLASE EMPLEADO        object
PROFESION             object
ESCOLARIDAD           object
PAIS NACE             object
CODIGO DANE          float64
2015                   int64
AÑO DE NACIMIENTO    float64
CÉDULA                object
CORREO                object
dtype: object

In [None]:
# Deleting constant column
del homicides_df["2015"]

In [None]:
homicides_df.head()

Unnamed: 0,FECHA,DEPARTAMENTO,MUNICIPIO,DIA,HORA,BARRIO,ZONA,CLASE DE SITIO,ARMA O MEDIO,MOVIL VICTIMA,MOVIL AGRESOR,EDAD,GENERO,ESTADO CIVIL,CLASE EMPLEADO,PROFESION,ESCOLARIDAD,PAIS NACE,CODIGO DANE,AÑO DE NACIMIENTO,CÉDULA,CORREO
0,01/01/2015 12:00:00 AM,ANTIOQUIA,AMAGÁ,Jueves,6:00,EL VOLCAN,RURAL,TIENDA,ARMA BLANCA,A PIE,A PIE,44.0,MASCULINO,CASADO,INDEPENDIENTE,NO REPORTADO,PRIMARIA,COLOMBIA,5030000.0,1978.0,42-908,agbnqg2122@unidatos.edu.co
1,01/01/2015 12:00:00 AM,ANTIOQUIA,BARBOSA,Jueves,9:00,VDA. MATASANOS,RURAL,VIAS PUBLICAS,ARMA BLANCA,A PIE,A PIE,30.0,MASCULINO,SOLTERO,DESEMPLEADO,NO REPORTADO,SECUNDARIA,NO REPORTADO,5079000.0,1992.0,15-183,rbkeui3584@gmail.com
2,01/01/2015 12:00:00 AM,ANTIOQUIA,EL BAGRE,Jueves,19:00,PUERTO CLAVER,RURAL,FINCAS Y SIMILARES,ARMA BLANCA,A PIE,A PIE,33.0,MASCULINO,UNION LIBRE,AGRICULTOR,NO REPORTADO,PRIMARIA,COLOMBIA,5250000.0,1989.0,84-786,aorkhf9155@unidatos.edu.co
3,01/01/2015 12:00:00 AM,ANTIOQUIA,JARDÍN,Jueves,11:20,CRISTIANIA,RURAL,FINCAS Y SIMILARES,ARMA BLANCA,A PIE,A PIE,40.0,MASCULINO,CASADO,AGRICULTOR,NO REPORTADO,PRIMARIA,COLOMBIA,5364000.0,1982.0,31-289,dhtemr6623@unidatos.edu.co
4,01/01/2015 12:00:00 AM,ANTIOQUIA,MEDELLÍN (CT),Juees,15:00,PICACHITO CNO REPORTADO6,URBANA,FRENTE A RESIDENCIAS - VIA PUBLICA,CONTUNDENTES,A PIE,A PIE,66.0,MASCULINO,UNION LIBRE,DESEMPLEADO,NO REPORTADO,PRIMARIA,COLOMBIA,5001000.0,1956.0,66-363,artatj9268@unidatos.edu.co


In [None]:
# Creating a lambda expression for datetime parsing
dateparse = lambda x: datetime.strptime(x, "%m/%d/%Y %H:%M:%S %p")

In [None]:
# Applying the validation to all values in column
homicides_df["FECHA"].apply(dateparse)

# IT IS EXPECTED TO HAVE AN ERROR INTENTIONALLY

ValueError: ignored

In [None]:
# Creating a function for validating which value is causing the previous error
def error_in_format(x):
    try:
        datetime.strptime(x, "%m/%d/%Y %H:%M:%S %p")
        return False
    except:
        return True

In [None]:
# Using the function for validation
homicides_df.loc[homicides_df["FECHA"].apply(error_in_format)]

# THE LAST ERROR IS CAUSING THE ERROR

Unnamed: 0,FECHA,DEPARTAMENTO,MUNICIPIO,DIA,HORA,BARRIO,ZONA,CLASE DE SITIO,ARMA O MEDIO,MOVIL VICTIMA,MOVIL AGRESOR,EDAD,GENERO,ESTADO CIVIL,CLASE EMPLEADO,PROFESION,ESCOLARIDAD,PAIS NACE,CODIGO DANE,AÑO DE NACIMIENTO,CÉDULA,CORREO
12399,TOTAL,,,,,,,,,,,,,,,,,,,,,


In [None]:
# Deleting an error by its index
homicides_df = homicides_df.drop([12399])

In [None]:
# Trying to parse the datetime string again
homicides_df["FECHA"] = homicides_df["FECHA"].apply(dateparse)

In [None]:
# Counting homicides hour
homicides_df["FECHA"].dt.hour.value_counts()

# All datetime hour parts are the same

12    12399
Name: FECHA, dtype: int64

In [None]:
# The homicide hour is available in a different column!!!
# Merging both columns
homicides_df["FECHA"] = homicides_df["FECHA"].astype(str).apply(lambda x: x[:11]) + homicides_df["HORA"]

In [None]:
del homicides_df["HORA"]

In [None]:
homicides_df["FECHA"].head()

0     2015-01-01 6:00
1     2015-01-01 9:00
2    2015-01-01 19:00
3    2015-01-01 11:20
4    2015-01-01 15:00
Name: FECHA, dtype: object

In [None]:
# Making a new expression for datetime parsing
dateparse = lambda x: datetime.strptime(x, "%Y-%m-%d %H:%M")

In [None]:
# Applying the expression
homicides_df["FECHA"] = homicides_df["FECHA"].apply(dateparse)

In [None]:
homicides_df.dtypes

FECHA                datetime64[ns]
DEPARTAMENTO                 object
MUNICIPIO                    object
DIA                          object
BARRIO                       object
ZONA                         object
CLASE DE SITIO               object
ARMA O MEDIO                 object
MOVIL VICTIMA                object
MOVIL AGRESOR                object
EDAD                        float64
GENERO                       object
ESTADO CIVIL                 object
CLASE EMPLEADO               object
PROFESION                    object
ESCOLARIDAD                  object
PAIS NACE                    object
CODIGO DANE                 float64
AÑO DE NACIMIENTO           float64
CÉDULA                       object
CORREO                       object
dtype: object

In [None]:
homicides_df

Unnamed: 0,FECHA,DEPARTAMENTO,MUNICIPIO,DIA,BARRIO,ZONA,CLASE DE SITIO,ARMA O MEDIO,MOVIL VICTIMA,MOVIL AGRESOR,EDAD,GENERO,ESTADO CIVIL,CLASE EMPLEADO,PROFESION,ESCOLARIDAD,PAIS NACE,CODIGO DANE,AÑO DE NACIMIENTO,CÉDULA,CORREO
0,2015-01-01 06:00:00,ANTIOQUIA,AMAGÁ,Jueves,EL VOLCAN,RURAL,TIENDA,ARMA BLANCA,A PIE,A PIE,44.0,MASCULINO,CASADO,INDEPENDIENTE,NO REPORTADO,PRIMARIA,COLOMBIA,5030000.0,1978.0,42-908,agbnqg2122@unidatos.edu.co
1,2015-01-01 09:00:00,ANTIOQUIA,BARBOSA,Jueves,VDA. MATASANOS,RURAL,VIAS PUBLICAS,ARMA BLANCA,A PIE,A PIE,30.0,MASCULINO,SOLTERO,DESEMPLEADO,NO REPORTADO,SECUNDARIA,NO REPORTADO,5079000.0,1992.0,15-183,rbkeui3584@gmail.com
2,2015-01-01 19:00:00,ANTIOQUIA,EL BAGRE,Jueves,PUERTO CLAVER,RURAL,FINCAS Y SIMILARES,ARMA BLANCA,A PIE,A PIE,33.0,MASCULINO,UNION LIBRE,AGRICULTOR,NO REPORTADO,PRIMARIA,COLOMBIA,5250000.0,1989.0,84-786,aorkhf9155@unidatos.edu.co
3,2015-01-01 11:20:00,ANTIOQUIA,JARDÍN,Jueves,CRISTIANIA,RURAL,FINCAS Y SIMILARES,ARMA BLANCA,A PIE,A PIE,40.0,MASCULINO,CASADO,AGRICULTOR,NO REPORTADO,PRIMARIA,COLOMBIA,5364000.0,1982.0,31-289,dhtemr6623@unidatos.edu.co
4,2015-01-01 15:00:00,ANTIOQUIA,MEDELLÍN (CT),Juees,PICACHITO CNO REPORTADO6,URBANA,FRENTE A RESIDENCIAS - VIA PUBLICA,CONTUNDENTES,A PIE,A PIE,66.0,MASCULINO,UNION LIBRE,DESEMPLEADO,NO REPORTADO,PRIMARIA,COLOMBIA,5001000.0,1956.0,66-363,artatj9268@unidatos.edu.co
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12394,2015-12-31 15:42:00,VALLE,EL CERRITO,Jueves,LA ESPERANZA,URBANA,VIAS PUBLICAS,ARMA DE FUEGO,A PIE,A PIE,53.0,FEMENINO,CASADO,EMPLEADO PARTICULAR,NO REPORTADO,PRIMARIA,COLOMBIA,76248000.0,1969.0,39-658,nggiso7664@gmail.com
12395,2015-12-31 19:04:00,VALLE,LA CUMBRE,Jueves,CGTO BITACO E27,RURAL,VIAS PUBLICAS,ARMA DE FUEGO,A PIE,A PIE,58.0,MASCULINO,UNION LIBRE,AGRICULTOR,NO REPORTADO,PRIMARIA,COLOMBIA,76377000.0,1964.0,39-442,correo4352@colombia.gov.co
12396,2015-12-31 22:35:00,VALLE,PALMIRA,Jueves,LORETO,URBANA,VIAS PUBLICAS,ARMA DE FUEGO,A PIE,A PIE,18.0,FEMENINO,SOLTERO,ESTUDIANTE,NO REPORTADO,SECUNDARIA,COLOMBIA,76520000.0,2004.0,25-368,fktatq9245@unidatos.edu.co
12397,2015-12-31 14:30:00,VALLE,ZARZAL,Jueves,URB. EL ZARZALITO,URBANA,VIAS PUBLICAS,ARMA DE FUEGO,A PIE,A PIE,27.0,MASCULINO,SOLTERO,EMPLEADO PARTICULAR,NO REPORTADO,SECUNDARIA,COLOMBIA,76895000.0,1995.0,62-735,gafkup6393@gmail.com


In [None]:

# Creating a dictionary representing the valid departments for Colombia
departments_list = ['ANTIOQUIA', 'ATLÁNTICO', 'BOLÍVAR', 'BOYACÁ', 'CALDAS', 'CAQUETÁ',
       'CASANARE', 'CAUCA', 'CESAR', 'CHOCÓ', 'CÓRDOBA', 'META',
       'CUNDINAMARCA', 'HUILA', 'MAGDALENA', 'NARIÑO', 'PUTUMAYO',
       'RISARALDA', 'SANTANDER', 'SUCRE', 'TOLIMA', 'VALLE',
       'NORTE DE SANTANDER', 'GUAJIRA', 'QUINDÍO', 'SAN ANDRÉS Y PROVIDENCIA', 'ARAUCA',
       'GUAINÍA', 'VICHADA', 'VAUPÉS', 'GUAVIARE', 'AMAZONAS']

In [None]:
# Finding values not matching with the dictionary
homicides_df.loc[~homicides_df["DEPARTAMENTO"].isin(departments_list), "DEPARTAMENTO"].unique()

array(['SAN ANDRÉS', 'N. DE SANTANDER'], dtype=object)

<span style="color:red">TODO: Check and replace, if apply, the values identified as error because do not match with the dictionary</span>

In [None]:
# cantidad de registros antes de eliminar 
countBefore = homicides_df.count()[0] 

# eliminando registros donde el departamenteo no concide con la lista de departamentos permitidos
homicides_df = homicides_df[~homicides_df.DEPARTAMENTO.isin(homicides_df.loc[~homicides_df["DEPARTAMENTO"].isin(departments_list), "DEPARTAMENTO"])]

# cantidad de registros despues de eliminar 
countAfter = homicides_df.count()[0] 

# cantidad de registros Eliminados
print(countBefore - countAfter)  

0


In [None]:
# Detecting duplicates by "CÉDULA" column
duplicates_by_cedula = homicides_df.loc[homicides_df["CÉDULA"].duplicated(keep = False)]

In [None]:
duplicates_by_cedula.shape

(1606, 21)

In [None]:
# Showing some examples
duplicates_by_cedula.sort_values("CÉDULA", ascending = True).head(6)

Unnamed: 0,FECHA,DEPARTAMENTO,MUNICIPIO,DIA,BARRIO,ZONA,CLASE DE SITIO,ARMA O MEDIO,MOVIL VICTIMA,MOVIL AGRESOR,EDAD,GENERO,ESTADO CIVIL,CLASE EMPLEADO,PROFESION,ESCOLARIDAD,PAIS NACE,CODIGO DANE,AÑO DE NACIMIENTO,CÉDULA,CORREO
3810,2015-04-26 03:00:00,ANTIOQUIA,SAN JERÓNIMO,Domingo,LA PLAYA,URBANA,"HOTELES, RESIDENCIAS, Y SIMILARES.",CUERDA/SOGA/CADENA,A PIE,A PIE,25.0,MASCULINO,SOLTERO,INDEPENDIENTE,NO REPORTADO,SECUNDARIA,COLOMBIA,5656000.0,1997.0,10-048,ibbcpu2509@unidatos.edu.co
4041,2015-05-03 23:30:00,CAUCA,EL TAMBO,Domingo,LA VICTORIA,RURAL,"BARES, CANTINAS Y SIMILARES",ARMA DE FUEGO,A PIE,A PIE,45.0,MASCULINO,UNION LIBRE,AGRICULTOR,NO REPORTADO,PRIMARIA,COLOMBIA,19256000.0,1977.0,10-048,aitufn1227@gmail.com
693,2015-01-19 05:30:00,ANTIOQUIA,SALGAR,Lunes,LA HABANA,URBANA,VIAS PUBLICAS,ARMA DE FUEGO,A PIE,A PIE,58.0,MASCULINO,SOLTERO,AGRICULTOR,NO REPORTADO,PRIMARIA,COLOMBIA,5642000.0,1964.0,10-079,unhoqj1172@unidatos.edu.co
10796,2015-11-20 03:00:00,VALLE,CALI (CT),Viernes,POTRERO GRANDE E21,URBANA,VIAS PUBLICAS,ARMA DE FUEGO,A PIE,A PIE,21.0,MASCULINO,SOLTERO,EMPLEADO PARTICULAR,NO REPORTADO,SECUNDARIA,COLOMBIA,76001000.0,2001.0,10-079,iknnoj8430@unidatos.edu.co
138,2015-01-02 06:20:00,CAUCA,SOTARA,Viernes,CENTRO,RURAL,VIAS PUBLICAS,ARMA BLANCA,A PIE,A PIE,22.0,MASCULINO,SOLTERO,EMPLEADO EJERCITO,NO REPORTADO,SECUNDARIA,COLOMBIA,19760000.0,2000.0,10-255,cobgqs8819@unidatos.edu.co
2386,2015-03-14 02:00:00,META,FUENTE DE ORO,Sábado,VEREDA PUERTO NUEVO,RURAL,"BARES, CANTINAS Y SIMILARES",ARMA BLANCA,A PIE,A PIE,42.0,MASCULINO,SOLTERO,INDEPENDIENTE,NO REPORTADO,PRIMARIA,COLOMBIA,50287000.0,1980.0,10-255,afompq7113@unidatos.edu.co


<span style="color:red">TODO: Delete records with "CÉDULA" duplicated</span>

<span style="color:red">Hint: You can use drop_duplicates() function. Make sure to update original dataframe. Google it!</span>

In [None]:
# Loading data
homicides_df = pd.read_csv("homicides.csv")

In [None]:
# se eliminan los registros donde la cedula este duplicada 
homicides_df = homicides_df.drop_duplicates(subset=['CÉDULA'])

In [None]:
# Using regular expressions for validating if "CÉDULA" values match the pattern XX-XXX
cedula_malformed = homicides_df.loc[homicides_df["CÉDULA"].astype(str).apply(lambda x: (re.match("\d{2}-\d{3}", x) is None))]

In [None]:
cedula_malformed["CÉDULA"].head()

172     680-21
1114    140-17
2119    975-31
3309    348-66
3409    496-18
Name: CÉDULA, dtype: object

<span style="color:red">TODO: Fix the malformed "CÉDULA" values. Make sure to update original dataframe.</span>

In [None]:
homicides_df["CÉDULA"].head()

FECHA                 object
DEPARTAMENTO          object
MUNICIPIO             object
DIA                   object
HORA                  object
BARRIO                object
ZONA                  object
CLASE DE SITIO        object
ARMA O MEDIO          object
MOVIL VICTIMA         object
MOVIL AGRESOR         object
EDAD                 float64
GENERO                object
ESTADO CIVIL          object
CLASE EMPLEADO        object
PROFESION             object
ESCOLARIDAD           object
PAIS NACE             object
CODIGO DANE          float64
2015                   int64
AÑO DE NACIMIENTO    float64
CÉDULA                object
CORREO                object
dtype: object

In [None]:
homicides_dfTemp = homicides_df

In [None]:
homicides_df = homicides_dfTemp

In [None]:
def fixCedula(pText):
  try:
    text = str(pText)
    textOk = text[text.index("-")+1:len(text)] + "-" + text[:text.index("-")]
    print(textOk)
    return textOk
  except:
    print("E")
    return text
  

In [None]:
fixCedula("680-21")

21-680


'21-680'

In [None]:
#Permite ajustar lso datos de dos formas

removeOrSwapDatos = False
if removeOrSwapDatos:
  # elimina los datos cuando no corresponden con el formato correcto 
  homicides_df = homicides_df[~homicides_df['CÉDULA'].isin(cedula_malformed["CÉDULA"])]
else:
  print("Invertir datos")
  # Invierte los datos 
  # homicides_df['CÉDULA'] = homicides_df.loc[homicides_df.CÉDULA.isin(cedula_malformed.CÉDULA), fixCedula(cedula_malformed['CÉDULA'])] 


Invertir datos
21
1114     140-17
2119     975-31
3309     348-66
3409     496-18
3588     188-03
4565     928-74
4587     273-45
4971     559-63
5372     631-85
5532     981-00
5834     319-49
5849     473-07
6315     893-81
7885     854-55
8094     604-36
8183     352-23
8223     586-51
9033     570-14
9751     518-41
10205    424-72
10625    852-67
10689    403-11
10959    502-05
11020    529-37
11740    864-83
11957    856-04
12206    128-61
12399       NaN
Name: CÉDULA, dtype: object-172      680


KeyError: ignored

<span style="color:red">TODO: Make something similar to check and fix the "CORREO" column (PATTERN: 4 digits before the @, only .edu.co and .com domains allowed)</span>

In [None]:
homicides_df.CORREO

0        agbnqg2122@unidatos.edu.co
1              rbkeui3584@gmail.com
2        aorkhf9155@unidatos.edu.co
3        dhtemr6623@unidatos.edu.co
4        artatj9268@unidatos.edu.co
                    ...            
12395    correo4352@colombia.gov.co
12396    fktatq9245@unidatos.edu.co
12397          gafkup6393@gmail.com
12398     correo736@unidatos.edu.co
12399                           NaN
Name: CORREO, Length: 11564, dtype: object

In [None]:
homicides_df.count()[0]

12400

In [None]:
# Se busca y elimina correos que no cumplan con la estructura solicitada 
badMails = homicides_df.loc[homicides_df["CORREO"].astype(str).apply(lambda x: (re.match("^[a-zA-Z0-9]+[0-9]{4,}@[a-zA-Z0-9]{1,}.(com|edu.co)$", x) is None))]

In [None]:
badMails.CORREO

28        correo975@unidatos.edu.co
36       correo4714@colombia.gov.co
47       correo8297@colombia.gov.co
55       correo7285@colombia.gov.co
60        correo870@unidatos.edu.co
                    ...            
12387    correo3558@colombia.gov.co
12392     correo295@unidatos.edu.co
12395    correo4352@colombia.gov.co
12398     correo736@unidatos.edu.co
12399                           NaN
Name: CORREO, Length: 2294, dtype: object

In [None]:
homicides_df = homicides_df[~homicides_df['CORREO'].isin(badMails["CORREO"])]

In [None]:
homicides_df.count()[0]

10106

In [None]:
# Showing different values for "DIA" column
homicides_df["DIA"].unique()

array(['Jueves', 'Juees', 'Jueces', 'juves', 'Juevrs', 'Viernes',
       'iernes', 'virnes', 'Vierens', 'Sábado', 'Sabadi', 'Sabado',
       'sábad', 'Sávado', 'Ssbado', 'Domingo', 'domungo', 'Lunes', 'lune',
       'Luns', 'Lumes', 'kunes', 'Lnues', 'Martes', 'mates', 'Mates',
       'Marte', 'Miércoles', 'Miwrcoles', 'Mircoles', 'Voernes',
       'Viermes', 'Domungo', 'domnigo', 'Doningo', 'Maryes', 'Miercoles',
       'miércles', 'Dominog', 'Msrtes', 'Mirrcoles'], dtype=object)

In [None]:
okDays = ['Lunes', 'Marte', 'Miércoles', 'Jueves', 'Viernes', 'Sabado', 'Domingo']

In [None]:
# Calculating the distance between two words using the Levenshtein method
pylev.levenshtein('Lunes', 'Maryes')

4

In [None]:
pylev.levenshtein('sábado', 'viernes')

7

<span style="color:red">TODO: Create a function to fix the digitation errors for column "DIA". Make sure to update original dataframe.</span>

In [None]:
homicides_df["DIA"].unique()

array(['Jueves', 'Juees', 'Jueces', 'juves', 'Juevrs', 'Viernes',
       'iernes', 'virnes', 'Vierens', 'Sábado', 'Sabadi', 'Sabado',
       'sábad', 'Sávado', 'Ssbado', 'Domingo', 'domungo', 'Lunes', 'lune',
       'Luns', 'Lumes', 'kunes', 'Lnues', 'Martes', 'mates', 'Mates',
       'Marte', 'Miércoles', 'Miwrcoles', 'Mircoles', 'Voernes',
       'Viermes', 'Domungo', 'domnigo', 'Doningo', 'Maryes', 'Miercoles',
       'miércles', 'Dominog', 'Msrtes', 'Mirrcoles'], dtype=object)

In [None]:
homicides_df[["AÑO DE NACIMIENTO", "EDAD"]].head(10)

Unnamed: 0,AÑO DE NACIMIENTO,EDAD
0,1978.0,44.0
1,1992.0,30.0
2,1989.0,33.0
3,1982.0,40.0
4,1956.0,66.0
5,1980.0,42.0
6,1997.0,25.0
7,1985.0,37.0
8,1997.0,25.0
9,1992.0,30.0


<span style="color:red">TODO: Check and fix, if apply, the column "AÑO DE NACIMIENTO", using the column "EDAD". Make sure to update original dataframe.</span>

In [None]:
# funcion que recibe parametro edad y calcula el año correcto de nacimiento
def calculate_year_of_birth(age):
    return 2022 - age

In [None]:
# Calcula el año de nacimiento segun la edad y lo remplaza por el año correcto 
homicides_df['AÑO DE NACIMIENTO'] = homicides_df['EDAD'].apply(calculate_year_of_birth)
