# Regular Expressions

En esta ocasión limpio una base de datos que contiene registros sobre criminales. Por ejemplo,
se conoce su fecha de nacimiento, edad, posición dentro de la banda criminal, tipo de crimen, entre 
otros.
El inconveniente es que los datos han sido ingresados con errores. Para solucionar
aquello, utilizaré la librería Regular Expressions con la cual es posible extraer las palabras que 
necesito.

In [1]:
import pandas as pd
import numpy as np
import re                      # regular expressions (REGEX)
import os  
import swifter                 # para parallel processing
from datetime import datetime  # libreria para time

In [2]:
# Directorio 
user = os.getlogin()   # Username
os.chdir(f"C:/Users/{user}/Documents/GitHub/1ECO35_2022_2/Lab8") # Set directorio

# Leyendo datos
data = pd.read_excel("../data/crime_data/data_administrativa.xlsx") # Subir base de datos
data      # se puede observar que las observaciones tienen errores de ingreso y valores extraños

Unnamed: 0,Nombre,born_date,AGE,rank,correo_abogado,dni,observaciones
0,JOAN AYALA FERRERAS,"23/08/1998 ""#%",!#22,cabecilla local,albatros@wandoo.es,dni es 01-156597865,"tiene 4 hijos, sentenciado por sicariato"
1,JOAN 3 BAEZ TEJADO,22/02/1971 !,49,cabecilla regional,albert@intercom.es,dni es 01-156597866,"inicio actividades ilegales a los 17 años, ti..."
2,MARC BASTARDES SOTO -,05/01/1976,44,miembro,alien@intercom.es,dni es 01-156597867,sentenciado por venta de drogas
3,JOSEP ANGUERA VILAFRANCA,21/02/1999,21 -,novato,amores@hotmail.com,dni es 01-156597868,"sentenciado por robo, tiene 4 hijps"
4,JOAN ANDREU CRUZ /,27/06/1982 00:00,38,sicario,anabel@altecom.es,dni es 01-156597869,inicio actividades ilegales a los 15 años
5,JORDI RAYA GAVILAN,15/06/1991,29,sicario,antiga@minorisa.es,dni es 01-156597870,sentenciado por robo
6,ARAN ALVAREZ FERNÁNDEZ,03/09/1993,!27,lider de la banda criminal,ballador@hotmail.com,dni es 01-156597871,"sentenciado por extorsion, tiene 2 hijos"
7,JAVIER BENITEZ JOSE3,18/02/1975,45,novto,balladora@altecom.es,dni es 01-156597872,inicio actividades ilegales a los 14 años
8,MARIO PASCUAL FLORES,14/11/1986 00:00,34,miembro,barbilla@hotmail.com,dni es 01-156597873,sentenciado por venta de drogas
9,JESUS AYALA TORNÉ,16/08/1993,27,principiante,besugo@minorisa.es,dni es 01-156597874,inicio actividades ilegales a los 16 años


In [3]:
# Convierto el nombre de las variables a minúscula
data.columns = map(str.lower, data.columns)   

In [4]:
# Como el nombre de la persona tiene puntuaciones y número, retiro todo aquello 
# que no permita identificar el nombre correcto.
data['solo_nombre'] = data['nombre'].swifter.apply(lambda x: re.sub('[0-9]|\/|\-|\.|\!','',x))  # eliminando números y signos en específico

Pandas Apply:   0%|          | 0/29 [00:00<?, ?it/s]

In [5]:
# Limpio la fecha de nacimiento de aquellos elementos que la ensucian. 
data['fecha'] = data['born_date'].swifter.apply(lambda x: re.findall('[0-9]+/[0-9]+/[0-9]+', str(x)))
data['fecha'] = data['fecha'].apply(lambda x: ''.join(x) )    # extrae los valores de la lista

Pandas Apply:   0%|          | 0/29 [00:00<?, ?it/s]

In [6]:
# Luego creo otra variable con el formato de fecha.
data['fecha_formato'] = pd.to_datetime(data['fecha'], dayfirst = True).dt.strftime('%d/%m/%Y')

In [7]:
# Limpio la columna de edad, la cual tiene puntuaciones que no permiten identificarla correctamente.
data['edad'] = data['age'].swifter.apply(lambda x: re.findall('[0-9]+',str(x)))  # eliminando números y signos en específico
data['edad'] = data['edad'].apply(lambda x: ''.join(x) )      # extrae los valores de la lista

Pandas Apply:   0%|          | 0/29 [00:00<?, ?it/s]

In [8]:
# Creo dummies según el rango del sentenciado en la organización criminal
# Ejemplo: dummy1 hace referencia si el criminal es lider de la banda.
    
data["dummy1"] = data['rank'].str.contains(r"banda criminal").map({True: 1, False: 0})
data["dummy2"] = data['rank'].str.contains(r"cabecilla local").map({True: 1, False: 0})
data["dummy3"] = data['rank'].str.contains(r"cabecilla regional").map({True: 1, False: 0})
data["dummy4"] = data['rank'].str.contains(r"sicario").map({True: 1, False: 0})
data["dummy5"] = data['rank'].str.contains(r"extorsion|extorsionador").map({True: 1, False: 0})
data["dummy6"] = data['rank'].str.contains(r"miembro").map({True: 1, False: 0})
data["dummy7"] = data['rank'].str.contains(r"novato|novto|noato|principiante").map({True: 1, False: 0})

In [9]:
# Extraigo el usuario del correo electrónico.
data['usuario_correo'] = data['correo_abogado'].swifter.apply(lambda x: re.findall('(\w+)\@\.*',str(x)))
data['usuario_correo'] = data['usuario_correo'].apply(lambda x: ''.join(x) )   # extrae los valores de la lista

Pandas Apply:   0%|          | 0/29 [00:00<?, ?it/s]

In [10]:
# Creo una columna que contenga solo la información del número de dni (por ejemplo: 01-75222677)
data['DNI'] = data['dni'].swifter.apply(lambda x: re.findall('[0-9]+-[0-9]+', str(x)))
data['DNI'] = data['DNI'].apply(lambda x: ''.join(x) )    # extrae los valores de la lista

Pandas Apply:   0%|          | 0/29 [00:00<?, ?it/s]

In [11]:
# A partir de la columna observaciones, creo las siguientes variables:
# - crimen: contiene información del delito cometido
def sentenciado(x):
    
    try:
        match = re.search("(?<=sentenciado por )[a-z\s]*", x)
        
        return match.group()
    
    except:
        
        pass

data['crimen'] = data['observaciones'].apply(sentenciado)




# - n_hijos: cantidad de hijos del criminal
def n_hijos(x):
    
    try:
        match = re.search("(?<=tiene )[0-9]*", x)
        
        return match.group()
    
    except:
        
        pass

data['n_hijos'] = data['observaciones'].apply(n_hijos)




# - edad_inicio : edad de inicio en actividades criminales
def edad_inicio(x):
    
    try:
        match = re.search("[0-9]+(?= años)", x)
        
        return match.group()
    
    except:
        
        pass

data['edad_inicio'] = data['observaciones'].apply(edad_inicio)

In [12]:
# observando como quedó la base finalmente

data_limpiada = data[['solo_nombre', 'fecha_formato', 'edad', 'dummy1', 'dummy2', 'dummy3',
                      'dummy4', 'dummy5', 'dummy6', 'dummy7', 'correo_abogado', 'usuario_correo', 'DNI',
                      'crimen', 'n_hijos', 'edad_inicio']]
data_limpiada

Unnamed: 0,solo_nombre,fecha_formato,edad,dummy1,dummy2,dummy3,dummy4,dummy5,dummy6,dummy7,correo_abogado,usuario_correo,DNI,crimen,n_hijos,edad_inicio
0,JOAN AYALA FERRERAS,23/08/1998,22,0,1,0,0,0,0,0,albatros@wandoo.es,albatros,01-156597865,sicariato,4.0,
1,JOAN BAEZ TEJADO,22/02/1971,49,0,0,1,0,0,0,0,albert@intercom.es,albert,01-156597866,,2.0,17.0
2,MARC BASTARDES SOTO,05/01/1976,44,0,0,0,0,0,1,0,alien@intercom.es,alien,01-156597867,venta de drogas,,
3,JOSEP ANGUERA VILAFRANCA,21/02/1999,21,0,0,0,0,0,0,1,amores@hotmail.com,amores,01-156597868,robo,4.0,
4,JOAN ANDREU CRUZ,27/06/1982,38,0,0,0,1,0,0,0,anabel@altecom.es,anabel,01-156597869,,,15.0
5,JORDI RAYA GAVILAN,15/06/1991,29,0,0,0,1,0,0,0,antiga@minorisa.es,antiga,01-156597870,robo,,
6,ARAN ALVAREZ FERNÁNDEZ,03/09/1993,27,1,0,0,0,0,0,0,ballador@hotmail.com,ballador,01-156597871,extorsion,2.0,
7,JAVIER BENITEZ JOSE,18/02/1975,45,0,0,0,0,0,0,1,balladora@altecom.es,balladora,01-156597872,,,14.0
8,MARIO PASCUAL FLORES,14/11/1986,34,0,0,0,0,0,1,0,barbilla@hotmail.com,barbilla,01-156597873,venta de drogas,,
9,JESUS AYALA TORNÉ,16/08/1993,27,0,0,0,0,0,0,1,besugo@minorisa.es,besugo,01-156597874,,,16.0
