# DEMO - Expresiones regulares

Como es habitual, comenzamos importando la librería necesaria para trabajar con expresiones regulares, en este caso, la librería **re** (por _regular expression_).

In [1]:
import re

La variable **cuil** contiene un string con los números CUIL correspondientes a distintos empleados de cierta compañía. El formato en que se almacena esta información dista mucho de ser homogéneo. Nuestro propósito es utilizar **regex** para extraer la información relevante y estandarizar esta categoría bajo el formato **"nombre: CUIL" (sin espacios, guiones ni ningún caracter distinto a los números)**.

In [2]:
cuil = """ Javier 20-28490848-8
Laura - 27 33495648 9
Eva23366154122
Diego: 24.18357496.5 """

Definimos nuestro patrón de búsqueda.

In [3]:
# Un patrón se define dentro de apóstrofes (o comillas) luego de la letra r minúscula
pattern = r'([a-z]+)\s?-?:?\s?(\d*)-?\s?\.?(\d*)-?\s?\.?(\d*)'

Luego, **compilamos** el patrón definido en un objeto particular, regex. Al compilar, podemos trabajar con algunos métodos específicos, tales como **.findall()**, **.search()** y **.group()**, entre otros.

In [4]:
regex = re.compile(pattern, flags = re.IGNORECASE) # seteamos una flag que ignora la diferencia entre minúsculas y mayúsculas

Hacemos la búsqueda utilizando el método **.findall()**, que devuelve una lista con tuplas que contienen todos los grupos de captura que _matchean_ con el patrón.

In [5]:
m = regex.findall(cuil)
m

[('Javier', '20', '28490848', '8'),
 ('Laura', '27', '33495648', '9'),
 ('Eva', '23366154122', '', ''),
 ('Diego', '24', '18357496', '5')]

Utilizando **listas por comprensión**, generamos nuestra lista de empleados.

In [6]:
lista_empleados = [' '.join(e) for e in m]
lista_empleados

['Javier 20 28490848 8',
 'Laura 27 33495648 9',
 'Eva 23366154122  ',
 'Diego 24 18357496 5']

Definimos una función que utiliza el método **.search()**, el cual escanea a lo largo de un string buscando la primera coincidencia con el patrón y, si existe tal coincidencia, devuelve un **objeto tipo _match_** (en caso contrario, devuelve **None**). Luego, la función devuelve la impresión de los distintos grupos de captura concatenados entre sí.

In [7]:
def busqueda_cuil(x):
    m = regex.search(x)
    if m:
        return(print(m.group(1) + ':', m.group(2) + m.group(3) + m.group(4)))

Aplicamos la función a cada elemento del listado de empleados y obtenemos el resultado deseado.

In [None]:
for empleado in lista_empleados:
    busqueda_cuil(empleado)

Para profundizar, puede consultarse la documentación oficial de la librería **re**, disponible en https://docs.python.org/3/library/re.html.