# Regular Expressions

Las expresiones regulares (regex) nos permiten buscar patrones en strings usando casi cualquier tipo de regla. Por ejemplo, buscar todas las letras mayúsculas de un string, buscar un email, un teléfono con cierto formato, etc.

En python, utilizamos la librería (que ya viene por defecto con python) **re**. [docs](https://docs.python.org/3/library/re.html)

## Patrones básicos

Tenemos el siguiente string

In [None]:
text = "The agent's phone number is 408-555-1234. Call soon!"

Si queremos saber si la palabra "phone" esta en el string, es tan simple como hacer:

In [None]:
'phone' in text

De todas formas este caso es muy simple, no estamos buscando un patrón sino una palabra específica.

Comencemos viendo como podemos resolver este simple problema con re.

In [None]:
import re

In [None]:
pattern = 'phone'

re tiene el método search para buscar un patrón en un texto:

In [None]:
re.search(pattern,text)

Sugerencia: PROBAR QUE SUCEDE SI SE BUSCA ALGO QUE NO SE ENCUENTRA EN EL STRING

In [None]:
pattern = " " #Completar

In [None]:
re.search(pattern,text)

search() toma un patrón, escanea el texto y retorna un "Match object". Si no encuentra el patrón en el texto (como el segundo ejemplo) no retorna nada.

Veamos este Match Object en detalle:

In [None]:
pattern = 'phone'

In [None]:
match = re.search(pattern,text)

In [None]:
match  #Para pensar, porque es util que devuelva lo que encontro si es justamente lo que buscamos? (tip: pensar de forma mas general)

Si se fijan dentro del "span" hay info sobre los indices de inicio y fin.

In [None]:
match.span()

In [None]:
match.start()

In [None]:
match.end()

¿Qué pasa si el patrón ocurre más de una vez en el texto?

In [None]:
text = "" #Completar con un texto

In [None]:
match = re.search("",text) #En base al texto elegido, buscar una palabra que se repita

In [None]:
match.span()

Solo matchea la primer instancia. Si quisiéramos una lista de todos los matches, podríamos usar .findall():

In [None]:
matches = re.findall("",text) #Completar

In [None]:
matches

In [None]:
len(matches)

Para obtener el texto matcheado, se puede utilizar el método .group():

In [None]:
match.group()

# Patrones

Hasta ahora vimos como buscar un simple string como "phone". Veamos como podríamos buscar patrones más complejos.

Si conocemos el formato de lo que queremos buscar, por ejemplo ****@gmail.com, podemos utilizar regex para buscar el patrón en el documento.


## Identificadores de caracteres

Caracteres como dígitos o simples strings tienen diferentes códigos que los representan. Se pueden utilizar para construir un patrón de búsqueda. Van a ver que en muchos lugares se utiliza "\", esto es para distinguir entre un caracter literal y un patrón. Además, en python cuando vamos a definir una regex ponemos la letra "r" al comienzo del string, como verán en los siguientes ejemplos.

Identificadores:

<table ><tr><th>Caracter</th><th>Descripción</th><th>Ejemplo código de patrón</th><th >Ejemplo Match</th></tr>

<tr ><td><span >\d</span></td><td>A digit</td><td>file_\d\d</td><td>file_25</td></tr>

<tr ><td><span >\w</span></td><td> matches a "word" character: a letter or digit or underbar</td><td>\w-\w\w\w</td><td>A-b_1</td></tr>



<tr ><td><span >\s</span></td><td>White space</td><td>a\sb\sc</td><td>a b c</td></tr>



<tr ><td><span >\D</span></td><td>A non digit</td><td>\D\D\D</td><td>ABC</td></tr>

<tr ><td><span >\W</span></td><td>Non-word</td><td>\W\W\W\W\W</td><td>*-+=)</td></tr>

<tr ><td><span >\S</span></td><td>Non-whitespace</td><td>\S\S\S\S</td><td>Yoyo</td></tr></table>

Por ejemplo:

In [None]:
text = "My telephone number is 408-555-1234"

In [None]:
phone = re.search(r'\d\d\d-\d\d\d-\d\d\d\d',text)

In [None]:
phone.group()

Es un poco incómodo tener que escribir \d\d\d\d, para esto existen los quantifiers.

## Quantifiers

En conjunto con los identificadores de caracteres que vimos arriba, podemos utilizar quantifiers.

<table ><tr><th>Caracter</th><th>Descripción</th><th>Ejemplo código patrón</th><th >Ejemplo Match</th></tr>

<tr ><td><span >+</span></td><td>Occurs one or more times</td><td>	Version \w-\w+</td><td>Version A-b1_1</td></tr>

<tr ><td><span >{3}</span></td><td>Occurs exactly 3 times</td><td>\D{3}</td><td>abc</td></tr>



<tr ><td><span >{2,4}</span></td><td>Occurs 2 to 4 times</td><td>\d{2,4}</td><td>123</td></tr>



<tr ><td><span >{3,}</span></td><td>Occurs 3 or more</td><td>\w{3,}</td><td>anycharacters</td></tr>

<tr ><td><span >\*</span></td><td>Occurs zero or more times</td><td>A\*B\*C*</td><td>AAACC</td></tr>


Ahora re-escrbimos el patrón:

In [None]:
re.search(r'\d{3}-\d{3}-\d{4}',text)

Ejercicio adicional: Escribir un texto que incluya algun otro campo con un formato conocido, por ejemplo CUIT: 99-12345678-9 y repetir el ejemplo anterior

In [None]:
texto = " " #Completar

In [None]:
cuit = re.search(r"",texto) #Completar

## Groups

Imaginen ahora que queremos hacer 2 cosas: encontrar teléfonos y además extraer de forma simple el código de area (los primeros 3 dígitos). Para esto podemos utilizar "groups". La idea es agrupar expresiones regulares de la siguiente manera, utilizando ():

In [None]:
results = re.search(r'(\d{3})-(\d{3})-(\d{4})',text)

In [None]:
# El resultado entero:
results.group()

In [None]:
# Al haber utilizado () para separar las regex, podemos acceder a cada una de ellas por separado
# A diferencia de las listas, el primer indice en este caso es el 1
# Si intentamos acceder al indice 0 nos retornara todos los resultados
results.group(1)

In [None]:
results.group(2)

In [None]:
results.group(3)

In [None]:
# Grupo 4 no existe:
results.group(4)

## Or |

Utilizando el simbolo: |, podemos hacer un "or". Por ejemplo:

In [None]:
re.search(r"man|woman","This man was here.")

In [None]:
re.search(r"man|woman","This woman was here.")

## Wildcard

El wildcard se puede utilizar para matchear cualquier caracter. Para esto se utiliza simplemente un "." (punto).

Por ejemplo:

In [None]:
re.findall(r".at","The cat in the hat sat here.")

In [None]:
re.findall(r".at","The bat went splat")

Pueden ver que solo matchean 3 caracteres: el wildcard y luego "at". Si queremos matchear más caracteres podemos agregar más wildcards o utilizar quantifiers:

In [None]:
re.findall(r"...at","The bat went splat")

Sin embargo, esto trae el problema de que necesitamos saber el tamaño exacto de la palabra que vamos a matchear, puede suceder que querramos traer palabras que terminen en "at" pero todas tengan distinta longitud.

Para esto se puede utilizar la siguiente expresión que va a buscar uno o más caracteres que NO sean espacio (\S+) y luego terminen en at.

In [None]:
re.findall(r'\S+at',"The bat went splat")

Ejercicio adicional: repetir el ejemplo anterior con otro texto

In [None]:
re.findall(r"","") #Completar

### Starts With y Ends With

Para representar un startswith se puede utilizar **^**.

Para ends with: **$**:

In [None]:
# Ends with
re.findall(r'\d$','This ends with a number 2') #Que sucede si cambiamos el cuantificador? en lugar de digito, buscamos una letra?

In [None]:
# Starts with
re.findall(r'^\d','1 is the loneliest number.') #Que sucede si movemos de lugar el "1"? y si cambiamos por un numero mas grande (3cifras), como podemos hacer para que las devuelva a todas?

## Excluir caracteres

Para excluir caracteres, podemos utilizar **^** en conjunto con corchetes **[]**. Todo lo que este dentro de los corchetes va a ser excluido. Por ejemplo, para excluir los números:

In [None]:
phrase = "there are 3 numbers 34 inside 5 this sentence."

In [None]:
re.findall(r'[^\d]',phrase)

Si queremos traer las palabras enteras podemos usar el +:

In [None]:
re.findall(r'[^\d]+',phrase)

Esto podría usarse por ejemplo para eliminar algunos simbolos de un string:

In [None]:
test_phrase = 'This is a string! But it has punctuation. How can we remove it?'

In [None]:
re.findall('[^!.? ]+',test_phrase)

In [None]:
clean = ' '.join(re.findall('[^!.? ]+',test_phrase))

In [None]:
clean

Ejercicio adicional: En lugar de unificar las palabras en un nuevo string, se pide hacerlo dentro de una lista (1 palabra por posicion) y luego leerla con listas por compresion.

(Pueden hacerlo con un ciclo for tambien)

## Parentesis para múltiple opción

Si tenemos multiples opciones, podemos utilizar () de la siguiente manera:

Busquemos palabras que empiezan con cat y terminen con fish, claw o nap.

In [None]:
text = 'Hello, would you like some catfish?'
texttwo = "Hello, would you like to take a catnap?"
textthree = "Hello, have you seen this caterpillar?"

In [None]:
re.search(r'cat(fish|nap|claw)',text)

In [None]:
re.search(r'cat(fish|nap|claw)',texttwo)

In [None]:
re.search(r'cat(fish|nap|claw)',textthree)

Aca se evidencia la importancia de que el objeto devuelva la palabra que encontró

Para más información sobre regex: https://docs.python.org/3/howto/regex.html

https://www.autoregex.xyz/