# Regular Expressions

Las expresiones regulares (regex) nos permiten buscar patrones en strings usando casi cualquier tipo de regla. Por ejemplo, buscar todas las letras mayúsculas de un string, buscar un email, un teléfono con cierto formato, etc.

En python, utilizamos la librería (que ya viene por defecto con python) **re**. [docs](https://docs.python.org/3/library/re.html)

## Patrones básicos

Tenemos el siguiente string

In [1]:
text = "The agent's phone number is 408-555-1234. Call soon!"

Si queremos saber si la palabra "phone" esta en el string, es tan simple como hacer:

In [2]:
'phone' in text

True

De todas formas este caso es muy simple, no estamos buscando un patrón sino una palabra específica.

Comencemos viendo como podemos resolver este simple problema con re.

In [3]:
import re

In [4]:
pattern = 'phone'

re tiene el método search para buscar un patrón en un texto:

In [5]:
re.search(pattern,text)

<re.Match object; span=(12, 17), match='phone'>

In [6]:
pattern = "OTRA COSA QUE NO ESTÁ EN EL TEXTO"

In [7]:
re.search(pattern,text)

search() toma un patrón, escanea el texto y retorna un "Match object". Si no encuentra el patrón en el texto (como el segundo ejemplo) no retorna nada.

Veamos este Match Object en detalle:

In [8]:
pattern = 'phone'

In [9]:
match = re.search(pattern,text)

In [10]:
match

<re.Match object; span=(12, 17), match='phone'>

Si se fijan dentro del "span" hay info sobre los indices de inicio y fin.

In [11]:
match.span()

(12, 17)

In [12]:
match.start()

12

In [13]:
match.end()

17

¿Qué pasa si el patrón ocurre más de una vez en el texto?

In [14]:
text = "my phone is a new phone"

In [15]:
match = re.search("phone",text)

In [16]:
match.span()

(3, 8)

Solo matchea la primer instancia. Si quisiéramos una lista de todos los matches, podríamos usar .findall():

In [31]:
matches = re.findall(r'(phone)-(\d)','phone, phone-1, phone-2, phone-3, phone-4')

In [32]:
matches

[('phone', '1'), ('phone', '2'), ('phone', '3'), ('phone', '4')]

In [33]:
len(matches)

4

Para obtener el texto matcheado, se puede utilizar el método .group():

In [36]:
matches.group(1)

AttributeError: 'list' object has no attribute 'group'

# Patrones

Hasta ahora vimos como buscar un simple string como "phone". Veamos como podríamos buscar patrones más complejos.

Si conocemos el formato de lo que queremos buscar, por ejemplo ****@gmail.com, podemos utilizar regex para buscar el patrón en el documento.


## Identificadores de caracteres 

Caracteres como dígitos o simples strings tienen diferentes códigos que los representan. Se pueden utilizar para construir un patrón de búsqueda. Van a ver que en muchos lugares se utiliza "\", esto es para distinguir entre un caracter literal y un patrón. Además, en python cuando vamos a definir una regex ponemos la letra "r" al comienzo del string, como verán en los siguientes ejemplos.

Identificadores:

<table ><tr><th>Caracter</th><th>Descripción</th><th>Ejemplo código de patrón</th><th >Ejemplo Match</th></tr>

<tr ><td><span >\d</span></td><td>Cualquier dígito del 0 al 9</td><td>file_\d\d</td><td>file_25</td></tr>

<tr ><td><span >\w</span></td><td> letras del alfabeto (mayúsculas y minúsculas), dígitos y guiones bajos</td><td>\w-\w\w\w</td><td>A-b_1</td></tr>



<tr ><td><span >\s</span></td><td>Espacio, tabulación o salto de línea</td><td>a\sb\sc</td><td>a b c</td></tr>



<tr ><td><span >\D</span></td><td>Cualquiera que NO del 0 al 9</td><td>\D\D\D</td><td>ABC</td></tr>

<tr ><td><span >\W</span></td><td>NO \w</td><td>\W\W\W\W\W</td><td>*-+=)</td></tr>

<tr ><td><span >\S</span></td><td>NO \s</td><td>\S\S\S\S</td><td>Yoyo</td></tr></table>

Por ejemplo:

In [103]:
text = "My telephone number is 408-555-1234"

In [144]:
phone = re.search(r'\b\w{6}\b',text)

In [145]:
print(phone)

<re.Match object; span=(13, 19), match='number'>


Es un poco incómodo tener que escribir \d\d\d\d, para esto existen los quantifiers.

## Quantifiers

En conjunto con los identificadores de caracteres que vimos arriba, podemos utilizar quantifiers.

<table ><tr><th>Caracter</th><th>Descripción</th><th>Ejemplo código patrón</th><th >Ejemplo Match</th></tr>

<tr ><td><span >+</span></td><td>Una o mas</td><td>	Version \w-\w+</td><td>Version A-b1_1</td></tr>

<tr ><td><span >{3}</span></td><td>Exactamente 3</td><td>\D{3}</td><td>abc</td></tr>



<tr ><td><span >{2,4}</span></td><td>De 2 a 4</td><td>\d{2,4}</td><td>123</td></tr>



<tr ><td><span >{3,}</span></td><td>3 o más</td><td>\w{3,}</td><td>anycharacters</td></tr>

<tr ><td><span >*</span></td><td>0 o más</td><td>A*B*C*</td><td>AAACC</td></tr>


Ahora re-escrbimos el patrón:

In [24]:
re.search(r'\d{3}-\d{3}-\d{4}',text)

<re.Match object; span=(23, 35), match='408-555-1234'>

## Groups

Imaginen ahora que queremos hacer 2 cosas: encontrar teléfonos y además extraer de forma simple el código de area (los primeros 3 dígitos). Para esto podemos utilizar "groups". La idea es agrupar expresiones regulares de la siguiente manera, utilizando ():

In [25]:
results = re.search(r'(\d{3})-(\d{3})-(\d{4})',text)

In [26]:
# El resultado entero:
results.group()

'408-555-1234'

In [27]:
# Al haber utilizado () para separar las regex, podemos acceder a cada una de ellas por separado
# A diferencia de las listas, el primer indice en este caso es el 1
# Si intentamos acceder al indice 0 nos retornara todos los resultados
results.group(1)

'408'

In [28]:
results.group(2)

'555'

In [29]:
results.group(3)

'1234'

In [30]:
# Grupo 4 no existe:
results.group(4)

IndexError: no such group

## Or |

Utilizando el simbolo: |, podemos hacer un "or". Por ejemplo:

In [31]:
re.search(r"man|woman","This man was here.")

<re.Match object; span=(5, 8), match='man'>

In [32]:
re.search(r"man|woman","This woman was here.")

<re.Match object; span=(5, 10), match='woman'>

## Wildcard

El wildcard se puede utilizar para matchear cualquier caracter. Para esto se utiliza simplemente un "." (punto).

Por ejemplo:

In [37]:
re.findall(r".at","The cat in the hat sat here.")

['cat', 'hat', 'sat']

In [38]:
re.findall(r".at","The bat went splat")

['bat', 'lat']

Pueen ver que solo matchean 3 caracteres: el wildcard y luego "at". Si queremos matchear más caracteres podemos agregar más wildcards o utilizar quantifiers:

In [39]:
re.findall(r"...at","The bat went splat")

['e bat', 'splat']

Sin embargo, esto trae el problema de que necesitamos saber el tamaño exacto de la palabra que vamos a matchear, puede suceder que querramos traer palabras que terminen en "at" pero todas tengan distinta longitud.

Para esto se puede utilizar la siguiente expresión que va a buscar uno o más caracteres que NO sean espacio (\S+) y luego terminen en at.

In [40]:
re.findall(r'\S+at',"The bat went splat")

['bat', 'splat']

### Starts With y Ends With

Para representar un startswith se puede utilizar **^**.

Para ends with: **$**:

In [55]:
# Ends with
re.findall(r'\w+\d$','This ends3 with a number2')

['number2']

In [43]:
# Starts with
re.findall(r'^\d','1 is the loneliest number.')

['1']

## Excluir caracteres

Para excluir caracteres, podemos utilizar **^** en conjunto con corchetes **[]**. Todo lo que este dentro de los corchetes va a ser excluido. Por ejemplo, para excluir los números:

In [78]:
phrase = "there are 3 numbers 34 inside 5 this sentence."
phrase2="clase1 clase palabra45 piedra lámpara"

In [86]:
# re.findall(r'[^\d]',phrase)
re.findall(r'\b\w+[^\d\s]\b',phrase2)

['clase', 'piedra', 'lámpara']

Si queremos traer las palabras enteras podemos usar el +:

In [91]:
re.findall(r'[^\d\s]+',phrase2)

['clase', 'clase', 'palabra', 'piedra', 'lámpara']

Esto podría usarse por ejemplo para eliminar algunos simbolos de un string:

In [89]:
test_phrase = 'This is a string! But it has punctuation. How can we remove it?'

In [90]:
re.findall('[^!.? ]+',test_phrase)

['This',
 'is',
 'a',
 'string',
 'But',
 'it',
 'has',
 'punctuation',
 'How',
 'can',
 'we',
 'remove',
 'it']

In [92]:
clean = ' '.join(re.findall('[^!.? ]+',test_phrase))

In [93]:
clean

'This is a string But it has punctuation How can we remove it'

## Parentesis para múltiple opción

Si tenemos multiples opciones, podemos utilizar () de la siguiente manera:

Busquemos palabras que empiezan con cat y terminen con fish, claw o nap.

In [94]:
text = 'Hello, would you like some catfish?'
texttwo = "Hello, would you like to take a catnap?"
textthree = "Hello, have you seen this caterpillar?"

In [95]:
re.search(r'cat(fish|nap|claw)',text)

<re.Match object; span=(27, 34), match='catfish'>

In [96]:
re.search(r'cat(fish|nap|claw)',texttwo)

<re.Match object; span=(32, 38), match='catnap'>

In [97]:
re.search(r'cat(fish|nap|claw)',textthree)

Para más información sobre regex: https://docs.python.org/3/howto/regex.html

https://www.autoregex.xyz/ 