# REGEX
## (Regular Expressions)
![](img/regex_cover.png)

Los datos no siempre están organizados, formateados ni estructurados de forma homogénea.

Una parte importante del trabajo de un _Data Scientist_ consiste en limpiar los datos **(Data Cleaning)**

Para ello, existen técnicas como **Regex**

Las expresiones regulares están conformadas por secuencias de caracteres que nos permiten encontrar patrones de búsqueda.

# [¡VAMOS A ELLO!](https://regex101.com/)

In [30]:
import re

text_to_search = '''
abcdefghijklmnopqurtuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ
áéíóú
1234567890
Ha HaHa ?Ha
MetaCharacters (Need to be escaped):
. ^ $ * + ? { } [ ] \ | ( )
miguelcruz*com
miguelcruz.com
miguelcruzocom
miguelcruz hola
321-555-4321
123.555.1234
123*555*1234
800-555-1234
900-555-1234
9005551234
900055501234
Mr. Scha2fer
Mr Smith
Ms Davis
Mrs. Robinson
Mr. T
Mr. ()

cat
mat
pat
bat 
at
'''


## Utilizamos las raw_strings para obtener la literalidad del texto:

### `print(r'\tTabulador')`

In [2]:
print('Tabulador sin raw string: \tTabulador')
print(r'Tabulador con raw string: \tTabulador')

Tabulador sin raw string: 	Tabulador
Tabulador con raw string: \tTabulador


### Buscamos el patrón `abc` en el texto

Para ello utilizamos:
- `re.compile()`: para introducir el patrón que queremos buscar
- La función `finditer()`: para buscar el patrón en nuestro texto
- Iteramos sobre la búsqueda

In [32]:
mi_string = 'Hola mundo'
mi_string[1]

'o'

In [33]:
pattern = re.compile(r'abc')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)


# el span es el índice de inicio y final de la coincidencia.
# gracias al span, podemos utilizar las técnicas de string slicing
# en python para localizarlo

print(text_to_search[1:4])

<re.Match object; span=(1, 4), match='abc'>
abc


In [35]:
text_to_search[1:4]

'abc'

### Hay que tener en cuenta que cuando específicamos el pattern, se busca la literalidad de ese patrón.
Por ejemplo, si queremos buscar las letras en distinto orden...

In [36]:
new_pattern = re.compile(r'cba')
new_matches = new_pattern.finditer(text_to_search)

for match in new_matches:
    print(match) # no se muestra nada por pantalla 

## Metacaracteres
Son aquellos caracteres que no son alfanuméricos:
- Signos de puntuación, exclamación y admiración

Si queremos obtenerlos, tenemos que "escaparlos"

In [7]:
# Como veis, aquí se muestran prácticamente todos los caracteres.
pattern = re.compile(r'.')
matches = pattern.finditer(text_to_search)

for match in matches:
    print(match) 

<re.Match object; span=(1, 2), match='a'>
<re.Match object; span=(2, 3), match='b'>
<re.Match object; span=(3, 4), match='c'>
<re.Match object; span=(4, 5), match='d'>
<re.Match object; span=(5, 6), match='e'>
<re.Match object; span=(6, 7), match='f'>
<re.Match object; span=(7, 8), match='g'>
<re.Match object; span=(8, 9), match='h'>
<re.Match object; span=(9, 10), match='i'>
<re.Match object; span=(10, 11), match='j'>
<re.Match object; span=(11, 12), match='k'>
<re.Match object; span=(12, 13), match='l'>
<re.Match object; span=(13, 14), match='m'>
<re.Match object; span=(14, 15), match='n'>
<re.Match object; span=(15, 16), match='o'>
<re.Match object; span=(16, 17), match='p'>
<re.Match object; span=(17, 18), match='q'>
<re.Match object; span=(18, 19), match='u'>
<re.Match object; span=(19, 20), match='r'>
<re.Match object; span=(20, 21), match='t'>
<re.Match object; span=(21, 22), match='u'>
<re.Match object; span=(22, 23), match='v'>
<re.Match object; span=(23, 24), match='w'>
<re.M

#### Para escaparlos, tienen que ir precedidos de la barra invertida(`\`)

In [8]:
pattern = re.compile(r'\.')
matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)


<re.Match object; span=(121, 122), match='.'>
<re.Match object; span=(174, 175), match='.'>
<re.Match object; span=(226, 227), match='.'>
<re.Match object; span=(230, 231), match='.'>
<re.Match object; span=(301, 302), match='.'>
<re.Match object; span=(333, 334), match='.'>
<re.Match object; span=(346, 347), match='.'>
<re.Match object; span=(352, 353), match='.'>


Para buscar una página web:

In [44]:
pattern = re.compile(r'miguelcruz.com')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(149, 163), match='miguelcruz*com'>
<re.Match object; span=(164, 178), match='miguelcruz.com'>
<re.Match object; span=(179, 193), match='miguelcruzocom'>


Lo realmente interesante de regex no es encontrar simplemente una página web o una frase concreta, sino que nos ayuda a encontrar una serie de patrones en los textos.

En este documento podemos ver las principales expresiones regulares para encontrar texto: `snippets.txt`

In [10]:
pattern = re.compile(r'\D')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(0, 1), match='\n'>
<re.Match object; span=(1, 2), match='a'>
<re.Match object; span=(2, 3), match='b'>
<re.Match object; span=(3, 4), match='c'>
<re.Match object; span=(4, 5), match='d'>
<re.Match object; span=(5, 6), match='e'>
<re.Match object; span=(6, 7), match='f'>
<re.Match object; span=(7, 8), match='g'>
<re.Match object; span=(8, 9), match='h'>
<re.Match object; span=(9, 10), match='i'>
<re.Match object; span=(10, 11), match='j'>
<re.Match object; span=(11, 12), match='k'>
<re.Match object; span=(12, 13), match='l'>
<re.Match object; span=(13, 14), match='m'>
<re.Match object; span=(14, 15), match='n'>
<re.Match object; span=(15, 16), match='o'>
<re.Match object; span=(16, 17), match='p'>
<re.Match object; span=(17, 18), match='q'>
<re.Match object; span=(18, 19), match='u'>
<re.Match object; span=(19, 20), match='r'>
<re.Match object; span=(20, 21), match='t'>
<re.Match object; span=(21, 22), match='u'>
<re.Match object; span=(22, 23), match='v'>
<re.Ma

## Anclas

Las anclas no buscan caracteres en concreto, pero delimitan nuestra búsqueda.

Word Boundaries `\b`: está compuesto por los espacios, tabuladores, nuevas líneas y caracteres no alfanuméricos.

In [11]:
pattern = re.compile(r'\bHa')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(72, 74), match='Ha'>
<re.Match object; span=(75, 77), match='Ha'>
<re.Match object; span=(81, 83), match='Ha'>


No word boundaries `\B`: lo contrario

Muestra el último Ha, porque delante no tiene los boundaries

In [12]:
pattern = re.compile(r'\BHa')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(77, 79), match='Ha'>


### `^` Busca solo el principio del string

In [52]:
sentence = 'Start a sentence and then bring it to an end'

In [50]:
pattern = re.compile(r'^Start')

matches = pattern.finditer(sentence)

for match in matches:
    print(match)

<re.Match object; span=(0, 5), match='Start'>


### `$` Solo busca el final del string

In [53]:
pattern = re.compile(r'end$')

matches = pattern.finditer(sentence)

for match in matches:
    print(match)

<re.Match object; span=(41, 44), match='end'>


## TIME FOR ACTION

A continuación, vamos a tratar de obtener los números de teléfono.

Como podemos ver en el texto, el número de teléfono sigue la misma estructura: 
- 3 números
- signo de puntuación 
- 3 números
- signo de puntuación
- 4 números

In [28]:
#escribe tu código
pattern = re.compile(r'\d\d\d.\d\d\d.\d\d\d\d')
# (r'\d{3}.\d{3}.\d{4}')
matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(210, 222), match='321-555-4321'>
<re.Match object; span=(223, 235), match='123.555.1234'>
<re.Match object; span=(236, 248), match='123*555*1234'>
<re.Match object; span=(249, 261), match='800-555-1234'>
<re.Match object; span=(262, 274), match='900-555-1234'>
<re.Match object; span=(286, 298), match='900055501234'>


### Abrimos `fake_info.txt` para empezar a trabajar

In [55]:
with open('data/fake_info.txt', 'r') as f:
    contents = f.read()

Como hemos visto, el código de arriba nos ha permitido encontrar la secuencia de números con cualquier signo de puntuación, pero pongamos que queremos obtener solamente los números de teléfono separados por un punto o un guion

In [29]:
#escribe tu código
pattern = re.compile(r'\d\d\d[\.-]\d\d\d[\.-]\d\d\d\d')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(210, 222), match='321-555-4321'>
<re.Match object; span=(223, 235), match='123.555.1234'>
<re.Match object; span=(249, 261), match='800-555-1234'>
<re.Match object; span=(262, 274), match='900-555-1234'>


## Character sets
Sirven para concretar nuestra búsqueda.

#### ¡CUIDADO! En ocasiones suele haber confusión con los character sets, porque no cogen más de un elemento.

In [37]:
# Para encontrar todos los números que empiecen por centenas:
# 800 - 900

pattern = re.compile(r'[89]00\D\d\d\d\D\d\d\d\d')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(251, 263), match='800-555-1234'>
<re.Match object; span=(264, 276), match='900-555-1234'>


## Los guiones no solamente sirven para encontrar ese caracter especial, sino que además nos permiten establecer rangos

Por ejemplo, para mostrar los números entre el 1 y el 5 de todo el texto

In [44]:
pattern = re.compile(r'[1-5]')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(55, 56), match='1'>
<re.Match object; span=(56, 57), match='2'>
<re.Match object; span=(57, 58), match='3'>
<re.Match object; span=(58, 59), match='4'>
<re.Match object; span=(59, 60), match='5'>
<re.Match object; span=(212, 213), match='3'>
<re.Match object; span=(213, 214), match='2'>
<re.Match object; span=(214, 215), match='1'>
<re.Match object; span=(216, 217), match='5'>
<re.Match object; span=(217, 218), match='5'>
<re.Match object; span=(218, 219), match='5'>
<re.Match object; span=(220, 221), match='4'>
<re.Match object; span=(221, 222), match='3'>
<re.Match object; span=(222, 223), match='2'>
<re.Match object; span=(223, 224), match='1'>
<re.Match object; span=(225, 226), match='1'>
<re.Match object; span=(226, 227), match='2'>
<re.Match object; span=(227, 228), match='3'>
<re.Match object; span=(229, 230), match='5'>
<re.Match object; span=(230, 231), match='5'>
<re.Match object; span=(231, 232), match='5'>
<re.Match object; span=(233, 234), match='1'

### Para Mostrar letras mayúsculas y minúsculas, basta con poner los rangos juntos.


In [60]:
pattern = re.compile(r'[a-zA-Z]')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(1, 2), match='a'>
<re.Match object; span=(2, 3), match='b'>
<re.Match object; span=(3, 4), match='c'>
<re.Match object; span=(4, 5), match='d'>
<re.Match object; span=(5, 6), match='e'>
<re.Match object; span=(6, 7), match='f'>
<re.Match object; span=(7, 8), match='g'>
<re.Match object; span=(8, 9), match='h'>
<re.Match object; span=(9, 10), match='i'>
<re.Match object; span=(10, 11), match='j'>
<re.Match object; span=(11, 12), match='k'>
<re.Match object; span=(12, 13), match='l'>
<re.Match object; span=(13, 14), match='m'>
<re.Match object; span=(14, 15), match='n'>
<re.Match object; span=(15, 16), match='o'>
<re.Match object; span=(16, 17), match='p'>
<re.Match object; span=(17, 18), match='q'>
<re.Match object; span=(18, 19), match='u'>
<re.Match object; span=(19, 20), match='r'>
<re.Match object; span=(20, 21), match='t'>
<re.Match object; span=(21, 22), match='u'>
<re.Match object; span=(22, 23), match='v'>
<re.Match object; span=(23, 24), match='w'>
<re.M

In [63]:
pattern = re.compile(r'[á-ú]')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(55, 56), match='á'>
<re.Match object; span=(56, 57), match='é'>
<re.Match object; span=(57, 58), match='í'>
<re.Match object; span=(58, 59), match='ó'>
<re.Match object; span=(59, 60), match='ú'>


## Importante 
Al poner el símbolo `^` dentro de los corchetes `[]`, significa que **NO** queremos lo que está dentro de él.

En este caso, al ejecutar, se muestran solo los caracteres numéricos, los espacios en blanco, los saltos de línea y los caracteres numéricos.

**Se niega el set**

In [57]:
pattern = re.compile(r'[^a-zA-Z]')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(0, 1), match='\n'>
<re.Match object; span=(27, 28), match='\n'>
<re.Match object; span=(54, 55), match='\n'>
<re.Match object; span=(55, 56), match='á'>
<re.Match object; span=(56, 57), match='é'>
<re.Match object; span=(57, 58), match='í'>
<re.Match object; span=(58, 59), match='ó'>
<re.Match object; span=(59, 60), match='ú'>
<re.Match object; span=(60, 61), match='\n'>
<re.Match object; span=(61, 62), match='1'>
<re.Match object; span=(62, 63), match='2'>
<re.Match object; span=(63, 64), match='3'>
<re.Match object; span=(64, 65), match='4'>
<re.Match object; span=(65, 66), match='5'>
<re.Match object; span=(66, 67), match='6'>
<re.Match object; span=(67, 68), match='7'>
<re.Match object; span=(68, 69), match='8'>
<re.Match object; span=(69, 70), match='9'>
<re.Match object; span=(70, 71), match='0'>
<re.Match object; span=(71, 72), match='\n'>
<re.Match object; span=(74, 75), match=' '>
<re.Match object; span=(79, 80), match=' '>
<re.Match object; span=(80, 8

## Búsquedas de patrones en los textos 
Pongamos que queremos recoger palabras terminadas en at, excepto **bat**
Especificamos que no queremos los valores que empiecen por b

In [64]:
pattern = re.compile(r'[^b]at')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(358, 361), match='cat'>
<re.Match object; span=(362, 365), match='mat'>
<re.Match object; span=(366, 369), match='pat'>
<re.Match object; span=(374, 377), match='\nat'>


## Rangos `{}`
Como vemos en snippets.txt, las llaves nos permiten establecer rangos. 

Volviendo al ejemplo de los números de teléfono, otra forma de obtener los patrones

In [67]:
pattern = re.compile(r'\d{3}\D\d{3}\D\d{4}')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(212, 224), match='321-555-4321'>
<re.Match object; span=(225, 237), match='123.555.1234'>
<re.Match object; span=(238, 250), match='123*555*1234'>
<re.Match object; span=(251, 263), match='800-555-1234'>
<re.Match object; span=(264, 276), match='900-555-1234'>


In [72]:
pattern = re.compile(r'\d{2,4}.\d{2,4}.\d{2,4}')
numeros = []

matches = pattern.finditer(text_to_search)

for match in matches:
    numeros.append(match[0])
    print(match)


<re.Match object; span=(61, 71), match='1234567890'>
<re.Match object; span=(210, 222), match='321-555-4321'>
<re.Match object; span=(223, 235), match='123.555.1234'>
<re.Match object; span=(236, 248), match='123*555*1234'>
<re.Match object; span=(249, 261), match='800-555-1234'>
<re.Match object; span=(262, 274), match='900-555-1234'>
<re.Match object; span=(275, 285), match='9005551234'>
<re.Match object; span=(286, 298), match='900055501234'>


In [74]:
import pandas as pd

In [75]:
pd.DataFrame({'telefono': numeros})

Unnamed: 0,telefono
0,1234567890
1,321-555-4321
2,123.555.1234
3,123*555*1234
4,800-555-1234
5,900-555-1234
6,9005551234
7,900055501234


In [76]:
## Este ejemplo nos vale porque sabemos exactamente el patrón que se reproduce.

pattern1 = re.compile(r'Mr\.')

matches = pattern1.finditer(text_to_search)

for match in matches:
    print(match)

# Aquí no nos está dando lo que queremos. Solo nos da la secuencia Mr.

<re.Match object; span=(299, 302), match='Mr.'>
<re.Match object; span=(344, 347), match='Mr.'>
<re.Match object; span=(350, 353), match='Mr.'>


## Operador `?` 
Nos sirve para añadir 0 o 1 a nuestra selección. Así se va a contemplar lo que hay un espacio después

In [77]:
# Aquí sí aparecen todos los Mr. independientemente de que tengan punto o no
pattern2 = re.compile(r'Mr.')

matches = pattern2.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(299, 302), match='Mr.'>
<re.Match object; span=(344, 347), match='Mr.'>
<re.Match object; span=(350, 353), match='Mr.'>


In [67]:
# Aquí sí aparecen todos los Mr. independientemente de que tengan punto o no
pattern2 = re.compile(r'Mr\.?')

matches = pattern2.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(307, 310), match='Mr.'>
<re.Match object; span=(320, 322), match='Mr'>
<re.Match object; span=(338, 340), match='Mr'>
<re.Match object; span=(352, 355), match='Mr.'>
<re.Match object; span=(358, 361), match='Mr.'>


In [36]:
# Aquí sí aparecen todos los Mr. independientemente de que tengan punto o no
pattern3 = re.compile(r'Mr\.?\s\w+') # El operador + muestra si hay 1 elemento o más a la derecha de la selección

matches = pattern3.finditer(text_to_search)

for match in matches:
    print(match)

# Por eso no se imprime Mr. T

<re.Match object; span=(299, 311), match='Mr. Scha2fer'>
<re.Match object; span=(312, 320), match='Mr Smith'>
<re.Match object; span=(344, 349), match='Mr. T'>


## Ahora sí que sí
para mostrarlo todo , utilizaremos el cuantificador `*`

In [69]:
pattern4 = re.compile(r'Mr\.?\s\w*')

matches = pattern4.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(307, 319), match='Mr. Scha2fer'>
<re.Match object; span=(320, 328), match='Mr Smith'>
<re.Match object; span=(352, 357), match='Mr. T'>
<re.Match object; span=(358, 362), match='Mr. '>


## Grouping `()`
Siguiendo con el ejemplo, para ver todos los Mr, Ms y Mrs, podemos utilizar el operador | (or)

In [71]:
pattern4 = re.compile(r'(Mr|Ms|Mrs)\.?\s\w*')

matches = pattern4.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(307, 319), match='Mr. Scha2fer'>
<re.Match object; span=(320, 328), match='Mr Smith'>
<re.Match object; span=(329, 337), match='Ms Davis'>
<re.Match object; span=(338, 351), match='Mrs. Robinson'>
<re.Match object; span=(352, 357), match='Mr. T'>
<re.Match object; span=(358, 362), match='Mr. '>
