# REGEX
## (Regular Expressions)
![](img/regex_cover.png)

Los datos no siempre están organizados, formateados ni estructurados de forma homogénea.

Una parte importante del trabajo de un _Data Scientist_ consiste en limpiar los datos **(Data Cleaning)**

Para ello, existen técnicas como **Regex**

Las expresiones regulares están conformadas por secuencias de caracteres que nos permiten encontrar patrones de búsqueda.

# [¡VAMOS A ELLO!](https://regex101.com/)

In [6]:
import re

text_to_search = '''
abcdefghijklmnopqurtuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ
1234567890
Ha HaHa ?Ha
MetaCharacters (Need to be escaped):
. ^ $ * + ? { } [ ] \ | ( )
alberto*com
alberto.com
albertoocom
321-555-4321
123.555.1234
123*555*1234
800-555-1234
900-555-1234
Mr. Scha2fer
Mr Smith
Ms Davis
Mrs. Robinson
Mr. T
Mr. ()

cat
mat
pat
bat
tat
at
'''


## Utilizamos las raw_strings para obtener la literalidad del texto:

### `print(r'\tTabulador')`

In [11]:
print("Tabulador sin raw string: \tTabulador")
print(r"Tabulador con raw string: \tTabulador")

Tabulador sin raw string: 	Tabulador
Tabulador con raw string: \tTabulador


### Buscamos el patrón `abc` en el texto

Para ello utilizamos:
- `re.compile()`: para introducir el patrón que queremos buscar
- La función `finditer()`: para buscar el patrón en nuestro texto
- Iteramos sobre la búsqueda

In [12]:
mi_string = "Hola mundo"
mi_string[0]

'H'

In [13]:
pattern = re.compile(r'abc')
matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

# el span es el índice de inicio y final de la coincidencia.
# gracias al span, podemos utilizar las técnicas de string slicing
# en python para localizarlo

# print(text_to_search[1:4])

<re.Match object; span=(1, 4), match='abc'>


In [14]:
print(text_to_search[1:4])

abc


### Hay que tener en cuenta que cuando específicamos el pattern, se busca la literalidad de ese patrón.
Por ejemplo, si queremos buscar las letras en distinto orden...

In [15]:
new_pattern = re.compile(r'cba')
new_matches = new_pattern.finditer(text_to_search)

for match in new_matches:
    print(match) # no se muestra nada por pantalla 

for match in new_matches:
    print(match)

## Metacaracteres
Son aquellos caracteres que no son alfanuméricos:
- Signos de puntuación, exclamación y admiración

Si queremos obtenerlos, tenemos que "escaparlos"

In [51]:
# Como veis, aquí se muestran prácticamente todos los caracteres.
pattern = re.compile(r'.')
matches = pattern.finditer(text_to_search)

for match in matches:
    print(match) 


<re.Match object; span=(1, 2), match='a'>
<re.Match object; span=(2, 3), match='b'>
<re.Match object; span=(3, 4), match='c'>
<re.Match object; span=(4, 5), match='d'>
<re.Match object; span=(5, 6), match='e'>
<re.Match object; span=(6, 7), match='f'>
<re.Match object; span=(7, 8), match='g'>
<re.Match object; span=(8, 9), match='h'>
<re.Match object; span=(9, 10), match='i'>
<re.Match object; span=(10, 11), match='j'>
<re.Match object; span=(11, 12), match='k'>
<re.Match object; span=(12, 13), match='l'>
<re.Match object; span=(13, 14), match='m'>
<re.Match object; span=(14, 15), match='n'>
<re.Match object; span=(15, 16), match='o'>
<re.Match object; span=(16, 17), match='p'>
<re.Match object; span=(17, 18), match='q'>
<re.Match object; span=(18, 19), match='u'>
<re.Match object; span=(19, 20), match='r'>
<re.Match object; span=(20, 21), match='t'>
<re.Match object; span=(21, 22), match='u'>
<re.Match object; span=(22, 23), match='v'>
<re.Match object; span=(23, 24), match='w'>
<re.M

In [17]:
# [a-zA-Z0-9_.+-]   +@
# pattern = re.compile(r'.*?(?=o)o')

#### Para escaparlos, tienen que ir precedidos de la barra invertida(`\`)

In [18]:
pattern = re.compile(r'\.')
matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(115, 116), match='.'>
<re.Match object; span=(162, 163), match='.'>
<re.Match object; span=(195, 196), match='.'>
<re.Match object; span=(199, 200), match='.'>
<re.Match object; span=(246, 247), match='.'>
<re.Match object; span=(278, 279), match='.'>
<re.Match object; span=(291, 292), match='.'>
<re.Match object; span=(297, 298), match='.'>


Para buscar una página web:

In [19]:
pattern = re.compile(r'alberto.com')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(143, 154), match='alberto*com'>
<re.Match object; span=(155, 166), match='alberto.com'>
<re.Match object; span=(167, 178), match='albertoocom'>


Lo realmente interesante de regex no es encontrar simplemente una página web o una frase concreta, sino que nos ayuda a encontrar una serie de patrones en los textos.

En este documento podemos ver las principales expresiones regulares para encontrar texto: `snippets.txt`

\w = letras y números
\W = lo contrario

In [82]:
pattern = re.compile(r'\w')

matches = pattern.finditer(text_to_search)


for match in matches:
    print(match)

<re.Match object; span=(1, 2), match='a'>
<re.Match object; span=(2, 3), match='b'>
<re.Match object; span=(3, 4), match='c'>
<re.Match object; span=(4, 5), match='d'>
<re.Match object; span=(5, 6), match='e'>
<re.Match object; span=(6, 7), match='f'>
<re.Match object; span=(7, 8), match='g'>
<re.Match object; span=(8, 9), match='h'>
<re.Match object; span=(9, 10), match='i'>
<re.Match object; span=(10, 11), match='j'>
<re.Match object; span=(11, 12), match='k'>
<re.Match object; span=(12, 13), match='l'>
<re.Match object; span=(13, 14), match='m'>
<re.Match object; span=(14, 15), match='n'>
<re.Match object; span=(15, 16), match='o'>
<re.Match object; span=(16, 17), match='p'>
<re.Match object; span=(17, 18), match='q'>
<re.Match object; span=(18, 19), match='u'>
<re.Match object; span=(19, 20), match='r'>
<re.Match object; span=(20, 21), match='t'>
<re.Match object; span=(21, 22), match='u'>
<re.Match object; span=(22, 23), match='v'>
<re.Match object; span=(23, 24), match='w'>
<re.M

## Anclas

Las anclas no buscan caracteres en concreto, pero delimitan nuestra búsqueda.

Word Boundaries `\b`: está compuesto por los espacios, tabuladores, nuevas líneas y caracteres no alfanuméricos.

In [21]:
#Ha HaHa ?Ha

In [51]:
pattern = re.compile(r'\b')

matches = pattern.finditer(text_to_search)


for match in matches:
    print(match)


<re.Match object; span=(1, 1), match=''>
<re.Match object; span=(27, 27), match=''>
<re.Match object; span=(28, 28), match=''>
<re.Match object; span=(54, 54), match=''>
<re.Match object; span=(55, 55), match=''>
<re.Match object; span=(65, 65), match=''>
<re.Match object; span=(66, 66), match=''>
<re.Match object; span=(68, 68), match=''>
<re.Match object; span=(69, 69), match=''>
<re.Match object; span=(73, 73), match=''>
<re.Match object; span=(75, 75), match=''>
<re.Match object; span=(77, 77), match=''>
<re.Match object; span=(78, 78), match=''>
<re.Match object; span=(92, 92), match=''>
<re.Match object; span=(94, 94), match=''>
<re.Match object; span=(98, 98), match=''>
<re.Match object; span=(99, 99), match=''>
<re.Match object; span=(101, 101), match=''>
<re.Match object; span=(102, 102), match=''>
<re.Match object; span=(104, 104), match=''>
<re.Match object; span=(105, 105), match=''>
<re.Match object; span=(112, 112), match=''>
<re.Match object; span=(143, 143), match=''>
<

In [22]:
pattern = re.compile(r'\bHa')

matches = pattern.finditer(text_to_search)


for match in matches:
    print(match)


<re.Match object; span=(66, 68), match='Ha'>
<re.Match object; span=(69, 71), match='Ha'>
<re.Match object; span=(75, 77), match='Ha'>


No word boundaries `\B`: lo contrario

Muestra el último Ha, porque delante no tiene los boundaries

In [23]:
pattern = re.compile(r'\BHa')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(71, 73), match='Ha'>


### "?", "+", "*"

* "?" = 0 o 1
* "*" = 0 o +
* "+" = 1 o +

In [146]:
palabra = 'Hola'

In [147]:
pattern = re.compile(r"Hola.?") # 0 o 1. LO LEE
matches = pattern.finditer(palabra)
for match in matches:
    print(match)

<re.Match object; span=(0, 4), match='Hola'>


In [144]:
pattern = re.compile(r"Hola.*") # 0 o más. LO LEE
matches = pattern.finditer(palabra)
for match in matches:
    print(match)

<re.Match object; span=(0, 4), match='Hola'>


In [145]:
pattern = re.compile(r"Hola.+") # 1 o más. NO LO LEE
matches = pattern.finditer(palabra)
for match in matches:
    print(match)

### `^` Busca solo el principio del string

In [24]:
sentence = 'Start a sentence and then bring it to an end'

In [25]:
pattern = re.compile(r"^Start")
matches = pattern.finditer(sentence)
for match in matches:
    print(match)

<re.Match object; span=(0, 5), match='Start'>


### `$` Solo busca el final del string

In [26]:
pattern = re.compile(r"end$")
matches = pattern.finditer(sentence)
for match in matches:
    print(match)


<re.Match object; span=(41, 44), match='end'>


In [27]:
pattern = re.compile(r"a$")
matches = pattern.finditer(sentence)
for match in matches:
    print(match)



## TIME FOR ACTION

A continuación, vamos a tratar de obtener los números de teléfono.

Como podemos ver en el texto, el número de teléfono sigue la misma estructura: 
- 3 números
- signo de puntuación 
- 3 números
- signo de puntuación
- 4 números

In [28]:
#escribe tu código
pattern = re.compile(r"\d\d\d.\d\d\d.\d\d\d\d")
matches = pattern.finditer(text_to_search)
for match in matches:
    print(match)

<re.Match object; span=(179, 191), match='321-555-4321'>
<re.Match object; span=(192, 204), match='123.555.1234'>
<re.Match object; span=(205, 217), match='123*555*1234'>
<re.Match object; span=(218, 230), match='800-555-1234'>
<re.Match object; span=(231, 243), match='900-555-1234'>


### Abrimos `fake_info.txt` para empezar a trabajar

In [29]:
with open("data/fake_info.txt", "r") as f:
    contents = f.read()

Como hemos visto, el código de arriba nos ha permitido encontrar la secuencia de números con cualquier signo de puntuación, pero pongamos que queremos obtener solamente los números de teléfono separados por un punto o un guion

In [54]:
#escribe tu código
pattern = re.compile(r"\d\d\d[.-]\d\d\d[-.]\d\d\d\d")

matches = pattern.finditer(text_to_search)
for match in matches:
    print(match)


<re.Match object; span=(179, 191), match='321-555-4321'>
<re.Match object; span=(192, 204), match='123.555.1234'>
<re.Match object; span=(218, 230), match='800-555-1234'>
<re.Match object; span=(231, 243), match='900-555-1234'>


In [31]:
#escribe tu código

pattern = re.compile(r"\d\d\d[*.-]\d\d\d[*.-]\d\d\d\d") 

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(179, 191), match='321-555-4321'>
<re.Match object; span=(192, 204), match='123.555.1234'>
<re.Match object; span=(205, 217), match='123*555*1234'>
<re.Match object; span=(218, 230), match='800-555-1234'>
<re.Match object; span=(231, 243), match='900-555-1234'>


## Character sets
Sirven para concretar nuestra búsqueda.

#### ¡CUIDADO! En ocasiones suele haber confusión con los character sets, porque no cogen más de un elemento.

In [42]:
# Para encontrar todos los números que empiecen por centenas:
# 800 - 900
pattern = re.compile(r"[89]00[-.]\d\d\d[-.]\d\d\d\d")

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)



<re.Match object; span=(218, 230), match='800-555-1234'>
<re.Match object; span=(231, 243), match='900-555-1234'>


## Los guiones no solamente sirven para encontrar ese caracter especial, sino que además nos permiten establecer rangos

Por ejemplo, para mostrar los números entre el 1 y el 5 de todo el texto

In [44]:
pattern = re.compile(r"[1-5]")

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)


<re.Match object; span=(55, 56), match='1'>
<re.Match object; span=(56, 57), match='2'>
<re.Match object; span=(57, 58), match='3'>
<re.Match object; span=(58, 59), match='4'>
<re.Match object; span=(59, 60), match='5'>
<re.Match object; span=(179, 180), match='3'>
<re.Match object; span=(180, 181), match='2'>
<re.Match object; span=(181, 182), match='1'>
<re.Match object; span=(183, 184), match='5'>
<re.Match object; span=(184, 185), match='5'>
<re.Match object; span=(185, 186), match='5'>
<re.Match object; span=(187, 188), match='4'>
<re.Match object; span=(188, 189), match='3'>
<re.Match object; span=(189, 190), match='2'>
<re.Match object; span=(190, 191), match='1'>
<re.Match object; span=(192, 193), match='1'>
<re.Match object; span=(193, 194), match='2'>
<re.Match object; span=(194, 195), match='3'>
<re.Match object; span=(196, 197), match='5'>
<re.Match object; span=(197, 198), match='5'>
<re.Match object; span=(198, 199), match='5'>
<re.Match object; span=(200, 201), match='1'

### Para Mostrar letras mayúsculas y minúsculas, basta con poner los rangos juntos.


In [42]:
pattern = re.compile(r"[a-zA-Z]")

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(1, 2), match='a'>
<re.Match object; span=(2, 3), match='b'>
<re.Match object; span=(3, 4), match='c'>
<re.Match object; span=(4, 5), match='d'>
<re.Match object; span=(5, 6), match='e'>
<re.Match object; span=(6, 7), match='f'>
<re.Match object; span=(7, 8), match='g'>
<re.Match object; span=(8, 9), match='h'>
<re.Match object; span=(9, 10), match='i'>
<re.Match object; span=(10, 11), match='j'>
<re.Match object; span=(11, 12), match='k'>
<re.Match object; span=(12, 13), match='l'>
<re.Match object; span=(13, 14), match='m'>
<re.Match object; span=(14, 15), match='n'>
<re.Match object; span=(15, 16), match='o'>
<re.Match object; span=(16, 17), match='p'>
<re.Match object; span=(17, 18), match='q'>
<re.Match object; span=(18, 19), match='u'>
<re.Match object; span=(19, 20), match='r'>
<re.Match object; span=(20, 21), match='t'>
<re.Match object; span=(21, 22), match='u'>
<re.Match object; span=(22, 23), match='v'>
<re.Match object; span=(23, 24), match='w'>
<re.M

## Importante 
Al poner el símbolo `^` dentro de los corchetes `[]`, significa que **NO** queremos lo que está dentro de él.

En este caso, al ejecutar, se muestran solo los caracteres numéricos, los espacios en blanco, los saltos de línea y los caracteres numéricos.

**Se niega el set**

In [45]:
pattern = re.compile(r"[^a-zA-Z]")

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(0, 1), match='\n'>
<re.Match object; span=(27, 28), match='\n'>
<re.Match object; span=(54, 55), match='\n'>
<re.Match object; span=(55, 56), match='1'>
<re.Match object; span=(56, 57), match='2'>
<re.Match object; span=(57, 58), match='3'>
<re.Match object; span=(58, 59), match='4'>
<re.Match object; span=(59, 60), match='5'>
<re.Match object; span=(60, 61), match='6'>
<re.Match object; span=(61, 62), match='7'>
<re.Match object; span=(62, 63), match='8'>
<re.Match object; span=(63, 64), match='9'>
<re.Match object; span=(64, 65), match='0'>
<re.Match object; span=(65, 66), match='\n'>
<re.Match object; span=(68, 69), match=' '>
<re.Match object; span=(73, 74), match=' '>
<re.Match object; span=(74, 75), match='?'>
<re.Match object; span=(77, 78), match='\n'>
<re.Match object; span=(92, 93), match=' '>
<re.Match object; span=(93, 94), match='('>
<re.Match object; span=(98, 99), match=' '>
<re.Match object; span=(101, 102), match=' '>
<re.Match object; span=(104

## Búsquedas de patrones en los textos 
Pongamos que queremos recoger palabras terminadas en at, excepto **bat**
Especificamos que no queremos los valores que empiecen por b

In [46]:
pattern = re.compile(r"[^bat]at")

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(303, 306), match='cat'>
<re.Match object; span=(307, 310), match='mat'>
<re.Match object; span=(311, 314), match='pat'>
<re.Match object; span=(322, 325), match='\nat'>


## Rangos `{}`
Como vemos en snippets.txt, las llaves nos permiten establecer rangos. 

Volviendo al ejemplo de los números de teléfono, otra forma de obtener los patrones

In [45]:
pattern = re.compile(r"\d{3}.\d{3}.\d{4}") #(\d{3}[.-]){2}\d{4}

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)


<re.Match object; span=(179, 191), match='321-555-4321'>
<re.Match object; span=(192, 204), match='123.555.1234'>
<re.Match object; span=(205, 217), match='123*555*1234'>
<re.Match object; span=(218, 230), match='800-555-1234'>
<re.Match object; span=(231, 243), match='900-555-1234'>


In [52]:
pattern = re.compile(r"\d{2,4}.\d{2,4}.\d{2,4}")

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(55, 65), match='1234567890'>
<re.Match object; span=(179, 191), match='321-555-4321'>
<re.Match object; span=(192, 204), match='123.555.1234'>
<re.Match object; span=(205, 217), match='123*555*1234'>
<re.Match object; span=(218, 230), match='800-555-1234'>
<re.Match object; span=(231, 243), match='900-555-1234'>


In [48]:
## Este ejemplo nos vale porque sabemos exactamente el patrón que se reproduce.
pattern1 = re.compile(r"Mr\.")

matches = pattern1.finditer(text_to_search)

for match in matches:
    print(match)


# Aquí no nos está dando lo que queremos. Solo nos da la secuencia Mr.

<re.Match object; span=(244, 247), match='Mr.'>
<re.Match object; span=(289, 292), match='Mr.'>
<re.Match object; span=(295, 298), match='Mr.'>


## Operador `?` 
Nos sirve para añadir 0 o 1 a nuestra selección. Así se va a contemplar lo que hay un espacio después

In [71]:
# Aquí sí aparecen todos los Mr. independientemente de que tengan punto o no

pattern2 = re.compile(r"Mr\.?")

matches = pattern2.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(244, 247), match='Mr.'>
<re.Match object; span=(257, 259), match='Mr'>
<re.Match object; span=(275, 277), match='Mr'>
<re.Match object; span=(289, 292), match='Mr.'>
<re.Match object; span=(295, 298), match='Mr.'>


In [137]:
pattern3 = re.compile(r"Mr\.?\s\w+") # El operador + muestra si hay 1 elemento o mÃƒÂ¡s a la derecha de la selecciÃƒÂ³n

matches = pattern3.finditer(text_to_search)

for match in matches:
    print(match)
# Por eso no se imprime Mr. 

<re.Match object; span=(244, 256), match='Mr. Scha2fer'>
<re.Match object; span=(257, 265), match='Mr Smith'>
<re.Match object; span=(289, 294), match='Mr. T'>


## Ahora sí que sí
para mostrarlo todo , utilizaremos el cuantificador `*`

In [73]:
pattern4 = re.compile(r"Mr\.?\s\w*")

matches = pattern4.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(244, 256), match='Mr. Scha2fer'>
<re.Match object; span=(257, 265), match='Mr Smith'>
<re.Match object; span=(289, 294), match='Mr. T'>
<re.Match object; span=(295, 299), match='Mr. '>


## Grouping `()`
Siguiendo con el ejemplo, para ver todos los Mr, Ms y Mrs, podemos utilizar el operador | (or)

In [39]:
pattern4 = re.compile(r"(Mr|Ms|Mrs)\.?\s\w*")

matches = pattern4.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(244, 256), match='Mr. Scha2fer'>
<re.Match object; span=(257, 265), match='Mr Smith'>
<re.Match object; span=(266, 274), match='Ms Davis'>
<re.Match object; span=(275, 288), match='Mrs. Robinson'>
<re.Match object; span=(289, 294), match='Mr. T'>
<re.Match object; span=(295, 299), match='Mr. '>


## re.sub()

In [20]:
texto = "alberto.com"

print("1. ",re.sub(r"alberto","ALBERTO",texto))
print("2. ",re.sub(r"alberto",texto.split('r')[0],texto)) #cambio alberto por albe

lista_textos = ['albertoocom', 'alberto*com', 'alberto.com']
for i in lista_textos:
    print(re.sub(r"alberto",'ALBERTO', i))
    print(re.sub(r"alberto",i.split('r')[0],i))

1.  ALBERTO.com
2.  albe.com
ALBERTOocom
albeocom
ALBERTO*com
albe*com
ALBERTO.com
albe.com


In [77]:
[re.sub(r"alberto",'ALBERTO',i) for i in lista_textos]

['ALBERTOocom', 'ALBERTO*com', 'ALBERTO.com']

### Prueba con WebScraping

In [3]:
from bs4 import BeautifulSoup as bs
import requests
import time

In [4]:
url = 'https://boardgamegeekstore.com/'
headers = {"User-Agent":"Mozilla/5.0"}
response = requests.get(url, headers=headers)
soup = bs(response.text, 'lxml')

In [9]:
info_lista = soup.find_all('div', class_='product-card__info')
for i in info_lista:
    print(re.compile(r'(\$\d*\.?\d*)').findall(str(i)))

['$5']
['$3']
['$5']
['$6']
['$1.25']
['$1.79']
['$3.80']
['$18']
['$26']
['$24']
['$28']
['$35']
['$6']
['$25']
['$25']
['$32']
['$13']
['$32']
['$32']
['$35']
['$26']
['$24']
['$28']
['$28']
['$30']
['$10']
['$8']
['$8']
['$19.99']
['$25']
['$20']
['$5']
['$15']
['$15']
[]
['$49.99']
[]
['$14.99']
['$17.99']
[]
['$64.99']
['$39.99']
['$19.99']
['$19.99']
['$44.99']
['$32.99']
['$9.99']
['$59.99']
['$79.99']
['$22.99']
['$34.99']
[]
['$9.99']
[]
['$29.99']
['$24.99']
['$55']
[]
['$24']
['$40']
['$5']
['$3']
['$5']
['$3']
['$3']
['$3']
['$3']
['$5']
