# REGEX
## (Regular Expressions)
![](img/regex_cover.png)

Los datos no siempre están organizados, formateados ni estructurados de forma homogénea.

Una parte importante del trabajo de un _Data Scientist_ consiste en limpiar los datos **(Data Cleaning)**

Para ello, existen técnicas como **Regex**

Las expresiones regulares están conformadas por secuencias de caracteres que nos permiten encontrar patrones de búsqueda.

# [¡VAMOS A ELLO!](https://regex101.com/)

In [60]:
import re


  text_to_search = '''


# Ejemplo

In [4]:
mi_email = "jonatan.garcia@thebridgeschool.es"


['jonatan.garcia', 'thebridgeschool.es']

In [None]:
# Separar el dominio
mi_email.split("@")

In [6]:
# Separar el dominio del "país"
email = mi_email.split(".")
email[len(email)-1]

'es'

In [8]:
# ¿Qué sucede con análisis más complejos?
# Por ejemplo, buscar el valor númerico en esta cadena
cadena = "El precio del pretróleo alcanzó los 100$ por barril"


In [20]:
#https://docs.python.org/es/3/library/re.html
# https://cheatography.com/mutanclan/cheat-sheets/python-regular-expression-regex/
import re
pattern = re.compile(r'[0-9]+')

matches = pattern.finditer(cadena)
for match in matches:
    print(match)
    print(cadena[match.start():match.end()])


<re.Match object; span=(36, 39), match='100'>
100


## Utilizamos las raw_strings para obtener la literalidad del texto:

### `print(r'\tTabulador')`

In [2]:
print('Tabulador sin raw string: \tTabulador')
print(r'Tabulador con raw string: \tTabulador')

Tabulador sin raw string: 	Tabulador
Tabulador con raw string: \tTabulador


### Buscamos el patrón `abc` en el texto

Para ello utilizamos:
- `re.compile()`: para introducir el patrón que queremos buscar
- La función `finditer()`: para buscar el patrón en nuestro texto
- Iteramos sobre la búsqueda

In [21]:
mi_string = 'Hola mundo'
mi_string[0]

'H'

In [24]:
text_to_search = "Compra el periódico ABC, por favor. "
pattern = re.compile(r'ABC')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)
    # el span es el índice de inicio y final de la coincidencia.
    # gracias al span, podemos utilizar las técnicas de string slicing
    # en python para localizarlo
    print(text_to_search[match.start():match.end()])





<re.Match object; span=(20, 23), match='ABC'>
ABC


In [25]:
text_to_search = "Compra el periódico ABC, por favor. ¿De verdad quieres comprar el ABC?"
pattern = re.compile(r'ABC')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)
    # el span es el índice de inicio y final de la coincidencia.
    # gracias al span, podemos utilizar las técnicas de string slicing
    # en python para localizarlo
    print(text_to_search[match.start():match.end()])


<re.Match object; span=(20, 23), match='ABC'>
ABC
<re.Match object; span=(66, 69), match='ABC'>
ABC


### Hay que tener en cuenta que cuando específicamos el pattern, se busca la literalidad de ese patrón.
Por ejemplo, si queremos buscar las letras en distinto orden...

In [26]:
text_to_search = "Compra el periódico Abc, por favor. ¿De verdad quieres comprar el abc?"
pattern = re.compile(r'ABC')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)
    # el span es el índice de inicio y final de la coincidencia.
    # gracias al span, podemos utilizar las técnicas de string slicing
    # en python para localizarlo
    print(text_to_search[match.start():match.end()])

## Metacaracteres
Son aquellos caracteres que no son alfanuméricos:
- Signos de puntuación, exclamación y admiración

Si queremos obtenerlos, tenemos que "escaparlos"

In [29]:
# Busca ABC y cualquier otro caracter que venga después
text_to_search = "Compra el periódico ABC, por favor. ¿De verdad quieres comprar el ABC?"
pattern = re.compile(r'ABC.')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)
    # el span es el índice de inicio y final de la coincidencia.
    # gracias al span, podemos utilizar las técnicas de string slicing
    # en python para localizarlo
    print(text_to_search[match.start():match.end()])

<re.Match object; span=(20, 24), match='ABC,'>
ABC,
<re.Match object; span=(66, 70), match='ABC?'>
ABC?


In [30]:
# Busca ABC y cualquier otro caracter que venga después
text_to_search = "Compra el periódico ABC, por favor. ¿De verdad quieres comprar el ABC? En serio, compra el ABC"
pattern = re.compile(r'ABC.')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)
    # el span es el índice de inicio y final de la coincidencia.
    # gracias al span, podemos utilizar las técnicas de string slicing
    # en python para localizarlo
    print(text_to_search[match.start():match.end()])

<re.Match object; span=(20, 24), match='ABC,'>
ABC,
<re.Match object; span=(66, 70), match='ABC?'>
ABC?


#### Para escaparlos, tienen que ir precedidos de la barra invertida(`\`)

In [31]:
# Busca ABC y cualquier otro caracter que venga después
text_to_search = "Compra el periódico ABC, por favor. ¿De verdad quieres comprar el ABC? En serio, compra el ABC."
pattern = re.compile(r'ABC\.')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)
    # el span es el índice de inicio y final de la coincidencia.
    # gracias al span, podemos utilizar las técnicas de string slicing
    # en python para localizarlo
    print(text_to_search[match.start():match.end()])

<re.Match object; span=(91, 95), match='ABC.'>
ABC.


Para buscar una página web:

In [36]:
# Te puede jugar malas pasadas!!
text_to_search = "Disponible en la web abc.es, pero escribenos a abc@españa.es para más información"
pattern = re.compile(r'abc.es')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)
    print(text_to_search[match.start():match.end()])

<re.Match object; span=(21, 27), match='abc.es'>
abc.es
<re.Match object; span=(47, 53), match='abc@es'>
abc@es


### `^` Busca solo el principio del string

In [55]:
sentence = 'Start a sentence and then bring it to an end'

In [56]:
pattern = re.compile(r'^Start')

matches = pattern.finditer(sentence)

for match in matches:
    print(match)
    print(sentence[match.start():match.end()])

<re.Match object; span=(0, 5), match='Start'>
Start


In [53]:
sentence = ' Start a sentence and then bring it to an end'
pattern = re.compile(r'^Start')

matches = pattern.finditer(sentence)

for match in matches:
    print(match)
    print(sentence[match.start():match.end()])

### `$` Solo busca el final del string

In [52]:
sentence = 'Start a sentence and then bring it to an end'
pattern = re.compile(r'end$')

matches = pattern.finditer(sentence)

for match in matches:
    print(match)
    print(sentence[match.start():match.end()])

<re.Match object; span=(41, 44), match='end'>
end


In [58]:
sentence = 'Start a sentence and then bring it to an end.'
pattern = re.compile(r'end$')

matches = pattern.finditer(sentence)

for match in matches:
    print(match)
    print(sentence[match.start():match.end()])

Word Boundaries `\b`: está compuesto por los espacios, tabuladores, nuevas líneas y caracteres no alfanuméricos.

In [45]:
text_to_search = "KameKame-ha"
pattern = re.compile(r'\bKame')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)
    print(text_to_search[match.start():match.end()])

<re.Match object; span=(0, 4), match='Kame'>
Kame


No word boundaries `\B`: lo contrario

Muestra el último Ha, porque delante no tiene los boundaries

In [43]:
text_to_search = "KameKame-ha"
pattern = re.compile(r'\BKame')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)
    print(text_to_search[match.start():match.end()])

<re.Match object; span=(4, 8), match='Kame'>
Kame


## TIME FOR ACTION

A continuación, vamos a tratar de obtener los números de teléfono.

Como podemos ver en el texto, el número de teléfono sigue la misma estructura: 
- 3 números
- signo de puntuación 
- 3 números
- signo de puntuación
- 4 números

In [61]:

text_to_search = '''
abcdefghijklmnopqurtuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ
1234567890
Ha HaHa ?Ha
MetaCharacters (Need to be escaped):
. ^ $ * + ? { } [ ] \ | ( )
miguelnievas*com
miguelnievas.com
miguelnievasocom
321-555-4321
123.555.1234
123*555*1234
800-555-1234
900-555-1234
Mr. Scha2fer
Mr Smith
Ms Davis
Mrs. Robinson
Mr. T
Mr. ()

cat
mat
pat
bat 
at
'''


  text_to_search = '''


In [62]:
#escribe tu código
pattern = re.compile(r'\d\d\d.\d\d\d.\d\d\d\d')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(194, 206), match='321-555-4321'>
<re.Match object; span=(207, 219), match='123.555.1234'>
<re.Match object; span=(220, 232), match='123*555*1234'>
<re.Match object; span=(233, 245), match='800-555-1234'>
<re.Match object; span=(246, 258), match='900-555-1234'>


### Abrimos `fake_info.txt` para empezar a trabajar

In [63]:
with open('data/fake_info.txt', 'r') as f:
    contents = f.read()

Como hemos visto, el código de arriba nos ha permitido encontrar la secuencia de números con cualquier signo de puntuación, pero pongamos que queremos obtener solamente los números de teléfono separados por un punto o un guion

In [64]:
#escribe tu código
pattern = re.compile(r'\d\d\d[-\.]\d\d\d[-\.]\d\d\d\d')

matches = pattern.finditer(contents)

for match in matches:
    print(match)

<re.Match object; span=(12, 24), match='615-555-7164'>
<re.Match object; span=(102, 114), match='800-555-5669'>
<re.Match object; span=(191, 203), match='560-555-5153'>
<re.Match object; span=(281, 293), match='900-555-9340'>
<re.Match object; span=(378, 390), match='714-555-7405'>
<re.Match object; span=(467, 479), match='800-555-6771'>
<re.Match object; span=(557, 569), match='783-555-4799'>
<re.Match object; span=(647, 659), match='516-555-4615'>
<re.Match object; span=(740, 752), match='127-555-1867'>
<re.Match object; span=(831, 843), match='608-555-4938'>
<re.Match object; span=(917, 929), match='568-555-6051'>
<re.Match object; span=(1005, 1017), match='292-555-1875'>
<re.Match object; span=(1093, 1105), match='900-555-3205'>
<re.Match object; span=(1182, 1194), match='614-555-1166'>
<re.Match object; span=(1273, 1285), match='530-555-2676'>
<re.Match object; span=(1359, 1371), match='470-555-2750'>
<re.Match object; span=(1443, 1455), match='800-555-6089'>
<re.Match object; spa

## Character sets
Sirven para concretar nuestra búsqueda.


In [66]:
# Para encontrar todos los números que empiecen por centenas:
# 800 - 900

pattern = re.compile(r'[89]00[-.]\d\d\d[-.]\d\d\d\d')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(233, 245), match='800-555-1234'>
<re.Match object; span=(246, 258), match='900-555-1234'>


## Los guiones no solamente sirven para encontrar ese caracter especial, sino que además nos permiten establecer rangos

Por ejemplo, para mostrar los números entre el 1 y el 5 de todo el texto

In [67]:
text = "El 1 y el 3 si, el 6 no. El 4 también"
pattern = re.compile(r'[1-5]')

matches = pattern.finditer(text)

for match in matches:
    print(match)

<re.Match object; span=(3, 4), match='1'>
<re.Match object; span=(10, 11), match='3'>
<re.Match object; span=(28, 29), match='4'>


### Para Mostrar letras mayúsculas y minúsculas, basta con poner los rangos juntos.


In [70]:
text = "El 1 y el 3 si, el 6 no. El 4 también"
pattern = re.compile(r'[a-zA-Z]')

matches = pattern.finditer(text)

for match in matches:
    print(match)

<re.Match object; span=(0, 1), match='E'>
<re.Match object; span=(1, 2), match='l'>
<re.Match object; span=(5, 6), match='y'>
<re.Match object; span=(7, 8), match='e'>
<re.Match object; span=(8, 9), match='l'>
<re.Match object; span=(12, 13), match='s'>
<re.Match object; span=(13, 14), match='i'>
<re.Match object; span=(16, 17), match='e'>
<re.Match object; span=(17, 18), match='l'>
<re.Match object; span=(21, 22), match='n'>
<re.Match object; span=(22, 23), match='o'>
<re.Match object; span=(25, 26), match='E'>
<re.Match object; span=(26, 27), match='l'>
<re.Match object; span=(30, 31), match='t'>
<re.Match object; span=(31, 32), match='a'>
<re.Match object; span=(32, 33), match='m'>
<re.Match object; span=(33, 34), match='b'>
<re.Match object; span=(34, 35), match='i'>
<re.Match object; span=(36, 37), match='n'>


## Importante 
Al poner el símbolo `^` dentro de los corchetes `[]`, significa que **NO** queremos lo que está dentro de él.

En este caso, al ejecutar, se muestran solo los caracteres numéricos, los espacios en blanco, los saltos de línea y los caracteres numéricos.

**Se niega el set**

In [72]:
text = "El 1 y el 3 si, el 6 no. El 4 también"
pattern = re.compile(r'[^a-zA-Z]')

matches = pattern.finditer(text)

for match in matches:
    print(match)

<re.Match object; span=(2, 3), match=' '>
<re.Match object; span=(3, 4), match='1'>
<re.Match object; span=(4, 5), match=' '>
<re.Match object; span=(6, 7), match=' '>
<re.Match object; span=(9, 10), match=' '>
<re.Match object; span=(10, 11), match='3'>
<re.Match object; span=(11, 12), match=' '>
<re.Match object; span=(14, 15), match=','>
<re.Match object; span=(15, 16), match=' '>
<re.Match object; span=(18, 19), match=' '>
<re.Match object; span=(19, 20), match='6'>
<re.Match object; span=(20, 21), match=' '>
<re.Match object; span=(23, 24), match='.'>
<re.Match object; span=(24, 25), match=' '>
<re.Match object; span=(27, 28), match=' '>
<re.Match object; span=(28, 29), match='4'>
<re.Match object; span=(29, 30), match=' '>
<re.Match object; span=(35, 36), match='é'>


## Búsquedas de patrones en los textos 
Pongamos que queremos recoger palabras terminadas en at, excepto **bat**
Especificamos que no queremos los valores que empiecen por b

In [2]:
texto = "Cataluña matojo batidora"
pattern = re.compile(r'[^b]at')

matches = pattern.finditer(texto)

for match in matches:
    print(match)

<re.Match object; span=(0, 3), match='Cat'>
<re.Match object; span=(9, 12), match='mat'>


## Rangos `{}`
Como vemos en snippets.txt, las llaves nos permiten establecer rangos. 

Volviendo al ejemplo de los números de teléfono, otra forma de obtener los patrones

In [4]:
texto = "900-800-600 900*800*600 900800600"
pattern = re.compile(r'\d{3}.\d{3}.\d{3}')

matches = pattern.finditer(texto)

for match in matches:
    print(match)

<re.Match object; span=(0, 11), match='900-800-600'>
<re.Match object; span=(12, 23), match='900*800*600'>


In [11]:
texto = "Tiene 8 años, 39 años. Son 1000 euros"
pattern = re.compile(r'\d{1,2} años')

matches = pattern.finditer(texto)

for match in matches:
    print(match)

<re.Match object; span=(6, 12), match='8 años'>
<re.Match object; span=(14, 21), match='39 años'>


## Operador `?` 
Nos sirve para añadir 0 o 1 a nuestra selección. Así se va a contemplar lo que hay un espacio después

In [12]:
# Aquí sí aparecen todos los Mr. independientemente de que tengan punto o no
texto = "Le esperaba Mr. Bond. Yo no soy Mr Bond"
pattern2 = re.compile(r'Mr\.?')

matches = pattern2.finditer(texto)

for match in matches:
    print(match)

<re.Match object; span=(12, 15), match='Mr.'>
<re.Match object; span=(32, 34), match='Mr'>


In [13]:
# Aquí sí aparecen todos los Mr. independientemente de que tengan punto o no
texto = "El Dr. Cavadas y la Dra. Goldin"
pattern2 = re.compile(r'Dra?\.')

matches = pattern2.finditer(texto)

for match in matches:
    print(match)

<re.Match object; span=(3, 6), match='Dr.'>
<re.Match object; span=(20, 24), match='Dra.'>


In [26]:
# Aquí sí aparecen todos los Mr. independientemente de que tengan punto o no
texto = '''El Dr. Cavadas y la Dra. Goldin y otro Dr. 
        Todos doctores'''
pattern3 = re.compile(r'Dra?\.\s\w+') # El operador + muestra si hay 1 elemento o más a la derecha de la selección

matches = pattern3.finditer(texto)

for match in matches:
    print(match)

# Por eso no se imprime Mr. T

<re.Match object; span=(3, 14), match='Dr. Cavadas'>
<re.Match object; span=(20, 31), match='Dra. Goldin'>


## Ahora sí que sí
para mostrarlo todo , utilizaremos el cuantificador `*`

In [27]:
texto = '''El Dr. Cavadas y la Dra. Goldin y otro Dr. 
        Todos doctores'''
pattern4 = re.compile(r'Dra?\.\s\w*')

matches = pattern4.finditer(texto)

for match in matches:
    print(match)

<re.Match object; span=(3, 14), match='Dr. Cavadas'>
<re.Match object; span=(20, 31), match='Dra. Goldin'>
<re.Match object; span=(39, 43), match='Dr. '>


## Grouping `()`
Siguiendo con el ejemplo, para ver todos los Mr, Ms y Mrs, podemos utilizar el operador | (or)

In [38]:
text_to_search = '''
Mr. Scha2fer
Mr Smith
Ms Davis
Mrs. Robinson
Mr. T
Mr. ()
'''
pattern4 = re.compile(r'(Mr|Ms|Mrs)\.?\s\w*')

matches = pattern4.finditer(text_to_search)

for match in matches:
    print(match)
print("*"*1000)
pattern5 = re.compile(r'(Mr|Ms|Mrs)\.?\s.*')

matches = pattern5.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(1, 13), match='Mr. Scha2fer'>
<re.Match object; span=(14, 22), match='Mr Smith'>
<re.Match object; span=(23, 31), match='Ms Davis'>
<re.Match object; span=(32, 45), match='Mrs. Robinson'>
<re.Match object; span=(46, 51), match='Mr. T'>
<re.Match object; span=(52, 56), match='Mr. '>
*********************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************