# REGEX
## Expresiones regulares

Los datos no siempre están organizados, formateados ni estructurados de forma homogénea.

Una parte importante del trabajo de un _Data Scientist_ consiste en limpiar los datos **(Data Cleaning)**

Para ello, existen técnicas como **Regex**

Las expresiones regulares están conformadas por secuencias de caracteres que nos permiten encontrar patrones de búsqueda.

### [¡VAMOS A ELLO!](https://regex101.com/)

In [77]:
import re

text_to_search = '''
abcdefghijklmnopqurtuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ
1234567890
Ha HaHa ?Ha
MetaCharacters (Need to be escaped):
. ^ $ * + ? { } [ ] \ | ( )
miguelnievas*com
miguelnievas.com
miguelnievasocom
miguelnievas hola
321--555-4321
123.555.1234
123*555*1234
800-555-1234
900-555-1234
9005551234
900055501234
Mr. Scha2fer
Mr Smith
Ms Davis
Mrs. Robinson
Mr. T
Mr. ()

cat
mat
pat
bat 
at
'''


## Utilizamos las raw_strings para obtener la literalidad del texto:

### `print(r'\tTabulador')`

In [5]:
print('Tabulador sin raw string: \tTabulador')
print(r'Tabulador con raw string: \tTabulador')

Tabulador sin raw string: 	Tabulador
Tabulador con raw string: \tTabulador


### Buscamos el patrón `abc` en el texto

Para ello utilizamos:
- `re.compile()`: para introducir el patrón que queremos buscar
- La función `finditer()`: para buscar el patrón en nuestro texto
- Iteramos sobre la búsqueda

In [6]:
mi_string = 'Hola mundo'
mi_string[0]

'H'

In [13]:
pattern = re.compile(r'abc')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)


# el span es el índice de inicio y final de la coincidencia.
# gracias al span, podemos utilizar las técnicas de string slicing
# en python para localizarlo

# print(text_to_search[1:4])

<re.Match object; span=(1, 4), match='abc'>


### Hay que tener en cuenta que cuando específicamos el pattern, se busca la literalidad de ese patrón.
Por ejemplo, si queremos buscar las letras en distinto orden...

In [11]:
new_pattern = re.compile(r'cba')
new_matches = new_pattern.finditer(text_to_search)

for match in new_matches:
    print(match) # no se muestra nada por pantalla 

## Metacaracteres
Son aquellos caracteres que no son alfanuméricos:
- Signos de puntuación, exclamación y admiración

Si queremos obtenerlos, tenemos que "escaparlos"

In [15]:
# Como veis, aquí se muestran prácticamente todos los caracteres.
pattern = re.compile('.')
matches = pattern.finditer(text_to_search)

for match in matches:
    print(match) 

<re.Match object; span=(1, 2), match='a'>
<re.Match object; span=(2, 3), match='b'>
<re.Match object; span=(3, 4), match='c'>
<re.Match object; span=(4, 5), match='d'>
<re.Match object; span=(5, 6), match='e'>
<re.Match object; span=(6, 7), match='f'>
<re.Match object; span=(7, 8), match='g'>
<re.Match object; span=(8, 9), match='h'>
<re.Match object; span=(9, 10), match='i'>
<re.Match object; span=(10, 11), match='j'>
<re.Match object; span=(11, 12), match='k'>
<re.Match object; span=(12, 13), match='l'>
<re.Match object; span=(13, 14), match='m'>
<re.Match object; span=(14, 15), match='n'>
<re.Match object; span=(15, 16), match='o'>
<re.Match object; span=(16, 17), match='p'>
<re.Match object; span=(17, 18), match='q'>
<re.Match object; span=(18, 19), match='u'>
<re.Match object; span=(19, 20), match='r'>
<re.Match object; span=(20, 21), match='t'>
<re.Match object; span=(21, 22), match='u'>
<re.Match object; span=(22, 23), match='v'>
<re.Match object; span=(23, 24), match='w'>
<re.M

#### Para escaparlos, tienen que ir precedidos de la barra invertida(`\`)

In [17]:
pattern = re.compile('\.')
matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(115, 116), match='.'>
<re.Match object; span=(172, 173), match='.'>
<re.Match object; span=(228, 229), match='.'>
<re.Match object; span=(232, 233), match='.'>
<re.Match object; span=(303, 304), match='.'>
<re.Match object; span=(335, 336), match='.'>
<re.Match object; span=(348, 349), match='.'>
<re.Match object; span=(354, 355), match='.'>


Para buscar una página web:

In [24]:
pattern = re.compile(r'miguelnievas\.com')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(160, 176), match='miguelnievas.com'>


Lo realmente interesante de regex no es encontrar simplemente una página web o una frase concreta, sino que nos ayuda a encontrar una serie de patrones en los textos.

En este documento podemos ver las principales expresiones regulares para encontrar texto: `snippets.txt`

In [37]:
pattern = re.compile(r'\S')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(1, 2), match='a'>
<re.Match object; span=(2, 3), match='b'>
<re.Match object; span=(3, 4), match='c'>
<re.Match object; span=(4, 5), match='d'>
<re.Match object; span=(5, 6), match='e'>
<re.Match object; span=(6, 7), match='f'>
<re.Match object; span=(7, 8), match='g'>
<re.Match object; span=(8, 9), match='h'>
<re.Match object; span=(9, 10), match='i'>
<re.Match object; span=(10, 11), match='j'>
<re.Match object; span=(11, 12), match='k'>
<re.Match object; span=(12, 13), match='l'>
<re.Match object; span=(13, 14), match='m'>
<re.Match object; span=(14, 15), match='n'>
<re.Match object; span=(15, 16), match='o'>
<re.Match object; span=(16, 17), match='p'>
<re.Match object; span=(17, 18), match='q'>
<re.Match object; span=(18, 19), match='u'>
<re.Match object; span=(19, 20), match='r'>
<re.Match object; span=(20, 21), match='t'>
<re.Match object; span=(21, 22), match='u'>
<re.Match object; span=(22, 23), match='v'>
<re.Match object; span=(23, 24), match='w'>
<re.M

## Anclas

Las anclas no buscan caracteres en concreto, pero delimitan nuestra búsqueda.

Word Boundaries `\b`: está compuesto por los espacios, tabuladores, nuevas líneas y caracteres no alfanuméricos.

In [47]:
pattern = re.compile(r'Ha\b')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(66, 68), match='Ha'>
<re.Match object; span=(71, 73), match='Ha'>
<re.Match object; span=(75, 77), match='Ha'>


No word boundaries `\B`: lo contrario

Muestra el último Ha, porque delante no tiene los boundaries

In [48]:
pattern = re.compile(r'\BHa')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(71, 73), match='Ha'>


### `^` Busca solo el principio del string

In [51]:
sentence = 'Start a sentence and then bring it to an end'

In [52]:
pattern = re.compile(r'^Start')

matches = pattern.finditer(sentence)

for match in matches:
    print(match)

<re.Match object; span=(0, 5), match='Start'>


### `$` Solo busca el final del string

In [53]:
pattern = re.compile(r'end$')

matches = pattern.finditer(sentence)

for match in matches:
    print(match)

<re.Match object; span=(41, 44), match='end'>


## TIME FOR ACTION

A continuación, vamos a tratar de obtener los números de teléfono.

Como podemos ver en el texto, el número de teléfono sigue la misma estructura: 
- 3 números
- signo de puntuación 
- 3 números
- signo de puntuación
- 4 números

In [66]:
#escribe tu código
pattern = re.compile("\d{3}\W\d{3}\W\d{4}")

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(212, 224), match='321-555-4321'>
<re.Match object; span=(225, 237), match='123.555.1234'>
<re.Match object; span=(238, 250), match='123*555*1234'>
<re.Match object; span=(251, 263), match='800-555-1234'>
<re.Match object; span=(264, 276), match='900-555-1234'>


### Abrimos `fake_info.txt` para empezar a trabajar

In [67]:
with open('data/fake_info.txt', 'r') as f:
    contents = f.read()

Pongamos que queremos obtener solamente los números de teléfono separados por un punto o un guion

In [74]:
#escribe tu código
pattern = re.compile(r'\d\d\d[-\.]\d\d\d[-\.]\d\d\d\d')

matches = pattern.finditer(contents)

numeros_telefono = []
for match in matches:
    # print(match.group())
    numeros_telefono.append(match.group().replace("-",""))
numeros_telefono

['6155557164',
 '8005555669',
 '5605555153',
 '9005559340',
 '7145557405',
 '8005556771',
 '7835554799',
 '5165554615',
 '1275551867',
 '6085554938',
 '5685556051',
 '2925551875',
 '9005553205',
 '6145551166',
 '5305552676',
 '4705552750',
 '8005556089',
 '8805558319',
 '7775558378',
 '9985557385',
 '8005557100',
 '9035558277',
 '1965555674',
 '9005555118',
 '9055551630',
 '2035553475',
 '8845558444',
 '9045558559',
 '8895557393',
 '1955552405',
 '3215559053',
 '1335551711',
 '9005555428',
 '7605557147',
 '3915556621',
 '9325557724',
 '6095557908',
 '8005558810',
 '1495557657',
 '1305559709',
 '1435559295',
 '9035559878',
 '5745553194',
 '4965557533',
 '2105553757',
 '9005559598',
 '8665559844',
 '6695557159',
 '1525557417',
 '8935559832',
 '2175557123',
 '7865556544',
 '7805552574',
 '9265558735',
 '8955553539',
 '8745553949',
 '8005552420',
 '9365556340',
 '3725559809',
 '8905555618',
 '6705553005',
 '5095555997',
 '7215555632',
 '9005553567',
 '1475556830',
 '5825553426',
 '40055517

In [89]:
#escribe tu código
pattern = re.compile(r'\d+[*.-]*\d+[*.-]\d+')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(212, 225), match='321--555-4321'>
<re.Match object; span=(226, 238), match='123.555.1234'>
<re.Match object; span=(239, 251), match='123*555*1234'>
<re.Match object; span=(252, 264), match='800-555-1234'>
<re.Match object; span=(265, 277), match='900-555-1234'>


## Character sets
Sirven para concretar nuestra búsqueda.

#### ¡CUIDADO! En ocasiones suele haber confusión con los character sets, porque no cogen más de un elemento.

In [92]:
# Para encontrar todos los números que empiecen por centenas:
# 800 - 900

pattern = re.compile(r'[89]00\D\d\d\d\D\d\d\d\d')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(252, 264), match='800-555-1234'>
<re.Match object; span=(265, 277), match='900-555-1234'>


## Los guiones no solamente sirven para encontrar ese caracter especial, sino que además nos permiten establecer rangos

Por ejemplo, para mostrar los números entre el 1 y el 5 de todo el texto

In [94]:
pattern = re.compile(r'[1-5]')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(55, 56), match='1'>
<re.Match object; span=(56, 57), match='2'>
<re.Match object; span=(57, 58), match='3'>
<re.Match object; span=(58, 59), match='4'>
<re.Match object; span=(59, 60), match='5'>
<re.Match object; span=(212, 213), match='3'>
<re.Match object; span=(213, 214), match='2'>
<re.Match object; span=(214, 215), match='1'>
<re.Match object; span=(217, 218), match='5'>
<re.Match object; span=(218, 219), match='5'>
<re.Match object; span=(219, 220), match='5'>
<re.Match object; span=(221, 222), match='4'>
<re.Match object; span=(222, 223), match='3'>
<re.Match object; span=(223, 224), match='2'>
<re.Match object; span=(224, 225), match='1'>
<re.Match object; span=(226, 227), match='1'>
<re.Match object; span=(227, 228), match='2'>
<re.Match object; span=(228, 229), match='3'>
<re.Match object; span=(230, 231), match='5'>
<re.Match object; span=(231, 232), match='5'>
<re.Match object; span=(232, 233), match='5'>
<re.Match object; span=(234, 235), match='1'

### Para Mostrar letras mayúsculas y minúsculas, basta con poner los rangos juntos.


In [95]:
pattern = re.compile(r'[a-zA-Z]')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(1, 2), match='a'>
<re.Match object; span=(2, 3), match='b'>
<re.Match object; span=(3, 4), match='c'>
<re.Match object; span=(4, 5), match='d'>
<re.Match object; span=(5, 6), match='e'>
<re.Match object; span=(6, 7), match='f'>
<re.Match object; span=(7, 8), match='g'>
<re.Match object; span=(8, 9), match='h'>
<re.Match object; span=(9, 10), match='i'>
<re.Match object; span=(10, 11), match='j'>
<re.Match object; span=(11, 12), match='k'>
<re.Match object; span=(12, 13), match='l'>
<re.Match object; span=(13, 14), match='m'>
<re.Match object; span=(14, 15), match='n'>
<re.Match object; span=(15, 16), match='o'>
<re.Match object; span=(16, 17), match='p'>
<re.Match object; span=(17, 18), match='q'>
<re.Match object; span=(18, 19), match='u'>
<re.Match object; span=(19, 20), match='r'>
<re.Match object; span=(20, 21), match='t'>
<re.Match object; span=(21, 22), match='u'>
<re.Match object; span=(22, 23), match='v'>
<re.Match object; span=(23, 24), match='w'>
<re.M

## Importante 
Al poner el símbolo `^` dentro de los corchetes `[]`, significa que **NO** queremos lo que está dentro de él.

En este caso, al ejecutar, se muestran solo los caracteres numéricos, los espacios en blanco, los saltos de línea y los caracteres numéricos.

**Se niega el set**

In [96]:
pattern = re.compile(r'[^a-zA-Z]')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(0, 1), match='\n'>
<re.Match object; span=(27, 28), match='\n'>
<re.Match object; span=(54, 55), match='\n'>
<re.Match object; span=(55, 56), match='1'>
<re.Match object; span=(56, 57), match='2'>
<re.Match object; span=(57, 58), match='3'>
<re.Match object; span=(58, 59), match='4'>
<re.Match object; span=(59, 60), match='5'>
<re.Match object; span=(60, 61), match='6'>
<re.Match object; span=(61, 62), match='7'>
<re.Match object; span=(62, 63), match='8'>
<re.Match object; span=(63, 64), match='9'>
<re.Match object; span=(64, 65), match='0'>
<re.Match object; span=(65, 66), match='\n'>
<re.Match object; span=(68, 69), match=' '>
<re.Match object; span=(73, 74), match=' '>
<re.Match object; span=(74, 75), match='?'>
<re.Match object; span=(77, 78), match='\n'>
<re.Match object; span=(92, 93), match=' '>
<re.Match object; span=(93, 94), match='('>
<re.Match object; span=(98, 99), match=' '>
<re.Match object; span=(101, 102), match=' '>
<re.Match object; span=(104

## Búsquedas de patrones en los textos 
Pongamos que queremos recoger palabras terminadas en at, excepto **bat**
Especificamos que no queremos los valores que empiecen por b

In [101]:
pattern = re.compile(r'[^b\s]at')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(361, 364), match='cat'>
<re.Match object; span=(365, 368), match='mat'>
<re.Match object; span=(369, 372), match='pat'>


## Rangos `{}`
Como vemos en snippets.txt, las llaves nos permiten establecer rangos. 

Volviendo al ejemplo de los números de teléfono, otra forma de obtener los patrones

In [103]:
pattern = re.compile(r'\d{3}\D\d{3}\D\d{4}')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(226, 238), match='123.555.1234'>
<re.Match object; span=(239, 251), match='123*555*1234'>
<re.Match object; span=(252, 264), match='800-555-1234'>
<re.Match object; span=(265, 277), match='900-555-1234'>


In [104]:
pattern = re.compile(r'\d{2,4}\D\d{2,4}\D\d{2,4}')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(217, 229), match='555-4321\n123'>
<re.Match object; span=(230, 242), match='555.1234\n123'>
<re.Match object; span=(243, 255), match='555*1234\n800'>
<re.Match object; span=(256, 268), match='555-1234\n900'>
<re.Match object; span=(269, 282), match='555-1234\n9005'>


In [106]:
## Este ejemplo nos vale porque sabemos exactamente el patrón que se reproduce.

pattern1 = re.compile(r'Mr\.')

matches = pattern1.finditer(text_to_search)

for match in matches:
    print(match)

# Aquí no nos está dando lo que queremos. Solo nos da la secuencia Mr.

<re.Match object; span=(302, 305), match='Mr.'>
<re.Match object; span=(347, 350), match='Mr.'>
<re.Match object; span=(353, 356), match='Mr.'>


## Operador `?` 
Nos sirve para añadir 0 o 1 a nuestra selección. Así se va a contemplar lo que hay un espacio después

In [107]:
# Aquí sí aparecen todos los Mr. independientemente de que tengan punto o no
pattern2 = re.compile(r'Mr\.?')

matches = pattern2.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(302, 305), match='Mr.'>
<re.Match object; span=(315, 317), match='Mr'>
<re.Match object; span=(333, 335), match='Mr'>
<re.Match object; span=(347, 350), match='Mr.'>
<re.Match object; span=(353, 356), match='Mr.'>


In [109]:
# Aquí sí aparecen todos los Mr. independientemente de que tengan punto o no
pattern3 = re.compile(r'Mr\.?\s\w+') # El operador + muestra si hay 1 elemento o más a la derecha de la selección

matches = pattern3.finditer(text_to_search)

for match in matches:
    print(match)

# Por eso no se imprime Mr. T

<re.Match object; span=(302, 314), match='Mr. Scha2fer'>
<re.Match object; span=(315, 323), match='Mr Smith'>
<re.Match object; span=(347, 352), match='Mr. T'>


## Ahora sí que sí
para mostrarlo todo , utilizaremos el cuantificador `*`

In [57]:
pattern4 = re.compile(r'Mr\.?\s\w*')

matches = pattern4.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(301, 313), match='Mr. Scha2fer'>
<re.Match object; span=(314, 322), match='Mr Smith'>
<re.Match object; span=(346, 351), match='Mr. T'>
<re.Match object; span=(352, 356), match='Mr. '>


## Grouping `()`
Siguiendo con el ejemplo, para ver todos los Mr, Ms y Mrs, podemos utilizar el operador | (or)

In [110]:
pattern4 = re.compile(r'(Mr|Ms|Mrs)\.?\s\w*')

matches = pattern4.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(302, 314), match='Mr. Scha2fer'>
<re.Match object; span=(315, 323), match='Mr Smith'>
<re.Match object; span=(324, 332), match='Ms Davis'>
<re.Match object; span=(333, 346), match='Mrs. Robinson'>
<re.Match object; span=(347, 352), match='Mr. T'>
<re.Match object; span=(353, 357), match='Mr. '>
