# Regex - Expresiones Regulares

<a href="http://www.computerhistory.org/revolution/calculators/1/65/2209"> <img src="img/human-computers-1920.jpg" style="float:center;height:400px"/> </a>

http://www.computerhistory.org/revolution/calculators/1/65/2209


## Patrones básicos para definir expresiones regulares en Python

Patrón | Significado
--------|----------
. | Cualquier carácter excepto el que representa una nueva línea
\n | Nueva línea
\r | Retorno de carro 
\t | Tabulador horizontal
\w | Cualquier carácter que represente un número o letra en minúscula
\W | Cualquier carácter que represente un número o letra en mayúscula
\s | Espacio en blanco (nueva línea, retorno de carro, espacio y cualquier tabulador)
\S | Cualquier carácter que no es un espacio en blanco
\d | Número entre 0 y 9
\D | Cualquier carácter que no es un número
^ | Inicio de cadena
$ | Fin de cadena
\ | Escape para caracteres especiales
[] | Rango. Cualquier carácter que se encuentre entre los corchetes
^[] | Cualquier carácter que no se encuentre entre los corchetes
\b | Separación entre un número y/o letra

## Meta caracteres de repetición en Python

Meta carácter | Significado
---|---
+ | Una o más veces
* | Cero o más veces
? | Cero o una vez
{n} | El carácter se repite n veces

Un número puede aparecer una o más veces:   ** [\d]+ **


## Búsquedas

In [1]:
import re
re.search(r"o", "Hacker School")

<_sre.SRE_Match object; span=(10, 11), match='o'>

In [6]:
my_regex = re.search(r"o", "Hacker School")
my_regex.group()

'o'

In [9]:
# Búsqueda de un patrón en tres cadenas distintas
# patrón: \d\d\d = cualquier posición con tres números seguidos

print(re.search(r"\d\d\d", "Monterrey539NuevoLeon").group())

print(re.search(r"\d\d\d", "823avenidadelestadO").group())

print(re.search(r"\d\d\d", "tamauli412pas").group())



539
823
412


### Buenas prácticas: 
Si pensamos utilizar la misma `regex`para búsquedas en diferentes cadenas de texto, podemos *compilar* la expresión regular.

- `re.compile`

In [11]:
patron_regex = re.compile(r"\d\d\d")

print(patron_regex.search("Monterrey539NuevoLeon"))

print(patron_regex.search("823avenidadelestadO"))

print(patron_regex.search("tamauli412pas"))


<_sre.SRE_Match object; span=(9, 12), match='539'>
<_sre.SRE_Match object; span=(0, 3), match='823'>
<_sre.SRE_Match object; span=(7, 10), match='412'>


### Error handling

In [13]:
# None

regex_none = re.search(r"\d\d\d", "7jalisco41")

if regex_none is None: print("No existen coincidencias")

No existen coincidencias


In [30]:
regex_none = re.search(r"\d\d\d", "7jalisco41")

In [31]:
regex_none = re.search(r"\d\d\d", "7jalisco41").group()

AttributeError: 'NoneType' object has no attribute 'group'

In [29]:
# Exceptions
try:
    regex_none = re.search(r"\d\d\d", "7jalisco41").group()
except:
    print("No existen coincidencias")

No existen coincidencias


In [None]:
## Agregar ejercicio

## Agrupamiento

In [32]:
# patrón: (\d+)-(A-Za-z)+  = Serie de números, seguidos de un guión y de otro conjunto de letras
regex_con_grupo = re.compile(r"(\d+)-([A-Za-z]+)")

In [40]:
m = regex_con_grupo.search("23081-yttTa")
print(m.group(1), m.group(2))
print(m.group())

23081 yttTa
23081-yttTa


In [43]:
m = regex_con_grupo.search("syasdhasdhasdasdaaanHUHYYHy7823e23e230daaaaa81-yttTa*****")
print(m.group(1), m.group(2))
print(m.group())

81 yttTa
81-yttTa


### Principio y fin de una cadena

In [57]:
# 👀
re.search(r" ^monterrey$", "meridamonterreymerida")

In [58]:
re.search(r"monterrey", "meridamonterreymerida")

<_sre.SRE_Match object; span=(6, 15), match='monterrey'>

In [59]:
re.search(r"^monterrey$", "monterrey")

<_sre.SRE_Match object; span=(0, 9), match='monterrey'>

- `findall`

In [65]:
re.findall(r"\d{3}", "523qwerty72ghjkl713")

['523', '713']

## Sustituciones

In [66]:
re.sub(r"\d", "-", "23asdfghjkl231")

'--asdfghjkl---'

In [67]:
re.sub(r"\d", "-", "23asdfghjkl231", 3)

'--asdfghjkl-31'

In [68]:
re.sub(r"ñ", "n", "niños")

'ninos'