# Expresiones regulares

Python ofrece un excelente soporte para trabajar con RegEx,
por medio del módulo `re`:

```python
import re
```

Para información detallada véase:

https://docs.python.org/3/library/re.html
<br>
https://docs.python.org/3/howto/regex.html#regex-howto
<br>
https://www.tutorialspoint.com/python/python_reg_expressions.htm
<br>
https://www.w3schools.com/python/python_regex.asp


## Algunos de los métodos más comunes

- `search()`: devuelve un objeto de tipo `match` si hay se encuentra algo
- `findall()`: devuelve una lista con todos los resultados
- `split()`: devuelve una lista donde la cadena se ha cortado en cada coincidencia
- `sub()`: reemplaza el texto buscado

### 1. `search()`

In [None]:
import re

texto = "En un lugar de la Mancha, de cuyo nombre no quiero acordarme"
patron = "cuyo.*no"
resultado = re.search(patron, texto)
print(resultado)

In [None]:
patron = "cuyo.*sí"
resultado = re.search(patron, texto)
print(resultado)

### 2. `findall()` 

In [None]:
texto = "En un lugar de la Mancha, de cuyo nombre no quiero acordarme"
patron = "de"
resultado = re.findall(patron, texto)
print(resultado)

### 3. `split()` 

In [None]:
texto = "En un lugar de la Mancha, de cuyo nombre no quiero acordarme"
patron = "de"
resultado = re.split(patron, texto)
print(resultado)

### 4. `sub()` 

In [None]:
texto = "En un lugar de la Mancha, de cuyo nombre no quiero acordarme"
busqueda = "\s" # significa cualquier caracter de espacio en blanco
reemplazo = "_"
resultado = re.sub(busqueda, reemplazo, texto)
print(resultado)

## *Flags* de compilación de RegEx
Hay una serie de *flags* que pueden usarse con RegEx en Python:

- `ASCII`, `A`: hace que `\w`, `\b`, `\s`, `\d` y similares solo capturen caracteres ASCII (i.e. no Unicode)
- `DOTALL`, `S`: hace que `.` capture incluso salto de línea (`\n)
- `IGNORECASE`, `I`: hace búsquedas no sensibles a mayúsculas/minúsculas
- `LOCALE`, `L`: hace búsquedas restringidas al *locale* (español colombiano, inglés australiano, etc.)
- `MULTILINE`, `M`: hace búsquedas multilínea, afectando `^` y `$`.
- `VERBOSE`, `X`: permite usar RegEx extendidas, que pueden ser organizadas más limpia e inteligiblemente.

Para poder usar estas *flags*, es preciso compilar la cadena de búsqueda. Por ejemplo:    

In [None]:
import re
texto = """En un lugar de la Mancha,
de cuyo nombre no quiero acordarme
no ha mucho tiempo que vivía 
un hidalgo de los de lanza en astillero"""

busqueda = re.compile("acordarme.*no", re.S)
reemplazo = "*****"
resultado = re.sub(busqueda, reemplazo, texto)
print(resultado)

En el ejemplo anterior, usamos la *flag* `re.S` para usar `.*` para capturar incluso saltos de línea.
Esto es útil si queremos buscar y reemplazar textos extendidos en muchas líneas.

### Un ejemplo más interesante

In [None]:
import requests
import re
# url = "https://www.gutenberg.org/cache/epub/2000/pg2000.txt"
# texto = requests.get(url).text

texto = "DULCINEA DEL TOBOSO"

match = re.compile("Dulcinea", re.I)

texto = re.sub("Don Quijote", "Sherlock Holmes", texto, re.I)
texto = re.sub("Sancho", "John Watson", texto, re.I)
texto = re.sub(match, "Irene Adler", texto, re.I)
texto = re.sub("Dulcinea del Toboso", "Irene Adler", texto, re.I)
print(texto)