# Expresiones regulares

Python ofrece un excelente soporte para trabajar con RegEx,
por medio del módulo `re`:

```python
import re
```

Para información detallada véase:

https://docs.python.org/3/library/re.html
<br>
https://docs.python.org/3/howto/regex.html#regex-howto
<br>
https://www.tutorialspoint.com/python/python_reg_expressions.htm
<br>
https://www.w3schools.com/python/python_regex.asp


## Algunos de los métodos más comunes

- `search()`: devuelve un objeto de tipo `match` si hay se encuentra algo
- `findall()`: devuelve una lista con todos los resultados
- `split()`: devuelve una lista donde la cadena se ha cortado en cada coincidencia
- `sub()`: reemplaza el texto buscado

### 1. `search()`

In [1]:
import re

texto = "En un lugar de la Mancha, de cuyo nombre no quiero acordarme"
patron = "cuyo.*no"
resultado = re.search(patron, texto)
print(resultado)

<re.Match object; span=(29, 43), match='cuyo nombre no'>


In [2]:
patron = "cuyo.*sí"
resultado = re.search(patron, texto)
print(resultado)

None


### 2. `findall()` 

In [3]:
texto = "En un lugar de la Mancha, de cuyo nombre no quiero acordarme"
patron = "de"
resultado = re.findall(patron, texto)
print(resultado)

['de', 'de']


### 3. `split()` 

In [4]:
texto = "En un lugar de la Mancha, de cuyo nombre no quiero acordarme"
patron = "de"
resultado = re.split(patron, texto)
print(resultado)

['En un lugar ', ' la Mancha, ', ' cuyo nombre no quiero acordarme']


### 4. `sub()` 

In [6]:
texto = "En un lugar de la Mancha, de cuyo nombre no quiero acordarme"
busqueda = "\s" # significa cualquier caracter de espacio en blanco
reemplazo = "_"
resultado = re.sub(busqueda, reemplazo, texto)
print(resultado)

En_un_lugar_de_la_Mancha,_de_cuyo_nombre_no_quiero_acordarme


## *Flags* de compilación de RegEx
Hay una serie de *flags* que pueden usarse con RegEx en Python:

- `ASCII`, `A`: hace que `\w`, `\b`, `\s`, `\d` y similares solo capturen caracteres ASCII (i.e. no Unicode)
- `DOTALL`, `S`: hace que `.` capture incluso salto de línea (`\n)
- `IGNORECASE`, `I`: hace búsquedas no sensibles a mayúsculas/minúsculas
- `LOCALE`, `L`: hace búsquedas restringidas al *locale* (español colombiano, inglés australiano, etc.(

Do a locale-aware match.

- `MULTILINE`, `M`

Multi-line matching, affecting ^ and $.

- `VERBOSE`, `X` (for ‘extended’)

Enable verbose REs, which can be organized more cleanly and understandably.
    
    

### Un ejemplo más interesante

In [16]:
import requests
import re
# url = "https://www.gutenberg.org/cache/epub/2000/pg2000.txt"
# texto = requests.get(url).text

texto = "DULCINEA DEL TOBOSO"

match = re.compile("Dulcinea", re.I)

texto = re.sub(r"Don Quijote", "Sherlock Holmes", texto, re.I)
texto = re.sub(r"Sancho", "John Watson", texto, re.I)
texto = re.sub(match, "Irene Adler", texto, re.I)
texto = re.sub(r"Dulcinea del Toboso", "Irene Adler", texto, re.I)
print(texto)

Irene Adler DEL TOBOSO
