### La librería re - Expresiones regulares

La librería **`re`** permite trabajar con expresiones regulares.

Existen múltiples implementaciones de expresiones regulares, cada una compartiendo
un nucleo comun pero con extensiones o modificaciones para añadir capacidades más
avanzadas.

La sintaxis usada en el módulo `re` de python se basa en la usada por
el lenguaje Perl, con unas pocas mejoras especificas de Python.

Una expresión regular viene a definir un conjunto de cadenas de texto que
cumplen un determinado patrón. Si una cadena de texto pertenece al conjunto de
posibles cadenas definidas por la expresión, se dice que *casan* o que ha habido
una coincidencia o *match*.

Las expresiones regulares se crean combinando expresiones regulares más
pequeñas (o primitivas), y se especifican mediante una cadena de texto.

La cadena que define una expresión regular puede incluir caractereres
__normales__ o __especiales__. 

Los caracteres normales solo casan consigo mismo. Por ejemplo, la expresión
regular `a` solo casaría con una a.

Los especiales, como `|` o `.` tienen otros significados; o bien definen
conjuntos de caracteres o modifican a las expresiones regulares adyacentes.

Antes de ver los caracteres especiales, veamos como usar las expresiones regulares. 

### Buscar patrones en un texto

El uso más común de `re` es buscar un determinado patrón en un texto. Podemos usar la
funcion `search` definida en `re`, que acepta dos parámetros: El primero es una cadena
de texto que defina el patron a buscar, el segundo, el texto donde buscarlo.

El resultado de la función varía según si ha encontrado, o no, alguna ocurrencia del patrón
en el texto. Si la encontró, se devuelve un objeto de tipo `Match` (que es un objeto
que almacena la información de donde se ha encotrado). Si no lo encuentra, devuelve `None`.

Entra la información que podemos encontrar en este objeto `Match`, se incluye el texto
que ha encontrado, la expresion regular usada y la localización, dentro del texto buscado, de
esa coincidencia.

Veamos un ejemplo, usando como expresion regular `este`. Como en esta expresion solo hay caracteres
normales, se interpreta como: "Una 'e', seguida de una 's', seguida de una 't', seguida de una `e`":

In [12]:
import re

pattern = r'el'
text = 'Contiene este texto el patrón?'

match = re.search(pattern, text)
if match:
    print("Encontrado.")
    print("  - Entre las posiciones", match.start(), "y", match.end())
    print()

Encontrado.
  - Entre las posiciones 20 y 22



**Miniejercicio**: Modificar el código previo para que encuentr la palabra "el"

En principio, nada que no pudieramos hacer usando el método index` de las cadenas de texto. La potencia de las expresiones regulares viene de los caracteres especiales.

Algunos caracteres con significados especiales son:

| Caracter | Casa con                                                        |
|---------:|-----------------------------------------------------------------|
| `.`      | Cualquier caracter                                              |
| `^`      | El principio de una string                                      | 
| `$`      | El final de una string                                          |
| `*`      | La expresión regular anterior, repetida 0 o más veces           |
| `+`      | La expresión regular anterior, repetida 1 o más veces           |
| `?`      | La expresión regular anterior, 0 o 1 vez                        |
| `{n}`    | La expresión regular anterior, repetida n veces                 |
| `{m,n}`  | La expresión regular anterior, repetida entre m y n veces       |
| `\`      | "Escapa" el significado del caracter a continuación             |
| `|`      | Alernancia entre patrones: `A|B` casa con A o con B             |
| `[...]`  | El conjunto de caracteres definido entre los corchetes          |

### El caracter especial `.` 

El punto es un caracter especial, por lo que tiene un significado diferente de "debe ser un punto". 
En una expresion regular, el carcater `.` significa "cualquier caracter"/. Es un comodín, para caracteres.
Ojo que solo _casa_ con un unico caracter. 

Por ejemplo, el patrón regular "est." casaria con "este", "esta", "estx", "est8", "est@", pero __no__ con "est", porque espera un cuarto caracter, el que esa, pero no encuentra ninguno.

In [14]:
import re

pattern = r'te.to'
text = 'Contiene este teZto el patrón?'

match = re.search(pattern, text)
if match:
    print("Encontrado.")
    print(f"  - Entre las posiciones {match.start()} y {match.end()}")
    print(f"  - '{match.group(0)}'")

Encontrado.
  - Entre las posiciones 14 y 19
  - 'teZto'


**Miniejercicio**

1) Cambiar el __texto__ del ejericio anterior por "`Contiene este teZto el patrón?`". Verificar que sigue encontradon el patrón.

2) Cambiar el __texto__ por "`Contiene este teZXto el patrón?`". ¿Encuentra ahora el patrón? ¿POr qué?


### El caracter especial `^`
¶
El caracter especial `^` se interpreta como "Al principio del texto". Sirve para buscar textos que empiezan por la expresion regular que venga despues. 

Por ejemplo, el patrón regular "`^Carthago`" solo casaría con un texto que *empiece* con la palabra `Carthago`.

**Pregunta**: Tiene sentido que el caracter especial `^` se use en una expresión regular en otro sitio que no sea al principio? ¿Por qué>

### El caracter especial `$`

Similar al anterior, este caracter especial se interpreta como "Al final del texto". Sirve para buscar textos que termina por la expresion regular que viene justo antes. 

Por ejemplo, el patrón regular "`Delenda est$`" solo casaría con un texto que __termine__ con las palabras `Delenda est`.

**Pregunta**: Tiene sentido que el caracter especial `$` se use en una expresión regular en otro sitio que no sea al final? ¿Por qué>

### El caracter especial `*`

El caracter especial `*` debe interpretarse como "El patron anterior, repetido 0 o más veces". Por ejemplo, el
patron "e*" casaria con la cadena vacia (O apariciones del caracter `e`), con `e` (Una repetición del caracter 'e'), con `ee` (Dos repeticiones), `eee` (Tres repeticiones), etc.

Una combinacion muy habitual es el patrón `.*`. Esto se leeria como "Cero o mas repeticiones de la expresion regular que esta justo antes, que en este caso es _cualquier caracter_", o lo que el lo mismo, "cualquier caracter, repetido 0 o mas veces", o mas resumido aun: "Todo".

Por ejemplo, la expresion regular "`BEGIN .* END`" sería: "Todo lo que haya entre la palabra `BEGIN ` (en mayúsculas y con un espacio, ojo a eso) y "` END`". 

In [17]:
import re

pattern = r'BEGIN .* END'
text = 'BEGIN Cualquier xA589740  F&&*&*()70 cosa f mk f kdque pongamos aqui vale END'

match = re.search(pattern, text)
if match:
    print("Encontrado.")
    print(f"  - Entre las posiciones {match.start()} y {match.end()}")
    print(f"  - '{match.group(0)}'")

Encontrado.
  - Entre las posiciones 0 y 77
  - 'BEGIN Cualquier xA589740  F&&*&*()70 cosa f mk f kdque pongamos aqui vale END'


**Miniejercicio** Cambiar el texto entre BEGIN y END. Ver que cualquier cosa que ponemos vale

### El caracter especial `+`

Similar a `*`, el caracter especial `*` debe interpretarse como "El patron anterior, repetido __1__ o más veces". Por ejemplo, el
patron "e+" __no__ casaria con la cadena vacia (O apariciones del caracter `e`, y requerimos al menos una), pero si casaria con `e` (Una repetición del caracter 'e'), con `ee` (Dos repeticiones), `eee` (Tres repeticiones), etc.

Una combinacion muy habitual es el patrón `.+`. Esto se leeria como "Una o mas repeticiones de la expresion regular que esta justo antes, que en este caso es _cualquier caracter_", o lo que el lo mismo, "cualquier caracter, repetido 1 o mas veces", o mas resumido aun: "Todo, menos la cadena vacia".


### El caracter especial `?`

El caracter especial `?` debe interpretarse como "El patron anterior, __0__ o __1__ vez". Por ejemplo, el
patron "este?" casaria con la cadena `est` y con `este`. Otra forma de leerlo es "opcionalmente, puede venir el patron anterior".

### Los caracteres especiales `[` y `]`

Estos caracteres se usan para definir un conjunto de caracteres, de forma que cualquiera de ellos
se acepta como una ocurrencia. 

En un conjunto Los caracteres se pueden listar individualmente, como por
ejemplo, `[abc]`, que casa con cualquiera de los caracteres `a`, `b` o `c`.

Por ejemplo `[aeiuo]` es un patron que se interpretaria como
"cualquier vocal". Otro uso muy frecuente sería `[0123456789]`, que se interpretarian como
"cualquier digito".

Se acepta tambien una forma abreviada que nos permite incluir un rango, usando el caracter `-`. Por ejemplo, el patrón anterior `[0123456789]` puede abreviarse como `[0-9]`. El patron `[0-9A-F]` casaria con
cualquier digito y con las letras `A`, `B`, `C`, `D`, `E` y `F`. 

Los caracteres especiales pierden su significado
dentro de los corchetes, por lo que no hace falta escaparlos.

Se puede definir el __complemento del conjunto__ incluyendo como primer
caracter `^`. De esta forma, la expresión regular `[^59]` casa con
cualquier caracter, excepto con los dígitos `5` y `9`.

### El caracter especial `|`

Se usa en la forma `A|B`, donde A y B representan expresiones regulares, y se interpretan
como una expresion regular que acepta cualquiera de las dos, es decir, que casara cun cualquier
texto que case con A o con B. Es muy habitual su uso con los grupos, que vreremos más adelante.

Se pueden encadenar, por ejemplo, el siguiente patron:

    r"este|ese|aquel"
    
casaria con cualquier de estas palabras.

### Los caracteres especiales `{` y `}`

Estos caracteres nos permite definir exactamnte el número de veces que se debe repetir la epxresion regular precedente, o definir un rango de repeticiones.

Por ejemplo, `[0-9]{4}` se leeria "Cualquier dígito, repetido 4 veces", o esa que "3622" casa, pero "231" no, porque le falta un digito.

Si cambiaramos el patron a `[0-9]{3,4}` se leeria "Cualquier dígito, repetido 3 o 4 veces", o esa que "3622" casa, y "231" también (pero `75` no, le falta un digito).

**Miniejercicio**: Modificar el patrón para que acepte 2, 3, o 4 dígitos. 

**Ejercicio**: Escribir el patron para encontrar posibles NIF: de 7 a 8 digitos seguidos de una letra muyuscula


- "43478329W" Correcto
- "434783294W"  Demasiados digitos
- "434783W" Pocos digitos
- "43783294"  Falta la letra
- "W33783294"  Letra en lugar incorrecto

### El caracter especial `\`

El propósito de este caracter especial es doble: Si precede a otro caracter
especial, entonces reconvierte a dicho caracter de especial a normal (Se dice que
*escapa* el significado del caracter). Esto permite buscar caracteres como `*` o
`?` de forma literal.

Por ejemplo, la expresión r"`Doctor Who\?`" busca exactamente el texto "Doctor Who?". Si no escapáramos la interrogación (Es decir, si se usara r"`Doctor Who?`"), se interpretaria como que la última `o` es opcional, y casaria, por ejemplo, con `Doctor Wh`, que no es lo que queremos.

El segundo uso es introducir una secuencia especial, que definiremos a continuación.

**Importante**: Recordemos que Python también usa el caracter '\' como su propia forma
de escapar significados (por ejemplo `\n` es la forma de representar un salto de línea). Asi
que para incluir la barra invertida tendriamos que escribirla dos veces. Es por eso que
siempre se recomiendo usar cadenas de texto "_raw_" (con una `r` antes de la primera comilla).

**A recordar**: definir __siempre__ loas expresiones regulares usando cadenas crudas (*raw*)

### Secuencias especiales

Algunas de estas secuencias especiales accesible con `\` son:

- `\b` coincide con una cadena vacia, pero solo al principio de una palabra

- `\B` coincide con una cadena vacia, pero solo si __no__ esta al principio de una palabra. Esto
  significa qur r"py\B" casará con "python", "py3", "py2", pero no con "py", "py." o "py!". 
  `\B` es el opuesto de `\b`. Veremos esta pauta repetida en otras secuencias especiales.
  

  
- `\d`: casa con cualquier dígito. Equivalente a r"[0-9]"

- `\D`: casa con cualquier caracter que no sea un dígito. Equivale a r"[^0-9]"

  
- `\s`: Casa con espacios y equivalentes, como tabuladores, saltos de linea, etc.

- `\S`: Casa con cualquier cosa que no sean espacios. El opuesto de `\s`

- `\w`: Caracteres que pueden ser partes de una palabra en cualquier lenguaje, asi
  como los digitos del 0 al 9 y el caracter `_`. Equivale a r"[a-zA-Z0-9_]"

### Los caracteres especial `(` y `)` (Grupos)

Sirven para indicar el principio y el fin de un grupo. No modifican la exptresion regular,
en el sentido que esta sigue casadno exactamente con parentesis o sin ellos, pero sirven para que podamos
recuperar, despues de una coincidencia o *match*, los contenidos de estos grupos.

Por ejemplo, supongamos que queremos buscar por indicadores de tareas al estilo de Jira, que se forman
con la estructura: Código de proyecto seguido de guión y seguido del numero de tarea. Algunos indicadores validos podrian ser "ALPH-1244" o "BE-123". Supongamos para simplificar que los codigos de proyecto son siempre
letras mayúsculas, el patrón que detecta estos códigos podría ser:

    r"[A-Z]+-\d+"
    

Comprobemos si funciona:

In [19]:
patron = r"[A-Z]+-\d+"
for codigo in ["ALPH-1244", "BEMAC-123", "MZGZ-1", "COVID-12"]:
    if re.match(patron, codigo):
        print(f"Codigo {codigo} es correcto")

Codigo ALPH-1244 es correcto
Codigo BEMAC-123 es correcto
Codigo MZGZ-1 es correcto
Codigo COVID-12 es correcto


Ahora, si quisieramos acceder al numero de tarea, la forma mas fácil
es usar losparentesis para crear los grupos que nos interesan. 

Para ello, cambiamos el patron de:

    r"[A-Z]+-\d+"
    
a:

    r"[A-Z]+-(\d+)"


Ahora, el patron se comporta exactamente igual que antes, pero los objetos *match* 
resultantes de una coincidencia permiten acceder a los grupos definidos con el método 
`group`, indicando el numero de orden de definición del grupo, siendo elg grupo 1 el primer
grupo definido.

Tambien se puede usar el grupo 0, que esta definido siempre y consiste en la totalidad ddel
texto que haya casado con el patrón. 

In [27]:
import re

patron = r"([A-Z]+)-(\d+)"
for codigo in ["ALPH-1244", "BEMAC-123", "MZGZ-1", "COVID-12"]:
    m = re.match(patron, codigo)
    if m:
        project = m.group(1)
        task_number = int(m.group(2))
        print(f"{m.group(0)}: Tarea número {task_number} del proyecto {project}")

ALPH-1244: Tarea número 1244 del proyecto ALPH
BEMAC-123: Tarea número 123 del proyecto BEMAC
MZGZ-1: Tarea número 1 del proyecto MZGZ
COVID-12: Tarea número 12 del proyecto COVID


**Miniejercicio**: modifica el código anterior para añadir otro grupo, esta
vez para capturar el código del proyecto. Incluirlo en el listado.

### Compilar las expresiones regulares

Todas las funciones que hemos usado dentro del modulo `re`: `search`, `match` y `findall`, y que
requieren como primer paramentro el texto de la expresion regular, pueden ser usadas de forma más 
eficiente si compilamos la expresion regular (especial,ente si se va a usar a menudo). El objeto resultante 
tiene metodos equivalentes, `search`, `match` y `findall`, pero ya no es necesario que le
pasemos el texto de la expresion regular.

Para compilar una expresion regular, se usa la funcion `compile`.

Vamos en el siguiente ejemplo como usar expresiones compiladas. Compararalo con el ejercicio anterior.

In [29]:
pat_jira = re.compile(r"([A-Z]+)-([0-9]+)")
for codigo in ["ALPH-1244", "BEMAC-123", "MZGZ-1"]:
    m = pat_jira.match(codigo)
    if m:
        project = m.group(1)
        task_number = int(m.group(2))
        print(f"{m.group(0)}: Tarea número {task_number} del proyecto {project}")

ALPH-1244: Tarea número 1244 del proyecto ALPH
BEMAC-123: Tarea número 123 del proyecto BEMAC
MZGZ-1: Tarea número 1 del proyecto MZGZ


![El uso de expresiones regulares es tremendamente potente y complejo, y
hay varios libros dedicados al tema](../img/re_01.jpg)

**Ejercicio**: Expresiones regulares para encontrar matrículas de coche.

Escribir una expresión regular para detectar matrículas de coches
españolas.

Según el siguiente texto, que describen en el sistema de matriculación
vigente actualmente en España:

> El 18 de septiembre del año 2000 entró en vigor el nuevo sistema de
> matriculación en españa, introduciendo matrículas que constan de cuatro
> dígitos y tres letras consonantes, suprimiéndose las cinco vocales y las
> letras Ñ, Q, CH y LL. \[...\] Si el vehículo es histórico, y se ha
> matriculado con una placa de nuevo formato, aparece primero una letra H
> en la placa.

El siguiente código lista las matrículas encontradas en el texto:

In [30]:
import re

Texto = '''INSTRUIDO por accidente de circulación ocurrido a las 09:43
entre la motocicleta HONDA 500, matrícula 0765-BBC  y la
motocicleta HARLEY-DAVIDSON , matrícula 9866-LPX, en el punto
kilométrico 3.5 de la carretera general del sur, término municipal de
Arona, Tenerife, y bla, bla, bla...'''


patron = r'H?[0-9]{4}-?[BCDFGHJKLMNPRSTVWXYZ]{3}'
for matricula in re.findall(patron, Texto):
    print(matricula)


0765-BBC
9866-LPX


**Solución** 

El patrón usado es el siguiente:

    H?\[0-9\]{4}-?\[BCDFGHJKLMNPRSTVWXYZ\]{3}
    
Es verdad qye Visto así puede asustar un poco, pero solo es cosa de verlo por
por partes:

- `H?` : Una `H`. Pero como la sigue una interrogación, es opcional.
    Recuerdese que `?` se interpreta como la expresión regular anterior
    (en este caso la H), 0 o 1 vez.

- `[0-9]{4}` : El conjunto de los caracteres del `0` al `9` (`[0-9]`), o
    lo que es lo mismo, cualquier dígito, repetido 4 veces (`{4}`), es
    decir, un número de cuatro dígitos.

-  `-?` : Un guión, opcional, igual que la H para vehículos históricos
    del principio

-   `[BCDFGHJKLMNPRSTVWXYZ]`{3} : Cualquiera de los caracteres del
    conjunto indicado (letras consonantes excepto la Ñ, Q, CH y LL)
    repetido 3 veces.

¿Qué hace el siguiente programa?

In [31]:
import os
import re

pat_notebook = re.compile("^[ac].*\.ipynb$")
for fn in os.listdir():
    if pat_notebook.search(fn):
        print(fn)
    

collections.ipynb
compression.ipynb
argparse.ipynb
csv.ipynb
