# Tema 9: expresiones regulares (II)
Vamos a empezar por lo más básico de las expresiones regulares.
## Caracteres literales y metacaracteres
### Caracteres literales
Corresponden con caracteres de la string tal cual. Si ponemos `y` nos encuentra la primera `y` de `Monty Python`, aunque depende de las opciones del programa o la función que estemos usando al programar.

In [2]:
import re

a = re.search("y", "Monty Python")
b = re.findall("y", "Monty Python")
print(a)
print(b)

<re.Match object; span=(4, 5), match='y'>
['y', 'y']


### Metacaracteres
De por sí tienen otros significados (que enseguida veremos). Si queremos usarlos de forma literal hay que escribir `\` delante; esto es lo que se llama _escaparlos_. Son los siguientes:
    
`\ ^ $ . | ? * + ( ) [ ] { }`

En la siguiente celda, para capturar el signo de cierre de interrogación, hemos escrito `\` en el patrón. Puedes comprobar que, si lo quitas, no se captura el signo en el objeto Match que se imprime:

In [4]:
a = re.search("¿Qué es una almáciga\?", "¿Qué es una almáciga?")
print(a)

<re.Match object; span=(0, 21), match='¿Qué es una almáciga?'>


Hay caracteres literales que pueden escaparse para darles un uso diferente; son los [comodines](#Comodines) y también los vamos a ver.

## Sets y rangos de caracteres
Con los corchetes cuadrados `[]` creamos un set o conjunto, es decir, buscamos un carácter de entre los que metamos dentro de los corchetes.

In [17]:
a = re.findall("gui[oó]n", "Antes escribíamos guión y ahora guion")
print(a)

['guión', 'guion']


Si junto a los corchetes usamos el guion `-`, indicamos un rango. Muy útil para capturar, por ejemplo, rangos de números, de letras...

In [18]:
indice = """1. Prólogo
2. Introducción
3. Aspectos clave"""
a = re.findall("[0-9]\. ", indice)
print(a)

['1. ', '2. ', '3. ']


Se puede usar más de un rango a la vez en un mismo set; por ejemplo, podemos hacer que `[a-z]` sea _case-insensitive_ poniendo al lado el rango de letras en mayúsculas: `[a-zA-Z]`

Los corchetes también nos sirven, junto con el acento circunflejo `^`, para negar caracteres:

In [19]:
a = re.findall("q[^u]", "qué quién qé qién")
print(a)

['qé', 'qi']


Si metemos más caracteres dentro de los corchetes, niega todos:

In [20]:
a = re.findall("q[^ui]", "qué quién qé qién")
print(a)

['qé']


## Repetición y alternancia
Con `?` indicamos que el carácter anterior es opcional.

In [11]:
# Capturar una palabra en singular y en plural

a = re.findall("amigos?", "¿Tienes un amigo o tienes muchos amigos?")
print(a)

['amigo', 'amigos']


Con `+` buscamos que el carácter anterior salga una o más veces.

In [24]:
# Capturar cualquier conjunto de dos o más espacios

a = re.sub(" +", " ", "Ciudad del  Cabo, una ciudad   de 3,7 millones de  habitantes")
print(a)

Ciudad del Cabo, una ciudad de 3,7 millones de habitantes


El asterisco `*` se puede entender como una mezcla de `?` y `+`: indicamos que es opcional, pero que, si sale, lo haga una o más veces.

In [25]:
# Capturar cualquier palabra entrecomillada

a = re.findall('[«"`][a-zA-Z ]*[´"»]', '''¿Cuántas veces dicen «ni» los caballeros
               que dicen "ni" en `Monty Python y los caballeros de la mesa cuadrada´?''')
print(a)

['«ni»', '"ni"', '`Monty Python y los caballeros de la mesa cuadrada´']


Podemos indicar el número exacto de apariciones de caracteres que nos interesan escribiendo un número entre llaves `{}`, o un rango si separamos los números mediante comas:

In [5]:
# Capturar cualquier número entre 1000 y 9999

a = re.findall(" [1-9][0-9]{3},", "34, 125, 987, 2940, 5982, 13943, 38492, 748392, 404921")
print(a)

# Capturar cualquier número entre 100 y 99999

a = re.findall(" [1-9][0-9]{2,4},", "34, 125, 987, 2940, 5982, 13943, 38492, 748392, 404921")
print(a)

[' 2940,', ' 5982,']
[' 125,', ' 987,', ' 2940,', ' 5982,', ' 13943,', ' 38492,']


La pleca `|` permite la alternancia entre dos opciones. En este caso, queremos ver cuántas veces hacen referencia al grupo cómico, independientemente de la manera que usen para referirse a él:

In [6]:
a = re.findall("Monty Python|the Pythons", """Monty Python and the Holy Grail was based on Arthurian legend
                and was directed by Jones and Gilliam. Again, the latter also contributed linking animations 
                (and put together the opening credits). Along with the rest of the Pythons, Jones and Gilliam 
                performed several roles in the film, but Chapman took the lead as King Arthur. Cleese returned 
                to the group for the film, feeling that they were once again breaking new ground. Holy Grail 
                was filmed on location, in picturesque rural areas of Scotland, with a budget of only £229,000; 
                the money was raised in part with investments from rock groups such as Pink Floyd, Jethro Tull, 
                and Led Zeppelin—and UK music industry entrepreneur Tony Stratton-Smith (founder and owner of 
                the Charisma Records label, for which the Pythons recorded their comedy albums).""")
print(a)

['Monty Python', 'the Pythons', 'the Pythons']


## Comodines
Ciertos caracteres literales se pueden escapar, como hacíamos con los metacaracteres, para usos especiales. Tienen la particularidad de que al ponerlos en mayúsculas, los negamos.
- Con `\d` encontramos dígitos: `\d` = `[0-9]`; con `\D`, todo lo que no sean dígitos: `\D` = `[^0-9]`
- Con `\w` encontramos caracteres alfanuméricos y la barra baja: `\w` = `[a-zA-Z0-9_]`; con `\W`, todo lo que no sean caracteres alfanuméricos ni la barra baja: `\W` = `[^a-zA-Z0-9_]`

### Caracteres invisibles
- Con `\t` encontramos el tabulador.
- Con `\n` encontramos el carácter de nueva línea.
- Con `\r` encontramos el carácter de retorno de carro.
- Con `\s` encontramos espacios, tabuladores y saltos de línea: `\s` = `[ \t\r\n]`; con `\S`, todo lo que no sean espacios, tabuladores ni saltos de línea: `\S` = `[^ \t\r\n]`

En Windows, por defecto, al crear un nuevo párrafo en los programas de procesamiento de texto, en realidad se están imprimiendo `\r` y `\n`. En Linux, se imprime solo `\n`.
### El punto
El punto `.` encuentra casi todo: todo menos precisamente los saltos de línea (aunque esto es configurable). Así que ¡hay que tener mucho cuidado con el punto!

## Anclas
Las anclas no se corresponden con ningún carácter, sino con posiciones. Su particularidad reside en que si lo que queremos es reemplazar una string por otra, no tenemos que ponerlos en la cadena meta.

El acento circunflejo `^` indica el principio de una línea y `$`, el final. Los límites de las palabras también los podemos encontrar, con `\b` (y usar su contrario, `\B`).

(A veces, tenemos que poner `r` antes de la regex para que funcione bien, según se explica en esta [nota](https://docs.python.org/3/library/re.html#module-re) de la documentación de `re` sobre el uso de la barra para escapar.)

In [8]:
indice = """1. Prólogo
2. Introducción
3. Aspectos clave
4. Historia desde 1979. Un relato único"""

a = re.findall(r"^[0-9]\. ", indice, flags=re.M)
print(a)

['1. ', '2. ', '3. ', '4. ']


Fíjate en que en la línea 6 le hemos pasado a `.findall()` un valor especial al argumento `flags`, para que lea `indice` en modo multilínea y nos sea más fácil encontrar los números de índices usando las anclas.

## Ejercicios
### 090201
Para encontrar `1+1=2`, ¿qué regex hay que usar? Rellena la celda con la regex correcta:

In [None]:
a = re.search("", "Todo el mundo sabe que 1+1=2")
print(a)

### 090202
Para encontrar `a-d`, `”—c` y `ó—”`, ¿qué regex hay que usar? Ojo, que no es lo mismo el guion `-` que la raya `—`. Rellena la celda con la regex correcta:

In [None]:
texto = """de ninguna manera-dijo
“Señores”—comenzó—”no vamos a…"""
a = re.findall("", texto)
print(a)

### 090203
Escribamos un traductor balleno-castellano, que sustituya todas las vocales repetidas por una sola vocal. Rellena con regex hasta que se imprima por pantalla `hola, señora ballena`:

In [None]:
saludo = "hoooooooooolaaaaaa, señoooooooora balleeeeeeeeenaaaaaaaaa"
saludo = re.sub("", "a", saludo)
saludo = re.sub("", "e", saludo)
saludo = re.sub("", "i", saludo)
saludo = re.sub("", "o", saludo)
saludo = re.sub("", "u", saludo)
print(saludo)

### 090204
Para encontrar códigos RGB de colores, ¿qué regex tendríamos que escribir? Rellena con regex hasta que se imprima `['#63ffed', '#daffbb', '#ff787b']`:

In [None]:
a = re.findall("", "#63ffed #daffbb #ff787b")
print(a)

### 090205
Tenemos una lista de términos sacados de un diccionario médico y queremos deshacernos de prefijos y sufijos. ¿Qué regex hay que usar para que se imprima una lista sin `cefalo-, -céfalo, la` ni `-itis`?

In [None]:
entries = [
    "acantocéfalo, la",
    "acéfalo, la",
    "bicéfalo, la",
    "braquicéfalo, la",
    "bucéfalo",
    "calocéfalo, la",
    "céfalo",
    "cefalo-, -céfalo, la",
    "cinocéfalo",
    "dolicocéfalo, la",
    "encéfalo",
    "hidrocéfalo, la",
    "macrocéfalo, la",
    "mesocéfalo, la",
    "microcéfalo, la",
    "policéfalo, la",
    "termocéfalo, la",
    "tricéfalo, la",
    "estomatitis",
    "faringitis",
    "fascitis",
    "flebitis",
    "flojeritis",
    "gastritis",
    "gastroenteritis",
    "gingivitis",
    "glositis",
    "hepatitis",
    "iritis",
    "-itis",
    "laringitis",
    "linfangitis",
    "litis",
    "mastitis",
    "meningitis"]

entries_clean = []
for entry in entries:
    if not re.match("", entry):
        entries_clean.append(entry)
    
print(entries_clean)

### 090206
Queremos corregir este error típico de software de [reconocimiento óptico de caracteres (OCR)](https://es.wikipedia.org/wiki/Reconocimiento_%C3%B3ptico_de_caracteres): `to`, `ta`, `te`, `tos`, `tas`, `tes` a menudo esconden `lo`, `la`, `le`, `los`, `las`, `les`. ¿Qué debemos buscar para que capture `to`, `tas` y `tes` pero no `todo`?

In [None]:
texto = """todo estaba oscuro
era to más parecido
una de tas mejores obras
según decían, «tes asustaban»"""

resultados = re.findall(r"", texto)
print(resultados)