# Primeros pasos con expresiones regulares

[Pablo A. Haya](https://pablohaya.com)

La expresiones regulares constituye un lenguaje específico que permite determinar si un texto contiene alguna cadena de caracteres que responde a un determinado patrón. Las expresiones regulares permiten especificar estos patrones mediante una combinación de operadores propios. Existe un determinado estándar al que se ajustan todos los lenguajes de programación, aunque luego la sintaxis puede variar ligeramente de uno a otro.

El módulo que implementa expresiones regulares en Python se denomina `re`. La documentación en la versión 3 está accesible [en línea](https://docs.python.org/3/library/re.html).

Hay cuatro operaciones básicas que se pueden realizar con expresiones regulares (entre paréntesis como se nombran en `Python`):

* Extraer (`findall`): dado un texto extrae todas las cadenas dentro del mismo que cumplen una determinada expresión regular.
* Buscar (`match` y `search`): dado un texto indica si existe una cadena que cumpla la expresión regular. En el caso de `match` exige que el principio del texto coincida con el patrón buscado. En el caso de `search` devuelve la primera aparición en la cadena independientemente donde se encuentre. 
* Sustituir (`sub`): dado un texto sustituye todas las cadenas que cumplan la expresión regular por otra cadena. Esta operación sería la versión sofisticada de `str.replace()`.
* Dividir (`split`): divide un texto en subcadenas según una expresión regular. Esta operación es equivalente a `str.split()`, pero el separador se determina mediante una expresión regular en vez de un posible subconjunto de caracteres.

La expresión regular más simple es una cadena texto. Basicamente estamos indicando que tenemos que encontrar otras cadenas que sean exactemente iguales. 

Vamos a ver un ejemplo con la función `findall()` que nos devuelve todas las apariciones que cumplan la expresión regular. En este caso, todas las apariciones de la cadena que indiquemos.

In [2]:
import re

re.findall(r"tristes", "Tres tristes tigres tragaban trigo en un trigal en tres tristes trastos")

['tristes', 'tristes']

Nos devuelve las dos aparaciones de `tristes` en el trabaleguas que hemos indicado como segundo parámetro. Vemos que el primer parámetro indica la expresión regular como `r"tristes"`. El modificador `r` sólo es obligatorio cuando tengamos expresiones regulares más complejas, pero lo vamos a incluir siempre, de manera que sea más fácil distinguir entre la expresión regular, y el texto donde se aplica.

Hay que tener en cuenta que estamos realizando una búsqueda literal de la cadena `tristes` dentro de otra cadena, es decir, estamos pidiendo que encuentre todas las veces en que la letras `t`, `r`, `i`,`s`,`t`, `e` aparecen juntas. Si eliminamos los espacios del trabalenguas anterior, el resultado es el mismo, ya que sigue encontrándo dos veces la cadena `tristes.

In [11]:
import re

re.findall(r"tristes", "Trestristestigrestragabantrigoenuntrigalentrestristestrastos")

['tristes', 'tristes']

Podemos utilizar la función `len()` para determinar cuantas apariciones hemos encontrado.

In [3]:
len(re.findall(r"tristes", "Tres tristes tigres tragaban trigo en un trigal en tres tristes trastos"))

2

Si no se encuentra ninguna aparición, el resultado es una lista vacía.

In [4]:
re.findall(r"tristos", "Tres tristes tigres tragaban trigo en un trigal en tres tristes trastos")

[]

**Prueba tú mismo**. A realizar una expresión regular que comprueba cuantas letras `e` hay en el trabalenguas anterior.

**Prueba tú mismo**. A comprobar cuantas veces se encuentra `tres tristes`.

Las búsqueda son sensibles a las mayúsculas y minúsculas como has podido comprobar. `findall()` encuentra una sola vez la cadena `tres tristes`, ignorando la subcadena `Tres tristes` que se encuentra al principio.

Una primera opción consiste en indicar diferentes expresiones alternativas con el operador `|`.

In [9]:
re.findall(r"Tres tristes|tres tristes", "Tres tristes tigres tragaban trigo en un trigal en tres tristes trastos")

['Tres tristes', 'tres tristes']

Otra opción más conveniente ara indicar que la búsqueda no tenga en cuenta las diferencias entre mayúsculas y minúsculas. La primera es añadir el parámetro `re.IGNORECASE` en la llamada a la función.

In [10]:
re.findall(r"tres tristes", "Tres tristes tigres tragaban trigo en un trigal en tres tristes trastos", re.IGNORECASE)

['Tres tristes', 'tres tristes']

**Prueba tú mismo**. A comprobar cuantas veces aparece la letra `t` incluyendo la `T` mayúscula inicial.

## Ejercicios

**1. Ejercicio** Dado el siguiente texto:


> La lingüística (del francés linguistique; este de linguiste, «lingüista» y aquel del latín "lingua", «lengua») es el estudio científico del origen, la evolución y la estructura del lenguaje, a fin de deducir las leyes que rigen las lenguas (antiguas y modernas). Así, la Lingüística estudia las estructuras fundamentales del lenguaje humano, sus variaciones a través de todas las familias de lenguas (las cuales también identifica y clasifica) y las condiciones que hacen posible la comprensión y la comunicación por medio de la lengua natural, (esto último es particularmente cierto en el enfoque generativista). 

encontrar todas las apariciones de las cadenas `ling` o `leng` en todas sus formas posibles.

**2. Ejercicio** Determinar en la novela de _La Celestina_ de Fernando de Rojas si Calisto interviene más veces que Melibea, o al revés. La novela se puede descargar de http://www.gutenberg.org/cache/epub/1619/pg1619.txt