# Regex 101
## Material
Por si no te ha dado tiempo a entrar en el enlace antes del taller, puedes hacer cualquiera de estas cosas, lo que tengas más a mano:
- ve a la página del taller en la web del T3chFest, ahí está enlazado
- ve a `github.com/nimbusaeta/regex-101`

Si tienes Jupyter Notebook instalado, tendrás que descargarte el cuaderno, escribir `jupyter notebook` en la terminal y abrirlo en el navegador; si no lo tienes instalado, puedes seguir [este enlace a Drive]() para abrirlo con la herramienta de Google Colaboratory y así poder ejecutar el código.

## Quién soy yo y esas cosas
Soy Leticia Martín-Fuertes Moreno, estudié Filología Clásica en la Universidad Autónoma de Madrid y trabajo en Google como Associate Linguist (contratada por Adecco). También imparto la asignatura de Introducción a la programación para Humanidades Digitales en el Máster de [Tecnologias de la Información para la Sociedad Digital: Humanidades y Ciencia](https://formacionpermanente.fundacion.uned.es/tp_actividad/idactividad/10576&idioma=es) de la UNED. Coorganizo [R-Ladies Madrid](https://www.meetup.com/es-ES/rladies-madrid/) y [Lingẅars](http://lingwars.github.io/blog/).

Tenéis [mi LinkedIn](https://www.linkedin.com/in/leticiamfm/), [mi Twitter](https://twitter.com/nimbusaeta) y [mi GitHub](https://github.com/nimbusaeta) pa lo que queráis.

Este taller está basado en uno que di en febrero del año pasado en Medialab Prado, adaptado a su vez de [regular-expressions.info](regular-expressions.info). Personalmente me tocó aprender regex a saco cuando participé en el [proyecto Aracne](https://www.fundeu.es/aracne/), mi primer contacto con la tecnología, y me encantaron. Recopilé [todas las regex que usé para limpiar textos generados por OCR](https://docs.google.com/spreadsheets/d/1OSu0Nd2tyoBNy3XB7HJzxWIgFXuQ8T3-M9d04VK1Rm4/edit?usp=sharing) porque no encontré ninguna recopilación así. Todo esto lo cuento porque puede que algunos ejemplos no sean muy techies precisamente pero espero que sean lo suficientemente ilustrativos.

## ¿Qué son las _regex_ o _expresiones regulares_?
Las regex son una serie de patrones y reglas que los gobiernan que sirven básicamente para hacer búsquedas en textos o evaluar si determinada _string_ o cadena de caracteres cumple las condiciones que nos interesen. Muy útiles para trabajar de manera avanzada con texto. Algunas de sus utilidades:
- Buscar y reemplazar en código
- Validar texto de entrada
- Renombrar archivos
- Buscar archivos en la línea de comandos
- Buscar en bases de datos
- Hacer scraping
- Limpiar texto

Algunas cosas a tener en cuenta sobre las regex:
- Es una tecnología vieja, inventada en los 50.
- Son multidisciplinares. ¿Quién no ha necesitado alguna vez usar regex, da igual que sea de front, de back, de investigación...
- Están muy extendidas, hay muchos programas que los soportan. Por supuesto, todos los lenguajes de programación, pero también programas como Word, Writer, AntConc, TshwaneLex... Lo "malo" es que, por esto mismo, también hay muchos "dialectos". Aquí vamos a aprenderlas en general, lo que es común a todos los dialectos, y en especial en Python.

## Caracteres literales y metacaracteres
### Caracteres literales
Corresponden con caracteres de la string tal cual. Si ponemos `y` nos encuentra la primera `y` de `Monty Python`, aunque depende de las opciones del programa o la función que estemos usando al programar.

In [None]:
import re

a = re.search("y", "Monty Python")
b = re.findall("y", "Monty Python")
print(a)
print(b)

### Metacaracteres
De por sí tienen otros significados (que enseguida veremos). Si queremos usarlos de forma literal hay que _escaparlos_. Son los siguientes:
    
`\ ^ $ . | ? * + ( ) [ ] { }`

In [None]:
a = re.search("¿Qué es una almáciga\?", "¿Qué es una almáciga?")
print(a)

Hay caracteres literales que pueden escaparse para darles un uso diferente; también lo vamos a ver.

Una [nota](https://docs.python.org/3/library/re.html#module-re) en la documentación de re sobre el uso de la barra para escapar y la `r` antes de las comillas.

### Ejercicio
Para encontrar `1+1=2`, ¿qué regex hay que usar?

In [None]:
a = re.findall("", "Todo el mundo sabe que 1+1=2")
print(a)

## Sets y rangos de caracteres
Con los corchetes cuadrados `[]` creamos un set o conjunto, es decir, buscamos un carácter de entre los que metamos dentro de los corchetes.

In [None]:
a = re.findall("gui[oó]n", "Antes escribíamos guión y ahora guion")
print(a)

Si junto a los corchetes usamos el guion `-`, indicamos un rango. Muy útil para capturar, por ejemplo, rangos de números, de letras...

In [None]:
indice = """1. Prólogo
2. Introducción
3. Aspectos clave"""
a = re.findall("[0-9]\. ", indice)
print(a)

Se puede usar más de un rango a la vez en un mismo set; por ejemplo, podemos hacer que `[a-z]` sea _case-insensitive_ poniendo al lado el rango de letras en mayúsculas: `[a-zA-Z]`

Los corchetes también nos sirven, junto con el acento circunflejo `^`, para negar caracteres:

In [None]:
a = re.findall("q[^u]", "qué quién qé qién")
print(a)

Si metemos más caracteres dentro de los corchetes, niega todos:

In [None]:
a = re.findall("q[^ui]", "qué quién qé qién")
print(a)

### Ejercicio
Para encontrar `a-d`, `”—c` y `ó—”`, ¿qué regex hay que usar? Ojo, que no es lo mismo el guion `-` que la raya `—`.

In [None]:
texto = """de ninguna manera-dijo
“Señores”—comenzó—”no vamos a…"""
a = re.findall("", texto)
print(a)

## Repetición y alternancia
Con `?` indicamos que el carácter anterior es opcional.

In [None]:
a = re.findall("amigos?", "¿Tienes un amigo o tienes muchos amigos?")
print(a)

Con `+` buscamos que el carácter anterior salga una o más veces.

In [None]:
# Capturar cualquier conjunto de dos o más espacios
a = re.sub(" +", " ", "Ciudad del  Cabo, una ciudad   de 3,7 millones de  habitantes")
print(a)

El asterisco `*` se puede entender como una mezcla de `?` y `+`: indicamos que es opcional, pero que, si sale, lo haga una o más veces.

In [None]:
# Capturar cualquier palabra entrecomillada
a = re.findall('[«"`][a-zA-Z ]*[´"»]', '''¿Cuántas veces dicen «ni» los caballeros
               que dicen "ni" en `Monty Python y los caballeros de la mesa cuadrada´?''')
print(a)

Podemos indicar el número exacto de apariciones de caracteres que nos interesan metiéndolo entre las llaves `{}`, o un rango si separamos los números mediante comas.

In [None]:
# Capturar cualquier número entre 1000 y 9999
a = re.findall(" [1-9][0-9]{3},", "125, 987, 2940, 5982, 13943, 38492, 748392, 404921")
print(a)
# Capturar cualquier número entre 100 y 99999
a = re.findall(" [1-9][0-9]{2,4},", "125, 987, 2940, 5982, 13943, 38492, 748392, 404921")
print(a)

La pleca `|` permite la alternancia entre dos opciones:

In [None]:
a = re.findall("Monty Python|the Pythons", """Monty Python and the Holy Grail was based on Arthurian legend
                and was directed by Jones and Gilliam. Again, the latter also contributed linking animations 
                (and put together the opening credits). Along with the rest of the Pythons, Jones and Gilliam 
                performed several roles in the film, but Chapman took the lead as King Arthur. Cleese returned 
                to the group for the film, feeling that they were once again breaking new ground. Holy Grail 
                was filmed on location, in picturesque rural areas of Scotland, with a budget of only £229,000; 
                the money was raised in part with investments from rock groups such as Pink Floyd, Jethro Tull, 
                and Led Zeppelin—and UK music industry entrepreneur Tony Stratton-Smith (founder and owner of 
                the Charisma Records label, for which the Pythons recorded their comedy albums).""")
print(a)

### Ejercicios

Escribamos un traductor balleno-castellano, que sustituya todas las vocales repetidas por una sola vocal. Rellena con regex:

In [None]:
saludo = "hoooooooooolaaaaaa, señoooooooora balleeeeeeeeenaaaaaaaaa"
saludo = re.sub("", "a", saludo)
saludo = re.sub("", "e", saludo)
saludo = re.sub("", "i", saludo)
saludo = re.sub("", "o", saludo)
saludo = re.sub("", "u", saludo)
print(saludo)

Para encontrar códigos RGB de colores, ¿qué regex tendríamos que escribir?

In [None]:
a = re.findall("", "#63ffed #daffbb #ff787b")
print(a)

## Comodines
Ciertos caracteres literales se pueden escapar, como hacíamos con los metacaracteres, para usos especiales. Tienen la particularidad de que al ponerlos en mayúsculas, los negamos.
- Con `\d` encontramos dígitos: `\d` = `[0-9]`; `\D` = `[^0-9]`
- Con `\w` encontramos caracteres alfanuméricos y la barra baja: `\w` = `[a-zA-Z0-9_]`; `\W` = `[^a-zA-Z0-9_]`

### Caracteres invisibles
- Con `\t` encontramos el tabulador.
- Con `\n` encontramos el carácter de nueva línea.
- Con `\r` encontramos el carácter de retorno de carro.
- Con `\s` encontramos espacios, tabuladores y saltos de línea: `\s` = `[ \t\r\n]`; `\S` = `[^ \t\r\n]`

En Windows, por defecto, al crear un nuevo párrafo en los programas de procesamiento de texto, en realidad se están imprimiendo `\r` y `\n`. En Linux, se imprime solo `\n`.
### El punto
El punto `.` encuentra casi todo: todo menos precisamente los saltos de línea (aunque esto es configurable). ¡Hay que tener mucho cuidado con el punto!

### Ejercicio

Tenemos una lista de términos sacados de un diccionario médico y queremos deshacernos de prefijos y sufijos. ¿Qué regex hay que usar?

In [None]:
entries = [
    "acantocéfalo, la",
    "acéfalo, la",
    "bicéfalo, la",
    "braquicéfalo, la",
    "bucéfalo",
    "calocéfalo, la",
    "céfalo",
    "cefalo-, -céfalo, la",
    "cinocéfalo",
    "dolicocéfalo, la",
    "encéfalo",
    "hidrocéfalo, la",
    "macrocéfalo, la",
    "mesocéfalo, la",
    "microcéfalo, la",
    "policéfalo, la",
    "termocéfalo, la",
    "tricéfalo, la",
    "estomatitis",
    "faringitis",
    "fascitis",
    "flebitis",
    "flojeritis",
    "gastritis",
    "gastroenteritis",
    "gingivitis",
    "glositis",
    "hepatitis",
    "iritis",
    "-itis",
    "laringitis",
    "linfangitis",
    "litis",
    "mastitis",
    "meningitis"]

entries_clean = []
for entry in entries:
    if not re.match("", entry):
        entries_clean.append(entry)
    
print(entries_clean)

## Anclas
Las anclas no se corresponden con ningún carácter, sino con posiciones. Su particularidad reside en que si lo que queremos es reemplazar una string por otra, no tenemos que ponerlos en la cadena meta.

El acento circunflejo `^` indica el principio de una línea y `$`, el final. Los límites de las palabras también los podemos encontrar, con `\b` (y usar su contrario, `\B`).

In [None]:
indice = """1. Prólogo
2. Introducción
3. Aspectos clave
4. Historia desde 1979. Un relato único"""
a = re.findall(r"^[0-9]\. ", indice, flags=re.M)
print(a)

### Ejercicio
Queremos corregir este error de OCR: to, ta, te, tos, tas, tes a menudo esconden lo, la, le, los, las, les. ¿Qué debemos buscar?

In [None]:
texto = """todo estaba oscuro
era to más parecido
una de tas mejores obras
según decían, «tes asustaban»"""

resultados = re.findall(r"", texto)
print(resultados)

## Avaricia y pereza
Los cuantificadores que hemos visto antes son, por defecto, avariciosos (_greedy_); eso quiere decir que abarcarán todo lo que puedan.

Las etiquetas HTML son ejemplos típicos:

In [None]:
HTML = "Podemos llamarlas <em>expresiones regulares</em>, <em>regexp</em> o <em>regex</em>."

- La regex `<.+>` a priori es muy suculenta para cazar cada etiqueta, pero:

In [None]:
a = re.findall("<.+>", HTML)
print(a)

- Tampoco nos sirve restringirlo a fragmentos de texto sin espacios:

In [None]:
a = re.findall("<[^ ]+>", HTML)
print(a)

Solución: con `?` la hacemos perezosa (_lazy_); es decir, dejará de buscar tras la primera instancia de `>`. Con `<.+?>` capturamos todas las etiquetas y solo las etiquetas.

In [None]:
a = re.findall("<.+?>", HTML)
print(a)

### Ejercicios
Encuentra cada oración por separado en esta cita de las _Meditaciones_ de Marco Aurelio:

In [None]:
a = re.findall("", "No actúes en la idea de que vas a vivir diez mil años. La necesidad ineludible pende sobre ti. Mientras vives, mientras es posible, sé virtuoso.")
print(a)

Encuentra todas las líneas aéreas:

In [None]:
airlines = """Andes Líneas Aéreas
Plus Ultra Líneas Aéreas
Líneas Aéreas del Estado"""

a = re.findall("", airlines)
print(a)

## Agrupación
Con los paréntesis `()` se pueden agrupar varios caracteres, útil para:
- poder aplicarle a todo ese grupo un mismo cuantificador
- capturar ese grupo, es decir, poder usarlo después (en la misma regex de búsqueda o en el reemplazo)

In [None]:
a = re.search(r"(for ){2}", "Always look for for the bright side of life")
print(a)

In [None]:
a = re.search(r"(.+) \1", "Always look for for the bright side of life")
print(a)
print(a.group(0))

In [None]:
a = re.sub(r"([^ ])[-—]([^ ])", r"\1 - \2", "de ninguna manera-dijo")
print(a)

### Ejercicios
Capturar por un lado el ancho y por otro el alto en estas medidas:

In [None]:
a = re.findall(r"", "1280x720")
print(a)
a = re.findall(r"", "1920x1600")
print(a)
a = re.findall(r"", "1024x768")
print(a)

Ahora, aparte de capturar los errores, queremos sustituirlos por las palabras correctas:

In [None]:
texto = """todo estaba oscuro
era to más parecido
una de tas mejores obras
según decían, «tes asustaban»"""

resultados = re.sub(r"", r"", texto)
print(resultados)

## Grupos anidados
Los grupos se pueden anidar, es decir, que un fragmento de string puede pertenecer a dos grupos distintos.

Imagina que en las siguientes strings queremos capturar tanto el año como el mes y el año:

In [None]:
a = re.findall("(.*(\d{4}))", """Jan 1987\nMay 1969\nAug 2011""")
print(a)

## Ejercicios para practicar

La regex para encontrar las 3 formas de referirse a las regex es…

In [None]:
nombres = [
    "regex",
    "regexp",
    "regular expressions"
]

for nombre in nombres:
    if re.match("", nombre):
        print(nombre)

### Prefijos en números de teléfono
Capturar en grupos el prefijo de varios números de teléfono estadounidenses, con distintos formatos.

Prefijos: '415', '650', '416', '202', '403', '416'

In [None]:
numeros = """415-555-1234
650-555-2345
(416)555-3456 
202 555 4567
4035555678
1 416 555 9292"""
a = re.findall("", numeros)
print(a)

### Nombres en direcciones de correo electrónico
Capturar en grupos los nombres de distintas direcciones de correo electrónico.

In [None]:
emails = """tom@hogwarts.com
tom.riddle@hogwarts.com
tom.riddle+t3chfest@hogwarts.com
tom@hogwarts.eu.com
potter@hogwarts.com
harry@hogwarts.com
hermione+t3chfest@hogwarts.com"""
a = re.findall("", numeros)
print(a)

## Recursos
- [SketchEngine](https://regex.sketchengine.co.uk/) tiene ejercicios interesantes.
- [regex101](https://regex101.com) es perfecto para probar y compartir regex.
- [regexone](https://regexone.com) tiene un tutorial interactivo muy útil.