# Expresiones regulares

Una expresion regular (regex) es una conjunto de caracteres que sigue una sintaxis determinada para encontrar coincidencias en cadenas de texto. Con las regex podemos obtener ciertos patrones dentro de un texto, por ejemplo, podemos buscar si hay nombres propios, fechas, cantidades de medida y otro tipo de información que usualmente siguen ciertas reglas gramaticales o de escritura.

La sintaxis de las regex se siguen por ciertas reglas o expresiones que funcionan de manera más o menos igual en varios lenguajes de programación populares. A continuación veremos cómo funcionan las regex y cuáles son las principales expresiones utilizadas.

In [1]:
## Importamos la libreria re
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:90% !important; }</style>"))
import re

La librería `re` tiene varios métodos, pero en este tutorial solo usaremos el método `re.findall` que nos regresa una lista con todas las coincidencias encontradas.

Para usar la librería necesitamos suministrar un patrón y un texto.
```{python}
re.findall(patron,texto)
```
El patrón es un conjunto de caracteres con la sintaxis de expresiones regulares que indica los patrones que queremos extraer del texto. El patrón es sensible a mayúsculas.

En Python, el texto se indica añadiendo comillas simples 'prueba', comillas dobles "prueba" o comillas triples, para el caso de textos multilinea:
 ```python
'prueba'
"prueba"
'''prue
ba'''
 
 ```

In [2]:
##ejemplo
patron = r'[A-Z]'
texto = 'Este es un texto de Prueba' 
re.findall(patron,texto)

['E', 'P']

En el ejemplo anterior, el patrón `[A-Z]` es una expresión regular para indicar que buscamos las letras de la A a la Z, en mayúsculas. En Python, añadimos la letra `r` para indicar que es un raw string y así evitar tener que poner un \ antes de algunos caracteres especiales.

## Buscando patrones
El uso más frecuente de las regex es encontrar patrones dentro de un texto. En el caso más básico, podemos crear un patrón que busque una serie de caracteres:

In [17]:
patron = r'e'
texto = 'Este es un texto de Prueba' 
print(re.findall(patron,texto))

['e', 'e', 'e', 'e', 'e']


En este ejemplo buscamos todas las apariciones de la letra `'e'`. Esta expresión solo nos regresará el caracter que buscamos por cada una de las veces que lo encontró en el texto, **es importante notar que no nos regresará la palabra de la cual proviene.**

In [14]:
patron = r'texto'
texto = 'Este texto es un pretexto para hacer una prueba'
print(re.findall(patron,texto))

['texto', 'texto']


En este ejemplo, al buscar los caracteres 'texto', nos devuelve cualquier coincidencia que encuentre, sin importar si los caracteres conforman toda una palabra o solo hacen parte de ella. **Más adelante veremos cómo acotar la búsqueda a palabras enteras**

### Clases de caracteres

Hay varias clases de caracteres que usualmente nos interesan más, como por ejemplo, los caracteres **alfabéticos**, los **numéricos** o los **espacios en blanco**. En las expresiones regulares hay una forma de abreviar la búsqueda segun el tipo de caracter:

* \w  caracteres alfanuméricos, es decir, los caracteres a-z, A-Z, 0-9 y también los guiones bajos _
* \d caracteres numéricos, es decir 0-9
* \s espacio en blanco, incluyendo tabulaciones y saltos de linea
* si colocamos la letra de la clase de caracter en mayúscula, entonces la regex busca el patrón contrario, es decir, \W busca todos los carateres que no son alfanuméricos, \D todos los que no son números y \S todos los que no son espacios en blanco

In [24]:
patron = r'\w' # Todos los caracteres alfanuméricos
texto = 'jjsantos01@cide.edu'
print(re.findall(patron,texto))

['j', 'j', 's', 'a', 'n', 't', 'o', 's', '0', '1', 'c', 'i', 'd', 'e', 'e', 'd', 'u']


In [22]:
patron = r'\d' # Todos los caracteres numéricos
texto = 'jjsantos01@cide.edu'
print(re.findall(patron,texto))

['0', '1']


In [25]:
patron = r'\D' # Todos los caracteres no numéricos
texto = 'jjsantos01@cide.edu'
print(re.findall(patron,texto))

['j', 'j', 's', 'a', 'n', 't', 'o', 's', '@', 'c', 'i', 'd', 'e', '.', 'e', 'd', 'u']


### Cuantificando caracteres
En los ejemplo anteriores solo buscamos un caracter, podemos buscar más de uno si ponemos varios juntos:


In [65]:
patron = r'\w\w\d' # dos alfanumericos y un número
texto = 'jjsantos01@cide.edu'
print(re.findall(patron,texto))

['os0']


* también podemos usar llaves $\{m,n\}$ junto a un caracter para especificar un número de ocurrencias, donde $m$ es el mínimo de ocurrencias y $n$ el máximo para un caracter. 
* Si solo especificamos una cantidad $\{m\}$ quiere decir que buscamos exactamente $m$ caracteres.
* $\{m,\}$ : mínimo $m$ caracteres.
* $\{,m\}$ :  máximo $m$ caracteres.

In [36]:
patron = r'\w{2}\d{2}' # dos alfanumericos y dos númericos
texto = 'jjsantos01@cide.edu'
print(re.findall(patron,texto))

['os01']


In [37]:
patron = r'\w{2,4}' # entre 2 y 4 caracteres alfanumericos
texto = 'jjsantos01@cide.edu'
print(re.findall(patron,texto))

['jjsa', 'ntos', '01', 'cide', 'edu']


#### Operadores "Codiciosos"  (greedy match)

Estos son operadores que se colocan junto a un caracter y también ayudan a definir la cantidad de caracteres que se desea buscar:
* $+$ : encuentra caracteres similares al de la izquierda 1 o más veces
* $*$ : encuentra caracteres similares al de la izquierda 0 o más veces
* $?$ : encuentra caracteres similares al de la izquierda 0 o 1 vez

Estos son muy útiles para encontrar derivaciones de alguna palabra.

In [68]:
patron = r'programa\w+' # todas las palabras que contienen programa y al menos un caracter alfanumerico
texto = 'Este programa esta programado en el presupuesto y se programara tambien el proximo año con los demas programas'
print(re.findall(patron,texto))

['programado', 'programara', 'programas']


In [69]:
patron = r'programa\w*' # todas las palabras que contienen programa e incluye también las que tienen más caracteres
texto = 'Este programa esta programado en el presupuesto y se programara tambien el proximo año con los demas programas'
print(re.findall(patron,texto))

['programa', 'programado', 'programara', 'programas']


In [70]:
patron = r'programa\w?' # todas las palabras que contienen programa e incluye también las que tienen maximo un caracter mas
texto = 'Este programa esta programado en el presupuesto y se programara tambien el proximo año con los demas programas'
print(re.findall(patron,texto))

['programa', 'programad', 'programar', 'programas']


#### Palabras
Usamos la sequencia `\b` para definir los límites iniciales o finales de una palabra:

In [76]:
texto = 'Este texto es un pretexto para hacer una prueba con textos'
patron = r'\btexto\b'
print(re.findall(patron,texto))

['texto']


In [77]:
texto = 'Este programa esta programado en el presupuesto y se programara tambien el proximo año con los demas programas'
patron = r'\bprograma\w?\b'
print(re.findall(patron,texto))

['programa', 'programas']


### Caracteres especiales

* $.$ (punto) sirve como comodín para cualquier caracter, excepto terminadores de línea \n. Si se quiere buscar literalmente un punto entonces debe anteponerse un backslash \\.
* $A|B$ (barra vertical) encuentra la expresión A o B. Si A es encontrada primero, entonces no intenta buscar B.


In [88]:
texto = 'este programa esta programado en el presupuesto y se programara tambien el proximo año con los demas programas'
patron = r'est.|\be.\b'
print(re.findall(patron,texto))

['este', 'esta', 'en', 'el', 'esto', 'el']


### Conjuntos de caracteres
Se pueden usar corchetes $[ ]$ para buscar un conjunto de caracteres. Puede usarse de diferentes formas:
* $[abc]$ Busca coincidencias con a,b o con c. No busca abc.
* $[a-z]$ Busca caracteres de la a a la z, en minúsculuas
* $[a-zA-Z0-9\_]$ Busca caracteres de la a a la z, de la A a la Z, del 0 al 9 y guion bajo _ (igual a \w)
* $[\hat{} abc]$ Busca todas las coincidencias que NO sean a,b o c


In [89]:
texto = 'este programa esta programado en el presupuesto y se programara tambien el proximo año con los demas programas'
patron = r'est[ae]'
print(re.findall(patron,texto))

['este', 'esta']


In [90]:
texto = 'este programa esta programado en el presupuesto y se programara tambien el proximo año con los demas programas'
patron = r'est[^ae]'
print(re.findall(patron,texto))

['esto']


### Agrupaciones
Se pueden usar paréntesis $()$ para agrupar varias expresiones, de esta manera junto con el caracter $|$, se pueden generar expresiones que busquen muchas combinaciones de términos.


In [104]:
texto = 'En el mercado hay negocios donde venden maiz y compran harina. Quienes compran maiz ahora pueden hacer harina y despues vender tortillas más caras' 
patron = r'(compra\w*|vende\w*|hacer)\s(maiz|harina|tortillas?)'
print(re.findall(patron,texto))

[('venden', 'maiz'), ('compran', 'harina'), ('compran', 'maiz'), ('hacer', 'harina'), ('vender', 'tortillas')]


Pueden haber agrupaciones anidadas. Cada agrupación generará una entrada en la tupla del resultado. Si hay varias agrupaciones, si se quiere el resultado que incluya todas las demás debrá hacerse una agrupación de toda la expresión regular. Para evitar que el resultado de una agrupación se muestre hay que añadir $?:$ al inicio: $(?:exp)$

In [154]:
texto = 'En el mercado hay negocios donde venden maiz y compran harina. Quienes compran maiz ahora pueden hacer harina y despues vender tortillas más caras' 
patron = r'((compra\w*|vende\w*|hacer)\s(maiz|harina|tortillas?))'
print(re.findall(patron,texto))

[('venden maiz', 'venden', 'maiz'), ('compran harina', 'compran', 'harina'), ('compran maiz', 'compran', 'maiz'), ('hacer harina', 'hacer', 'harina'), ('vender tortillas', 'vender', 'tortillas')]


In [155]:
texto = 'En el mercado hay negocios donde venden maiz y compran harina. Quienes compran maiz ahora pueden hacer harina y despues vender tortillas más caras' 
patron = r'((?:compra\w*|vende\w*|hacer)\s(?:maiz|harina|tortillas?))'
print(re.findall(patron,texto))

['venden maiz', 'compran harina', 'compran maiz', 'hacer harina', 'vender tortillas']


### Coincidencias anteriores y posteriores (lookbehind & lookahead)
Se usan para generar una coincidencia, solo si se cumple cierta expresión antes o después.
* $A(?=B)$ (lookahead) retorna la expresión A, solo si es seguida de B. No retorna B.
* $(?<=B)A$ (lookbehind) retorna la expresión A, solo si es antecedida inmediatamente de B. No retorna B.

In [109]:
texto = 'En el mercado hay negocios donde venden maiz y compran harina. Quienes compran maiz ahora pueden hacer harina y despues vender tortillas más caras' 
patron = r'\w+ (?=maiz)' # retorna una palabra solo si después está la palabra maiz
print(re.findall(patron,texto))

['venden ', 'compran ']


In [111]:
texto = 'En el mercado hay negocios donde venden maiz y compran harina. Quienes compran maiz ahora pueden hacer harina y despues vender tortillas más caras' 
patron = r'(?<=maiz) \w+' # retorna una palabra solo si antes está la palabra maiz
print(re.findall(patron,texto))

[' y', ' ahora']


### Ejercicios
1. Escriba una expresión regular que sirva para detectar toda una palabra si esta empieza por mayúscula. Pruebe su expresión en el siguiente texto: 
> "La proxima semana, el equipo del LNPP CIDE visitara San Luis Potosi para presentar su nuevo proyecto. El lunes viajaran a SLP Nayeli Aguirre, Isabel Maya, Cristina Galindez y Eduardo Sojo. El joven Luis Rodrigo Gonzalez Vizuet se quedara haciendo guardia."
2. Escriba una expresion regular que retorne los dígitos de un número de teléfono si este de la Ciudad de México, es decir si empieza con 55. Pueden ser números fijos (8 dígitos) o celulares (10 dígitos). Pruebe su expresión con el siguiente texto: 
>"Tengo dos numeros de celular, el 475596325 y el 5534468559. El telefono de mi casa es 47896321 y el de mi oficina es 55412987, ext. 5524. El numero de mi cuenta de debito para depositos es 552385697"
3. Escriba una expresión regular para capturar solo el usuario de una dirección de correo, es decir, la parte antes del @, pero solo si es una cuenta de alumnos o trabajadores del cide, es decir, terminan en @alumnos.cide.edu o cide.edu. Pruebe su expresión usando el texto 
>"Mi correo de trabajo es juan.santos@cide.edu, el de egresados es juan.santos@egresados.cide.edu. Cuando era estudiante tenia el de juan_santos@alumnos.cide y mi correo personal ha sido jjsantosochoa@outlook.com. Pueden consultarlos en la página www.cide.edu"
4. Escriba una expresión regular para detectar nombres propios, es decir si hay entre dos y cuatro palabras consecutivas que empiezan con mayúsculas y las siguientes letras son minúsculas. Pruebe su expresión en el siguiente texto: 
> "La proxima semana, el equipo del LNPP CIDE visitara San Luis Potosi para presentar su nuevo proyecto. El lunes viajaran a SLP Nayeli Aguirre, Isabel Maya, Cristina Galindez y Eduardo Sojo. El joven Luis Rodrigo Gonzalez Vizuet se quedara haciendo guardia."


Pueden probar sus expresiones usando la página [regex101](https://regex101.com/).

En [esta página](https://www.dataquest.io/blog/regex-cheatsheet/) encuentran un resumen de las expresiones regulares (en Python).