# Expresiones Regulares 

Una expresión regular (**regexp**) es una secuencia de caracteres que conforman un patrón de búsqueda. Se utilizan para búsqueda en textos largos, sustitución, validación y recuperación de información de manera eficiente. Generalmente, las expresiones regulares están implementadas en los lenguajes de programación de alto nivel (e.g., Python, JavaScript, Perl, Go, entre otros).

En Python, utilizamos la librería `re`:

In [1]:
import re

Puede consultar la documentación de este paquete en: [https://docs.python.org/3/library/re.html](https://docs.python.org/3/library/re.html).

## Búsquedas exactas 
La forma más sencilla de expresión regular se da cuando queremos hacer una búsqueda de una subcadena dentro de un texto. Esta busqueda se puede ver de varias formas:

* Determinar si una subcadena $s$ se encuentra en un texto $d$ (`True` o `False`).
* Determinar el número de ocurrencias de $s$ en $d$.
* Determinar las posiciones o índices donde aparece $s$ en $d$.

Veamos un ejemplo:

In [2]:
d = "El teléfono del cliente es 317-256-8501. Por favor contactar!"

Veamos el primer caso, con la operación `in` nativa de Python:

In [3]:
'teléfono' in d

True

In [4]:
'317-256-8501' in d

True

Ahora, veamos el mismo ejemplo pero a nivel de expresión regular:

In [5]:
s = 'teléfono'

In [6]:
re.search(s, d)

<re.Match object; span=(3, 11), match='teléfono'>

Puede probar cambiando la subcadena para ver si está contenida en el texto:

In [7]:
s = "" # reemplace el valor por cualquier subcadena que quiera buscar.
match = re.search(s, d)
match

<re.Match object; span=(0, 0), match=''>

Veamos algunos atributos del objeto resultante:

In [8]:
match.span()

(0, 0)

In [9]:
match.start()

0

In [10]:
match.end()

0

¿Que pasaria si aparece más de una vez?

In [11]:
text = "mi teléfono es un teléfono nuevo"

In [12]:
match = re.search("teléfono", text)
match

<re.Match object; span=(3, 11), match='teléfono'>

In [13]:
match.span()

(3, 11)

Para encontrar todas las coincidencias, usamos el método `.findall()`:

In [14]:
matches = re.findall("teléfono", text)
matches

['teléfono', 'teléfono']

In [15]:
len(matches)

2

In [16]:
type(matches)

list

In [17]:
type(matches[0])

str

Podemos obtenerlos como un iterador de Python:

In [18]:
re.finditer("teléfono", text)

<callable_iterator at 0x18f5b8a3b80>

In [19]:
for enc in re.finditer("teléfono", text):
    print(enc.span())

(3, 11)
(18, 26)


## Patrones de búsqueda

*¿Cómo se buscan números de teléfono o correos en cadenas de texto grandes?*

Cuando hablábamos de búsquedas exactas, debemos conocer la subcadena o el *query* exacto que deseamos encontrar. No obstante, en otros casos lo que buscamos son patrones que cumplan con determinado criterio de búsqueda. Para esto nos es de gran utilidad una expresión regular, la cual permite expresar distintas variaciones (combinaciones) de caracteres de forma simplificada.

### Identificadores para caracteres en patrones

Los dígitos, caracteres alfanuméricos, cadenas, y todos los caracteres en general tienen diferentes códigos que los representan. Se pueden usar estos códigos para construir patrones. 

La sintaxis para expresiones regulares de Python es la misma que la del lenguaje de programación `Perl`. La cual define el uso del carácter `\` para definir patrones. 

Para que Python capture dicho carácter, debemos escaparlo o escribir el patrón como un `raw string`:

In [20]:
case1 = "\\w"
print(case1)

\w


In [21]:
case2 = r'\w' # raw string
print(case2)

\w


A continuación se presenta una tabla con algunos de estos identificadores:

<table ><tr><th>Caracter</th><th>Descripción</th><th>Ejemplo Patrón</th><th >Ejemplo Match</th></tr>
<tr ><td><span >\d</span></td><td>Un dígito</td><td>file_\d\d</td><td>file_25</td></tr>
<tr ><td><span >\w</span></td><td>Alphanumerico</td><td>\w-\w\w\w</td><td>A-b_1</td></tr>
<tr ><td><span >\s</span></td><td>Espacio en blanco</td><td>a\sb\sc</td><td>a b c</td></tr>
<tr ><td><span >\D</span></td><td>No es un dígito</td><td>\D\D\D</td><td>ABC</td></tr>
<tr ><td><span >\W</span></td><td>No-alphanumerico</td><td>\W\W\W\W\W</td><td>*-+=)</td></tr>
<tr ><td><span >\S</span></td><td>No-espacio</td><td>\S\S\S\S</td><td>Yoyo</td></tr></table>

Otros identificadores comunes a continuación:

* \t — Representa un tabulador.
* \r — Representa el "retorno de carro" o "regreso al inicio" o sea el lugar en que la línea vuelve a iniciar.
* \n — Representa la "nueva línea" el carácter por medio del cual una línea da inicio.
* \f — Representa un salto de página
* \v — Representa un tabulador vertical
* \x — Se utiliza para representar caracteres ASCII o ANSI si conoce su código. De esta forma, si se busca el símbolo de derechos de autor (copyright) y la fuente en la que se busca utiliza el conjunto de caracteres Latin-1 es posible encontrarlo utilizando "\xA9".
* \u — Se utiliza para representar caracteres Unicode si se conoce su código. "\u00A2" representa el símbolo de centavos. No todos los motores de Expresiones Regulares soportan Unicode.
* \d — Representa un dígito del 0 al 9.
* \w — Representa cualquier carácter alfanumérico (a-z, A-Z, 0-9 o guión bajo).
* \s — Representa un espacio en blanco.
* \D — Representa cualquier carácter que no sea un dígito del 0 al 9.
* \W — Representa cualquier carácter no alfanumérico.
* \S — Representa cualquier carácter que no sea un espacio en blanco.
* \A — Representa el inicio de la cadena. No un carácter sino una posición.
* \Z — Representa el final de la cadena. No un carácter sino una posición.
* \b — Marca el inicio y el final de una palabra.
* \B — Marca la posición entre dos caracteres alfanuméricos o dos no-alfanuméricos.

Veamos un ejemplo:

In [22]:
text = "Mi teléfono es 317-204-5689"

In [23]:
match = re.search(
        r'\d\d\d-\d\d\d-\d\d\d\d', 
        text
        )

In [24]:
match

<re.Match object; span=(15, 27), match='317-204-5689'>

In [25]:
match.group()

'317-204-5689'

### Cuantificadores

Se utilizan cuantificadores para expresar repeticiones de elementos:

<table ><tr><th>Caracter</th><th>Descripción</th><th>Ejemplo Patrón</th><th >Ejemplo Match</th></tr>
<tr ><td><span >+</span></td><td>Ocurre una o más veces</td><td>	Version \w-\w+</td><td>Version A-b1_1</td></tr>
<tr ><td><span >{3}</span></td><td>Ocurre exactamente 3 veces</td><td>\D{3}</td><td>abc</td></tr>
<tr ><td><span >{2,4}</span></td><td>Ocurre de 2 a 4 veces</td><td>\d{2,4}</td><td>123</td></tr>
<tr ><td><span >{3,}</span></td><td>Ocurre 3 o más veces</td><td>\w{3,}</td><td>anycharacters</td></tr>
<tr ><td><span >\*</span></td><td>Ocurre 0 o más veces</td><td>A\*B\*C*</td><td>AAACC</td></tr>
<tr ><td><span >?</span></td><td>Una vez o ninguna</td><td>plurals?</td><td>plural</td></tr></table>

Un cuantificador tras un carácter especifica la frecuencia con la que éste puede ocurrir. Los cuantificadores más comunes son +, ? y *:

* `+` El signo más indica que el carácter que le precede debe aparecer al menos una vez. Por ejemplo, "ho+la" describe el conjunto infinito hola, hoola, hooola, hoooola, etcétera.

* `?` El signo de interrogación indica que el carácter que le precede puede aparecer como mucho una vez. Por ejemplo, "ob?scuro" se corresponde con oscuro y obscuro.

* `*` El asterisco indica que el carácter que le precede puede aparecer cero, una, o más veces. Por ejemplo, "0*42" se corresponde con 42, 042, 0042, 00042, etcétera.

* `.` El punto representa un match con cualquier carácter (comodín).

In [26]:
match = re.search(
        r'\d{3}-\d{3}-\d{4}',
        text
        )

In [27]:
match.group()

'317-204-5689'

### Agrupaciones

¿Qué pasaría si quisiéramos hacer dos tareas, encontrar números de teléfono, pero también poder extraer rápidamente su código de área (los primeros tres dígitos)? Podemos usar grupos para cualquier tarea general que implique agrupar expresiones regulares (para que luego podamos desglosarlas).

Usando el ejemplo del número de teléfono, podemos separar grupos de expresiones regulares usando paréntesis:

In [28]:
pat = re.compile(r'(\d{3})-(\d{3})-(\d{4})')

In [29]:
match = re.search(pat, text)

In [30]:
match.group()

'317-204-5689'

In [31]:
# Podemos acceder a cada grupo, empezando desde 1. El 0 retornará todo.
match.group(1)

'317'

In [32]:
match.group(2)

'204'

In [33]:
match.group(3)

'5689'

In [34]:
match.group(4) # Solo existen 3 grupos

IndexError: no such group

## Otras expresiones regulares

Los paréntesis definen el ámbito y precedencia de los demás operadores. Por ejemplo, "(p|m)adre" es lo mismo que "padre|madre", y "(des)?amor" se corresponde con amor y con desamor.

### Operador O lógico - |

La barra "|" - Sirve para indicar una de varias opciones. Por ejemplo, la expresión regular "a|e" encontrará cualquier "a" o "e" dentro del texto.

In [35]:
re.search(
        r"NLP|ML",
        "Este es el curso de NLP."
        )

<re.Match object; span=(20, 23), match='NLP'>

In [36]:
re.search(
        r"NLP|ML",
        "También hay un curso de ML."
        )

<re.Match object; span=(24, 26), match='ML'>

### El carácter . (máscara)

El punto “.” - El punto se interpreta por el motor de búsqueda como "cualquier carácter", es decir, busca cualquier carácter SIN incluir los saltos de línea.

In [37]:
re.findall(
        r".L.",
        "En el programa de MLDS existe un curso de ML y otro de NLP."
        )

['MLD', 'ML ', 'NLP']

Podemos incluir más '.' para capturar más caracteres:

In [38]:
re.findall(
        r"....L.",
        "En el programa de MLDS existe un curso de ML y otro de NLP."
        )

['de MLD', 'de ML ', 'de NLP']

Sin embargo, podríamos necesitar extraer las palabras que contengan 'L'.

In [39]:
# Uno o más caracteres diferentes a espacios que contengan L
re.findall(
        r"\S+L.",
        "En el programa de ghfghfgMLDS existe un curso de ML y otro de NLP."
        )

['ghfghfgMLD', 'ML ', 'NLP']

### Inicio y fin

Se utiliza **^** para indicar el inicio. El signo de dólar $ - Representa el final de la cadena de caracteres o el final de la línea, si se utiliza el modo multi-línea. 

In [40]:
# Termina en numero
re.findall(r'\d$','Esta cadena termina en un número 1022')

['2']

In [41]:
# Comienza con un número
re.findall(r'^\d','1. Este es el primer punto')

['1']

**Funciona para toda la cadena, no para palabras individuales!**

### Exclusión

Para excluir caracteres, se usa el símbolo **^** junto a **[]**. Lo que está por dentro se excluye en la búsqueda.

In [42]:
text = "Hay 3 números 34 dentro 5 de esta frase."

In [43]:
re.findall(r'[^\d]', text)

['H',
 'a',
 'y',
 ' ',
 ' ',
 'n',
 'ú',
 'm',
 'e',
 'r',
 'o',
 's',
 ' ',
 ' ',
 'd',
 'e',
 'n',
 't',
 'r',
 'o',
 ' ',
 ' ',
 'd',
 'e',
 ' ',
 'e',
 's',
 't',
 'a',
 ' ',
 'f',
 'r',
 'a',
 's',
 'e',
 '.']

Para unir las palabras, se usa +  

In [44]:
''.join(
        re.findall(
            r'[^\d]+',
            text
            )
        )

'Hay  números  dentro  de esta frase.'

Esto se utiliza para eliminar signos de puntuación, por ejemplo:

In [45]:
text = 'Esta es una cadena! Sin embargo, tiene signos de puntuación. ¿Cómo podemos eliminarlos?'

In [46]:
re.findall('[^!,.¿?]+', text)

['Esta es una cadena',
 ' Sin embargo',
 ' tiene signos de puntuación',
 ' ',
 'Cómo podemos eliminarlos']

In [47]:
clean = ' '.join(
        re.findall(
            '[^!,.¿? ]+', text
            )
        )

In [48]:
clean

'Esta es una cadena Sin embargo tiene signos de puntuación Cómo podemos eliminarlos'

### Corchetes "[ ]" para agrupar

Los corchetes "[ ]" - La función de los corchetes en el lenguaje de las expresiones regulares es representar "clases de caracteres", o sea, agrupar caracteres en grupos o clases. Por ejemplo:

In [49]:
text = 'Solamente vamos a extraer palabras compuestas como pre-requisito, pre-procesamiendo de texto, y finalmente, pro-activo'

In [50]:
re.findall(r'[\w]+-[\w]+', text)

['pre-requisito', 'pre-procesamiendo', 'pro-activo']

## Paréntesis para múltiples opciones
Encontrar palabras que empiecen con 'tele' y terminen en alguna de las siguientes: 'trabajo','visores', or 'fono'

In [51]:
text1 = '¿Cuántos televisores tienes en casa?'
text2 = "¿Has tenido que hacer teletrabajo recientemente?"
text3 = "Mi teléfono es 300-467-3400. ¿Cuál es tu telefono?"
text4 = "¿Recuerdas cuando se usaban los telegramas?"

In [52]:
re.search(
        r'tele(trabajo|visor*|fono)',
        text1
        )

<re.Match object; span=(9, 18), match='televisor'>

In [53]:
re.search(
        r'tele(trabajo|visor|fono)',
        text2
        )

<re.Match object; span=(22, 33), match='teletrabajo'>

In [54]:
re.search(
        r'tel(trabajo|visores|.fono)',
        text3
        )

<re.Match object; span=(3, 11), match='teléfono'>

In [55]:
re.search(
        r'tele(trabajo|visores|fono)',
        text4
        )

## Documentación

https://docs.python.org/3/howto/regex.html