<a href="https://colab.research.google.com/github/jgermanob/COCID-PLN/blob/master/notebooks/Regex.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 3) Expresiones regualres

Una expresión regular es una fórmula en un lenguaje especial que se usa para especificar clases simples de cadenas. Una cadena es una secuencia de símbolos; a efectos de la mayoría de las técnicas de búsqueda basadas en texto, una cadena es cualquier secuencia de caracteres alfanuméricos (letras, números, espacios, tabulaciones y puntuación).

Formalmente, una expresión regular es una notación algebraica para caracterizar un conjunto de cadenas. Por lo tanto, se pueden usar para especificar cadenas de búsqueda, así como para definir un lenguaje de manera formal.

La búsqueda de expresiones regulares requiere un patrón que queremos buscar y un corpus de textos para buscar. Una función de búsqueda de expresiones regulares buscará en el corpus y devolverá todos los textos que contengan el patrón.

Python tiene un paquete integrado llamado re, que se puede usar para trabajar con expresiones regulares.

In [1]:
import re

In [29]:
text = """El zorro salta sobre el perro perezoso
La leyenda del Zorro es una gran película
Una manada de zorros anda por el bosque
Aquel hombre gritó: Cuidado con el zorrooooooo !"""

El tipo más simple de expresión regular es una secuencia de caracteres simples. Por ejemplo, para buscar zorro, escribimos /zorro/.

In [3]:
patterns = re.findall(r'\bzorro\b', text)

In [None]:
patterns

## 3.1) Conjuntos de caracteres 

Las expresiones regulares distinguen entre mayúsculas y minúsculas; La /z/ minúscula es distinta de la /Z/ mayúscula (/z/ coincide con una s minúscula pero no con una Z mayúscula).

Esto significa que el patrón /zorro/ no coincidirá con la cadena Zorro. Podemos resolver este problema con el uso de los corchetes \[ y \]. La cadena de caracteres dentro de los corchetes especifica una disyunción de caracteres que se pueden presentar en el patrón definido.

Algunos de los patrones mas utilizados disyunciones son:

| Expresión regular | Descripción |
| :---: | --- |
| \[a-z\] | una letra minúscula |
| \[A-Z\] | una letra mayúscula |
| \[0-9\] | un dígito |
| \[ , ' ¿ ! ¡ ; : \\. \\? \] | signos de puntuación |
| \[^a-z\] | Todo menos letras minúsculas |
| \[^0-9\] | Todo menos digitos |


Además, en python existen clases de caracteres predefinidas, estas son:

| Elemento | Descripción |
| :---: | --- |
| . | Cualquier caracter excepto salto de línea|
| \d | Cualquier dígito decimal|
| \D | Cualquier caracter excepto digitos |
| \s | Cualquier caracter de espacio en blanco |
| \S | Cualquier caracter que no sea espacio en blanco |
| \w | Cualquier caracter alfanumérico|
| \W | Cualquier caracter no alfanumérico|

In [5]:
patterns = re.findall(r'\b[zZ]orro\b', text)

In [None]:
patterns

## 3.2) Cuantificadores

Estos permiten definir cómo se puede repetir un caracter, metacaracter o un conjunto de caracteres. Estos son:

| Símbolo | Cuantificación de caracter previo |
| :---: | --- |
| ? | Opcional (cero o 1 repetición) |
| * | cero o más repeticiones |
| + | Una o mas repeticiones |
| \{n,m\} | Entre _n_ y _m_ repeticiones |



In [7]:
patterns = re.findall(r'\b[zZ]orros?\b', text)

In [None]:
patterns

In [23]:
patterns = re.findall(r'\b[zZ]orro+s?\b', text)

In [None]:
patterns

## 3.3) Operaciones con expresiones regulares

El método `findall()` devuelve una lista de todas las ocurrencias del patrón que no se superponen. Incluye la cadena vacia.

In [None]:
regex = re.compile("\w+")
patterns = regex.findall(text)
patterns

El método `split()` permite dividir una cadena usando expresiones regulares.

In [None]:
regex = re.compile("\n")
patterns = regex.split(text)
patterns

El método `sub()` devuelve la cadena resultante después de remplazar el patrón coincidente en la cadena original con otra.

In [None]:
regex = re.compile(r'\b[zZ]orro+s?\b')
regex.sub('ZORRO',text)

## Ejercicio

Define una función que mediante expresiones regulares identifique las diferentes variaciones de fechas para el día 23 de Octubre de 2002 que se muestran en la variable `dates` y las devuelva en una lista. 



In [None]:
dates = """23-10-2002
23/10/2002
23/10/02
10/23/2002
23 Oct 2002
23 de Octubre de 2002
Oct 23, 2002
Octubre 23, 2002
"""