<a href="https://colab.research.google.com/github/jugernaut/ManejoDatos/blob/main/Expresiones_Regulares/Expresiones_Regulares.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Expresiones Regulares**

Profesor: M. en C. Miguel Angel Pérez León

Ayudante: Jesús Iván Coss Calderón

Materia: Manejo de Datos

## **Introducción**

Dentro de las áreas que abarca el estudio de las ciencias es bien conocido que regularmente es necesario identificar secuencias, formas, cadenas, etc. que se repiten frecuentemente, a estas 'formas' que se repiten frecuentemente se les conocen como **patrones**.

Por ejemplo, para un biólogo que analiza la **cadena de adn** de un individuo conformada por las letras (GTAC) le interesa identificar patrones que pueden determinar su genotipo. O por ejemplo para un investigador que quiere determinar cual es **la ruta mas transitada** dentro de Ciudad Universitaria, le interesa identificar el patrón que determinar este trayecto. 

Para alguien que labore en el are de minería de datos, es de vital importancia identificar patrones dentro de las bases de datos. Con la información adquirida identificando los patrones de un determinado usuario, se le puede **mostrar publicidad que encaje con sus patrones** para que este usuario realice compras.

Para un estudiante de actuaria seria muy atractivo identificar patrones dentro de las **bases estadísticas** (INEGI) y con base en estos datos ajustar las tasas que emplea una determinada empresa para los costos de sus productos.

Recientemente también se ha descubierto que el **comportamiento de la bolsa de valores** es repetitivo, por lo que encontrar un patrón en este sentido da una gran ventaja al que posea dicha información. 

Para identificar los patrones antes mencionados existen muchas técnicas y herramientas, pero una de las que mas se usa son las **expresiones regulares**.

## **Expresiones Regulares (RegEx)**

### Características

La búsqueda de patrones dentro de un conjunto de datos, es una un tanto sencilla para el cerebro humano ya que este ha gozado de miles de años de evolución para adaptarse a esta labor. Sin embargo hacer que una computadora pueda identificar patrones de igual manera que lo hace el cerebro humano no es una labor trivial. 

Las expresiones regulares ó regex son un potente lenguaje de descripción del texto, esto significa que mediante este lenguaje podemos generar instrucciones para, buscar, contar, substituir o eliminar patrones de texto. 

Actualmente la mayoría de los lenguajes de programación (y algunos procesadores de texto) permiten el uso de regex dentro de sus comandos básicos.

### Definición

Las regex son una secuencia de caracteres que forma un patrón de búsqueda y que son definidas por una **sintaxis especifica**. los patrones se interpretan como un conjunto de instrucciones que se ejecuta sobre un texto de entrada para producir un subconjunto o versión modificada del texto original.

Dado que las regex en si son un lenguaje, están conformadas por varios elementos que se describen a continuación junto con ejemplos de uso.

### Elementos que conforman las regex

* **Literales**: cualquier carácter se identifica consigo mismo, a menos que se trate de un **metacarater** con significado especial.

* **Caractéres de escape**: son caracteres que nos permiten identificar elementos importantes en un texto, como lo serian:
  * \begin{array}{|c|c|}
  \hline
\text{Caracter de escape} & \text{Significado}\\
\hline
\text{\n} & \text{Salto de linea} \\
\hline
\text{\t} & \text{Tabulador} \\
\hline
\text{\\} \text{\\} & \text{Barra diagonal inversa}\\ 
\hline
\text{\v} & \text{Tabulacion vertical}\\
\hline
\end{array}

* **Clases de caractéres**: se define una serie de caracteres dentro de corchetes cuadrados, lo que significa que se busca cualquier carácter de esa lista

### Metacaracteres

Los metacaracteres son la esencia de las regex y son lo que las hacen tan poderosas y versátiles. A continuación una lista de los metacaracteres mas importantes.

* **Delimitadores**: estos metacaracteres nos permiten delimitar donde se requiere realizar la búsqueda de patrones dentro del texto.

  * \begin{array}{|c|c|}
  \hline
\text{Metacaracter} & \text{Descripcion}\\
\hline
\text{^} & \text{Inicio de la linea.} \\
\hline
\text{\$} & \text{Final de la linea.} \\
\hline
\text{\A} & \text{Inicio del texto}\\ 
\hline
\text{\Z} & \text{Final del texto}\\
\hline
\text{.} & \text{Cualquier caracter en la linea}\\
\hline
\text{\b} & \text{Limite de la palabra}\\
\hline
\end{array}


* **Clases predefinidas**: son metacaracteres que facilitan aun mas la búsqueda de patrones.
  * \begin{array}{|c|c|}
  \hline
\text{\w} & \text{Un caracter alfanumerico (incluye "_")}\\
\hline
\text{\W} & \text{Un caracter no alfanumerico} \\
\hline
\text{\d} & \text{Un caracter numerico} \\
\hline
\text{\D} & \text{Un caracter no numerico}\\ 
\hline
\text{\s} & \text{Cualquier espacio, igual que [\t\n]}\\
\hline
\end{array}


* **Iteradores**: se utilizan para indicar el numero de ocurrencias de la regex previa.

  * \begin{array}{|c|c|}
  \hline
\text{*} & \text{Cero o mas, similar a {0,}} \\
\hline
\text{+} & \text{Una o mas, similar a {1,}} \\
\hline
\text{?} & \text{Cero o una, similar a {0,1}}\\ 
\hline
\text{{n}} & \text{Exactamente $n$ veces}\\
\hline
\text{{n,}} & \text{Por lo menos $n$ veces}\\
\hline
\text{{n,m}} & \text{Por lo menos $n$, pero no mas de $m$ veces}\\
\hline
\end{array}

* **Alternativas**: se puede especificar una lista de alternativas de patrones usando el carácter ''|''. Las alternativas son evaluadas de izquierda a derecha, asi que la primer alternativa que coincida con el texto analizado sera seleccionada, ejemplo.

  * tom(os|as) este regex hace match con cadenas de texto como, ''tomos'' o ''tomas''.

* **Subexpresiones**: se emplean paréntesis ''(..)'' para definir subexpresiones de regex, ejemplo.

  * foob([0-9]|a+)r este regex busca cadenas como, ''foob0r'', ''foob1r'', ''foobar'', ''foobaar'', etc.

* **Memorias**: los metacaracteres \1 a \9 son empleados para que fijar una regex es decir busca la regex previamente encontrada, ejemplo.

  * (.)\1+ encuentra 'aaaa' y 'cc', etc.

  * (.+)\1+ encuentra ''abab'' y ''123123'', etc.


## **Apendice**

### Referencias 

* Thomas H. Cormen: Introduction to Algorithms.

* Referencias Libro Web: Introduccion a Python.

* Referencias Daniel T. Joyce: Object-Oriented Data Structures.

* Referencias John C. Mitchell: Concepts in programing Languages.