# Expresiones Regulares con Python

<img alt="Expresiones regulares" title="Expresiones regulares" src="http://relopezbriega.github.io/images/regex.png" width="700">

## Introducción

Uno de los problemas más comunes con que nos solemos encontrar al desarrollar cualquier programa informático, es el de procesamiento de texto. Esta tarea puede resultar bastante trivial para el cerebro humano, ya que nosotros podemos detectar con facilidad que es un número y que una letra, o cuales son palabras que cumplen con un determinado patrón y cuales no; pero estas mismas tareas no son tan fáciles para una computadora. Es por esto, que el procesamiento de texto siempre ha sido uno de los temas más relevantes en las ciencias de la computación. Luego de varias décadas de investigación se logró desarrollar un poderoso y versátil lenguaje que cualquier computadora puede utilizar para reconocer patrones de texto; este lenguale es lo que hoy en día se conoce con el nombre de expresiones regulares; las operaciones de validación, búsqueda, extracción y sustitución de texto ahora son tareas mucho más sencillas para las computadoras gracias a las expresiones regulares. <br>

## ¿Qué son las Expresiones Regulares?

Las **expresiones regulares** a menudo llamada también **regex**, son unas secuencias de caracteres que forma un patrón de búsqueda, las cuales son formalizadas por medio de una sintaxis específica. Los patrones se interpretan como un conjunto de instrucciones, que luego se ejecutan sobre un texto de entrada para producir un subconjunto o una versión modificada del texto original. Las expresiones regulares pueden incluir patrones de coincidencia literal, de repetición, de composición, de ramificación, y otras sofisticadas reglas de reconocimiento de texto . Las expresiones regulares deberían formar parte del arsenal de cualquier buen programador ya que un gran número de problemas de procesamiento de texto pueden ser fácilmente resueltos con ellas.

## Expresiones Regulares en Python

En los paquetes estandar de **Python**  podemos encontrar el módulo [re](https://docs.python.org/3/library/re.html), el cual nos proporciona todas las operaciones necesarias para trabajar con las **expresiones regulares**. 

Por lo tanto para comenzar a utilizarlo, en primer lugar lo que debemos hacer es importar el modulo `re` con `import re`.

## Componentes de las Expresiones Regulares

Las expresiones regulares son un mini lenguaje en sí mismo, por lo que para poder utilizarlas eficientemente primero debemos entender los componentes de su sintaxis; ellos son:

* **Literales**: Cualquier caracter se encuentra a sí mismo, a menos que se trate de un ***metacaracter*** con significado especial. Una serie de caracteres encuentra esa misma serie en el texto de entrada, por lo tanto la plantilla "raul" encontrará todas las apariciones de "raul" en el texto que procesamos.

* **Secuencias de escape**: La sintaxis de las expresiones regulares nos permite utilizar las *[secuencias de escape](https://msdn.microsoft.com/es-es/library/h21280bw.aspx)* que ya conocemos de otros lenguajes de programación para esos casos especiales como ser finales de línea, tabs, barras diagonales, etc. Las principales *secuencias de escape* que podemos encontrar, son:

Secuencia de escape | Significado
---|---
\n | Nueva línea (new line). El cursor pasa a la primera posición de la línea siguiente.
\t | Tabulador. El cursor pasa a la siguiente posición de tabulación. 
\\\ | Barra diagonal inversa
\v | Tabulación vertical.
\ooo | Carácter ASCII en notación octal.
\xhh | Carácter ASCII en notación hexadecimal.
\xhhhh | Carácter Unicode en notación hexadecimal. 

* **Clases de caracteres**: Se pueden especificar clases de caracteres encerrando una lista de caracteres entre corchetes [], la que que encontrará uno cualquiera de los caracteres de la lista. Si el primer símbolo después del "[" es "^", la clase encuentra cualquier caracter que no está en la lista.

* **Metacaracteres**: Los metacaracteres son caracteres especiales que son la esencia de las expresiones regulares. Como son sumamente importantes para entender la sintaxis de las expresiones regulares y existen diferentes tipos, voy a dedicar una sección a explicarlos un poco más en detalle.

## Metacaracteres

### Metacaracteres - delimitadores

Esta clase de metacaracteres nos permite delimitar dónde queremos buscar los patrones de búsqueda. Ellos son:

Metacaracter | Descripción
---|---
^ | inicio de línea. 
$ | fin de línea. 
\A | inicio de texto. 
\Z | fin de texto. 
. | cualquier caracter en la línea. 
\b | encuentra límite de palabra. 
\B | encuentra distinto a límite de palabra.

**Ejemplo: Inicio y fin de línea: `^`, `$`**

Los símbolos de acento circunflejo `^` y dólar `$` indican que nuestro patrón de búsqueda debe contener respectivamente el inicio o fin de una línea en una cadena de texto. En el siguiente ejemplo, la expresión regular `^Python` busca ocurrencias de la cadena Python al inicio de la línea, y por eso el método `findall()` devuelve sólo una ocurrencia a pesar de que la frase contenga dos veces la cadena `Python`.<br>


In [1]:
import re
frase = "Python no sólo es un lenguaje de programación, Python es mi lenguaje de programacón favorito."
patron = '^Python'
re.findall(patron, frase)

['Python']

In [2]:
frase = "Me gusta aprender Python y programar en Python"
patron = 'Python$'
re.findall(patron, frase)

['Python']

### Metacaracteres - clases predefinidas

Estas son clases predefinidas que nos facilitan la utilización de las **expresiones regulares**. Ellos son:

Metacaracter | Descripción
---|---
\w |    un caracter alfanumérico (incluye "_"). 
\W |    un caracter no alfanumérico. 
\d |    un caracter numérico. 
\D |    un caracter no numérico. 
\s |    cualquier espacio (lo mismo que [ \t\n\r\f]).
\S |    un no espacio.

**Ejemplo Coincidencia de caracteres: `.`, `\s`, `\S`**

Los símbolos `.`, `\s` y `\S` indican respectivamente cualquier carácter, espacio en blanco y cualquier carácter a excepción del espacio en blanco. En el siguiente ejemplo, `^.ython` busca al principio de la línea `^` cualquier carácter `.` seguido por la cadena `ython`. Es decir, palabras como Aython, Bython, Cython, etc. a principio de línea se interpretan como una coincidencia. Sin embargo, la expresión regular `\s.ython` empareja en la frase de ejemplo con `‘ Nython’` y `‘ Python’`, ya que esta expresión regular busca un espacio en blanco al principio de la ocurrencia.<br>

In [4]:
import re
frase = "Cython no es ningún lenguaje de programación y Nython tampoco pero Python sí"
patron = '^.ython'
palabras = re.findall(patron, frase)
palabras

['Cython']

In [5]:
patron = '\\s.ython'
palabras = re.findall(patron, frase)
palabras

[' Nython', ' Python']


### Metacaracteres - iteradores 

Cualquier elemento de una **expresion regular** puede ser seguido por otro tipo de metacaracteres, los *iteradores*. Usando estos metacaracteres se puede especificar el número de ocurrencias del caracter previo, de un metacaracter o de una subexpresión. Ellos son:

Metacaracter | Descripción
---|---
`*`  |    cero o más, similar a {0,}. 
`+`  |    una o más, similar a {1,}. 
?   |   cero o una, similar a {0,1}.
{n}  |  exactamente n veces. 
{n,}  | por lo menos n veces. 
{n,m} | por lo menos n pero no más de m veces.
*?  |   cero o más, similar a {0,}?. 
+?   |  una o más, similar a {1,}?.
??    | cero o una, similar a {0,1}?. 
{n}? |  exactamente n veces.
{n,}?  |por lo menos n veces. 
{n,m}? |por lo menos n pero no más de m veces.

En estos metacaracteres, los dígitos entre llaves de la forma {n,m}, especifican el mínimo número de ocurrencias en n y el máximo en m. 


**Ejemplo Caracteres de repetición: `*`, `+`, `?`**

Estos tres caracteres tienen el siguiente significado:

- `*` : indica la repetición de un carácter cero o más veces.
- `+` : indica la repetición de un carácter una o más veces.
- `?` : Es el carácter reluctant o cuantificador reacio. Añadido a cualquiera de los anteriores se contará con la ocurrencia más corta posible.<br>
El siguiente ejemplo ilustra el uso del cuantificador reacio. El primer patrón: `.+n`, busca cualquier repetición de caracteres que termine en `n`. Como la última palabra de la frase termina en `n`, el resultado de la búsqueda retorna la frase entera. Sin embargo, al añadir el cuantificador reacio al patrón: `.+?n` el resultado de la búsqueda resulta más restrictiva ya que ésta contiene todas las secuencias de caracteres terminadas en `n`.

In [6]:
import re
frase = "Ramón y Román programan en Python"
patron = '.+n'
re.findall(patron, frase)

['Ramón y Román programan en Python']

In [7]:
patron = '.+?n'
re.findall(patron, frase)

['Ramón', ' y Román', ' programan', ' en', ' Python']

### Metacaracteres - alternativas 

Conjunto de caracteres: `[]`, `[^]`
Encerrando un conjunto de caracteres entre corchetes `[]` indica cualquiera de los caracteres especificados. Así, el patrón `[abc]` coincidiría con las secuencias `a`, `b` o `c`. El siguiente ejemplo ilustra el uso de los corchetes. En él podemos ver que patrón `[CN]ython` no encuentra coincidencia con la secuencia `Python` de la frase, ya que `P` no está dentro de los corchetes.

In [8]:
import re
frase = "Cython no es ningún lenguaje de programación y Nython tampoco pero Python sí"
patron = '[CN]ython'
re.findall(patron, frase)

['Cython', 'Nython']

El acento circunflejo `^` al principio de la secuencia entre corchetes se utiliza para indicar negación. Es decir la no coincidencia con los caracteres especificados. Un ejemplo de uso puede ser la separación de las palabras de una frase excluyendo sus signos de puntuación.

In [9]:
import re
frase = "¡Esto es una frase! Además contiene signos de puntuación. ¿Los eliminamos?"
patron = '[^¡!.¿? ]+'
re.findall(patron, frase)


['Esto',
 'es',
 'una',
 'frase',
 'Además',
 'contiene',
 'signos',
 'de',
 'puntuación',
 'Los',
 'eliminamos']

**Rangos de caracteres: [a-z]**

Dentro de los conjuntos de caracteres también podemos especificar rangos añadiendo un guión a la secuencia. Algunos ejemplos de uso son los siguientes:

- [a-z]+ : indica una secuencia de letras minúsculas.
- [A-Z]+ : se usa para encontrar secuencias de letras mayúsculas.
- [a-zA-Z]+ : es para secuencias de letras mayúsculas o minúsculas.
- [A-Z][a-z]+ : secuencias de una letra mayúscula seguida de una o más letras mayúsculas.
- [0-9]+ : para secuencias de números de uno o más dígitos.

In [10]:
import re
frase = "Tengo 2 hijos que tienen 15 y 11 años"
patron = '[0-9]+'
re.findall(patron, frase)

['2', '15', '11']

**Inicio y fin de la extracción: `()`**

Los paréntesis `( )` no forman parte del patrón a comprobar, pero indican respectivamente dónde empieza y termina la extracción del texto. Un caso de uso es la extracción de dominios en direcciones de correo electrónico. Esta operación la podemos realizar mediante el patrón: `@([^ ]*)` En este caso sabemos que el dominio viene después de un símbolo de arroba `@` que indicamos en nuestra expresión regular, seguido de una condición cerrada entre paréntesis ya que no queremos que el resultado contenga arrobas.

In [11]:
import re
frase = "Tengo dos correos electrónicos que son nombre.apellido@dominio.tld y nombre@dominio.com"
patron = '@([^ ]*)'
re.findall(patron, frase)

['dominio.tld', 'dominio.com']

**Alternativa `|`**

Se puede especificar una serie de alternativas para una plantilla usando `|` para separarlas, entonces `do|re|mi` encontrará cualquier `do`, `re`, o `mi` en el texto de entrada. Las alternativas son evaluadas de izquierda a derecha, por lo tanto la primera alternativa que coincide plenamente con la expresión analizada es la que se selecciona. Por ejemplo: si se buscan foo|foot en "barefoot'', sólo la parte "foo" da resultado positivo, porque es la primera alternativa probada, y porque tiene éxito en la búsqueda de la cadena analizada. 

In [25]:
import re
patron = r'foo(bar|foo)'
text = 'foobarfoofoofoo'
re.findall(patron, text)

['bar', 'foo']

### Metacaracteres - subexpresiones 

La construcción ( ... ) también puede ser empleada para definir subexpresiones de **expresiones regulares**. 

**Ejemplos**: 

(foobar){8,10} --> encuentra cadenas que contienen 8, 9 o 10 instancias de 'foobar' 

In [26]:
import re
patron = r'(foobar){8,10}'
text = 'foobarfoobarfoobarfoobarfoobarfoobarfoobarfoobarfoobar'
re.findall(patron, text)

['foobar']

foob([0-9]|a+)r --> encuentra 'foob0r', 'foob1r' , 'foobar', 'foobaar', 'foobaar' etc. 

In [27]:
import re
pattern = r'foob([0-9]|a+)r'
text = 'foob0r foob1r foobar foobaar foobaar'
re.findall(pattern, text)

['0', '1', 'a', 'aa', 'aa']

### Metacaracteres - memorias (backreferences) 

Los metacaracteres \1 a \9 son interpretados como memorias. \<n> encuentra la subexpresión previamente encontrada #<n>. 

**Ejemplos**: 

(.)\1+  --> encuentra 'aaaa' y 'cc'. 

In [22]:
import re
pattern = r'(.)\1+'
text = 'aaaa bbb cc ddddd ab'
re.findall(pattern, text)

['a', 'b', 'c', 'd']

(.+)\1+  --> también encuentra 'abab' y '123123'

In [23]:
import re
pattern = r'(.+)\1+'
text = 'abab 123123 cddee'
re.findall(pattern, text)

['ab', '123', 'd', 'e']

(['"]?)(\d+)\1 --> encuentra '"13" (entre comillas dobles), o '4' (entre comillas simples) o 77 (sin comillas) etc. 

In [24]:
import re
pattern = r'(["\']?)(\d+)\1'
text = '13 "13" \'4\' 77'
re.findall(pattern, text)

[('', '13'), ('"', '13'), ("'", '4'), ('', '77')]

## Más ejemplos de expresiones Regulares con Python

Luego de esta introducción, llegó el tiempo de empezar a jugar con las **expresiones regulares** y **Python**.


In [1]:
# importamos el modulo de regex de python
import re  

### Buscando coincidencias

En los siguientes ejemplos vamos a usar la funcion `compile` parabuscar coincidencias con un determinado patrón de búsqueda. Esta funcion lo que hace es compilar nuestra expresion regularen un *objeto de patrones de Python*, el cual posee métodos para diversas operaciones, tales como la búsqueda de coincidencias de patrones o realizar sustituciones de texto.

In [30]:
# compilando la regex
patron = re.compile(r'\bfoo\b')  # busca la palabra foo

Ahora que ya tenemos el *objeto de expresión regular* compilado podemos utilizar alguno de los siguientes métodos para buscar coincidencias con nuestro texto.

* **match()**: El cual determinada si la regex tiene coincidencias en el comienzo del texto.
* **search()**: El cual escanea todo el texto buscando cualquier ubicación donde haya una coincidencia.
* **findall()**: El cual encuentra todos los subtextos donde haya una coincidencia y nos devuelve estas coincidencias como una lista.
* **finditer()**: El cual es similar al anterior pero en lugar de devolvernos una lista nos devuelve un iterador.

Veamoslos en acción.

In [31]:
# texto de entrada
texto = """ bar foo bar
foo barbarfoo
foofoo foo bar
"""

In [32]:
# match nos devuelve None porque no hubo coincidencia al comienzo del texto
print(patron.match(texto))

None


In [33]:
# match encuentra una coindencia en el comienzo del texto
m = patron.match('foo bar')
m

<re.Match object; span=(0, 3), match='foo'>

In [34]:
# search nos devuelve la coincidencia en cualquier ubicacion.
s = patron.search(texto)
s

<re.Match object; span=(5, 8), match='foo'>

In [35]:
# findall nos devuelve una lista con todas las coincidencias
fa = patron.findall(texto)
fa

['foo', 'foo', 'foo']

In [36]:
# finditer nos devuelve un iterador
fi = patron.finditer(texto)
fi

<callable_iterator at 0x1617784ccd0>

In [37]:
# iterando por las distintas coincidencias
next(fi)

<re.Match object; span=(5, 8), match='foo'>

In [38]:
next(fi)

<re.Match object; span=(13, 16), match='foo'>

Como podemos ver en estos ejemplos, cuando hay coincidencias, Python nos devuelve un *Objeto de coincidencia* (salvo por el método `findall()` que devuelve una lista). Este *Objeto de coincidencia* también tiene sus propios métodos que nos proporcionan información adicional sobre la coincidencia; éstos métodos son:

* **group()**: El cual devuelve el texto que coincide con la expresion regular.
* **start()**: El cual devuelve la posición inicial de la coincidencia.
* **end()**: El cual devuelve la posición final de la coincidencia.
* **span()**: El cual devuelve una tupla con la posición inicial y final de la coincidencia.

In [39]:
# Métodos del objeto de coincidencia
m.group(), m.start(), m.end(), m.span()

('foo', 0, 3, (0, 3))

In [40]:
s.group(), s.start(), s.end(), s.span()

('foo', 5, 8, (5, 8))

### Modificando el texto de entrada

Además de buscar coincidencias de nuestro patrón de búsqueda en un texto, podemos utilizar ese mismo patrón para realizar modificaciones al texto de entrada. Para estos casos podemos utilizar los siguientes métodos:

* **split()**:	El cual divide el texto en una lista, realizando las divisiones del texto en cada lugar donde se cumple con la expresion regular.
* **sub()**: El cual encuentra todos los subtextos donde existe una coincidencia con la expresion regular y luego los reemplaza con un nuevo texto.
* **subn()**: El cual es similar al anterior pero además de devolver el nuevo texto, también devuelve el numero de reemplazos que realizó.

Veamoslos en acción.

In [41]:
# texto de entrada
becquer = """Podrá nublarse el sol eternamente; 
Podrá secarse en un instante el mar; 
Podrá romperse el eje de la tierra 
como un débil cristal. 
¡todo sucederá! Podrá la muerte 
cubrirme con su fúnebre crespón; 
Pero jamás en mí podrá apagarse 
la llama de tu amor."""

In [42]:
# patron para dividir donde no encuentre un caracter alfanumerico
patron = re.compile(r'\W+')

In [43]:
palabras = patron.split(becquer)
palabras[:10]  # 10 primeras palabras

['Podrá',
 'nublarse',
 'el',
 'sol',
 'eternamente',
 'Podrá',
 'secarse',
 'en',
 'un',
 'instante']

In [44]:
# Utilizando la version no compilada de split.
re.split(r'\n', becquer)  # Dividiendo por linea.

['Podrá nublarse el sol eternamente; ',
 'Podrá secarse en un instante el mar; ',
 'Podrá romperse el eje de la tierra ',
 'como un débil cristal. ',
 '¡todo sucederá! Podrá la muerte ',
 'cubrirme con su fúnebre crespón; ',
 'Pero jamás en mí podrá apagarse ',
 'la llama de tu amor.']

In [45]:
# Utilizando el tope de divisiones
patron.split(becquer, 5)

['Podrá',
 'nublarse',
 'el',
 'sol',
 'eternamente',
 'Podrá secarse en un instante el mar; \nPodrá romperse el eje de la tierra \ncomo un débil cristal. \n¡todo sucederá! Podrá la muerte \ncubrirme con su fúnebre crespón; \nPero jamás en mí podrá apagarse \nla llama de tu amor.']

In [46]:
# Cambiando "Podrá" o "podra" por "Puede"
podra = re.compile(r'\b(P|p)odrá\b')
puede = podra.sub("Puede", becquer)
print(puede)

Puede nublarse el sol eternamente; 
Puede secarse en un instante el mar; 
Puede romperse el eje de la tierra 
como un débil cristal. 
¡todo sucederá! Puede la muerte 
cubrirme con su fúnebre crespón; 
Pero jamás en mí Puede apagarse 
la llama de tu amor.


In [47]:
# Limitando el número de reemplazos
puede = podra.sub("Puede", becquer, 2)
print(puede)

Puede nublarse el sol eternamente; 
Puede secarse en un instante el mar; 
Podrá romperse el eje de la tierra 
como un débil cristal. 
¡todo sucederá! Podrá la muerte 
cubrirme con su fúnebre crespón; 
Pero jamás en mí podrá apagarse 
la llama de tu amor.


In [48]:
# Utilizando la version no compilada de subn
re.subn(r'\b(P|p)odrá\b', "Puede", becquer)  # se realizaron 5 reemplazos

('Puede nublarse el sol eternamente; \nPuede secarse en un instante el mar; \nPuede romperse el eje de la tierra \ncomo un débil cristal. \n¡todo sucederá! Puede la muerte \ncubrirme con su fúnebre crespón; \nPero jamás en mí Puede apagarse \nla llama de tu amor.',
 5)

### Funciones no compiladas

En estos últimos ejemplos, pudimos ver casos donde utilizamos las funciones al nivel del módulo `split()` y `subn()`. Para cada uno de los ejemplos que vimos (match, search, findall, finditer, split, sub y subn) existe una versión al nivel del módulo que se puede utilizar sin necesidad de compilar primero el patrón de búsqueda; simplemente le pasamos como primer argumento la expresion regular y el resultado será el mismo. La ventaja que tiene la versión compila sobre las funciones no compiladas es que si vamos a utilizar la expresion regular dentro de un *bucle* nos vamos a ahorrar varias llamadas de funciones y por lo tanto mejorar la performance de nuestro programa.

In [49]:
# Ejemplo de findall con la funcion a nivel del modulo
# findall nos devuelve una lista con todas las coincidencias
re.findall(r'\bfoo\b', texto)

['foo', 'foo', 'foo']

### Banderas de compilación

Las banderas de compilación permiten modificar algunos aspectos de cómo funcionan las expresiones regulares. Todas ellas están disponibles en el módulo `re` bajo dos nombres, un nombre largo como IGNORECASE y una forma abreviada de una sola letra como I. Múltiples banderas pueden ser especificadas utilizando el operador "|" OR; Por ejemplo, re.I | RE.M establece las banderas de E y M. 

Algunas de las banderas de compilación que podemos encontrar son:

* **IGNORECASE, I**: Para realizar búsquedas sin tener en cuenta las minúsculas o mayúsculas.
* **VERBOSE, X**: Que habilita la modo verborrágico, el cual permite organizar el patrón de búsqueda de una forma que sea más sencilla de entender y leer.
* **ASCII, A**: Que hace que las secuencias de escape \w, \b, \s and \d funciones para coincidencias con los caracteres ASCII.
* **DOTALL, S**: La cual hace que el metacaracter . funcione para cualquier caracter, incluyendo el las líneas nuevas.
* **LOCALE, L**: Esta opción hace que \w, \W, \b, \B, \s, y \S dependientes de la localización actual.
* **MULTILINE, M**: Que habilita la coincidencia en múltiples líneas, afectando el funcionamiento de los metacaracteres ^ and $.

In [50]:
# Ejemplo de IGNORECASE
# Cambiando "Podrá" o "podra" por "Puede"
podra = re.compile(r'podrá\b', re.I)  # el patrón se vuelve más sencillo
puede = podra.sub("puede", becquer)
print(puede)

puede nublarse el sol eternamente; 
puede secarse en un instante el mar; 
puede romperse el eje de la tierra 
como un débil cristal. 
¡todo sucederá! puede la muerte 
cubrirme con su fúnebre crespón; 
Pero jamás en mí puede apagarse 
la llama de tu amor.


In [51]:
# Ejemplo de VERBOSE
mail = re.compile(r"""
\b             # comienzo de delimitador de palabra
[\w.%+-]       # usuario: Cualquier caracter alfanumerico mas los signos (.%+-)
+@             # seguido de @
[\w.-]         # dominio: Cualquier caracter alfanumerico mas los signos (.-)
+\.            # seguido de .
[a-zA-Z]{2,6}  # dominio de alto nivel: 2 a 6 letras en minúsculas o mayúsculas.
\b             # fin de delimitador de palabra
""", re.X)

In [24]:
mails = """raul.lopez@relopezbriega.com, Raul Lopez Briega,
foo bar, relopezbriega@relopezbriega.com.ar, raul@github.io, 
http://relopezbriega.com.ar, http://relopezbriega.github.io, 
python@python, river@riverplate.com.ar, pythonAR@python.pythonAR
"""

In [25]:
# filtrando los mails con estructura válida
mail.findall(mails)

['raul.lopez@relopezbriega.com',
 'relopezbriega@relopezbriega.com.ar',
 'raul@github.io',
 'river@riverplate.com.ar']

Como podemos ver en este último ejemplo, la opción VERBOSE puede ser muy util para que cualquier persona que lea nuestra expresion regular pueda entenderla más fácilmente.

### Nombrando los grupos

Otra de las funciones interesantes que nos ofrece el módulo `re` de `Python`; es la posibilidad de ponerle nombres a los grupos de nuestras expresiones regulares. Así por ejemplo, en lugar de acceder a los grupos por sus índices, como en este caso...

In [52]:
# Accediendo a los grupos por sus indices
patron = re.compile(r"(\w+) (\w+)")
s = patron.search("Raul Lopez")

In [53]:
# grupo 1
s.group(1)

'Raul'

In [54]:
# grupo 2
s.group(2)

'Lopez'

Podemos utilizar la sintaxis especial `(?P<nombre>patron)` para nombrar estos grupos y que sea más fácil identificarlos.

In [55]:
# Accediendo a los grupos por nombres
patron = re.compile(r"(?P<nombre>\w+) (?P<apellido>\w+)")
s = patron.search("Raul Lopez")

In [56]:
# grupo nombre
s.group("nombre")

'Raul'

In [57]:
# grupo apellido
s.group("apellido")

'Lopez'

## Otros ejemplos de expresiones regulares

Por último, para ir cerrando esta introducción a las expresiones regulares, les dejo algunos ejemplos de las expresiones regulares más utilizadas.

### Validando mails

Para validar que un mail tenga la estructura correcta, podemos utilizar la siguiente expresion regular:

**regex**: `\b[\w.%+-]+@[\w.-]+\.[a-zA-Z]{2,6}\b`

Este es el patrón que utilizamos en el ejemplo de la opción VERBOSE.

### Validando una URL

Para validar que una URL tenga una estructura correcta, podemos utilizar esta expresion regular:

**regex**: `^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$`

In [32]:
# Validando una URL
url = re.compile(r"^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$")

# vemos que http://relopezbriega.com.ar lo acepta como una url válida.
url.search("http://relopezbriega.com.ar")

<_sre.SRE_Match object; span=(0, 27), match='http://relopezbriega.com.ar'>

In [33]:
# pero http://google.com/un/archivo!.html no la acepta por el carcter !
print(url.search("http://google.com/un/archivo!.html"))

None


### Validando una dirección IP

Para validar que una dirección IP tenga una estructura correcta, podemos utilizar esta expresión regular:

**regex**: `^(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$`

In [34]:
# Validando una dirección IP
patron = ('^(?:(?:25[0-5]|2[0-4][0-9]|'
          '[01]?[0-9][0-9]?)\.){3}'
          '(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$')

ip = re.compile(patron)

# la ip 73.60.124.136 es valida
ip.search("73.60.124.136")

<_sre.SRE_Match object; span=(0, 13), match='73.60.124.136'>

In [35]:
# pero la ip 256.60.124.136 no es valida
print(ip.search("256.60.124.136"))

None


### Validando una fecha

Para validar que una fecha tenga una estructura dd/mm/yyyy, podemos utilizar esta expresión regular:

**regex**: `^(0?[1-9]|[12][0-9]|3[01])/(0?[1-9]|1[012])/((19|20)\d\d)$`

In [36]:
# Validando una fecha
fecha = re.compile(r'^(0?[1-9]|[12][0-9]|3[01])/(0?[1-9]|1[012])/((19|20)\d\d)$')

# validando 13/02/1982
fecha.search("13/02/1982")

<_sre.SRE_Match object; span=(0, 10), match='13/02/1982'>

In [37]:
# no valida 13-02-1982
print(fecha.search("13-02-1982"))

None


In [38]:
# no valida 32/12/2015
print(fecha.search("32/12/2015"))

None


In [39]:
# no valida 30/14/2015
print(fecha.search("30/14/2015"))

None


## BONUS - Aplicacion en Pandas

Podeemos usar `str.replace()` aplicada a una columna de un dataframe o a una serie para reemplazar cada ocurrencia de patrón/regex en la Serie. Para usarla con regex hay que aclarar como argumento `regex = True`. Veamos algunos ejemplos

In [78]:
import pandas as pd
import numpy as np
import re

dicc = {'columna 1': ['foo', 'fuz', np.nan, 'fooo', 'fuuz'],
        'columna 2': ['foo 123', 'bar baz', np.nan, 'foo 456', 'bar baz'],
        'columna 3': ['One Two Three', 'Fuz Bar Baz', 'Fuz fuz bar', 'uno dos fuz',np.nan]}

df = pd.DataFrame(dicc)
df

Unnamed: 0,columna 1,columna 2,columna 3
0,foo,foo 123,One Two Three
1,fuz,bar baz,Fuz Bar Baz
2,,,Fuz fuz bar
3,fooo,foo 456,uno dos fuz
4,fuuz,bar baz,


**Ejemplo 1: Reemplazar en la columna1 `f` y el caracter que le sigue por `ba`**

In [79]:
df['columna 1'].str.replace('f.', 'ba', regex=True)

0     bao
1     baz
2     NaN
3    baoo
4    bauz
Name: columna 1, dtype: object

In [75]:
# Para aplicarlo realmente
df['columna 1'] = df['columna 1'].str.replace('f.', 'ba', regex=True)
df

Unnamed: 0,columna 1,columna 2,columna 3
0,bao,foo 123,One Two Three
1,baz,bar baz,Fuz Bar Baz
2,,,Fuz Fuz bar
3,baoo,foo 456,uno dos Fuz
4,bauz,bar baz,


**Ejemplo 2: Reemplazar en la columna 2  los numeros por `aaa`**

In [80]:
df['columna 2'] = df['columna 2'].str.replace('\d+', 'aaa', regex=True)
df

Unnamed: 0,columna 1,columna 2,columna 3
0,foo,foo aaa,One Two Three
1,fuz,bar baz,Fuz Bar Baz
2,,,Fuz fuz bar
3,fooo,foo aaa,uno dos fuz
4,fuuz,bar baz,


**Ejemplo 3: buscar la cadena "FUZ" en cualquier combinación de mayúsculas y minúsculas y reemplazarla con `bar`**

En este caso usamos la bandera `re.IGNORECASE` en `True` para que busque tanto minúsculas como mayúsculas 

In [81]:
df['columna 3'] = df['columna 3'].str.replace('FUZ', 'bar', regex=True, flags=re.IGNORECASE)
df

Unnamed: 0,columna 1,columna 2,columna 3
0,foo,foo aaa,One Two Three
1,fuz,bar baz,bar Bar Baz
2,,,bar bar bar
3,fooo,foo aaa,uno dos bar
4,fuuz,bar baz,


## Documentación Extra

Espero que esta guia les sea util. Les dejo aqui algunos links mas de interes:
- [Documentacion Expresiones regulares COMOS (HOWTO)](https://docs.python.org/es/3/howto/regex.html)

- [Python RegEx - w3schools](https://www.w3schools.com/python/python_regex.asp)

- [Documentacion pandas.Series.str.replace](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.replace.html)
- Python Tutorial: re Module - How to Write and Match Regular Expressions (Regex) disponible en [Youtube](https://www.youtube.com/watch?v=K8L6KVGG-7o&t=2593s&ab_channel=CoreySchafer)

- [Use ChatGPT to Build a Low Code RegEx Generator]('https://www.freecodecamp.org/news/use-chatgpt-to-build-a-regex-generator/)