# Expresiones regulares (regex)

**Ejemplos con casos de uso**

Primero que nada, importar la librería **re** que es el módulo que trabaja con Expresiones Regulares.

In [3]:
import re

Buscará dentro del string cualquier caracter comprendido de la **a** a la **z** junto a la sílaba **way**
El resultado estará en **match** y **span** contiene el índice inicial y final del resultado de la búsqueda.

In [16]:
print(re.search(r"[a-zA-Z]way", "Let's go to the subway"))

<re.Match object; span=(18, 22), match='bway'>


Buscará dentro del string cualquier caracter comprendido de la **a** a la **z**, **A** a la **Z** y **0** al **9**

In [11]:
print(re.search("Sclub[a-zA-Z0-9]", "Sclub7"))

<re.Match object; span=(0, 6), match='Sclub7'>


## Busqueda de excepciones

Si queremos buscar, dentro de una cadena, cualquier caracter que no sea una letra se utilizaría el simbolos **^** dentro de corchetes **[^]**

Como por ejemplo,

In [12]:
print(re.search(r"[^a-zA-Z]", "Esta es una oración con espacios."))

<re.Match object; span=(4, 5), match=' '>


Como se pudo observar, el resultado *match* arrojo un espacio en blanco. Que nos da a entender que el espacio **'  '** también es considerado un carácter dentro de nuestro mundo de expresiones regulares. Para no tomarlo, se debe parametrizar dentro de los corchetes. Ejemplo a continuación:

In [14]:
print(re.search(r"[^a-zA-Z ]", "Esta es una oración con espacios."))

<re.Match object; span=(17, 18), match='ó'>


Vemos que el resultado en *match* cambió a **ó** pero ésta sigue siendo una letra acentuada entonces *¿cómo podemos excluirla por medio de expresiones regualres?*

In [36]:
print(re.search(r"[^a-zA-Z\u00C0-\u024F\s]", "Esta es una oración con espacios."))

<re.Match object; span=(32, 33), match='.'>


Ahora podemos ver que, agregando **\u00C0-\u024F** excluimos las letras tildadas y en cambio el resultado muestra el signo de puntuación. Siempre podemos adaptar regex a nuestras necesidades de búsqueda. Incluso, en el código anterior hubo un cambio en la expresión regular. Es una mejor practica adoptar el **/s** para incluir espacios que un **'  '** espacio en blanco. 

## Coincidir palabras con Regex

Para buscar por medio de la coincidencia una palabra completa, se puede utilizar el símbolo reservado **|**, 
he aquí un ejemplo:


In [38]:
print(re.search(r"gato|perro", "Me gustan los perros"))

<re.Match object; span=(14, 19), match='perro'>


Podemos ver que la oración buscó una de las palabras parametrizadas en la regex. Mas no puede identificar si está en plural o singular. Éste sería un problema que, dependiendo de las necesidades de nuestra búsqueda debemos resolver o no.

Ahora bien, si queremos modificamos la oración para que por medio de regex nos encuentre las dos palabras, el método que tendríamos que utilizar sería el siguiente:

In [39]:
print(re.findall(r"gato|perro", "Me gustan los perros pero amo a los gatos"))

['perro', 'gato']


El método re.**findall** nos buscará todas las coincidencias que hayamos parametrizado. Hacerlo con el método anterior re.search nos mostrará sólo la primera coincidencia. 

## Coincidir simbolos con regex

Tenemos simbolos reservados para utilizar con regex que nos ayudan a coincidir cualquier caracter **(*)**

Buscar si el inicio de una cadena coincide **^ejemplo** o el final **ejemplo$** o si queremos excluir lo que está dentro de los corchetes, ejemplo **[^estonoseincluye]**

A continuación dejaré un regex que buscará cualquier correo electronico dentro de cualquier texto

In [108]:
print(re.findall(r"(?i)\b[a-z0-9._%+-]+@[a-z0-9.-]+\.[A-Z]{2,}\b", "Hola me llamo jose y mi correo es Josefino@aol.com si quieres contactar a mi esposa su correo es gatita69@hotmail.com"))

['Josefino@aol.com', 'gatita69@hotmail.com']


Incluso puede copiar y pegar cualquier texto y el regex extraerá sólo los emails dentro del texto *(si contiene)*

In [106]:
texto = input("Pega tu texto aquí:\n\n")


Pega tu texto aquí:

sdfsdf@rifel.net


In [107]:
#Ejecuta ésta celda despues de pegar tu texto para ver el resultado:

regex = r"(?i)\b[a-z0-9._%+-]+@[a-z0-9.-]+\.[A-Z]{2,}\b"

resultado = re.findall(regex, texto)

print(resultado)

['sdfsdf@rifel.net']


Para entender mejor el regex habría de desglosarlo por partes:

**(?i):** Hace que el regex se vuelva insensible a las mayusculas y minusculas IGNORECASESENSITIVE

**\b:** Establece la posición inicial y final de la palabra que queremos buscar, por ejemplo: *Aquí queremos solo buscar la palabra **/besdrújula/b** *

**[a-z0-9._%+-]:** Establece el rango de busqueda, dónde parametriza cualquier caracter desde a a-z 0-9 

**+@, +\.:** Concatena el "@" y el "." estipulando que coincidirá con 1 o más coincidencias con el caracter anterior.

## Captura de grupos con regex

Regex es la herramienta más polivalente de la programación, dominarla nos permitirá escontrar cualquier cosa que necesitemos de forma exacta. Con la biblioteca de expresiones regulares tenemos el metodo **.groups()** que nos agrupa los resultado de busqueda dejándonos ordenar los grupos de la mejor manera para nosotros. A continuación, ejemplos:


In [8]:
resultado = re.search(r"^(\w*), (\w*)$", "Pérez, María")
print(resultado)

<re.Match object; span=(0, 12), match='Pérez, María'>


Cada grupo está representado por **()** como se puede ver en la expresión regular **(\w*)**, así es como separa el nombre del apellido y lo agrega en una tupla.

In [9]:
print(resultado.groups())

('Pérez', 'María')


Podemos ordenar el nombre utilizando los *indices* donde el índice **[0]** representa el resultado completo de la expresión regular. 

In [10]:
print(resultado[0])

Pérez, María


Para ordenar el nombre, sólo debemos utilizar los siguientes indices que corresponde al [1] y [2], se puede imprimir para corroborar que trae la información correcta.

In [17]:
apellido = resultado[1]
nombre = resultado[2]

f"{nombre} {apellido}"

#También se puede hacer de forma clásica:
# "{} {}".format(nombre, apellido)

'María Pérez'

In [32]:
def ordenar_nombres(nombre):
    resultado = re.search(r"^([\w \.-]*), ([\w \.-]*)$", nombre)
    if resultado is None:
        return nombre
    return "{} {}".format(resultado[2], resultado[1])

ordenar_nombres("Pérez, María")
ordenar_nombres("Ramses, Samuel")
ordenar_nombres("Martinez, Jessica D.")
    

'Jessica D. Martinez'