# Introducción a las "Regular Expressions" (regex) en Python

Las "Expresiones Regulares" son patrones de concordancia de texto escritos con una sintaxis formal. Puede que hayas oído a menudo que se refieran a ellas como "regex" o "regexp" en una conversación. 

Estas expresiones puede incluir una gran variedad de reglas: desde encontrar una repetición, hasta la coincidencia de textos y mucho más. A medida que va avanzándose en el mundo de Python, se descubre que la mayoría de problemas de análisis pueden resolverse con expresiones regulares (¡y son también una pregunta habitual en entrevistas de trabajo!).

Si "Perl" te suena familiar, te darás cuenta de que la sintaxis de este lenguaje es muy similar a las expresiones regulares en Python. Vamos a utilizar el módulo "re" para Python para este tutorial introductivo.


¡Vamos a empezar!

# Buscar patrones en un texto

Uno de los usos más habituales del módulo "re" es encontrar patrones en líneas de texto. Hagámos a continuación un ejemplo rápido mediante el método de búsqueda del modulo "re" para encontrar un texto:

In [20]:
#importamos las funcionalidades del módulo "re"
import re

# Lista de los patrones que buscar
patrones = [ 'palabra1', 'palabra2' ]

# Línea de texto sobre la que buscar
texto = 'Esta es una cadena que contiene palabra1, pero no hay ninguna otra palabra.'

#Creamos un bucle "for" para iterar sobre cada palabra a buscar en el texto y verificamos si hay coincidencia
for patron in patrones:
    print("Buscando coincidencia de %s en en la línea de texto: \n%s" % (patron, texto))
    
    if re.search(patron,  texto):
        print('---Coincidencia encontrada para %s---\n'% (patron))
    else:
        print('---Ninguna coincidencia encontrada para %s---\n' % (patron))

Buscando coincidencia de palabra1 en en la línea de texto: 
Esta es una cadena que contiene palabra1, pero no hay ninguna otra palabra.
---Coincidencia encontrada para palabra1---

Buscando coincidencia de palabra2 en en la línea de texto: 
Esta es una cadena que contiene palabra1, pero no hay ninguna otra palabra.
---Ninguna coincidencia encontrada para palabra2---



Como podemos ver, la función **"search"** del modulo "re" busca si la cadena que se le pasa como parámetro "patron" se encuentra dentro de la cadena del parámetro "texto", devolviendo un objeto con la **posición de la palabra con la forma** si 'texto' contiene "patron" y **None** en caso contrario.

Este objeto "Match" es más que un valor Boleano o un objeto None: este contiene información de la coincidencia encontrada, incluyendo el tipo de objeto usado (re.Match), la posición del patrón encontrada en el texto (principio, fin) y la cadena introducida para la búsqueda encontrada (palabra1 en este caso). 

Por ello, como la función devuelve un objeto, mediante sus métodos es posible acceder a ciertos argumentos de esta búsqueda:

In [17]:
#Muestra el ínidice inicial de la palabra encontrada (palabra1)
re.search(patrones[0], texto).start()

23

In [19]:
#Muestra el índice final de la palabra encontrada (palabra1)
re.search(patrones[0], texto).end()

31

# Split con expresiones regulares

Vamos a ver como podemos dividir cadenas con la sintaxis "re". El sistema es similar al utilizado con el método ".split()" de la clase "string".

In [21]:
# Definimos el carácter separador
separador = '@'

cadena = 'Cual es el nombre de dominio de alguien con el e-mail: hello@gmail.com?'

# Aplicamos la división de la cadena con el separador definido '@'
re.split(separador,cadena)

['Cual es el nombre de dominio de alguien con el e-mail: hello', 'gmail.com?']

Notad que el método ".split()" devuelve **una lista dividida** en la posición del separador definido, con el citado **separador eliminado** de la misma.

# Encontrando todas las instacias de un patron

In [None]:
Se puede utilizar el método ".findall()" del módulo "re" para encontrar todas las veces que aparezca un carácter en una cadena. Por ejemplo:

In [24]:
re.findall("punto", "Esto es una cadena que contiene dos puntos: el punto 1 y el punto 11")

['punto', 'punto', 'punto']

In [27]:
re.findall("1", "Esto es una cadena que contiene dos puntos: el punto 1 y el punto 11")

['1', '1', '1']

Notad que el método ".findall()" devuelve **una lista que contiene tantas cadenas coincidentes como haya encontrado.** También es importante observar que busca la coincidencia literal o contenida. Por lo que "cadenas" incluye "cadena" y "11" incluye dos "1".

# Sintaxis de los patrones con el módulo "re"

Las expresiones regulares admiten una gran variedad de patrones e incluso se pueden usar metacarácteres (*, +, -, ?, {}) para encontrar tipos de patrones específicos. 

Como vamos a probar varios tipos de sintaxis distintas, creemos una función que muestre por pantalla los resultados, dada una lista con algunas expresiones regulares y una cadena de texto sobre la que realizar la búsqueda:

In [34]:
#Definimos la función de búsqueda múltiple
def encontrar_multiple(patrones,cadena):
    '''
    Toma una lista de patrones "re"
    Devuelve y muestra una lista con las coincidencias
    '''
    for patron in patrones:
        print('Buscando en la cadena usando el patron: %r' % patron)
        print(re.findall(patron,cadena))
        print('\n')

### Sintaxis de repetición

Hay cinco maneras de expresar repetición en un patrón:

1\. Un patrón seguido del meta-carácter "*" busca y devuelve patrones que coincidan al menos con el primer carácter del patrón

2\. Un patrón seguido del meta-carácter "+" busca y devuelve patrones que coincidan al menos con el patrón entero

3\. Un patrón seguido del meta-carácter "?" busca y devuelve patrones que coincidan al menos con el patrón entero y sus partes acumuladas (empezando por el índice 0)

4\. Un patrón seguido del meta-carácter "{m}", busca y devuelve patrones donde "m" son las veces que el patron debería aparecer

5\. Un patrón seguido del meta-carácter "{m,n}", busca y devuelve patrones donde "m" son las veces que el patron debería aparecer como mínimo, y "n" son las veces que el patron debería aparecer como máximo 

In [35]:
cadena_prueba = 'sdsd..sssddd...sdddsddd...dsds...dsssss...sdddd'

patrones_prueba = [ 'sd*',     # "s" seguido de cero o mas "d"
                'sd+',          # "s" seguido de una o mas "d"
                'sd?',          # "s" seguido de cero o una "d"
                'sd{3}',        # "s" seguido tres "d"
                'sd{2,3}',      # "s" seguido de entre dos y tres "d"
                ]

encontrar_multiple(patrones_prueba,cadena_prueba)

Buscando en la cadena usando el patron: 'sd*'
['sd', 'sd', 's', 's', 'sddd', 'sddd', 'sddd', 'sd', 's', 's', 's', 's', 's', 's', 'sdddd']


Buscando en la cadena usando el patron: 'sd+'
['sd', 'sd', 'sddd', 'sddd', 'sddd', 'sd', 'sdddd']


Buscando en la cadena usando el patron: 'sd?'
['sd', 'sd', 's', 's', 'sd', 'sd', 'sd', 'sd', 's', 's', 's', 's', 's', 's', 'sd']


Buscando en la cadena usando el patron: 'sd{3}'
['sddd', 'sddd', 'sddd', 'sddd']


Buscando en la cadena usando el patron: 'sd{2,3}'
['sddd', 'sddd', 'sddd', 'sddd']




# Sets de carácteres

Los sets de carácteres se usan cuando se desea una coincidencia de cualquiera de los carácteres dado un grupo de carácteres. Se utilizan los corchetes '[]' para crear el set, de manera que [AB] va a buscar cualquier 'A' o cualquier 'B' dentro de un texto dado. Lo podemos ver en el siguiente ejemplo:

In [39]:
cadena_prueba = 'sdsd..sssddd...sdddsddd...dsds...dsssss...sdddd'

patron_prueba = [ '[sd]',    # devuelve las 's' y las 'd'
                 's[sd]+']        # devuelve las 's' seguidas de una o más 's' o 'd'
            
encontrar_multiple(patron_prueba, cadena_prueba)

Buscando en la cadena usando el patron: '[sd]'
['s', 'd', 's', 'd', 's', 's', 's', 'd', 'd', 'd', 's', 'd', 'd', 'd', 's', 'd', 'd', 'd', 'd', 's', 'd', 's', 'd', 's', 's', 's', 's', 's', 's', 'd', 'd', 'd', 'd']


Buscando en la cadena usando el patron: 's[sd]+'
['sdsd', 'sssddd', 'sdddsddd', 'sds', 'sssss', 'sdddd']




En el primer caso **'[sd]'**, tiene sentido que la función devuelva todas las 's' y todas las 'd' de la cadena (ya que las busca individualmente y todas las palabras contienen 's' o 'd').
En el segundo caso **'s[sd]+'**, la función devolverá cualquier 's' seguida de un patrón con 's' o 'd'.
                                                                                    

# Exclusión de carácteres

Se puede utilizar el meta-carácter **'^'** para excluir carácteres, incorporándolo en la notación sintáctica de corchetes **'[]'**. Por ejemplo, **'[^...]'** va a devolver una lista de todos los carácteres que no esten en dicho corchete. Veámoslo en un ejemplo: 

In [40]:
cadena_prueba = 'Esto es una cadena de texto! Pero tiene signos de puntuación. ¿Cómo podemos quitarlos?'

Usaremos '[^!.?¿ ]' como parámetro del método .findall() para buscar los cáracteres que no coincidan con nada dentro del corchete ('!', '.', '?', '¿', ' '):

In [46]:
re.findall('[^!.?¿ ]+', cadena_prueba)

['Esto',
 'es',
 'una',
 'cadena',
 'de',
 'texto',
 'Pero',
 'tiene',
 'signos',
 'de',
 'puntuación',
 'Cómo',
 'podemos',
 'quitarlos']

# Rángos de carácteres

A medida que los sets de caracteres se van haciendo grandes, especificar qué carácter debería (o no debería) coincidir con la cadena a analizar, puede volverse una tarea tediosa. Hay un formato más compacto mediante el uso de **rangos de carácteres** que permite **definir un set de carácteres entre un punto inicial y un punto final**. La notación sintáctica es [inicial-final]. Un uso común para esta técnica es el de encontrar carácteres dado un rango determinado de letras: [a-f] buscará todas los patrones que contengan cualquier letra entre la 'a' y la 'f'.

Veamos el siguiente ejemplo:

In [63]:
cadena_prueba = 'Ésta es una cadena de ejemplo. Veamos si podemos encontrar algún match.'

patron_prueba = [ '[a-z]+',              # Devuelve las secuencias que incluyan cualquier minúscula seguida de otro carácter.
                  '[A-Z]+',              # Devuelve las secuencias que incluyan cualquier mayúscula seguida de otro carácter.
                  '[a-zA-Z]+',           # Devuelve las secuencias de letras sin signos, seguidas de otro carácter.
                  '[A-Z][a-z]+',         # Devuelve las secuencias que incluyan cualquier mayúscula seguida de cualquier minúscula, seguida de mínimo, otro carácter.
                  '[á-úÁ-Ú][a-uA-U]+']   # Devuelve las secuencias de cualquier palabra que empiece con accentos, seguidas de otro/s carácter.
                
encontrar_multiple(patron_prueba, cadena_prueba)

Buscando en la cadena usando el patron: '[a-z]+'
['sta', 'es', 'una', 'cadena', 'de', 'ejemplo', 'eamos', 'si', 'podemos', 'encontrar', 'alg', 'n', 'match']


Buscando en la cadena usando el patron: '[A-Z]+'
['V']


Buscando en la cadena usando el patron: '[a-zA-Z]+'
['sta', 'es', 'una', 'cadena', 'de', 'ejemplo', 'Veamos', 'si', 'podemos', 'encontrar', 'alg', 'n', 'match']


Buscando en la cadena usando el patron: '[A-Z][a-z]+'
['Veamos']


Buscando en la cadena usando el patron: '[á-úÁ-Ú][a-uA-U]+'
['Ésta', 'ún']




# Códigos de escape

Pueden usarse códigos especiales para encontrar tipos específicso de patrones en los datos, tales como dígitos, no-dígitos, espacios en blanco, espacios no-blancos, carácteres alfanuméricos, carácteres no-alfanuméricos... y más. Por ejemplo:

 1.    '\d'________un dígito
 2.    '\D'________un no-dígito
 3.    '\s'________un espacio (tab, espacio, nueva línea...)
 4.    '\S'________un no-espacio
 5.    '\w'________un alfanumérico
 6.    '\W'________un no-alfanumérico

Personalmente, creo que este uso de 'r' para implementar los backslash ne cadenas de texto puede dificultar a alguien que no esté familiarizado con la expresión regular en Python que pueda leer el código de expresión regular. Veámoslo con un ejemplo:

In [69]:
cadena_prueba = 'Esta es una cadena con algunos numeros 1234 y un #hashtag de prueba'

patron_prueba = [ r'.',   # Secuencia de cualquier carácter menos nueva línea 
                  r'\d+', # Secuencia de dígitos
                  r'\D+', # Secuencia de no-dígitos
                  r'\s+', # Secuencia de espacio en blanco
                  r'\S+', # Secuencia de no-espacio
                  r'\w+', # Secuencia de carácteres alfanuméricos
                  r'\W+', # Secuencia de carácteres no-alfanuméricos
                ]

encontrar_multiple(patron_prueba, cadena_prueba)

Buscando en la cadena usando el patron: '.'
['E', 's', 't', 'a', ' ', 'e', 's', ' ', 'u', 'n', 'a', ' ', 'c', 'a', 'd', 'e', 'n', 'a', ' ', 'c', 'o', 'n', ' ', 'a', 'l', 'g', 'u', 'n', 'o', 's', ' ', 'n', 'u', 'm', 'e', 'r', 'o', 's', ' ', '1', '2', '3', '4', ' ', 'y', ' ', 'u', 'n', ' ', '#', 'h', 'a', 's', 'h', 't', 'a', 'g', ' ', 'd', 'e', ' ', 'p', 'r', 'u', 'e', 'b', 'a']


Buscando en la cadena usando el patron: '\\d+'
['1234']


Buscando en la cadena usando el patron: '\\D+'
['Esta es una cadena con algunos numeros ', ' y un #hashtag de prueba']


Buscando en la cadena usando el patron: '\\s+'
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']


Buscando en la cadena usando el patron: '\\S+'
['Esta', 'es', 'una', 'cadena', 'con', 'algunos', 'numeros', '1234', 'y', 'un', '#hashtag', 'de', 'prueba']


Buscando en la cadena usando el patron: '\\w+'
['Esta', 'es', 'una', 'cadena', 'con', 'algunos', 'numeros', '1234', 'y', 'un', 'hashtag', 'de', 'prueba']


Buscando en la c

# Conclusiones

Ahora ya tenemos una visión básica del uso sobre las expresiones regulares en Python. Hay muchos otros casos y usos en que son útiles dichas expresiones.
Por ello, lo recomendable sería revisar la documentación oficial para aprender más: https://docs.python.org/2/library/re.html#
     

Aquí también dejamos un tutorial más completo: http://www.tutorialspoint.com/python/python_reg_expressions.htm    