Las expresiones regulares permiten extender poderes avanzados sobre las simples busquedas en texto y se extienden al remplazo de contenido basado en expresiones o fórmulas más generalizadas.

Se importa el paquete re

In [1]:
import re

Se presentas algunos ejemplos de uso.

Para partir o seccionar una frase como: 'Words, words, words.'

In [2]:
# Permite separar cada palabra por cada caracter no alfanumérico, por ejemplo la coma y el punto
re.split(r'\W+', 'Words, word.')


['Words', 'words', 'words', '']

In [6]:
re.split(r'\D+', 'Hola soy Erick ####### mi numero es: 32131')

['', '32131']

Es posible modificar el comportamiento mediante el uso del parámetro que limita el número que se requiere encontrar una palabra

In [33]:
# Encuentra Words una vez y contiene el resto de la información
re.split(r'\W+', 'Words, words, words.', 1)

['Words', 'words, words.']

Es posible tener un criterio extendido de partición, por ejemplo separar números por cualquier letra entre la a y la f, ignorando las mayúsculas.

In [5]:
re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)

['0', '3', '9']

In [7]:
re.split('[a-f]+', '0a3B9')

['0', '3B9']

Es posible hacer búsquedas por grupos. El criterio en el siguiente ejemplo es> buscar 2 palabras de cualquier tamaño separas por espacio

In [7]:
m = re.match(r"(\w+) (\w+)", "Isaac Newton, physicist")
m.group(0)       # The entire match

'Isaac Newton'

In [22]:
m = re.match(r"(\w+) (\w+)",  "Hola Isaac Newton, physicist")
m.group(0)       # The entire match

'Hola Isaac'

In [39]:
# reto: busquemos las primeras 2 palabras del 
# siguiente texto
texto = 'Hola Mundo soy feliz aprendiendo '

In [45]:
m = re.match(r"((\w+) ){3,4}",  texto)
m.group(0)       # The entire match

'Hola Mundo soy feliz '

In [9]:
m.group(1)       # The first parenthesized subgroup.

'Isaac'

In [10]:
m.group(2)       # The second parenthesized subgroup.

'Newton'

In [10]:
m.group(1, 2)    # Multiple arguments give us a tuple.

('Isaac', 'Newton')

Agregando más poderes: permite en el agrupamiento tenga nombres para que luego puede ser invocados por el mismo.

In [46]:
# buscar 2 palabras separas por espacio que pueden ser un nombre o un apellido.
m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds")
m.group('first_name')

'Malcolm'

In [12]:
m.group('last_name')

'Reynolds'

Otro ejemplo para buscar 2 números separados por un punto.

In [13]:
m = re.match(r"(\d+)\.(\d+)", "24.1632")
m.groups()

('24', '1632')

In [49]:
# reto
# de un direccion de email obtener el usuario y servidor
# hugo@gmail.com
# ('hugo', 'gmail')

In [53]:
m = re.match(r"(\w+)@([a-zA-Z0-9\.]+)", "hugo@gmail.com")
m.groups()

('hugo', 'gmail.com')

La búsqueda puede ser tratada como si fuera un diccionario para que las busquedas puedan ser consultadas por medio de llaves.

In [14]:
m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds")
m.groupdict()

{'first_name': 'Malcolm', 'last_name': 'Reynolds'}

En el caso se requerir sólo validación se encontrar un patrón de búsqueda.

In [18]:
#The match() function returns a match object
# if the text matches the pattern. Otherwise it returns None
pattern = r"Cookie"
sequence = "Cookie is delicious"
if re.match(pattern, sequence):
  print("Match!")
else: print("Not a match!")

Match!


In [19]:
#The match() function returns a match object
# if the text matches the pattern. Otherwise it returns None
pattern = r"Cookie"
sequence = "Cake is delicious"
if re.match(pattern, sequence):
  print("Match!")
else: print("Not a match!")

Not a match!


Estará el patrón 'Co k e' la frase que se muestra a continuación, cual es la palabra que las cumple:

In [61]:
re.search(r'Co.k.e', 'Coekue is deliciuos').group()

'Coekue'

## Sustituciones

Es posible buscar por un patrón y hacer un reemplazo.

In [65]:
email_address = "Please contact us at: xyz@python.com"
new_email_address = re.sub(r'([\w\.-]+)@([\w\.-]+)', 
                           r'erick@python-class.com', 
                           email_address)
new_email_address

'Please contact us at: erick@python-class.com'

## Busquedas de multiples contenidos

Buscar un patrón, por ejemplo el formato de un email y mostrarlo.

In [67]:
email_address = "0 jhuasdysauy  dfukshdsuy f fdjlhshfs fs @ @da Please contact us at: support@python.com, xyz@python.com more text erick@erick.com"

#'addresses' is a list that stores all the possible match
addresses = re.findall(r'[\w\.-]+@[\w\.-]+', email_address)
for address in addresses:
    print(address)

support@python.com
xyz@python.com
erick@erick.com


Será que un patrón se cumple es una frase:

In [68]:
pattern = "C"
sequence1 = "IceCream"

# No match since "C" is not at the start of "IceCream"
re.match(pattern, sequence1)

In [69]:
pattern = "I"
sequence1 = "IceCream"

# Match since "I" is at the start of "IceCream"
re.match(pattern, sequence1)

<_sre.SRE_Match object; span=(0, 1), match='I'>

In [38]:
# Buscar la primera vez que <algo> se encuentre. 
# El wildcard ? permite parar la primer vez que se encuentra el >
heading  = r'<h1>TITLE</h1>'
re.match(r'<.*?>', heading).group()

'<h1>'

Otro ejemplo de búsqueda mediante grupos

In [70]:
email_address = 'Please contact us at: support@python.com'
match = re.search(r'([\w\.-]+)@([\w\.-]+)', email_address)
if match:
  print(match.group()) # The whole matched text
  print(match.group(1)) # The username (group 1)
  print(match.group(2)) # The host (group 2)

support@python.com
support
python.com


In [72]:
# tarea 1:
# crear un archivo CSV con registros de 5 personas
# incluyendo nombre, correo y telefono basados en 
# lista de tuplas:
# [
# ('carlos', 'carlos2010@gmail.com', '1231'),
# ('felipe', 'felipe.arias@gmail.com', '313131')
# ]
# leer archivo y mostrar en pantalla:
# hola soy carlos, mi usuario de correo es carlos2010 y mi telefono 12131