# Expresiones regulares

Las expresiones regulares (RE o regex) son cadenas de caracteres que especifican reglas que deben cumplir las posibles cadenas de caracteres que quiero hacer coincidir. Veamos algunos ejemplos de uso



In [1]:
import re

texto = """
    El primer departamento tiene 3 habitaciones y 1 baño.
    El segundo departamento tiene cuatro habitaciones y dos baños.
    El tercero tiene una habitación y no tiene baño.
"""

patron = "(\d|un|una|dos|tres|cuatro|cinco) habitaci[ón|ones]"
print("habitaciones: ", re.findall(patron, texto))

patron = "(\d|un|dos|tres|no tiene) baño[s]*"
print("baños: ", re.findall(patron, texto))

habitaciones:  ['3', 'cuatro', 'una']
baños:  ['1', 'dos', 'no tiene']


## Patrones simples

La mayoría de las letras y números coinciden con sí mismos. 

In [None]:
texto = "abcd"

# coincide totalmente
patron = "abcd"
print(re.match(patron, texto))

# coincide parcialmente
patron = "abc"
print(re.match(patron, texto))

# no coincide
patron = "aa"
print(re.match(patron, texto))

<re.Match object; span=(0, 4), match='abcd'>
<re.Match object; span=(0, 3), match='abc'>
None


Para que ignore las minúsculas y mayúsculas hay que pasarle el *flag* re.IGNORECASE a la función *match*

In [None]:
texto = "Abcd"

# no coincide
patron = "abcd"
print(re.match(patron, texto))

# coincide
patron = "abcd"
print(re.match(patron, texto, re.IGNORECASE))

None
<re.Match object; span=(0, 4), match='Abcd'>


Algunos caracteres llamados "metacaracteres" cumplen una función especial dentro de los patrones. La lista completa es esta: [ ] . ^ $ * + ? { } \ | ( )


 [ y ] especifican un conjunto de caracteres o un rango que se desea coincidir.

In [None]:
patron = "a[bc]d" # a, un caracter b o c, d

# coincide
texto = "abd"
print(re.match(patron, texto))

# coincide
texto = "acd"
print(re.match(patron, texto))

# no coincide
texto = "ad"
print(re.match(patron, texto))

<re.Match object; span=(0, 3), match='abd'>
<re.Match object; span=(0, 3), match='acd'>
None


In [None]:
patron = "a[0-9]d" # a, un caracter de 0 a 9, d

# coincide
texto = "a0d"
print(re.match(patron, texto))

# coincide
texto = "a9d"
print(re.match(patron, texto))

# no coincide
texto = "a78d"
print(re.match(patron, texto))

<re.Match object; span=(0, 3), match='a0d'>
<re.Match object; span=(0, 3), match='a9d'>
None


In [None]:
patron = "a[^0-9]d" # a, cualquier caracter excepto 0 a 9, d

# no coincide
texto = "a0d"
print(re.match(patron, texto))

# no coincide
texto = "a9d"
print(re.match(patron, texto))

# coincide
texto = "acd"
print(re.match(patron, texto))

None
None
<re.Match object; span=(0, 3), match='acd'>


Existen secuencia predefinidas que son usuales:
```
\d --> [0-9]
\D --> [^0-9]
\s --> [ \t\n\r\f\v]
\S --> [^ \t\n\r\f\v]
\w --> [a-zA-Z0-9_]
\W --> [^a-zA-Z0-9_]
```

In [None]:
patron = "a\dz" # a, un dígito, z

# coincide
texto = "a0z"
print(re.match(patron, texto))

# no coincide
texto = "abz"
print(re.match(patron, texto))


<re.Match object; span=(0, 3), match='a0z'>
None


In [4]:
patron = "a\wz" # a, un caracter (mayúscula o minúscula) o dígito o _, z

# coincide
texto = "a0z"
print(re.match(patron, texto))

# coincide
texto = "a_z"
print(re.match(patron, texto))

<re.Match object; span=(0, 3), match='a0z'>
<re.Match object; span=(0, 3), match='a_z'>


## Repitiendo cosas

Se puede espeficar que una parte de un patrón se repita una cierta cantidad de veces

In [None]:
patron = "a[0-9]*z" # a, cero, uno o más dígitos, z

# coincide
texto = "az"
print(re.match(patron, texto))

# coincide
texto = "a0z"
print(re.match(patron, texto))

# coincide
texto = "a01234z"
print(re.match(patron, texto))

<re.Match object; span=(0, 2), match='az'>
<re.Match object; span=(0, 3), match='a0z'>
<re.Match object; span=(0, 7), match='a01234z'>


In [None]:
patron = "a[0-9]+z" # a, uno o más dígitos, z

# no coincide
texto = "az"
print(re.match(patron, texto))

# coincide
texto = "a0z"
print(re.match(patron, texto))

# coincide
texto = "a01234z"
print(re.match(patron, texto))

None
<re.Match object; span=(0, 3), match='a0z'>
<re.Match object; span=(0, 7), match='a01234z'>


In [None]:
patron = "a[0-9]?z" # a, cero o un dígito, z

# coincide
texto = "az"
print(re.match(patron, texto))

# coincide
texto = "a0z"
print(re.match(patron, texto))

# no coincide
texto = "a01234z"
print(re.match(patron, texto))

<re.Match object; span=(0, 2), match='az'>
<re.Match object; span=(0, 3), match='a0z'>
None


In [None]:
patron = "a[0-9]{2,3}z" # a, dos o tres dígitos, z

# no coincide
texto = "az"
print(re.match(patron, texto))

# coincide
texto = "a01z"
print(re.match(patron, texto))

# no coincide
texto = "a01234z"
print(re.match(patron, texto))

None
<re.Match object; span=(0, 4), match='a01z'>
None


In [None]:
#texto = "+54 9 11 15 1234 1234"
texto = "11 15 1234 1234"
patron = "(\+54 9 )?11 (15 )?[0-9]{4} [0-9]{4}"

print(re.search(patron, texto))

<re.Match object; span=(0, 15), match='11 15 1234 1234'>


## Otros metacaracteres

In [None]:
patron = "a[0-2|7-9]z" # a, 0, 1, 2, 7, 8 o 9, z

# coincide
texto = "a0z"
print(re.match(patron, texto))

# coincide
texto = "a9z"
print(re.match(patron, texto))

# no coincide
texto = "a5z"
print(re.match(patron, texto))

<re.Match object; span=(0, 3), match='a0z'>
<re.Match object; span=(0, 3), match='a9z'>
None


In [None]:
patron = "^[Hh]abía una vez" # Había una vez al principio de la cadena

# coincide
texto = "Había una vez un circo..."
print(re.search(patron, texto))

# no coincide
texto = "Érase una vez..."
print(re.search(patron, texto))

# no coincide
texto = "Dijo que había una vez..."
print(re.search(patron, texto))

<re.Match object; span=(0, 13), match='Había una vez'>
None
None


In [None]:
patron = "y eso es todo, amigos$" # "y eso es todo, amigos" al final de la cadena

# coincide
texto = "Saludos y eso es todo, amigos"
print(re.search(patron, texto))

# no coincide
texto = "saludos y eso es todo, amigos!"
print(re.search(patron, texto))

<re.Match object; span=(8, 29), match='y eso es todo, amigos'>
None


In [None]:
patron = "comienzo.+fin" # "comienzo", 1 o más caracteres, "fin"

# coincide
texto = "comienzoyfin"
print(re.search(patron, texto))

# coincide
texto = "comienzo-fin"
print(re.search(patron, texto))

# no coincide
texto = "comienzofin"
print(re.search(patron, texto))

<re.Match object; span=(0, 12), match='comienzoyfin'>
<re.Match object; span=(0, 12), match='comienzo-fin'>
None


# Usando expresiones regulares

In [None]:
texto = """
El departamento vale u$s 100000 pero lo venden a u$s 80.000.
El departamento vale u$ 100000 pero lo venden a u$d 80.000.
El departamento vale 100000 dólares.
"""
#patron = "(u\$[s|d]? [0-9]+\.?[0-9]+"
patron = "[0-9]+\.?[0-9]+ dólares"

print(re.match(patron, texto)) # coincide sólo el principio
print(re.search(patron, texto)) # busca la primera coincidencia en el texto 
print(re.findall(patron, texto)) # busca todas las coincidencias


None
<re.Match object; span=(22, 32), match='u$s 100000'>
[('u$s 100000', ''), ('u$s 80.000', ''), ('u$ 100000', ''), ('u$d 80.000', ''), ('100000 dólares', 'dólares')]


In [None]:
texto = "El departamento vale u$s 100000 pero lo venden a u$s 80.000."
patron = "u\$s ([0-9]+\.?[0-9]+)"

print(re.findall(patron, texto)) # busca todas las coincidencias, devuelve grupos

['100000', '80.000']


In [None]:
texto = "El departamento vale u$s 100000 pero lo venden a u$s 80.000."
patron = "u\$s ([0-9]+\.?[0-9]+)"

m = re.search(patron, texto)
print(m)
print("group:", m.group())
print("span:", m.span(), m.start(), m.end())


<re.Match object; span=(21, 31), match='u$s 100000'>
group: u$s 100000
span: (21, 31) 21 31


# Expresiones regulares en pandas

In [7]:
import pandas as pd

In [27]:
df = pd.DataFrame({
    "titulo": ["El departamento tiene yacuzzi!", "Cuenta con yacuzi o jacuzi.", "Impresionante yacusi en la terraza.", "Disfrute del jacuzi en el balcón.", "El departamento tiene jacuzzi/yacusi.", "Jacusi en el SUM."]

})
df

Unnamed: 0,titulo
0,El departamento tiene yacuzzi!
1,Cuenta con yacuzi o jacuzi.
2,Impresionante yacusi en la terraza.
3,Disfrute del jacuzi en el balcón.
4,El departamento tiene jacuzzi/yacusi.
5,Jacusi en el SUM.


In [28]:
df.titulo.str.contains("[JjYy]acu[zs]{1,2}i")

0    True
1    True
2    True
3    True
4    True
5    True
Name: titulo, dtype: bool

In [None]:
df.titulo.str.extract("([JjYy]acu[zs]{1,2}i)")

Unnamed: 0,0
0,yacuzzi
1,yacuzi
2,yacusi
3,jacuzi
4,jacuzzi
5,Jacusi


In [None]:
df.titulo.str.count("([JjYy]acu[zs]{1,2}i)")

0    1
1    2
2    1
3    1
4    2
5    1
Name: titulo, dtype: int64

In [None]:
df.titulo.str.match("([JjYy]acu[zs]{1,2}i)")

0    False
1    False
2    False
3    False
4    False
5     True
Name: titulo, dtype: bool

In [None]:
df.titulo.str.replace("([JjYy]acu[zs]{1,2}i)", "jacuzzi", regex=True)

0            El departamento tiene jacuzzi!
1             Cuenta con jacuzzi o jacuzzi.
2      Impresionante jacuzzi en la terraza.
3        Disfrute del jacuzzi en el balcón.
4    El departamento tiene jacuzzi/jacuzzi.
5                        jacuzzi en el SUM.
Name: titulo, dtype: object

In [None]:
df.titulo.str.findall("([JjYy]acu[zs]{1,2}i)")

0            [yacuzzi]
1     [yacuzi, jacuzi]
2             [yacusi]
3             [jacuzi]
4    [jacuzzi, yacusi]
5             [Jacusi]
Name: titulo, dtype: object

In [None]:
df.titulo.str.split("([JjYy]acu[zs]{1,2}i)")

0               [El departamento tiene , yacuzzi, !]
1              [Cuenta con , yacuzi,  o , jacuzi, .]
2          [Impresionante , yacusi,  en la terraza.]
3            [Disfrute del , jacuzi,  en el balcón.]
4    [El departamento tiene , jacuzzi, /, yacusi, .]
5                            [, Jacusi,  en el SUM.]
Name: titulo, dtype: object