
# Expresiones Regulares (regex)

https://docs.python.org/3/howto/regex.html

In [None]:
s = "Donde digo digo, digo diego."
"digo" in s

True

In [None]:
import re
x = re.findall("digo", s)
print(x)

['digo', 'digo', 'digo']


## [ ]
Se utilizan para especificar el conjunto de caracteres que se desea combinar. Los caracteres se pueden enumerar individualmente, o se puede indicar un rango de caracteres dando dos caracteres y separándolos por un '-'. Por ejemplo, [abc] coincidirá con cualquiera de los caracteres a, b o c; esto es lo mismo que [a-c], que usa un rango para expresar el mismo conjunto de caracteres. Si quisiera hacer coincidir solo letras minúsculas, su RE sería [a-z].

In [None]:
import re

s ="rojo verde amarillo gris blanco azul"

x = re.findall("[az]", s)
print(x)
x = re.findall("[a-z]", s)
print(x)
x = re.findall("[^az]", s) # Podemo invertir la selección usando ^
print(x)
x = re.findall("[^a-z]", s)
print(x)

['a', 'a', 'a', 'a', 'z']
['r', 'o', 'j', 'o', 'v', 'e', 'r', 'd', 'e', 'a', 'm', 'a', 'r', 'i', 'l', 'l', 'o', 'g', 'r', 'i', 's', 'b', 'l', 'a', 'n', 'c', 'o', 'a', 'z', 'u', 'l']
['r', 'o', 'j', 'o', ' ', 'v', 'e', 'r', 'd', 'e', ' ', 'm', 'r', 'i', 'l', 'l', 'o', ' ', 'g', 'r', 'i', 's', ' ', 'b', 'l', 'n', 'c', 'o', ' ', 'u', 'l']
[' ', ' ', ' ', ' ', ' ']


##  Secuencias especiales

- **\d** Coincide con cualquier dígito decimal; esto es equivalente a la clase [0-9].
- **\D** Coincide con cualquier carácter que no sea un dígito; esto es equivalente a la clase [^ 0-9]. 
- **\s** Coincide con cualquier carácter de espacio en blanco; esto es equivalente a la clase [\t\n\r\f\v].
- **\S** Coincide con cualquier carácter que no sea espacio en blanco; esto es equivalente a la clase [^\t\n\r\f\v]. 
- **\w** Coincide con cualquier carácter alfanumérico; esto es equivalente a la clase [a-zA-Z0-9].
- **\W** Coincide con cualquier carácter no alfanumérico; esto es equivalente a la clase [^a-zA-Z0-9].

In [None]:
import re

s ="rojo roja rojizo azul"

x = re.findall("rojo", s)
x = re.findall("roj\w", s)
print(x)

['rojo', 'roja', 'roji']


## Repeticiones

In [None]:
import re

s ="rojo roja rojizo azul raja rejo rjo roooojo"

x = re.findall("roj.", s) # . sustituye cualquier carácter
print(x)

x = re.findall("ro?jo", s) # . sustituye cualquier carácter
print(x)

x = re.findall("ro*jo", s) # . sustituye cualquier carácter
print(x)

x = re.findall("ro+jo", s) # . sustituye cualquier carácter
print(x)

x = re.findall("roj[\w]+", s) # . sustituye cualquier carácter
print(x)

['rojo', 'roja', 'roji']
['rojo', 'rjo']
['rojo', 'rjo', 'roooojo']
['rojo', 'roooojo']
['rojo', 'roja', 'rojizo']


In [None]:
import re

s ="arrojar rojo Rojo roja Rojizo azul encarnado encarnadas"

x = re.findall(r"[rR]oj\w*", s)
print(x)

x = re.findall(r"roj\w*", s,  re.IGNORECASE)
print(x)

x = re.findall(r"\sroj\w*", s,  re.IGNORECASE)
print(x)

x = re.findall(r"\broj\w*|encarnad\w*", s,  re.IGNORECASE)
print(x)

['rojar', 'rojo', 'Rojo', 'roja', 'Rojizo']
['rojar', 'rojo', 'Rojo', 'roja', 'Rojizo']
[' rojo', ' Rojo', ' roja', ' Rojizo']
['rojo', 'Rojo', 'roja', 'Rojizo', 'encarnado', 'encarnadas']


In [None]:
import re

s = u"Precio: 45.3€"

x = re.findall(r"\d+\.\d*", s)
print(x)

['45.3']
