![](https://api.brandy.run/core/core-logo-wide)

# REGEX

Las expresiones regulares son una forma de describir patrones para hacer busquedas, verificar datos, y muchas otras cosas que se puedan hacer con strings.

In [6]:
import re

In [7]:
texto = "Tres tristes tigres comen trigo en un trigal"

In [8]:
"tigres" in texto

True

In [9]:
texto.startswith("tr")

False

In [10]:
res = []
for word in texto.split():
    if word[0] == 't':
        res.append(word)
res

['tristes', 'tigres', 'trigo', 'trigal']

In [15]:
patron = "t\w*\S"
re.findall(patron, texto)

['tristes', 'tigres', 'trigo', 'trigal']

## re methods

In [16]:
[att for att in dir(re) if not(att.startswith("_") or att[0].isupper())]

['compile',
 'copyreg',
 'enum',
 'error',
 'escape',
 'findall',
 'finditer',
 'fullmatch',
 'functools',
 'match',
 'purge',
 'search',
 'split',
 'sre_compile',
 'sre_parse',
 'sub',
 'subn',
 'template']

In [18]:
texto

'Tres tristes tigres comen trigo en un trigal'

In [20]:
# findall -> Devuelve todas las coincidencias con el patron indicado
print(patron)

t\w*\S


In [19]:
re.findall(patron, texto)

['tristes', 'tigres', 'trigo', 'trigal']

In [23]:
# fullmatch -> Comprueba si la totalidad del texto coincide con el patron
re.fullmatch("Tres tristes tigres comen trigo en un trigal", texto)

<re.Match object; span=(0, 44), match='Tres tristes tigres comen trigo en un trigal'>

In [27]:
# match -> Comprueba si el patron coincide con el principio del texto
re.match("Tres tristes tigres", texto)

<re.Match object; span=(0, 19), match='Tres tristes tigres'>

In [28]:
# search -> Busca la parte del texto en la que coincide el patron. Muestra la primera coincidencia
re.search("tr", texto)

<re.Match object; span=(5, 7), match='tr'>

## Literals

La primera cosa que podemos buscar con regex son palabras o strings tal cual les hemos escrito. Para eso, simplemente tenemos que escribir aquello que deseamos buscar. 

In [31]:
strings = ["Regex", "regex", "REGEX", "REGEX 101"]

In [32]:
patron = "regex"
[bool(re.findall(patron, word)) for word in strings]

[False, True, False, False]

In [34]:
res = []
for word in strings:
    res.append(word == "regex")
res

[False, True, False, False]

## Alternation

Si queremos buscar entre algunas opciones, podemos separarlas con el caracter `|` para que se haga match con una u otra.

In [52]:
strings = ["Regex", "regex", "REGEX", "REGEX 101"]

In [53]:
patron = "regex|REGEX"

In [54]:
[bool(re.fullmatch(patron, word)) for word in strings]

[False, True, True, False]

## Quantifying

Si queremos buscar un patron que se puede repetir, podemos usar algunos modificadores para los patrones:

> ### `?`
> Busca la existencia o no existencia de un patrón, eso es, el patrón se repitr cero o una vez

$0 \rightarrow 1$

In [55]:
strings = ["REGEX", "REGEX1", "REGEX2", "REGEX3", "REGEX33", "rREGEX23", "rEGEX"]

In [56]:
patron = "REGEX3?"   #  == REGEX|REGEX3

In [57]:
[bool(re.fullmatch(patron, word)) for word in strings]

[True, False, False, True, False, False, False]

> ### `*`
> Busca la existencia (en qualquer cantidad) o no existencia de un patrón, eso es, el patrón se repitr cero o quantas veces sea

$0 \rightarrow 	\infty$

In [58]:
strings = ["regx", "regex", "regeex", "regeeex", "reegeex","reegegegegex"]

In [59]:
patron = "rege*x"

In [60]:
[bool(re.fullmatch(patron, word)) for word in strings]

[True, True, True, True, False, False]

In [61]:
strings = ["", "9", "99", "19", "1999"]

In [62]:
patron = "1?9*"

In [63]:
[bool(re.fullmatch(patron, word)) for word in strings]

[True, True, True, True, True]

> ### `+`
> Busca una o más repeticiones de un caracter, pero por lo menos una.

$1 \rightarrow 	\infty$

In [64]:
strings = ["banana", "baaaanaaaanaaaa", "baaaannanna", "bananaaaaaa", "bnn"]

In [65]:
patron = "ba+na+na+"

In [66]:
[bool(re.fullmatch(patron, word)) for word in strings]

[True, True, False, True, False]

> ### `{}`
> Además de los modificadores especificados antes, podemos especificar la cantidad de repeticiones que queremos usando el modificador `{min,max}`

In [69]:
strings = ["x"*1,"x"*2,"x"*3,"x"*4,"x"*5,"x"*6]

In [70]:
patron = "x{2,4}"

In [71]:
[bool(re.fullmatch(patron, word)) for word in strings]

[False, True, True, True, False, False]

### Grouping

Los modificadores tal cual se aplican al ultimo caracter anterior a ellos, pero no obstante, podemos querer aplicarles a un grupo de caracteres. En ese caso, devemos agruparles con `()`

In [72]:
strings = ["REG", "REGEX", "REGEXEX", "REGEXEXEXEX", "REGEX_EX_EX_EX", "REGEX_EXEXEX"]

In [76]:
patron = "REG(EX_?)*"

In [77]:
[bool(re.fullmatch(patron, word)) for word in strings]

[True, True, True, True, True, True]

In [79]:
strings = ["parapípedo", "paralepípedo", "paralelepípedo", "paralelelepípedo", "paralelelelelelepípedo"]

In [80]:
patron = "para(le)?pípedo"

In [81]:
[bool(re.fullmatch(patron, word)) for word in strings]

[True, True, False, False, False]

Los modificadores también pueden ser parte del grupo

In [88]:
strings = ["1991", "1999", "1199", "1111", "1919"]

In [89]:
patron = "(1?9)*"

In [90]:
[bool(re.fullmatch(patron, word)) for word in strings]

[False, True, False, False, True]

## Character Sets

Si queremos definir una série de caracteres posibles en una posición, podemos usar `[]`.

Si deseamos excluir esos caracteres, usamos `^`.

E para definir rangos de digitos o letras, lo hacemos de la siguiente forma `[a-f][0-9][1-3]`

In [92]:
strings = ["alumno","alumna","alumnoa"]

In [93]:
patron = "alumn[a-z]?"

In [94]:
[bool(re.fullmatch(patron, word)) for word in strings]

[True, True, False]

In [95]:
strings = ["Core", "CORE", "core", "COre", "coRE"]

In [96]:
patron = "[Cc][Oo][Rr][Ee]"

In [97]:
[bool(re.fullmatch(patron, word)) for word in strings]

[True, True, True, True, True]

In [98]:
strings = list("abcdefghijklmnopqrstuvwxyz")

In [101]:
patron = "[a-l]*"
[(bool(re.fullmatch(patron, word)), word) for word in strings]

[(True, 'a'),
 (True, 'b'),
 (True, 'c'),
 (True, 'd'),
 (True, 'e'),
 (True, 'f'),
 (True, 'g'),
 (True, 'h'),
 (True, 'i'),
 (True, 'j'),
 (True, 'k'),
 (True, 'l'),
 (False, 'm'),
 (False, 'n'),
 (False, 'o'),
 (False, 'p'),
 (False, 'q'),
 (False, 'r'),
 (False, 's'),
 (False, 't'),
 (False, 'u'),
 (False, 'v'),
 (False, 'w'),
 (False, 'x'),
 (False, 'y'),
 (False, 'z')]

## Wildcard
Si queremos buscar un caracter cualquiera, podemos usar el `.`, que significa cualquier caracter.

In [102]:
strings = ["CORE", "C0RE", "C_RE", "CoRE", "C RE", "COOORE"]

In [103]:
patron = "C.RE"

In [104]:
[bool(re.fullmatch(patron, word)) for word in strings]

[True, True, True, True, True, False]

In [106]:
patron = ".*"
[bool(re.fullmatch(patron, word)) for word in ["123897qwd98uj3984cy238r7catwer8xqwhra87wrt8xweryu"]]

[True]

## Escaping special characters

Hemos visto que algunos caracteres tienen un significado especial. Si queremos buscar por literalmente uno de los siguientes `. { } ( ) [ ] ? *` y demás caracteres con significado especial, debemos usar el signo `\` antes del caracter cujo significado especial queremos escapar.

In [118]:
strings = ["hola", "hola.", "hola?", "hola!", "adios?"]

In [119]:
patron = "h.*\?"

In [120]:
[bool(re.fullmatch(patron, word)) for word in strings]

[False, False, True, False, False]

In [121]:
strings = [".","9999.","999.999","987....","7654.abc","._.._"]

In [124]:
patron = "[0-9]{4}\.([0-9]?[a-z]?){3}"

In [125]:
[bool(re.fullmatch(patron, word)) for word in strings]

[False, True, False, False, True, False]

## Character Classes

> ### `\w`
> Es cualquier caracter considerado `word character`. Es equivalente a `[a-zA-Z0-9_]`. Si usamos en su lugar la mayúscula estamos excluyendo cualquiera de esos characteres. `\W`
> ### `\d`
> Corresponde a los dígitos `[0-9]`. La mayúscula también es la negación de ellos
> ### `\s`
> Con `\s` indicamos los espacios o, con `\S` el no-espacio.

In [134]:
strings = ["adfadfADFADF", "", "98547938457", "dasfgaafjaikdsfa", "ksdlfj8adf8as88","⁉️"]

In [137]:
patron = "\w+"

In [138]:
[bool(re.fullmatch(patron, word)) for word in strings]

[True, False, True, True, True, False]

In [140]:
strings = ["675998844","675 998844","675 99 88 44","675-99-88-44","675.99.88.44","675-99 88 44"]

In [145]:
patron = "\d+"

In [146]:
[bool(re.fullmatch(patron, word)) for word in strings]

[True, False, False, False, False, False]

In [157]:
strings = ["   ", " ", "hola ", "___", "..."]

In [158]:
patron = "\s*\w*"

In [159]:
[bool(re.fullmatch(patron, word)) for word in strings]

[True, True, False, True, False]

## Anchors

Aunque no tenga sentido al utilizar `re.fullmatch`, pues estamos probando el string como un todo, nos pueden ser útiles en otras situaciones los caracteres para indicar el inicio o el final del match, respectivamente `^` y `$`.

In [160]:
string = """
Maria: Hola
Pedro: Hola Maria, ¿que haces?
Maria: Estoy estudiando REGEX
Pedro: ¿Que es eso?
Maria: Por ahora creo que es cuando el gato anda sobre el teclado: \w\s$*.{6,}(...)+^\w\W9999?"""

In [166]:
patron = "^Maria"

In [167]:
string[0]

'\n'

In [169]:
re.findall(patron, string, re.MULTILINE)

['Maria', 'Maria', 'Maria']

In [170]:
patron = "^Maria.*"

In [171]:
re.findall(patron, string, re.MULTILINE)

['Maria: Hola',
 'Maria: Estoy estudiando REGEX',
 'Maria: Por ahora creo que es cuando el gato anda sobre el teclado: \\w\\s$*.{6,}(...)+^\\w\\W9999?']

In [173]:
patron = ".*\?$"

In [174]:
re.findall(patron, string, re.MULTILINE)

['Pedro: Hola Maria, ¿que haces?',
 'Pedro: ¿Que es eso?',
 'Maria: Por ahora creo que es cuando el gato anda sobre el teclado: \\w\\s$*.{6,}(...)+^\\w\\W9999?']

# Paginas de ayuda

[Regex101](https://regex101.com/): Podeis insertar un texto y comprobar, mediante expresiones regulares, el resultado que se obtiene. Ademas, hay una pequeña ayuda en la parte inferior derecha sobre las diferentes opciones que se pueden utilizar

[Regexr](https://regexr.com/): Similar a la pagina anterior. Ademas, te marca en el texto aquellas palabras o partes del texto que coinciden con el patron regex. Desglosa el patron en cada una de las partes que lo componen e indica que hace cada parte