# Expresiones regulares

<hr>

Una expresi√≥n regular es un patr√≥n que describe una colecci√≥n de cadenas de caracteres.

Por ejemplo, el patr√≥n `ùöä.ùöû` representa todas las cadenas de caracteres que empiezan por la letra `a`, luego un car√°cter cualquiera (representado por el s√≠mbolo `.`) y luego la letra `u`. M√°s concretamente, el patr√≥n `a.u` representa las cadenas `abu`, `agu` y `a-u`, pero no las cadenas `Abu` o `ave`.

Otro ejemplo: el patr√≥n `"ùöäùöã*"` representa las cadenas de caracteres que empiecen por la letra `a` seguida por cero o m√°s caracteres `b`.

Y otro: el patr√≥n `"ùööùöûùöí(ùöìùöòùöùùöé|ùöìùöäùöóùöò|ùöñùöéùöõùöä)"` representa las cadenas de caracteres que empiecen por `qui`, seguidas `jote`, por `jano` o por `mera`. Concretamente, las cadenas `"quijote"`, por `"quijano"` o por `quimera`.

### La funci√≥n `match()`

La funci√≥n `match()` averigua si una cadena de caracteres contiene un patr√≥n, *en su comienzo*.

Por ejemplo, como el s√≠mbolo `"."` representa exactamente un car√°cter cualquiera, el patr√≥n `"a.u"` encaja al comienzo de las cadenas `"abuelo"`, `"avuelo"`, `"avutarda"` y `"aguja"`, pero no de las cadenas `"Abuelo"` y `"aaaaa"`.

In [1]:
import re

def comprobar_encaje(patron_str, cadena):
    patron = re.compile(patron_str)
    if re.match(patron, cadena):
        # print(f"El patr√≥n '{patron_str}' S√ç encaja en la cadena '{cadena}'")
        print(f"'{patron_str}' === '{cadena}'")
    else:
        # print(f"El patr√≥n '{patron_str}' NO encaja en la cadena '{cadena}'")
        print(f"'{patron_str}' =/= '{cadena}'")

comprobar_encaje("a.u", "abuelo")
comprobar_encaje("a.u", "Abuelo")

'a.u' === 'abuelo'
'a.u' =/= 'Abuelo'


In [2]:
for cad in ["abuelo", "Abuelo", "avuelo", "avutarda", "aguja", "aaaaa"]:
    comprobar_encaje("a.u", cad)

'a.u' === 'abuelo'
'a.u' =/= 'Abuelo'
'a.u' === 'avuelo'
'a.u' === 'avutarda'
'a.u' === 'aguja'
'a.u' =/= 'aaaaa'


### Otro comod√≠n: `"*"`

Otro comod√≠n es el s√≠mbolo `"*"`, que representa exactamente la repetici√≥n "ninguna o m√°s veces", del car√°cter precedente. As√≠ por ejemplo, el patr√≥n `"ab*o"` representa el comienzo de las cadenas `"abono"` y `"abbbbonar"` o `"ao"`, pero no de las cadenas `"abuelo"` o `"aaaaa"`.

In [3]:
for cad in ["abuelo", "Abuelo", "abono", "abbbbonar", 
            "abuela", "abuelitos", "aaaaa", "ao"]:
    comprobar_encaje("ab*o", cad)

'ab*o' =/= 'abuelo'
'ab*o' =/= 'Abuelo'
'ab*o' === 'abono'
'ab*o' === 'abbbbonar'
'ab*o' =/= 'abuela'
'ab*o' =/= 'abuelitos'
'ab*o' =/= 'aaaaa'
'ab*o' === 'ao'


### Algunos patrones b√°sicos

El s√≠mbolo `"."` en el patr√≥n representa un car√°cter cualquiera, y `"*"`, ninguna o m√°s repeticiones del s√≠mbolo precedente. En los patrones se usan otros muchos s√≠mbolos. Veamos algunos ejemplos para empezar:

Algunos c√≥digos especiales nos permiten identificar d√≠gitos, caracteres no d√≠gitos...

| Patr√≥n 	| Significado                                   |
|-|-|
| "." 	    | Un car√°cter                                   |
| "a*" 	    | El car√°cter a, ninguna o m√°s veces            |
| "a+" 	    | El car√°cter a, una o m√°s veces                |
| "[a-z]"   | Una letra de la "a" a la "z"                  |
| "[1-9]+"  | Un d√≠gito entre uno y nueve, una o m√°s veces  |
| "mi(.$\verb+|+$..)o" 	| Empieza por "mi", luego uno o dos caracteres y luego una "o": mito, mico, mirlo, miedo               |
| "^The.*Spain$" 	| Empieza por "The" y termina con "Spain"

In [4]:
cadenas = ["abuelo", "Abuelo", "abono", "abbbbonar", 
           "abuela", "abuelitos", "aaaaa", "ao"]

for cad in cadenas:
        comprobar_encaje("a.*b+", cad)

print("......................................")

for cad in cadenas:
        comprobar_encaje("a(b|v|g).*", cad)

print("......................................")

for cad in ["En un lugar de la Mancha", "En la Mancha..."]:
        comprobar_encaje("^En.*Mancha$", cad)

'a.*b+' === 'abuelo'
'a.*b+' =/= 'Abuelo'
'a.*b+' === 'abono'
'a.*b+' === 'abbbbonar'
'a.*b+' === 'abuela'
'a.*b+' === 'abuelitos'
'a.*b+' =/= 'aaaaa'
'a.*b+' =/= 'ao'
......................................
'a(b|v|g).*' === 'abuelo'
'a(b|v|g).*' =/= 'Abuelo'
'a(b|v|g).*' === 'abono'
'a(b|v|g).*' === 'abbbbonar'
'a(b|v|g).*' === 'abuela'
'a(b|v|g).*' === 'abuelitos'
'a(b|v|g).*' =/= 'aaaaa'
'a(b|v|g).*' =/= 'ao'
......................................
'^En.*Mancha$' === 'En un lugar de la Mancha'
'^En.*Mancha$' =/= 'En la Mancha...'


### El m√©todo `search()`:

El m√©todo `search()` recorre una cadena y busca en ella alg√∫n fragmento que encaje con el patr√≥n dado, y da el fragmento posible en caso de encontrarlo:

In [5]:
patron = re.compile("c...")

encaje = re.search(patron, "En un lugar...")
print(encaje)

encaje = re.search(patron, "... de la Mancha, de cuyo nombre no quiero acordarme...")
print(encaje)
print(encaje.start())
print(encaje.end())

None
<re.Match object; span=(13, 17), match='cha,'>
13
17


El encaje con una cadena completa puede realizarse tambi√©n
con el m√©todo `re.fullmatch()`, 
que comprueba si toda la cadena coincide con el patr√≥n,
y no s√≥lo una parte de ella.

In [6]:
for cad in ["En un lugar de la Mancha", "En la Mancha..."]:
        print(re.fullmatch("En.*Mancha", cad))

<re.Match object; span=(0, 24), match='En un lugar de la Mancha'>
None


### La funci√≥n `findall()`:

Podr√≠amos desear ver todos los encajes, y no s√≥lo el primero: nuestra funci√≥n es ahora `findall()`:

In [7]:
cadena = """En un lugar de la Mancha de cuyo nombre \
no quiero acordarme, hab√≠a un hidalgo, de los de \
lanza en astillero, roc√≠n flaco y galgo corredor..."""

print(re.findall("c...", cadena))

print(re.findall(". l..", cadena))

['cha ', 'cuyo', 'cord', 'c√≠n ', 'co y', 'corr']
['n lug', 'e la ', 'e los', 'e lan']


### Algunos patrones m√°s

En los ejemplos anteriores hemos visto los patrones siguientes:

<ul>
    <li> El patron "ab*", que representa las cadenas de caracteres que empiezan por la letra `a` seguida de cero o m√°s caracteres "b" </li>
    <li> El patr√≥n ". l..", que representa las cadenas de cinco caracteres: uno cualquiera, un espacio, la letra "l" y dos caracteres cualesquiera m√°s. </li>
</ul>

Pero hay otros patrones posibles, que se pueden definir con las siguientes convenciones. Vamos a verlos mediante ejemplos:

In [8]:
patrones = ['.ab*',       # un car√°cter, el car√°cter "a" seguido por cero o m√°s caracteres "b".
            '.ab+',       # un car√°cter, el car√°cter "a" seguido por uno o m√°s caracteres "b".
            '.ab?',       # un car√°cter, el car√°cter "a" seguido por cero o un car√°cter "b".
            '.ab{2}',     # un car√°cter, el car√°cter "a" seguido por dos caracteres "b".
            '.ab{2,4}',   # un car√°cter, el car√°cter "a" seguido por 2, 3 o 4 caracteres "b".
            '.[ab].',     # "[ab]" es el car√°cter "a" o el car√°cter "b".
            '.[ab]+',     # un car√°cter seguido de uno o m√°s caracteres "a" o "b"
           ]

frase = "0a 1b 2ab 3aba 4abc 5aaaaaaa 6abbab 7abbbbb 6abababababab"

for p in patrones:
    print(f"B√∫squeda con el patr√≥n '{p}'")
    print(re.findall(p, frase))

B√∫squeda con el patr√≥n '.ab*'
['0a', '2ab', '3ab', '4ab', '5a', 'aa', 'aa', 'aa', '6abb', '7abbbbb', '6ab', 'bab', 'bab']
B√∫squeda con el patr√≥n '.ab+'
['2ab', '3ab', '4ab', '6abb', '7abbbbb', '6ab', 'bab', 'bab']
B√∫squeda con el patr√≥n '.ab?'
['0a', '2ab', '3ab', '4ab', '5a', 'aa', 'aa', 'aa', '6ab', 'bab', '7ab', '6ab', 'bab', 'bab']
B√∫squeda con el patr√≥n '.ab{2}'
['6abb', '7abb']
B√∫squeda con el patr√≥n '.ab{2,4}'
['6abb', '7abbbb']
B√∫squeda con el patr√≥n '.[ab].'
['0a ', '1b ', '2ab', '3ab', '4ab', '5aa', 'aaa', 'aa ', '6ab', 'bab', '7ab', 'bbb', '6ab', 'aba', 'bab', 'aba']
B√∫squeda con el patr√≥n '.[ab]+'
['0a', '1b', '2ab', '3aba', '4ab', '5aaaaaaa', '6abbab', '7abbbbb', '6abababababab']


Veamos algunos patrones m√°s:

In [9]:
patrones = ["[^!.? ]+",   # Un car√°cter que no es "!", ni ".", ni "?" ni " ".
            "[a-z]",      # rango de caracteres
            "[a-zA-Z]",   # una min√∫scula o una may√∫scula
            "[A-Z][a-z]", # una min√∫scula seguida de una may√∫scula
           ]

frase = "¬°Qu√© lindos ojos tienes! ¬øPuedes decirme tu nombre?"

for p in patrones:
    print(f"B√∫squeda con el patr√≥n '{p}':")
    print(re.findall(p,frase))

B√∫squeda con el patr√≥n '[^!.? ]+':
['¬°Qu√©', 'lindos', 'ojos', 'tienes', '¬øPuedes', 'decirme', 'tu', 'nombre']
B√∫squeda con el patr√≥n '[a-z]':
['u', 'l', 'i', 'n', 'd', 'o', 's', 'o', 'j', 'o', 's', 't', 'i', 'e', 'n', 'e', 's', 'u', 'e', 'd', 'e', 's', 'd', 'e', 'c', 'i', 'r', 'm', 'e', 't', 'u', 'n', 'o', 'm', 'b', 'r', 'e']
B√∫squeda con el patr√≥n '[a-zA-Z]':
['Q', 'u', 'l', 'i', 'n', 'd', 'o', 's', 'o', 'j', 'o', 's', 't', 'i', 'e', 'n', 'e', 's', 'P', 'u', 'e', 'd', 'e', 's', 'd', 'e', 'c', 'i', 'r', 'm', 'e', 't', 'u', 'n', 'o', 'm', 'b', 'r', 'e']
B√∫squeda con el patr√≥n '[A-Z][a-z]':
['Qu', 'Pu']


In [10]:
# Ejemplo: un n√∫mero entero, con signo o sin √©l:

entero = re.compile(r'[\+\-]?[0-9]+')
cantidades = re.findall(entero, "Tengo 123 euros, en el banco, -150‚Ç¨ y gano +347‚Ç¨")

print(cantidades)
print(sum([int(c) for c in cantidades]))

['123', '-150', '+347']
320


### El m√©todo `split()`:

Separa una cadena seg√∫n un patr√≥n:

In [11]:
cadena = """En un lugar de la Mancha de cuyo nombre \
no quiero acordarme, hab√≠a un hidalgo, de los de \
lanza en astillero, roc√≠n flaco y galgo corredor..."""

separada = re.split("c...", cadena)
print(separada)

print("......................................")

separadores_de_frase = "[.;:] " # uno de esos caracteres + un espacio en blanco
frases = re.split(separadores_de_frase, 
                  "Estoy de acuerdo. Pero no del todo; otro d√≠a lo discutimos: ahora no puedo.")
print(frases)

['En un lugar de la Man', 'de ', ' nombre no quiero a', 'arme, hab√≠a un hidalgo, de los de lanza en astillero, ro', 'fla', ' galgo ', 'edor...']
......................................
['Estoy de acuerdo', 'Pero no del todo', 'otro d√≠a lo discutimos', 'ahora no puedo.']


### El m√©todo `sub()`:

Sustituye las apariciones de un patr√≥n por otra cosa, en una cadena de caracteres:

In [12]:
cadena = """En un lugar de la Mancha de cuyo nombre \
no quiero acordarme, hab√≠a un hidalgo, de los de \
lanza en astillero, roc√≠n flaco y galgo corredor..."""

separada = re.sub("c...", "----", cadena)
print(separada)

En un lugar de la Man----de ---- nombre no quiero a----arme, hab√≠a un hidalgo, de los de lanza en astillero, ro----fla---- galgo ----edor...


### El m√©todo `group()`:

Dentro de un fragmento que encaja con un patr√≥n, podemos distinguir partes. La operaci√≥n `group` permite definir estas partes y localizarlas por separado:

In [13]:
cadena = """En un lugar de la Mancha de cuyo nombre \
no quiero acordarme, hab√≠a un hidalgo, de los de \
lanza en astillero, roc√≠n flaco y galgo corredor..."""

patron = re.compile("c....")
encaje = re.search(patron, cadena)
print(encaje.group())

patron = re.compile("c((..)(..))")
encaje = re.search(patron, cadena)
print(encaje.group(0))
print(encaje.group(1))
print(encaje.group(2))
print(encaje.group(3))

cha d
cha d
ha d
ha
 d


In [14]:
# Buscamos un n√∫mero entero en una cadena:

patr_ent = re.compile("[^0-9]*([0-9]+)[^0-9]")
cadena = """[...] ejemplares √∫nicos en la \
Hispanic Society (Fadrique de Basilea, Burgos, 1499 pero, \
en realidad, 1500-1502), la Sociedad Bodmeriana \
(Pedro Hagenbach, Toledo, 1500) y en la Biblioteca Nacional de Francia \
(Estanislao Polono, Sevilla, 1501) [...]"""

encaje = re.search(patr_ent, cadena)
print(encaje.group(0))
print(encaje.group(1))

# Buscamos ahora todos los enteros:

print(re.findall(patr_ent, cadena))

[...] ejemplares √∫nicos en la Hispanic Society (Fadrique de Basilea, Burgos, 1499 
1499
['1499', '1500', '1502', '1500', '1501']


## El m√©todo `finditer()`

... para buscar en una cadena varios encajes agrupados:

In [15]:
# Buscamos un n√∫mero entero y luego un nombre propio en una cadena:

patr_ent_np = re.compile("[^0-9]*([0-9]+)[^0-9][^A-Z]*([A-Z][a-z]*)")
encajes = re.finditer(patr_ent_np, cadena)
for enc in encajes:
    print("-> ", enc.group(0))
    print("-> ", enc.group(1))
    print("-> ", enc.group(2))
    print()

->  [...] ejemplares √∫nicos en la Hispanic Society (Fadrique de Basilea, Burgos, 1499 pero, en realidad, 1500-1502), la Sociedad
->  1499
->  Sociedad

->   Bodmeriana (Pedro Hagenbach, Toledo, 1500) y en la Biblioteca
->  1500
->  Biblioteca



### Secuencias de escape

Algunos c√≥digos especiales nos permiten identificar d√≠gitos, caracteres no d√≠gitos...

| C√≥digo 	| Significado                             |
|-|-|
| "\d" 	| un d√≠gito                                   |
| "\D" 	| un car√°cter no d√≠gito                              |
| "\s" 	| espacio en blanco o tabulador o nueva l√≠nea, etc.)   |
| "\S" 	| no espacio en blanco o...                            |
| "\w" 	| car√°cter alfaum√©rico               |
| "\W" 	| no car√°cter alfaum√©rico                     |

In [16]:
patrones = ["\d+", # Secuencia de uno o m√°s d√≠gitos
            "\D+", # Secuencia de uno o m√°s no d√≠gitos
            "\s+", # Secuencia de uno o m√°s espacios en blanco
            "\S+", # Secuencia de uno o m√°s no espacios en blanco
            "\w+", # Secuencia de uno o m√°s caracteres alfanum√©ricos
            "\W+", # Secuencia de uno o m√°s no caracteres alfanum√©ricos
           ]

frase = "¬°El n√∫mero del anticristo es 666, el n√∫mero de la bestia!"

for p in patrones:
    print(f"'B√∫squeda con el patr√≥n '{p}'")
    print(re.findall(p, frase))

'B√∫squeda con el patr√≥n '\d+'
['666']
'B√∫squeda con el patr√≥n '\D+'
['¬°El n√∫mero del anticristo es ', ', el n√∫mero de la bestia!']
'B√∫squeda con el patr√≥n '\s+'
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']
'B√∫squeda con el patr√≥n '\S+'
['¬°El', 'n√∫mero', 'del', 'anticristo', 'es', '666,', 'el', 'n√∫mero', 'de', 'la', 'bestia!']
'B√∫squeda con el patr√≥n '\w+'
['El', 'n√∫mero', 'del', 'anticristo', 'es', '666', 'el', 'n√∫mero', 'de', 'la', 'bestia']
'B√∫squeda con el patr√≥n '\W+'
['¬°', ' ', ' ', ' ', ' ', ' ', ', ', ' ', ' ', ' ', ' ', '!']


### Ejemplos adicionales

In [17]:
# Patr√≥n para identificar una fecha:

fecha_re = re.compile('\d{2}/\d{2}/\d{4}')

linea = '[26/11/1962 00:01:35] <font color="#00ff00"¬°Sorpresa!</font>>'
encaje = fecha_re.search(linea)
print(encaje)
print(encaje.group(0))

linea_sin_fecha = "En tiempos de Ahrun al Rashid..."
encaje = fecha_re.search(linea_sin_fecha)
print(encaje)

<re.Match object; span=(1, 11), match='26/11/1962'>
26/11/1962
None


In [18]:
# Patr√≥n para identificar una direcci√≥n de email:

dir_email = r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+(?:\.[a-zA-Z0-9-]+)+'
dir_email = r'[\w_.+-]+@[\w_.+-]+(?:\.[\w_.+-]+)+'

trozo = "[\w_.+-]+"
dir_email = f'{trozo}@{trozo}(?:\.{trozo})+'

frase = "Mi email: cpareja@ucm.es. No c.par@sip.ucm.es ni c-pa+reja@SIP.ucm.es.es.es"
print(re.findall(dir_email, frase))

['cpareja@ucm.es.', 'c.par@sip.ucm.es', 'c-pa+reja@SIP.ucm.es.es.es']


In [19]:
# Patr√≥n para identificar una fecha y una hora:

linea = '[26/11/1962 00:01:35] <font color="#00ff00"¬°Sorpresa!</font>>'

# Ahora definimos dos grupos, con los par√©ntesis:
fecha_con_hora = re.compile('(\d{2}/\d{2}/\d{4}) (\d{2}:\d{2}:\d{2})')

encaje = fecha_con_hora.search(linea)
print(encaje)
print(encaje.group(0))
print(encaje.group(1))
print(encaje.group(2))

<re.Match object; span=(1, 20), match='26/11/1962 00:01:35'>
26/11/1962 00:01:35
26/11/1962
00:01:35


In [20]:
# Para reconvertir las cadenas de caracteres de  fechas en fechas:

from datetime import datetime
fecha = datetime.strptime(encaje.group(0), "%d/%m/%Y %H:%M:%S")
fecha

# https://docs.python.org/3.6/library/datetime.html#strftime-strptime-behavior

datetime.datetime(1962, 11, 26, 0, 1, 35)

### Comentario final

En Computaci√≥n, el tema de las expresiones regulares es m√°s amplio de lo mostrado aqu√≠, pues involucra conceptos de aut√≥matas finitos deterministas y no deterministas, compiladores, etc., temas que no consideramos aqu√≠ obviamente.

Entre las muchas referencias que pueden consultarse, he aqu√≠ dos que me gustan a m√≠:

<ul>
    <li> https://www.w3schools.com/python/python_regex.asp </li>
    <li> https://docs.python.org/3/howto/regex.html </li>
</ul>   

Finalmente, os dejo el siguiente enlace, que permite probar y depurar expresiones regulares:

	https://regex101.com/

Cuenta con ayuda en tiempo real y gu√≠a de uso de las expresiones disponibles.