# Cuaderno 8: Expresiones regulares

Las expresiones regulares (*regular expressions*, *regexes*) son cadenas de caracteres escritas en un lenguaje especial de formateo que se emplean para representar patrones de texto. Suelen utilizarse con tres fines principales: buscar un patrón dentro de un texto, determinar todas las ocurrencias de un patrón dentro de un texto, o preprocesar un texto para "limpiarlo" de información no relevante.

En cualquiera de los tres casos, las expresiones regulares constituyen una herramienta fundamental para el procesamiento rápido y eficiente de información que tenga un formato de texto (páginas web, extracciones de bases de datos, redes sociales, etc.)

### Funciones básicas

Para utilizar expresiones regulares, es necesario importar el módulo `re`:

In [1]:
# importar el módulo de expresiones regulares
import re

La primera aplicación de las expresiones regulares es buscar un patrón dentro de una cadena de texto. La función `match` intenta encontrar este patrón en el inicio del texto. La función `search` busca el patrón en cualquier posición. Ambas funciones retornan valores booleanos: 

In [3]:
S = 'Esta es una cadena de texto en la que vamos a buscar.'
p = 'cade'
if re.search(p, S):
    print('Contiene {}'.format(p))
else:
    print('No contiene {}'.format(p))

if re.match(p, S):
    print('Empieza con {}'.format(p))
else:
    print('No empieza con {}'.format(p))


Contiene cade
No empieza con cade


La función `split` divide a una cadena de caracteres usando un patrón como delimitador. Esta función retorna una lista con todas las subcadenas de la cadena original, delimitadas por el patrón. 

In [4]:
S = 'El panda, oso panda o panda gigante (Ailuropoda melanoleuca) es una especie de mamífero'
p = 'panda'
print(re.split(p, S))

['El ', ', oso ', ' o ', ' gigante (Ailuropoda melanoleuca) es una especie de mamífero']


La función `findall` retorna una lista con todas las subcadenas que una cadena de caracteres que se ajustan a un patrón.

In [5]:
S = 'El panda, oso panda o panda gigante (Ailuropoda melanoleuca) es una especie de mamífero'
p = 'panda'
print(re.findall(p, S))

['panda', 'panda', 'panda']


### Patrones

Las expresiones regex pueden usar un lenguaje de marcado (*markup language*) para especificar patrones de cadenas de caracteres que pueden emplearse como parámetros en las funciones anteriores. Revisaremos en este cuaderno algunos elementos comunes de esta sintaxis. 

Los símbolos `^` y `$` indican el inicio y el fin de la cadena de caracteres, respectivamente.  

In [6]:
S = 'panda, oso panda o panda gigante'
p1='panda'
p2='^panda'
p3='panda$'
print(re.findall(p1, S))
print(re.findall(p2, S))
print(re.findall(p3, S))
print(re.split(p1, S))
print(re.split(p2, S))
print(re.split(p3, S))
if re.search(p2, S):
    print('Empieza con panda')
if re.search(p3, S):
    print('Termina con panda')


['panda', 'panda', 'panda']
['panda']
[]
['', ', oso ', ' o ', ' gigante']
['', ', oso panda o panda gigante']
['panda, oso panda o panda gigante']
Empieza con panda


El operador `[]` se conoce como operador de conjuntos. Indica que en esa posición de la subcadena debe ir uno de los caracteres que aparecen entre los corchetes.

In [7]:
S = 'El principal alimento del panda es el bambú'
p1 = 'el'
p2 = '[Ee]l'
p3 = '[Ee][ls]'
p4 = '[aeiouú]'
print(re.findall(p1, S))
print(re.findall(p2, S))
print(re.findall(p3, S))
print(re.findall(p4, S))

['el', 'el']
['El', 'el', 'el']
['El', 'el', 'es', 'el']
['i', 'i', 'a', 'a', 'i', 'e', 'o', 'e', 'a', 'a', 'e', 'e', 'a', 'ú']


Dentro del operador de conjuntos puede usarse el guión `-` para especificar un rango de caracteres, ordenados alfabéticamente:

In [8]:
S = 'El principal alimento del panda es el bambú'
p1 = '[a-c]'
p2 = '[a-z][a-z]'
print(re.findall(p1, S))
print(re.findall(p2, S))
S = 'Veo 101 dalmatas, 1001 noches, pero no 439 pandas...'
p = '[0-9][0-9]'
print(re.findall(p, S))


['c', 'a', 'a', 'a', 'a', 'b', 'a', 'b']
['pr', 'in', 'ci', 'pa', 'al', 'im', 'en', 'to', 'de', 'pa', 'nd', 'es', 'el', 'ba', 'mb']
['10', '10', '01', '43']


Dentro de un operador de conjuntos, el operador `^` cambia de significado. Se usa para expresa la negación:

In [9]:
S = 'El principal alimento del panda es el bambú'
p1 = '[^i]'
p2 = '[^a]'
p3 = '[^p]a'
print(re.findall(p1, S))
print(re.findall(p2, S))
print(re.findall(p3, S))

['E', 'l', ' ', 'p', 'r', 'n', 'c', 'p', 'a', 'l', ' ', 'a', 'l', 'm', 'e', 'n', 't', 'o', ' ', 'd', 'e', 'l', ' ', 'p', 'a', 'n', 'd', 'a', ' ', 'e', 's', ' ', 'e', 'l', ' ', 'b', 'a', 'm', 'b', 'ú']
['E', 'l', ' ', 'p', 'r', 'i', 'n', 'c', 'i', 'p', 'l', ' ', 'l', 'i', 'm', 'e', 'n', 't', 'o', ' ', 'd', 'e', 'l', ' ', 'p', 'n', 'd', ' ', 'e', 's', ' ', 'e', 'l', ' ', 'b', 'm', 'b', 'ú']
[' a', 'da', 'ba']


El operador `|` es el operador de disyunción (*or*), que permite especificar patrones alternativos:

In [10]:
S = 'El principal alimento del panda es el bambú'
p1 = 'al|del'
p2 = '[ae]l'
print(re.findall(p1, S))
print(re.findall(p2, S))

['al', 'al', 'del']
['al', 'al', 'el', 'el']


### Algunos caracteres especiales

El caracter especial `\w` simboliza cualquier letra o dígito. El caracter `\d` representa un dígito, y el caracter `\s`  representa un espacio en blanco. El punto `.` representa cualquier caracter.

**Importante**: Si se usa dentro de un operador de conjuntos `[]`, el símbolo `.` pierde su significado usual y representa únicamente a un punto.


In [15]:
S = 'Veo 101 dalmatas, 1001 noches, pero no 439 pandas ni 35 ñandúes...'
p1 = '\w' # una letra o un dígito
p2 = '\d' # un dígito
p3 = '\s' # un caracter de espacio
p4 = 's..' # una letra s seguida de dos caracteres cualesquiera
p5 = 's[.][.]' # una letra s seguida de dos puntos
print(re.findall(p1, S))
print(re.findall(p2, S))
print(re.split(p3, S))
print(re.findall(p4, S))
print(re.findall(p5, S))

['V', 'e', 'o', ' ', '1', '0', '1', ' ', 'd', 'a', 'l', 'm', 'a', 't', 'a', 's', ',', ' ', '1', '0', '0', '1', ' ', 'n', 'o', 'c', 'h', 'e', 's', ',', ' ', 'p', 'e', 'r', 'o', ' ', 'n', 'o', ' ', '4', '3', '9', ' ', 'p', 'a', 'n', 'd', 'a', 's', ' ', 'n', 'i', ' ', '3', '5', ' ', 'ñ', 'a', 'n', 'd', 'ú', 'e', 's', '.', '.', '.']
['1', '0', '1', '1', '0', '0', '1', '4', '3', '9', '3', '5']
['Veo', '101', 'dalmatas,', '1001', 'noches,', 'pero', 'no', '439', 'pandas', 'ni', '35', 'ñandúes...']
['s, ', 's, ', 's n', 's..']
['s..']


### Cuantificadores
Los cuantificadores permiten expresar la repetición de una expresión un cierto número de veces. La forma más simple de un cuantificador es `e{m,n}` que equivale a decir que la expresión `e` debe repetirse un mínimo de `m` y un máximo de `n` veces:

In [18]:
S = 'El1 principales alimento del panda es el bambú'
p1 = '[a-z]{3,4}'
p2 = '[\w]{2,10}'
# no poner espacios dentro de los cuantificadores
p3 = '[a-z]{2, 10}'
print(re.findall(p1, S))
print(re.findall(p2, S))
print(re.findall(p3, S))


['prin', 'cipa', 'les', 'alim', 'ento', 'del', 'pand', 'bamb']
['El1', 'principale', 'alimento', 'del', 'panda', 'es', 'el', 'bambú']
[]


Si se especifica un solo parámetro `e{m}` esto significa que la expresión `e` debe repetirse exactamente `m` veces:

In [19]:
S = 'El principal alimento del panda es el bambú'
p1 = '[\w]{5}'
print(re.findall(p1, S))


['princ', 'alime', 'panda', 'bambú']


El cuantificador `e*` indica que la expresión `e` se puede repetir un *número arbitrario de veces, incluyendo 0 veces*.

In [20]:
S = 'Veo 101 dalmatas, 1001 noches, pero no 439 pandas...'
p1 = '[\w]*'
p2 = '[\d]*'
p3 = '[\w\s]*'
print(re.findall(p1, S))
print(re.findall(p2, S))
print(re.findall(p3, S))


['Veo', '', '101', '', 'dalmatas', '', '', '1001', '', 'noches', '', '', 'pero', '', 'no', '', '439', '', 'pandas', '', '', '', '']
['', '', '', '', '101', '', '', '', '', '', '', '', '', '', '', '', '1001', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '439', '', '', '', '', '', '', '', '', '', '', '']
['Veo 101 dalmatas', '', ' 1001 noches', '', ' pero no 439 pandas', '', '', '', '']


El cuantificador `e?` indica que la expresión `e` se repite *cero o una vez*. El cuantificador `e+` indica que la expresión `e` se repite *una o más veces*.

In [21]:
S = 'Veo 101 dalmatas, 1001 noches, pero no 439 pandas...'
p1 = '[\d]*'
p2 = '[\d]?'
p3 = '[\d]+'
print(re.findall(p1, S))
print(re.findall(p2, S))
print(re.findall(p3, S))


['', '', '', '', '101', '', '', '', '', '', '', '', '', '', '', '', '1001', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '439', '', '', '', '', '', '', '', '', '', '', '']
['', '', '', '', '1', '0', '1', '', '', '', '', '', '', '', '', '', '', '', '1', '0', '0', '1', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '4', '3', '9', '', '', '', '', '', '', '', '', '', '', '']
['101', '1001', '439']


Es común usar los cuantificadores `*` y `+` en combinación con el símbolo `.` para indicar una repetición de un número arbitrario de veces de cualquier combinación de caracteres, es decir, una subcadena arbitraria.

In [22]:
S = 'Veo 101 dalmatas, 1001 noches, pero no 439 pandas...'
p1 = '.*' # cualquier subcadena, incluyendo cadenas vacías
p2 = '.+' # cualquier subcadena, excluyendo cadenas vacías
print(re.findall(p1, S))
print(re.findall(p2, S))


['Veo 101 dalmatas, 1001 noches, pero no 439 pandas...', '']
['Veo 101 dalmatas, 1001 noches, pero no 439 pandas...']


### Ejemplos:
Vamos a cargar el archivo `wiki_panda.txt` en una variable `texto` de tipo cadena de caracteres:

In [23]:
with open("wiki_panda.txt","r") as file:
    # leer el contenido del archivo en la variable texto
    texto=file.read()
# mostrar el contenido de esta variable en la pantalla
print(texto)
print(type(texto))

El panda, oso panda o panda gigante (Ailuropoda melanoleuca) es una especie de mamífero del orden de los carnívoros y aunque hay una gran controversia al respecto, los últimos estudios de su ADN lo engloban entre los miembros de la familia de los osos (Ursidae), siendo el oso de anteojos su pariente más cercano, si bien este pertenece a la subfamilia de los tremarctinos. Por otra parte, el panda rojo pertenece a una familia propia e independiente, Ailuridae. La especie está muy localizada. Nativo de China central, el panda gigante habita en regiones montañosas, principalmente las de Sichuan, hasta una altura de 3500 m s. n. m.

Para el 2017 se estimó que la población total superaba los dos mil ejemplares2​ de los que 1864 viven en libertad,3​ lo que demuestra que la cifra de pandas viviendo en libertad va en aumento. Desde 1961 el panda es el símbolo de WWF (Fondo Mundial para la Naturaleza).

El principal alimento del panda es el bambú (en torno al 99 % de su dieta), aunque también se

Podemos extraer una lista con todas las palabras del texto anterior:

In [25]:
print(re.findall('[\w]+', texto))
L = [s for s in re.findall('[\w]*', texto) if s!='']
print(L)
print(L.count('panda'))

['El', 'panda', 'oso', 'panda', 'o', 'panda', 'gigante', 'Ailuropoda', 'melanoleuca', 'es', 'una', 'especie', 'de', 'mamífero', 'del', 'orden', 'de', 'los', 'carnívoros', 'y', 'aunque', 'hay', 'una', 'gran', 'controversia', 'al', 'respecto', 'los', 'últimos', 'estudios', 'de', 'su', 'ADN', 'lo', 'engloban', 'entre', 'los', 'miembros', 'de', 'la', 'familia', 'de', 'los', 'osos', 'Ursidae', 'siendo', 'el', 'oso', 'de', 'anteojos', 'su', 'pariente', 'más', 'cercano', 'si', 'bien', 'este', 'pertenece', 'a', 'la', 'subfamilia', 'de', 'los', 'tremarctinos', 'Por', 'otra', 'parte', 'el', 'panda', 'rojo', 'pertenece', 'a', 'una', 'familia', 'propia', 'e', 'independiente', 'Ailuridae', 'La', 'especie', 'está', 'muy', 'localizada', 'Nativo', 'de', 'China', 'central', 'el', 'panda', 'gigante', 'habita', 'en', 'regiones', 'montañosas', 'principalmente', 'las', 'de', 'Sichuan', 'hasta', 'una', 'altura', 'de', '3500', 'm', 's', 'n', 'm', 'Para', 'el', '2017', 'se', 'estimó', 'que', 'la', 'población'

En el archivo `emails.txt` tenemos un encabezado (ficticio) de un correo electrónico, con información de direcciones de otros destinatarios. Carguemos el contenido de este archivo en una variable `texto`:

In [26]:
with open("emails.txt","r") as file:
    # leer el contenido del archivo en la variable texto
    texto=file.read()
# mostrar el contenido de esta variable en la pantalla
print(texto)

Para: kdawson@outlook.com, CARROL L <carroll@icloud.com>,
cliffski@verizon.net, KOSA CRIS T <kosact@sbcglobal.net>,
chinthaka@live.com, dkrishna@hotmail.com, VICKY SPRINT F
<vsprintf@hotmail.com>, STEVE L <stevelim@msn.com.ec>,
MUNJA L <munjal@aol.com>, JOE HALL <joehall@outlook.com>,
heroine@att.net, msusa@att.net


Podemos usar una expresión regular para extraer una lista con todas las direcciones de email contenidas en el encabezado:

In [27]:
print(re.findall('[a-z.]+@[a-z.]+', texto))

['kdawson@outlook.com', 'carroll@icloud.com', 'cliffski@verizon.net', 'kosact@sbcglobal.net', 'chinthaka@live.com', 'dkrishna@hotmail.com', 'vsprintf@hotmail.com', 'stevelim@msn.com.ec', 'munjal@aol.com', 'joehall@outlook.com', 'heroine@att.net', 'msusa@att.net']


### Grupos
Con frecuencia, las expresiones regulares se emplean para extraer información *estructurada* de un texto, la misma que consiste de diferentes campos. Para ello es útil emplear el operador de grupos `()`.

En el último ejemplo, supongamos que queremos separar la información del nombre de usuario y servidor en las direcciones de correo electrónico:

In [28]:
L = re.findall('([a-z.]+)@([a-z.]+)', texto)
print(L)

[('kdawson', 'outlook.com'), ('carroll', 'icloud.com'), ('cliffski', 'verizon.net'), ('kosact', 'sbcglobal.net'), ('chinthaka', 'live.com'), ('dkrishna', 'hotmail.com'), ('vsprintf', 'hotmail.com'), ('stevelim', 'msn.com.ec'), ('munjal', 'aol.com'), ('joehall', 'outlook.com'), ('heroine', 'att.net'), ('msusa', 'att.net')]


La lista retornada por `findall` consiste ahora de tuplas de dos elementos cada una, correspondientes a los dos grupos en la expresión regular. Notar que el caracter `@` es usado durante la búsqueda pero no es retornado, pues no pertenece a ningún grupo.

Los componentes individuales de cada tupla nos permiten recuperar el nombre de usuario y servidor en cada dirección:

In [30]:
for (usuario, servidor) in L:
    print("Usuario: {}".format(usuario))
    print("Servidor: {}".format(servidor))
    print("-----")

Usuario: kdawson
Servidor: outlook.com
-----
Usuario: carroll
Servidor: icloud.com
-----
Usuario: cliffski
Servidor: verizon.net
-----
Usuario: kosact
Servidor: sbcglobal.net
-----
Usuario: chinthaka
Servidor: live.com
-----
Usuario: dkrishna
Servidor: hotmail.com
-----
Usuario: vsprintf
Servidor: hotmail.com
-----
Usuario: stevelim
Servidor: msn.com.ec
-----
Usuario: munjal
Servidor: aol.com
-----
Usuario: joehall
Servidor: outlook.com
-----
Usuario: heroine
Servidor: att.net
-----
Usuario: msusa
Servidor: att.net
-----


### Objetos tipo Match
Aunque hemos utilizado el resultado de las funciones `re.search` y `re.match` como un valor booleano, realmente ambas funciones retornan objetos de la clase `Match`.  Estos objetos se usan para representar la ocurrencia de un patrón dentro de una cadena de caracteres. 

Si el patrón no aparece en la cadena (o al inicio de la cadena, en el caso de la función `match`), ambas funciones retornan `None`. Al usarse en lugar de una expresión booleana, cualquier objeto tipo `Match` equivale a `True`, mientras que `None`, equivale a `False`. 

In [31]:
S = 'Veo 101 dalmatas, 1001 noches, pero no 439 pandas...'
print(re.search('\d+', S))
print(re.match('\d+', S))
print(re.search('\d[.]+', S))

if(re.search('\d+', S)):
    print("Se encontró el primer patrón")

if(re.match('\d+', S)):
    print("Se encontró el segundo patrón")

if(re.search('\d[.]+', S)):
    print("Se encontró el tercer patrón")

<re.Match object; span=(4, 7), match='101'>
None
None
Se encontró el primer patrón


Un objeto tipo `Match` tiene adicionalmente otras propiedades y métodos. Por ejemplo, el método `span` retorna una tupla con los índices de inicio y fin de la ocurrencia del patrón dentro de la cadena.

In [33]:
S = 'Veo 101 dalmatas, 1001 noches, pero no 439 pandas...'
m = re.search('\d+', S)
print(type(m))
print(m.span())
(a,b) = m.span()
print(S[a:b])

<class 're.Match'>
(4, 7)
101


Cuando el patrón de búsqueda contiene grupos, el método `group` nos permite acceder a las subcadenas asociadas a cada uno de los grupos. Al llamarlo como `group(0)` este método retorna toda la ocurrencia del patrón. Al llamarlo como `group(i)`, con i>0, el método retorna la subcadena correspondiente al i-ésimo grupo.

El método `groups` retorna una tupla con todos los grupos.

In [34]:
S = "Cadena que contiene la dirección dkrishna@hotmail.com"
m = re.search('([a-z.]+)@([a-z.]+)', S)
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.groups())

dkrishna@hotmail.com
dkrishna
hotmail.com
('dkrishna', 'hotmail.com')


Es posible especificar *nombres* para los distintos grupos de un patrón. Esto se consigue empleando la sintaxis `(?P<nombre>)`:

In [36]:
S = "Cadena que contiene la dirección dkrishna@hotmail.com"
m = re.search('(?P<usuario>[a-z.]+)@(?P<servidor>[a-z.]+)', S)


En estos casos, el método `groupdict` permite construir un diccionario cuyas claves son los nombres de los grupos y cuyos valores son las subcadenas correspondientes encontradas en la búsqueda:

In [37]:
print(m.groupdict())
D = m.groupdict()
print(D['usuario'])
print(D['servidor'])

{'usuario': 'dkrishna', 'servidor': 'hotmail.com'}
dkrishna
hotmail.com


### Función finditer
La función `finditer` es similar a la función `findall` en el sentido en que busca todas las ocurrencias de un patrón dentro de una cadena de caracteres. Sin embargo, en lugar de retornar las subcadenas de caracteres, la función `finditer` retorna los objetos tipo `Match` correspondientes.

Recuperemos otra vez el contenido del archivo `emails.txt` en la variable `texto `:

In [38]:
with open("emails.txt","r") as file:
    # leer el contenido del archivo en la variable texto
    texto=file.read()
# mostrar el contenido de esta variable en la pantalla
print(texto)

Para: kdawson@outlook.com, CARROL L <carroll@icloud.com>,
cliffski@verizon.net, KOSA CRIS T <kosact@sbcglobal.net>,
chinthaka@live.com, dkrishna@hotmail.com, VICKY SPRINT F
<vsprintf@hotmail.com>, STEVE L <stevelim@msn.com.ec>,
MUNJA L <munjal@aol.com>, JOE HALL <joehall@outlook.com>,
heroine@att.net, msusa@att.net


Emplearemos un patrón con dos grupos para recuperar todos los usuarios y servidores en las direcciones de correo electrónico que aparecen en el texto. Estos grupos tienen los nombres de `usuario` y `servidor`:

In [40]:
L = re.finditer('(?P<usuario>[a-z.]+)@(?P<servidor>[a-z.]+)', texto)
print(type(L))
print(L)

<class 'callable_iterator'>
<callable_iterator object at 0x7f9753e65280>


La función `finditer` retorna un objeto de tipo `callable_iterator` que contiene los objetos tipo `Match` correspondientes a cada una de las ocurrencias del patrón dentro de la cadena. Podemos acceder a los elementos individuales de `L` empleando un lazo `for`:

In [41]:
for m in L:
    print(type(m))
    print(m.group(0))
    D = m.groupdict()
    print('Usuario: {}'.format(D['usuario']))
    print('Servidor: {}'.format(D['servidor']))
    print('----')

<class 're.Match'>
kdawson@outlook.com
Usuario: kdawson
Servidor: outlook.com
----
<class 're.Match'>
carroll@icloud.com
Usuario: carroll
Servidor: icloud.com
----
<class 're.Match'>
cliffski@verizon.net
Usuario: cliffski
Servidor: verizon.net
----
<class 're.Match'>
kosact@sbcglobal.net
Usuario: kosact
Servidor: sbcglobal.net
----
<class 're.Match'>
chinthaka@live.com
Usuario: chinthaka
Servidor: live.com
----
<class 're.Match'>
dkrishna@hotmail.com
Usuario: dkrishna
Servidor: hotmail.com
----
<class 're.Match'>
vsprintf@hotmail.com
Usuario: vsprintf
Servidor: hotmail.com
----
<class 're.Match'>
stevelim@msn.com.ec
Usuario: stevelim
Servidor: msn.com.ec
----
<class 're.Match'>
munjal@aol.com
Usuario: munjal
Servidor: aol.com
----
<class 're.Match'>
joehall@outlook.com
Usuario: joehall
Servidor: outlook.com
----
<class 're.Match'>
heroine@att.net
Usuario: heroine
Servidor: att.net
----
<class 're.Match'>
msusa@att.net
Usuario: msusa
Servidor: att.net
----


Generalmente se usa la función `finditer` directamente dentro de la expresión del lazo:

In [42]:
# Sintaxis común para utilizar finditer
for m in re.finditer('(?P<usuario>[a-z.]*)@(?P<servidor>[a-z.]*)', texto):
    print(m.group(0))
    D = m.groupdict()
    print('Usuario: {}'.format(D['usuario']))
    print('Servidor: {}'.format(D['servidor']))
    print('----')

kdawson@outlook.com
Usuario: kdawson
Servidor: outlook.com
----
carroll@icloud.com
Usuario: carroll
Servidor: icloud.com
----
cliffski@verizon.net
Usuario: cliffski
Servidor: verizon.net
----
kosact@sbcglobal.net
Usuario: kosact
Servidor: sbcglobal.net
----
chinthaka@live.com
Usuario: chinthaka
Servidor: live.com
----
dkrishna@hotmail.com
Usuario: dkrishna
Servidor: hotmail.com
----
vsprintf@hotmail.com
Usuario: vsprintf
Servidor: hotmail.com
----
stevelim@msn.com.ec
Usuario: stevelim
Servidor: msn.com.ec
----
munjal@aol.com
Usuario: munjal
Servidor: aol.com
----
joehall@outlook.com
Usuario: joehall
Servidor: outlook.com
----
heroine@att.net
Usuario: heroine
Servidor: att.net
----
msusa@att.net
Usuario: msusa
Servidor: att.net
----


### Patrones complejos: modo verboso
En ciertos casos, los patrones de búsqueda pueden ser complejos y por lo tanto más extensos. En estos casos es útil emplear el modo *verboso* de las expresiones regulares.

En Python es posible definir cadenas de caracteres que incluyan *múltiples líneas*. Estas cadenas se delimitan con tres símbolos de comillas `"""`:

In [47]:
s = """Esta es una cadena que abarca múltiples líneas.
Es útil para guardar mensajes largos.
La vamos a utilizar para guardar patrones complejos.
Para Python las cadenas largas y cortas son el mismo tipo.
Notar que hay una línea vacía al final.
"""

print(type(s))
print(s)
print(s)
print(re.findall('.+', s))

<class 'str'>
Esta es una cadena que abarca múltiples líneas.
Es útil para guardar mensajes largos.
La vamos a utilizar para guardar patrones complejos.
Para Python las cadenas largas y cortas son el mismo tipo.
Notar que hay una línea vacía al final.

Esta es una cadena que abarca múltiples líneas.
Es útil para guardar mensajes largos.
La vamos a utilizar para guardar patrones complejos.
Para Python las cadenas largas y cortas son el mismo tipo.
Notar que hay una línea vacía al final.

['Esta es una cadena que abarca múltiples líneas.', 'Es útil para guardar mensajes largos.', 'La vamos a utilizar para guardar patrones complejos.', 'Para Python las cadenas largas y cortas son el mismo tipo.', 'Notar que hay una línea vacía al final.']


Vamos a examinar el archivo de registro de un servidor web. Este es un archivo de texto en donde el servidor lleva un registro de todas las peticiones de acceso que ha recibido. Suele tener un formato similar al que se indica a continuación:

In [48]:
with open("logfile.txt","r") as file:
    texto = file.read()
print(texto)

83.149.9.216 - - [17/May/2015:10:05:03 +0000] "GET /presentations/logstash-monitorama-2013/images/kibana-search.png HTTP/1.1" 200 203023
83.149.9.216 - - [17/May/2015:10:05:43 +0000] "GET /presentations/logstash-monitorama-2013/images/kibana-dashboard3.png HTTP/1.1" 200 171717
83.149.9.216 - - [17/May/2015:10:05:47 +0000] "GET /presentations/logstash-monitorama-2013/plugin/highlight/highlight.js HTTP/1.1" 200 26185
83.149.9.216 - - [17/May/2015:10:05:12 +0000] "GET /presentations/logstash-monitorama-2013/plugin/zoom-js/zoom.js HTTP/1.1" 200 7697
83.149.9.216 - - [17/May/2015:10:05:07 +0000] "GET /presentations/logstash-monitorama-2013/plugin/notes/notes.js HTTP/1.1" 200 2892
83.149.9.216 - - [17/May/2015:10:05:34 +0000] "GET /presentations/logstash-monitorama-2013/images/sad-medic.png HTTP/1.1" 200 430406
83.149.9.216 - - [17/May/2015:10:05:57 +0000] "GET /presentations/logstash-monitorama-2013/css/fonts/Roboto-Bold.ttf HTTP/1.1" 200 38720
83.149.9.216 - - [17/May/2015:10:05:50 +0000] 

Cada línea del archivo almacena el registro de una petición de acceso y tiene el siguiente formato:

`<cliente> <usuario> <nombre> [<fecha>:<hora> <GMT>] "<comando> <archivo> <protocolo>" <status> <longitud>`

Los distintos campos significan lo siguiente:

| Campo | Significado |
|:------|:------------|
|cliente|Dirección IP desde donde se realiza la petición. |
|usuario|Nombre del usuario (login) en la máquina cliente, o - si esta información no es transmitida. |
|nombre |Nombre completo del usuario en la máquina cliente, o - si esta información no es transmitida. |
|fecha  |Fecha de la petición. |
|hora   |Hora de la petición. |
|GMT    |Zona horaria respecto a la cual está medida la hora. |
|comando|Comando de HTTP de la petición. |
|archivo|Archivo solicitado (por ejemplo, página web). |
|protocolo|Protocolo de comunicación empleado. |
|status |Status de finalización de la petición. |
|longitud|Longitud de la información transmitida (cantidad de bytes). |

Suponer que queremos procesar este archivo y extraer la información de los distintos campos usando grupos en una expresión general. Dada la complejidad de la expresión, es conveniente utilizar el *modo verboso*. En este modo, el patrón puede incluir varias líneas, los espacios en blanco son ignorados, y se pueden utilizar comentarios en el mismo estilo de Python:

In [50]:
p = """
(?P<cliente>\d+[.]\d+[.]\d+[.]\d+)   # dirección IP del cliente
(\s+)                                # uno o más espacios en blanco
(?P<usuario>[\w-]+)                  # nombre de login del usuario o -
(\s+)                                # uno o más espacios en blanco
(?P<nombre>[\w-]+)                   # nombre completo del usuario o -
(\s+\[)                              # uno o más espacios en blanco, seguido del símbolo [
(?P<fecha>[\w\/]+)                   # fecha
(:)                                  # dos puntos
(?P<hora>\d\d:\d\d:\d\d)             # hora
(\s+)                                # uno o más espacios en blanco
(?P<GMT>[+\-\d]{5})                  # información de zona horaria
(\]\s+")                             # símbolo ] seguido de uno o más espacios en blanco y comillas
(?P<comando>[A-Z]+)                  # comando HTTP
(\s+)                                # uno o más espacios en blanco
(?P<archivo>[\w\/\-.?=]+)            # archivo requerido
(\s+)                                # uno o más espacios en blanco
(?P<protocolo>[\w\/.]+)              # protocolo de comunicaciones empleado
("\s+)                               # comillas seguidas de uno o más espacios en blanco
(?P<status>[\d]+)                    # código de estado de finalización de la operación
(\s+)                                # uno o más espacios en blanco
(?P<longitud>[\d]+)                  # longitud del archivo (página) solicitado
(.*)                                 # cero o más caracteres restantes hasta el final de la línea
"""

El modo verboso se activa especificando un tercer parámetro con el valor `re.VERBOSE`:

In [51]:
for m in re.finditer(p, texto, re.VERBOSE):
    print(m.groupdict())

{'cliente': '83.149.9.216', 'usuario': '-', 'nombre': '-', 'fecha': '17/May/2015', 'hora': '10:05:03', 'GMT': '+0000', 'comando': 'GET', 'archivo': '/presentations/logstash-monitorama-2013/images/kibana-search.png', 'protocolo': 'HTTP/1.1', 'status': '200', 'longitud': '203023'}
{'cliente': '83.149.9.216', 'usuario': '-', 'nombre': '-', 'fecha': '17/May/2015', 'hora': '10:05:43', 'GMT': '+0000', 'comando': 'GET', 'archivo': '/presentations/logstash-monitorama-2013/images/kibana-dashboard3.png', 'protocolo': 'HTTP/1.1', 'status': '200', 'longitud': '171717'}
{'cliente': '83.149.9.216', 'usuario': '-', 'nombre': '-', 'fecha': '17/May/2015', 'hora': '10:05:47', 'GMT': '+0000', 'comando': 'GET', 'archivo': '/presentations/logstash-monitorama-2013/plugin/highlight/highlight.js', 'protocolo': 'HTTP/1.1', 'status': '200', 'longitud': '26185'}
{'cliente': '83.149.9.216', 'usuario': '-', 'nombre': '-', 'fecha': '17/May/2015', 'hora': '10:05:12', 'GMT': '+0000', 'comando': 'GET', 'archivo': '/pr

De esta manera, es posible extraer la parte que nos interese de la información del registro:

In [52]:
for m in re.finditer(p, texto, re.VERBOSE):
    d = m.groupdict()
    print("Cliente: {}".format(d['cliente']))
    print("Fecha: {}".format(d['fecha']))
    print("Hora: {}".format(d['hora']))
    print('---')


Cliente: 83.149.9.216
Fecha: 17/May/2015
Hora: 10:05:03
---
Cliente: 83.149.9.216
Fecha: 17/May/2015
Hora: 10:05:43
---
Cliente: 83.149.9.216
Fecha: 17/May/2015
Hora: 10:05:47
---
Cliente: 83.149.9.216
Fecha: 17/May/2015
Hora: 10:05:12
---
Cliente: 83.149.9.216
Fecha: 17/May/2015
Hora: 10:05:07
---
Cliente: 83.149.9.216
Fecha: 17/May/2015
Hora: 10:05:34
---
Cliente: 83.149.9.216
Fecha: 17/May/2015
Hora: 10:05:57
---
Cliente: 83.149.9.216
Fecha: 17/May/2015
Hora: 10:05:50
---
Cliente: 83.149.9.216
Fecha: 17/May/2015
Hora: 10:05:24
---
Cliente: 83.149.9.216
Fecha: 17/May/2015
Hora: 10:05:50
---
Cliente: 83.149.9.216
Fecha: 17/May/2015
Hora: 10:05:46
---
Cliente: 83.149.9.216
Fecha: 17/May/2015
Hora: 10:05:11
---
Cliente: 83.149.9.216
Fecha: 17/May/2015
Hora: 10:05:19
---
Cliente: 83.149.9.216
Fecha: 17/May/2015
Hora: 10:05:33
---
Cliente: 83.149.9.216
Fecha: 17/May/2015
Hora: 10:05:00
---
Cliente: 83.149.9.216
Fecha: 17/May/2015
Hora: 10:05:25
---
Cliente: 83.149.9.216
Fecha: 17/May/2015

También es fácil construir una lista con los diccionarios correspondientes a las diferentes peticiones:

In [53]:
L = [m.groupdict() for m in re.finditer(p, texto, re.VERBOSE)]
print(L)

[{'cliente': '83.149.9.216', 'usuario': '-', 'nombre': '-', 'fecha': '17/May/2015', 'hora': '10:05:03', 'GMT': '+0000', 'comando': 'GET', 'archivo': '/presentations/logstash-monitorama-2013/images/kibana-search.png', 'protocolo': 'HTTP/1.1', 'status': '200', 'longitud': '203023'}, {'cliente': '83.149.9.216', 'usuario': '-', 'nombre': '-', 'fecha': '17/May/2015', 'hora': '10:05:43', 'GMT': '+0000', 'comando': 'GET', 'archivo': '/presentations/logstash-monitorama-2013/images/kibana-dashboard3.png', 'protocolo': 'HTTP/1.1', 'status': '200', 'longitud': '171717'}, {'cliente': '83.149.9.216', 'usuario': '-', 'nombre': '-', 'fecha': '17/May/2015', 'hora': '10:05:47', 'GMT': '+0000', 'comando': 'GET', 'archivo': '/presentations/logstash-monitorama-2013/plugin/highlight/highlight.js', 'protocolo': 'HTTP/1.1', 'status': '200', 'longitud': '26185'}, {'cliente': '83.149.9.216', 'usuario': '-', 'nombre': '-', 'fecha': '17/May/2015', 'hora': '10:05:12', 'GMT': '+0000', 'comando': 'GET', 'archivo': 

Empleando esta lista podemos realizar varios análisis adicionales sobre el archivo de registro:

In [54]:
# Cuántas peticiones se han realizado?
print(len(L))
# Desde cuántos y cuáles clientes?
print(set([d['cliente'] for d in L]))
print(len(set([d['cliente'] for d in L])))
# En qué fechas se realizaron peticiones?
print(set([d['fecha'] for d in L]))
# Cuántos y cuáles protocolos se utilizaron?
print(set([d['protocolo'] for d in L]))
print(len(set([d['protocolo'] for d in L])))
# Qué archivos solicitó el cliente 200.49.190.101?
print([d['archivo'] for d in L if d['cliente']=='200.49.190.101'])


72
{'81.220.24.207', '50.150.204.184', '87.169.99.232', '110.136.166.128', '24.236.252.67', '200.49.190.100', '207.241.237.227', '66.249.73.135', '207.241.237.228', '207.241.237.101', '200.49.190.101', '66.249.73.185', '50.16.19.13', '209.85.238.199', '46.105.14.53', '91.177.205.119', '123.125.71.35', '207.241.237.220', '207.241.237.225', '67.214.178.190', '93.114.45.13', '83.149.9.216'}
22
{'17/May/2015'}
{'HTTP/1.1', 'HTTP/1.0'}
2
['/reset.css', '/style2.css', '/images/jordan-80.png']


## Información adicional:

Hay muchos otros aspectos acerca de las expresiones regulares que los que se han cubierto en este cuaderno. Algunas fuentes de información útiles son:

* La documentación oficial de Python sobre el módulo `re`: <https://docs.python.org/3/library/re.html>
* El sitio <https://regex101.com/> que permite probar expresiones en-línea
* Los tópicos pertinentes en el foro de Stack Overflow