# Expresiones regulares

Las expresiones regulares sirven para buscar patrones no triviales en textos. Las expresiones regulares están en el paquete [`re`](https://docs.python.org/3/howto/regex.html). 

In [None]:
import re

Las expresiones regulares son complejas de usar, al menos al principio, pero cuando se entienden y dominan son muy útiles. Vamos a intentar dominarlas. Para ello vamos a verlas en acción con un ejemplo. Tememos un fichero con accesos a un servidor web `access.log`. Lo vamos a leer y vamos a ver una muestra del 10%.

In [None]:
import random

with open('access.log') as f:
    access = f.readlines()
[line for line in access if random.random()>0.9] 

Vamos a fijarnos en la fecha. Es una cadena de caracteres que va entre corchetes. Vamos a usar la primera expresión que se suele usar: `'.*'`. `'.'` es una expresión regular que *casa* con cualquier carácter y `'*'` es una expresión regular que casa con 0, 1 o más repeticiones de la expresión regular precedente. Por tanto, la expresión regular que viene a continuación es una expresión regular que casa con un corchete `'['`, sigue con varias letras y acaba con `']'`. Comenzamos con la primera complicación, los corchetes tienen un significado especial, por lo que para casar la letra corchete debemos poner un '\' delante del corchete. 

Las expresiones regulares es un lenguaje que es necesario traducir a una estructura intermedia para poder usarlas `re.compile`.

**¡Ojo!** Fijaos que hay una `r` delatente de la cadena de caracteres para indicar que es una cadena para una expersión regulares. En particular se cambia el comportamineto de `\`. Si quieres saber el motivo último [consulta la documentación](https://docs.python.org/3/howto/regex.html#the-backslash-plague).

In [None]:
datere = re.compile(r'\[.*\]')

Hay 2 tipos de consulta que se puede hacer con una expresión regular en una cadena de caracteres.
* `match`, si el comienzo de la cadena casa con la expresión regular.
* `search`, si existe una subcadena que casa con la expresión regular.
En nuestro caso lo hemos hecho para la segunda opción, las líneas no siguen el patrón que hemos descrito. Ambas devuelven el mismo tipo de objeto `match` que nos permite analizar el texto que ha casado.
* `findall` y `finditer` que busca todos las partes donde casa una expresión regular. Las anteriores solo devuelven la primera aparición

In [None]:
m1 = datere.match(access[0])
m2 = datere.search(access[0])
m1, m2

`m1` es el objeto `None` que indica que la expresión regular no ha casado, como habíamos visto antes. Sin embargo `m2` que se corresponde con el `search` sí que ha casado. Podemos ver el texto que ha casado de la siguiente forma.

In [None]:
if m1:
    print(m1.group(), m1.span())
else:
    print('m1 ha fallado')

In [None]:
if m2:
    print(m2.group(), m2.span())
else:
    print('m2 ha fallado')

Tendríamos que analizar ahora `m2.group()` para extraer la información que queremos. Pero podemos hacerlo directamente si mejoramos nuestra expresión regular. Vamos por partes. En la siguiente expresión regular y varios componentes nuevos
* el `+`, es como el `*` pero necesita que haya almenos 1 elemento. El `*` permitía 0 apariciones
* `\d` que casa con cualquier dígito del 0 al 9.
* Los paréntesis, que indica agrupamientos. Al texto agrupado se puede acceder como veremos a continuación.

In [None]:
datere = re.compile(r'\[(\d+).*\]')
m = datere.search(access[0])
access[0], m.group(), m.group(0), m.group(1)

Como vemos `m.group(0)` casa con todo el texto encontrado (el 0 es valor por defecto del parámetro), el `m.group(1)` casa con el primer paréntesis encontrado. Nuevos elementos
 * `\w` casa con cualquier letra o dígito
 * `\s` casa con cualquier carácter espaciador: ` \t\n\r\f\v`.
 * Como el `+` tiene un significado especial hay que poner un `\+` para casar el carácter espaciador. 

In [None]:
datere = re.compile(r'\[(\d+)/(\w+)/(\d+):(\d+):(\d+):(\d+)\s*\+(\d+)\]')
m = datere.search(access[0])
m.groups()

Todo este esfuerzo ha estado bien para ir entendiendo los componentes de las expresiones regulares. Pero para analizar las fechas es mejor usar la función [`strptime` de la clase `datetime`](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior)

In [None]:
from datetime import datetime
datere = re.compile(r'\[(.+)\]')
m = datere.search(access[0])
ts = datetime.strptime(m.group(1), '%d/%b/%Y:%H:%M:%S %z')
ts

Por lo que podemos seguir analizando la línea. Lo que viene a continuación es el comando que le ha dado el navegador al servidor. Suele ser un GET o un POST seguido de la página a la que quiere acceder y el protocolo. Todo ello entre comillas. 


In [None]:
datere = re.compile(r'\[(.+)]\s+"(\w+)\s+(.+)\s+(.+)"')
m = datere.search(access[0])
ts = datetime.strptime(m.group(1), '%d/%b/%Y:%H:%M:%S %z')
command = m.group(2)
page = m.group(3)
protocol = m.group(4)
ts, command, page, protocol

Empieza a haber curvas. Hemos puesto `(.+)\s+(.+)` para casar la página y el protocolo. ¿Qué ha pasado? Pues que hay comillas más adelante. Las expresiones regulares intentan casar todo el texto posible y se casa hasta la última comilla. Podemos ser un poquito más preciso y en lugar de casar `.+` podemos casar algo más restringido. `\w` no se puede porque la `/` no es un carácter admisible en `\w`. Podemos casar todo lo que sea distinto de espacio: `\S`. 

In [None]:
datere = re.compile(r'\[(.+)]\s+"(\w+)\s+(\S+)\s+(\S+)"')
m = datere.search(access[0])
ts = datetime.strptime(m.group(1), '%d/%b/%Y:%H:%M:%S %z')
command = m.group(2)
page = m.group(3)
protocol = m.group(4)
ts, command, page, protocol

Como vemos, las expresiones regulares son un tanto delicadas. Conviene, sobre todo al principio, ir escribiéndola poco a poco para no cometer fallos que pueden ser difíciles de encontrar. Vamos a ver más constructores, la lista completa está en la [documentación del módulo re](https://docs.python.org/3/howto/regex.html#matching-characters).
Vamos a empezar por uno que hemos usado de forma implíta.
* `[chars]` es una expresión regular que casa con alguno de los caracteres includo dentro. Por ejemplo `\s` es lo mismo que `[ \t\n\r\f\v]`

In [None]:
s = 'bacbaaacb'
p = re.compile(r'([ac]+)')
for m in p.findall(s):
    print(m,type(m))

Este operador admite el `-` para expresar rangos de carácter así `\w` es equivalente a `[a-zA-Z0-9_]`
* `[^chars]` Casa el complementario de los caracteres indicados

In [None]:
s = 'bcacbddbaaacbb'
p = re.compile(r'([^ac]+)')
for m in p.finditer(s):
    print(m.group(1), type(m))

Así `\S` es equivalente a `[^ \t\n\r\f\v]`, `\D` a `[^ 0-9]` y `\W` a `[^ a-zA-Z0-9_]`.

* `^` casa el inicio de la cadena de caracteres.

In [None]:
with open('procesos.txt') as fproc:
    procs = fproc.readlines()
[p for p in procs if random.random()>0.95] 

In [None]:
usersre = re.compile(r'^\w+')
users = {m.group() for m in [usersre.search(p) for p in procs[1:]] }
users

* `$` casa el final de línea

In [None]:
with open('files.txt') as ffiles:
    files = ffiles.readlines()
[f for f in files] 

In [None]:
extre = re.compile(r'\.\S+$')
extre.search(files[0])

In [None]:
extre = usersre = re.compile(r'\.(\S+)$')
exts = {m.group(1) for m in [extre.search(f) for f in files]  if m} #Algunos ficheros no tienen extensión
exts

## Agrupamientos

Hemos visto que los agrupamientos sirven para acordarnos de partes de texto que se ha casado. Pero no siembre es así. Podemos agrupar para casar una secuencia de `ab`. Pero no necesitamos acordarnos del texto.

In [None]:
p = re.compile(r'(?:ab)+(.)')
for s in ['bbbaccb', 'bbbabababc', 'vvababv']:
    m = p.search(s)
    print(f'{s}....', end='')
    if m:
        print(f'Yes: {m.group(1)}')
    else:
        print(f'No')


Podemos poner nombre a los agrupamientos

In [None]:
datere = re.compile(r'\[(?P<date>.+)\]\s+"(?P<command>\w+)\s+(?P<page>\S+)\s+(?P<protocol>\S+)"')
m = datere.search(access[0])
ts = datetime.strptime(m.group('date'), '%d/%b/%Y:%H:%M:%S %z')
ts, m.group('command'), m.group('page'), m.group('protocol')

Aquí hemos visto los principales constructores de las expresiones regulares. Existen otros menos usados. También hay que tener en cuenta que siempre se pueden añadir características nuevas. Por tanto, siembre es conveniente tener a mano la [documentación oficial](https://docs.python.org/3/howto/regex.html#regular-expression-howto). 

## Opciones re.compile

Vamos a acabar este capítulo con el parámetro que llevan las expresiones regulares que puede cambiar su comportamiento. Existe una serie de constantes en el módulo `re` que son enteros. Las opciones no son exclusivas, se pueden combinar con el operador de bits `|`. Una primera opción es 
* re.VERBOSE que nos permite comentar la expresión regular 

In [None]:
datere = re.compile(r'''
  \[
  (?P<date>.+)  # Date
  \]
  \s+"(?P<command>\w+) #Command
  \s+(?P<page>\S+) #Page
  \s+(?P<protocol>\S+) #Protocol
  "''', re.VERBOSE)
m = datere.search(access[0])
ts = datetime.strptime(m.group('date'), '%d/%b/%Y:%H:%M:%S %z')
ts, m.group('command'), m.group('page'), m.group('protocol')

* `re.ASCII`, para considerar solo caracteres ASCII.

In [None]:
p1 = re.compile(r'\w+')
p2 = re.compile(r'\w+', re.ASCII)
m1 = p1.match('avión')
m2 = p2.match('avión')
m1, m2

* `rs.DOTALL`. El patrón `.` solo no casa el caracter '\n. Con esta opción sí

In [None]:
s = 'abcá\ncñde'
p1 = re.compile('.*')
p2 = re.compile('.*', re.DOTALL)
m1 = p1.match(s)
m2 = p2.match(s)
m1, m2

Las opciones se pueden combinar

In [None]:
s = 'abcá\ncñde'
p1 = re.compile('(\w+).*(\w+)')
p2 = re.compile('(\w+).*(\w+)', re.ASCII | re.DOTALL)
m1 = p1.search(s)
m2 = p2.search(s)
m1.groups(), m2.groups()