<img src="../img/crowdlearning-etic.png" alt="Logo ETIC" align="right">

<br>
<h1><font color="#004D7F" size=6>Expresiones regulares</font></h1>

<br><br>
<div style="text-align: right">
<font color="#004D7F" size=3>Antonio Jesús Gil</font><br>
<font color="#004D7F" size=3>Introducción a la Ciencia de Datos</font>

</div>

---

<a id="indice"></a>
<h2><font color="#004D7F" size=5>Índice</font></h2>


* [1. Introducción](#section1)
* [2. *Matching* con expresiones regulares en Python](#section2)
* [3. Patrones básicos](#section3)
* [4. Repeticiones](#section4)
* [5. Grupos](#section5)
* [6. Otras operaciones con expresiones regulares](#section6)
* [7. Parseo de logs con expresiones regulares](#section7)
* [Referencias](#referencias)

---

<a id="section1"></a>
# <font color="#004D7F"> 1. Introducción</font>

Una expresión regular, también conocida como regex, es una secuencia de caracteres que forma un patrón de búsqueda, principalmente utilizada para la **búsqueda de patrones de cadenas de caracteres u operaciones de sustituciones**.

Las expresiones regulares son básicamente un pequeño lenguaje de programación, altamente especializado, incluído dentro de Python (y muchos otros lenguajes de programación) a través del **modulo re**. Mediante este lenguaje especificamos conjuntos de cadenas de caracteres, como podrían ser palabras en español, direcciones de email, comandos de python, etc.

In [None]:
import re

Las expressiones regulares se compilan en pequeños 'bytecodes' y se ejecutan con un eficiente algoritmo de '*matching*' escrito en C.

<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"></i>
__IMPORTANTE!__ No todas las tareas de procesamiento de cadenas de caracteres pueden realizarse con expresiones regulares o, si pueden hacerse, las expresiones resultantes pueden ser demasiado complicadas.
</div>

---

<a id="section2"></a>
# <font color="#004D7F"> 2. *Matching* con expresiones regulares en Python</font>

En Python, una expression regular suele utilizarse de una de las dos siguientes formas:
```python
match = re.match(patron, cadena)
```

```python
match = re.search(patron, cadena)
```

Los métodos `re.search()` y `re.match()` toman como argumento un patrón y una cadena de caracteres y buscan un *match* del patrón dentro de la cadena de caracteres. Si la búsqueda encuentra un match devolverá un objeto match, en caso contrario devolverá *None*.

<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"></i>
__IMPORTANTE!__ El método `re.match()` busca un match al principio de la cadena de caracteres, mientras que el método `re.search()` busca un match en cualquier posición de la cadena de caracteres.
</div>

In [None]:
cadena = 'Un ejemplo de cadena de caracteres!!'
match = re.match('caracter', cadena)
if match:                      
    print(match)
else:
    print('match no encontrado')

In [None]:
cadena = 'Un ejemplo de cadena de caracteres!!'
match = re.search('caracter', cadena)
if match:                      
    print(match)
else:
    print('match no encontrado')

## <font color="#004D7F">Otros métodos de *matching*</font>

Otros métodos de matching del módulo re son los siguientes
* `re.findall()`: Devuelve todos las substrings donde la expresión regular ha hecho *match* y las devuelve como una lista.
* `re.finditer()`: Devuelve todos las substrings donde la expresión regular ha hecho *match* y las devuelve como un iterador (de objetos match).

In [None]:
cadena = 'Un ejemplo de cadena de caracteres!!'
res = re.findall('de', cadena)
print(res)

In [None]:
cadena = 'Un ejemplo de cadena de caracteres!!'
for match in re.finditer('de', cadena):
    print(match)

---

<a id="section3"></a> 
# <font color="#004D7F">3. Patrones básicos</font>

La mayoría de los caracteres simplemente emparejan con ellos mismos. Por ejemplo, la expresión regular 'test' haría match con la cadena 'test'.

Hay excepciones a esta regla; algunos caracteres, llamados metacaracteres, son especiales y no hacen match con ellos mismos. En su lugar, los metacaracteres afectan a porciones de las expresiones regulares repitiéndolas o cambiando su significado.

La lista de metacaracteres es la siguiente: `. ^ $ * + ? { } [ ] \ | ( )`

## <font color="#004D7F">Anclas</font>
Indican que lo que queremos encontrar se encuentra al principio o al final de la cadena. Combinándolas, podemos buscar algo que represente a la cadena entera:
* ^cadena: coincide con cualquier cadena que comience con 'cadena'.
* cadena$: coincide con cualquier cadena que termine con 'cadena'.
* ^cadena\$: coincide con la cadena exacta 'cadena'.

In [None]:
re.search(r'^anclas$', 'test de anclas')

In [None]:
# con la letra r (raw) delante no necesitamos escapar los campos a buscar. Íntrínseca a python
re.search(r'^test', 'test de anclas')

## <font color="#004D7F">Clases de caracteres</font>
Se utilizan cuando se quiere buscar un caracter dentro de varias posibles opciones. Una clase se delimita entre corchetes y lista posibles opciones para el caracter que representa:
* [abc]: coincide con a, b, o c
* [387ab]: coincide con 3, 8, a o b
* niñ[oa]s: coincide con niños o niñas.

Para evitar errores, en caso de que queramos crear una clase de caracteres que contenga un corchete, debemos escribir una barra \ delante, para que el motor de expresiones regulares lo considere un caracter normal: la clase [ab\[] coincide con a, b y [.

In [None]:
re.match(r'niñ[oa]s', 'niños')

## <font color="#004D7F">Rangos</font>
Si queremos encontrar un número, podemos usar una clase como [0123456789], o podemos utilizar un rango. Un rango es una clase de caracteres abreviada que se crea escribiendo el primer caracter del rango, un guión y el último caracter del rango. Múltiples rangos pueden definirse en la misma clase de caracteres.

* [a-c]: equivale a [abc]
* [0-9]: equivale a [0123456789]
* [a-d5-8]: equivale a [abcd5678]

&nbsp;
<div class="alert alert-block alert-warning">
<i class="fa fa-info-circle" aria-hidden="true"></i>
__IMPORTANTE!__ Si se quiere utilizar el guión como parte de una clase de caracteres debe colocarse al principio o al final para evitar ser confundido con un rango ([01-], [-1234567890])
</div>

Al igual que podemos listar los caracteres posibles en cierta posición de la cadena, también podemos listar caracteres que no deben aparecer. Para ello, podemos negar la clase colocando el caracter ^ justo detrás del operador de apertura de la clase ([).

* [^abc]: coincide con cualquier caracter distinto a a, b y c

In [None]:
re.match(r'[^0-9]', 'dados')

## <font color="#004D7F">Clases predefinidas</font>
Existen algunas clases que se usan frecuentemente y por eso existen formas abreviadas para ellas. En Python, así como en otros lenguajes, se soportan las clases predefinidas de Perl y de POSIX. Algunos ejemplos son:

* `\d`: Cualquier digito decimal; es equivalente a la clase [0-9].
* `\D`: Cualquier digito no decimal; es equivalente a la clase [^0-9].
* `\s`: Cualquier caracter de espacio; es equivalente a la clase [ \t\n\r\f\v].
* `\S`: Cualquier caracter no de espacio; es equivalente a la clase [^ \t\n\r\f\v].
* `\w`: Cualquier caracter alfanumérico; es equivalente a la clase [a-zA-Z0-9_].
* `\W`: Cualquier caracter no alfanumérico; es equivalente a la clase [^a-zA-Z0-9_].

Además existe una clase de caracteres que coincide con cualquier otro caracter. Ya sea letra, número, o un caracter especial. Esta clase es el punto:

* `.` : coincide con cualquier caracter.

In [None]:
re.match(r'\d', 'Agente007')

## <font color="#004D7F">Alternativas</font>
Usando el caracter "|" podemos unir varios patrones, de forma que queremos que el patrón completo pueda hacer match con cualquiera de ellos.

Por ejemplo, el patrón (foo|bar)$ haría match con cualquier cadena que acabase en foo o en bar.

---

<a id="section4"></a> 
# <font color="#004D7F">4. Repeticiones</font>
Cualquier elemento de una expresion regular puede ser seguido por otro tipo de metacaracteres, los iteradores. Usando estos metacaracteres se puede especificar el número de ocurrencias del caracter previo, de un metacaracter o de una subexpresión. Ellos son:

* `+`: 1 or more occurrences of the pattern to its left, e.g. 'i+' = one or more i's
* `*`: 0 or more occurrences of the pattern to its left
* `?`: match 0 or 1 occurrences of the pattern to its left
* `{n}`: exactamente n veces.
* `{n, m}`: por lo menos n pero no más de m veces.

&nbsp;
<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"></i>
Si se omite n, el mínimo es cero, y si se omite m, no hay máximo. Esto permite especificar a los otros como casos particulares: ? es {0,1}, + es {1,} y * es {,} o {0,}.
</div>

---

### <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio</font>

Mediante una función, utilizar una expresión regular para obtener todas las direcciones de email del siguiente texto.

<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"></i>
__NOTA!__ Podéis considerar como email una cadena de caracteres que contenga:
<ul>
    <li> Una o más letras, números, caracteres punto ( . ), guión ( - ) o barra baja ( \_ )</li>
    <li> El carácter arroba ( @ )</li>
    <li> Una o más letras, números, caracteres punto ( . ), guión ( - ) o barra baja ( \_ )</li>
    <li> El caracter punto ( . )</li>
    <li> Dos o más letras</li>
</ul>

In [None]:
email_uai = '''
de:	Patrick Göttsch <Patrick.Goettsch@tuhh.de> a través de uclm.es 
para:	uai@engr.orst.edu
fecha:	22 de enero de 2018, 9:19
asunto:	[UAI] Call for Applications for Participation
lista de distribución:	Association for Uncertainty in AI <uai.ENGR.ORST.EDU> Filtrar los mensajes de esta lista de distribución
enviado por:	gmail.com
firmado por:	uclm.es
seguridad:	 Cifrado estándar (TLS) Más información

Call for Applications for Participation
RoboCup 2018 Standard Platform League
spl.robocup.org
Saturday 16th June through Friday 22nd June 2018 (Montréal, Canada)
http://www.robocup2018.com
RoboCup is an international initiative that fosters research and education in Robotics and Artificial Intelligence through a variety of competitions (RoboCupSoccer, RoboCupRescue, RoboCup@Home, RoboCupJunior) involving mostly multi-robot systems. RoboCup currently includes a number of different robot soccer leagues that focus on different research challenges.

The Standard Platform League (SPL) is characterized using an identical robot platform by all the teams. Participating researchers focus on algorithmic development for fully autonomous robots, i.e., robots that operate with no external control. The SPL at RoboCup 2018 will use V5 (Maybe also V6, but currently no final decision has been made) or older versions of the NAO humanoid robot manufactured by SoftBank Robotics. The SPL robot soccer team competition games at RoboCup 2018 will be played indoor and outdoor between teams of five robots on a 6m x 9m playing surface. Teams should be able to play on a randomly assigned indoor or outdoor field within one hour.

The RoboCup 2018 SPL will host both a team competition and a mixed teams competition.

The team competition will consist of more games for most teams than in recent years. We expect to qualify 24 teams. The structure from 2017 will be used and extended in the team competition to allow all teams to play more games and against teams with similar skill levels. See Appendix A.3 of the preliminary rulebook for more details.

Teams applying for the team competition may also apply for the mixed team competition. Each mixed team will consist of two teams. Mixed teams will play 6v6 games on the normal SPL field. Only 4 or 6 mixed teams will be selected to compete at RoboCup 2018. Teams, who participated in 2017, are encouraged to select another partner then in 2017. See Appendix B of the preliminary rulebook for more details.

[...]

Submission and Evaluation
All applications with the (pre-)qualification material must be submitted by 31st of January 2018, by email to rc-spl-tc@lists.robocup.org.

[...]

_______________________________________________
uai mailing list
uai@ENGR.ORST.EDU
https://secure.engr.oregonstate.edu/mailman/listinfo/uai
'''

In [None]:
def list_emails(text):
    # Debe devolver todos los emails encontrados en cadena
    # return
    pass
    
list_emails(email_uai)

---

<a id="section5"></a> 
# <font color="#004D7F">5. Grupos</font>

Los grupos en una expresión regular nos van a permitir coger partes de un match. Por ejemplo, supongamos que queremos utilizar una expresión regular para detectar emails, pero además queremos que nos separe la parte del usuario y la del host. Para ello, podemos añadir paréntesis ( ) alrededor del nombre de usuario y del host: '([\w\.-]+)@([\w\.-]+)'. 

Los paréntesis no cambian la forma en la que el patrón hace match, en su lugar lo que establece son grupos dentro del match a los que podemos acceder con la sintaxis `match.group(index)`. Sobre el objeto match, la instrucción match.group(1) nos devolvería el texto correspondiente entre el primer paréntesis, y match.group(2) devolvería el texto correspondiente al segundo paréntesis.

Una forma habitual de trabajar con expresiones regulares consiste en escribir un patrón para las cosas que estamos buscando, añadiendo paréntesis para extraer grupos con las partes que queremos.

In [None]:
str = 'Antonio Jesús Gil <antoniojesusgil@gmail.com>'
match = re.search('([\w.-]+)@([\w.-]+)', str)
if match:
    print(match.group())
    print(match.group(1))
    print(match.group(2))

## <font color="#004D7F">Grupos con nombre</font>

De la misma forma en la que podemos usar grupos numerados, también podemos usar grupos con nombre. Esto hace más cómodo el manejo de patrones complejos; ya que siempre es más natural manejar un nombre que un número. 

Los nombres de grupo se definen agregando ?P&lt;nombre&gt; al paréntesis de apertura del grupo:

In [None]:
match = re.search('(?P<numero>\d+)(?P<letra>[a-zA-Z])', '455f 333b435efd')
print(match.groups())
print(match.group(1))
print(match.group('letra'))
print(match.group('numero'))

## <font color="#004D7F">Referenciando grupos</font>

En un patrón también podemos referenciar a grupos que han sido capturados previamente por el propio patrón. Por ejemplo \1 hara match con la misma cadena que fue capturada por el primer grupo definido en el patrón.

In [None]:
pattern = r'^(.+)\1$'
re.match(pattern, 'coco')

---

<a id="section6"></a> 
# <font color="#004D7F">6. Otras operaciones con expresiones regulares</font>

## <font color="#004D7F">Compilación</font>
Como hemos dicho anteriormente, las expresiones regulares son compiladas antes de ejecutarse. El módulo re cachea las últimas expresiones regulares utilizadas posteriormente, de forma que si se vuelven a utilizar no necesitan volver a ser compiladas.

También es posible compilar las expresiones regulares de forma forzada utilizando la siguiente sintaxis:

```python
regex = re.compile(pattern)
```

Una vez compilada una expresión regular, podemos utilizar el objeto resultante para hacer las mismas operaciones que realizaríamos sobre el módulo. Es decir, los 2 siguientes bloques de código son equivalentes:
```python
re.search(pattern, cadena)

regex = re.compile(pattern, cadena)
regex.search(cadena)
```

La compilación de expresiones regulares permite además definir los siguientes flags de compilación.
* `IGNORECASE, I`: Ignora mayúsculas/minúsculas
* `MULTILINE, M`: Math multi-línea: Los operadores $ y ^ matchean con el principio y el final de la linea.
* `DOTALL, S`: Hace que el operador punto ( . ) haga match con cualquier caracter, incluído el salto de línea.

In [None]:
regex = re.compile ('[a-z]+', re.IGNORECASE)
regex.match('AZZ')

In [None]:
regex = re.compile ('.testcase', re.DOTALL)
regex.match('\ntestcase')
# Expresion regular que haga match con 2 flags de compilacion usando caracter simplificado
regex2 = re.compile ('.testcase', re.S | re.I)
regex2.match('\nTESTCASE')

## <font color="#004D7F">Separar cadenas de caracteres</font>

El método `.split(cadena)` nos permite separar un string por una expresión regular definida.

In [None]:
p = re.compile(r'\W+')
p.split('El caballo.blanco de\t santiago')

In [None]:
p = re.compile(r'\W')
# Al quitar el + nos lee todos los caracteres incluso los no alfanumericos
p.split('El caballo.blanco de\t santiago')

In [None]:
p = re.compile(r'a')
p.split('El caballo.blanco de\t santiago')

## <font color="#004D7F">Reemplazar en cadenas de caracteres</font>

El método `.sub(reemplazo, cadena)` nos permite reemplazar en la cadena 'cadena' todos los match no solapados de la expresión regular por el texto reemplazo.


In [None]:
# Busca el texto y remmplazalo por este otro
# Lo interesante es utilizar referencias a grupos de caracteres
p = re.compile(r'<(.+?)>')
p.sub(r':\1:', '<p> un parrafo </p>')

---

<a id="section5"></a> 
# <font color="#004D7F">7. Parseo de logs con expresiones regulares</font>


### <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio</font>

Escribir una expresión regular que sea capaz de extraer para cada línea de un fichero de log de Apache los campos hostname/IP, fecha y hora (ignorando zona horaria), tipo de petición (GET, POST...), recurso y código de estado.

Muestra las 5 primeras coincidencias.

In [None]:
file = open("data/access_log", "r")
content = file.read()

# Expreseion regular mediante grupos conforme a lo que se indica abajo

patron = 

regex = re.compile(patron, re.MULTILINE)
data = []
for match in regex.finditer(content):
    data.append({
        'host': match.group('host'),
        'fecha': match.group('fecha'),
        'hora': match.group('hora'),
        'verbo': match.group('verbo'),
        'recurso': match.group('recurso'),
        'codigo': match.group('codigo')
    })
    
print(data[0:4])

---

<a id="referencias"></a>
# <font color="#004D7F"> Referencias</font>

* [pythex.org](http://pythex.org)
* [HOW-TO oficial python.org](https://docs.python.org/3.6/howto/regex.html)
* [Documentación oficial python.org módulo re](https://docs.python.org/3.6/library/re.html#module-re)
* [Tutorial interactivo de regexone.com](http://regexone.com)
