<br><br><br>

<h1><font color="#004D7F" size=6>Expresiones regulares</font></h1>

<a id="indice"></a>
<h2><font color="#004D7F" size=5>Índice</font></h2>


* [1. Introducción](#section1)
* [2. *Matching* con expresiones regulares en Python](#section2)
* [3. Patrones básicos](#section3)
* [4. Repeticiones](#section4)
* [5. Grupos](#section5)
* [6. Otras operaciones con expresiones regulares](#section6)
* [7. Parseo de logs con expresiones regulares](#section7)
* [Referencias](#referencias)

---

<a id="section1"></a>
# <font color="#004D7F"> 1. Introducción</font>

Una expresión regular, también conocida como regex, es una secuencia de caracteres que forma un patrón de búsqueda, principalmente utilizada para la **búsqueda de patrones de cadenas de caracteres u operaciones de sustituciones**.

Las expresiones regulares son básicamente un pequeño lenguaje de programación, altamente especializado, incluído dentro de Python (y muchos otros lenguajes de programación) a través del **modulo re**. Mediante este lenguaje especificamos conjuntos de cadenas de caracteres, como podrían ser palabras en español, direcciones de email, comandos de python, etc.

In [1]:
import re

Las expressiones regulares se compilan en pequeños "bytecodes" y se ejecutan con un eficiente algoritmo de "*matching*" escrito en C.

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i> __IMPORTANTE!__ No todas las tareas de procesamiento de cadenas de caracteres pueden realizarse con expresiones regulares o, si pueden hacerse, las expresiones resultantes pueden ser demasiado complicadas.
</div>

Podéis comprobar la extensa documentación del módulo en la siguiente dirección:

* [Documentación oficial python.org módulo re](https://docs.python.org/3.6/library/re.html#module-re)
* [HOW-TO oficial python.org](https://docs.python.org/3.6/howto/regex.html)

La curva de aprendizaje de las expresiones regulares es alta y por ello es recomendable practicarlas a menudo. La mayor complejidad es aprender a interpretar la sintaxis, para ello es interesante disponer de un depurador o herramienta de edición gráfica de expresiones regulares.

* [pythex.org](http://pythex.org)

Adicionalmente a esta práctica recomendamos extender o refrescar este tema con ejercicios y tutoriales que podemos encontrar online.

* [Tutorial interactivo de regexone.com](http://regexone.com)

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<a id="section2"></a>
# <font color="#004D7F"> 2. *Matching* con expresiones regulares en Python</font>

En Python, una expression regular suele utilizarse de una de las dos siguientes formas:
```python
match = re.match(patron, cadena)
```

```python
match = re.search(patron, cadena)
```

Los métodos `re.search()` y `re.match()` toman como argumento un patrón y una cadena de caracteres y buscan un *match* del patrón dentro de la cadena de caracteres. Si la búsqueda encuentra un match devolverá un objeto match, en caso contrario devolverá *None*.

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i> __IMPORTANTE!__ El método `re.match()` busca un match al principio de la cadena de caracteres, mientras que el método `re.search()` busca un match en cualquier posición de la cadena de caracteres.
</div>

In [2]:
cadena = "Un ejemplo de cadena de caracteres!!"
match = re.match("caracter", cadena)
if match:                      
    print(match)
else:
    print("match no encontrado")

match no encontrado


In [3]:
cadena = "Un ejemplo de cadena de caracteres!!"
match = re.search("caracter", cadena)
if match:                      
    print(match)
else:
    print("match no encontrado")

<re.Match object; span=(24, 32), match='caracter'>


El objeto match contiene información sobre el patrón encontrado.

In [4]:
start = match.start()
end = match.end()

pattern = cadena[start:end]

print(f"Patron '{pattern}' encontrado en posiciones {start}:{end} ")

Patron 'caracter' encontrado en posiciones 24:32 


## <font color="#004D7F">Otros métodos de *matching*</font>

Otros métodos de matching del módulo re son los siguientes
* `re.findall()`: Devuelve todos las substrings donde la expresión regular ha hecho *match* y las devuelve como una lista.
* `re.finditer()`: Devuelve todos las substrings donde la expresión regular ha hecho *match* y las devuelve como un iterador (de objetos match).

In [5]:
cadena = "Un ejemplo de cadena de caracteres!!"
res = re.findall("de", cadena)
print(res)

['de', 'de', 'de']


In [6]:
cadena = "Un ejemplo de cadena de caracteres!!"
for match in re.finditer("de", cadena):
    print(match)

<re.Match object; span=(11, 13), match='de'>
<re.Match object; span=(16, 18), match='de'>
<re.Match object; span=(21, 23), match='de'>


<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<a id="section3"></a> 
# <font color="#004D7F">3. Patrones básicos</font>

La mayoría de los caracteres simplemente emparejan con ellos mismos. Por ejemplo, la expresión regular "test" haría match con la cadena "test".

Hay excepciones a esta regla; algunos caracteres, llamados metacaracteres, son especiales y no hacen match con ellos mismos. En su lugar, los metacaracteres afectan a porciones de las expresiones regulares repitiéndolas o cambiando su significado.

La lista de metacaracteres es la siguiente: `. ^ $ * + ? { } [ ] \ | ( )`

## <font color="#004D7F">Anclas</font>

Indican que lo que queremos encontrar se encuentra al principio o al final de la cadena. Combinándolas, podemos buscar algo que represente a la cadena entera:
* ^cadena: coincide con cualquier cadena que comience con "cadena".
* cadena$: coincide con cualquier cadena que termine con "cadena".
* ^cadena\$: coincide con la cadena exacta "cadena".

In [7]:
cadena = "Un ejemplo de cadena de caracteres!!"
re.search("ejemplo", cadena)

<re.Match object; span=(3, 10), match='ejemplo'>

In [8]:
cadena = "Ejemplo de cadena de caracteres!!"
re.search("^Ejemplo", cadena)

<re.Match object; span=(0, 7), match='Ejemplo'>

In [9]:
cadena = "Ejemplo de cadena de caracteres!!"
re.search("!!$", cadena)

<re.Match object; span=(31, 33), match='!!'>

## <font color="#004D7F">Clases de caracteres</font>

Se utilizan cuando se quiere buscar un caracter dentro de varias posibles opciones. Una clase se delimita entre corchetes y lista posibles opciones para el caracter que representa:
* [abc]: coincide con a, b, o c
* [387ab]: coincide con 3, 8, a o b
* niñ[oa]s: coincide con niños o niñas.

Para evitar errores, en caso de que queramos crear una clase de caracteres que contenga un corchete, debemos escribir una barra \ delante, para que el motor de expresiones regulares lo considere un caracter normal: la clase [ab\\[] coincide con a, b y [.

In [10]:
cadena = "En esta clase hay niños y niñas"
re.findall("ni[ñnm][oa]s", cadena)

['niños', 'niñas']

## <font color="#004D7F">Rangos</font>

Si queremos encontrar un número, podemos usar una clase como [0123456789], o podemos utilizar un rango. Un rango es una clase de caracteres abreviada que se crea escribiendo el primer caracter del rango, un guión y el último caracter del rango. Múltiples rangos pueden definirse en la misma clase de caracteres.

* [a-c]: equivale a [abc]
* [0-9]: equivale a [0123456789]
* [a-d5-8]: equivale a [abcd5678]

&nbsp;
<div class="alert alert-block alert-warning">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
__IMPORTANTE!__ Si se quiere utilizar el guión como parte de una clase de caracteres debe colocarse al principio o al final para evitar ser confundido con un rango ([01-], [-1234567890])
</div>

Al igual que podemos listar los caracteres posibles en cierta posición de la cadena, también podemos listar caracteres que no deben aparecer. Para ello, podemos negar la clase colocando el caracter ^ justo detrás del operador de apertura de la clase ([).

* [^abc]: coincide con cualquier caracter distinto a a, b y c

In [11]:
uuid = "Value=0xAB"
re.findall("0x[0-9a-fA-F][0-9a-fA-F]", uuid)

['0xAB']

## <font color="#004D7F">Clases predefinidas</font>

Existen algunas clases que se usan frecuentemente y por eso existen formas abreviadas para ellas. En Python, así como en otros lenguajes, se soportan las clases predefinidas de Perl y de POSIX. Algunos ejemplos son:

* `\d`: Cualquier digito decimal; es equivalente a la clase [0-9].
* `\D`: Cualquier digito no decimal; es equivalente a la clase [^0-9].
* `\s`: Cualquier caracter de espacio; es equivalente a la clase [ \t\n\r\f\v].
* `\S`: Cualquier caracter no de espacio; es equivalente a la clase [^ \t\n\r\f\v].
* `\w`: Cualquier caracter alfanumérico; es equivalente a la clase [a-zA-Z0-9_].
* `\W`: Cualquier caracter no alfanumérico; es equivalente a la clase [^a-zA-Z0-9_].

Además existe una clase de caracteres que coincide con cualquier otro caracter. Ya sea letra, número, o un caracter especial. Esta clase es el punto:

* `.` : coincide con cualquier caracter.

In [12]:
uuid = "Value=0xA3"
re.findall("0x\w{2}", uuid)

['0xA3']

## <font color="#004D7F">Alternativas</font>

Usando el caracter "|" podemos unir varios patrones, de forma que queremos que el patrón completo pueda hacer match con cualquiera de ellos.

Por ejemplo, el patrón (foo|bar)$ haría match con cualquier cadena que acabase en foo o en bar.

In [13]:
cadena = "En esta clase hay niños y niñas"
re.findall("niños|niñas", cadena)

['niños', 'niñas']

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<a id="section4"></a> 
# <font color="#004D7F">4. Repeticiones</font>
Cualquier elemento de una expresion regular puede ser seguido por otro tipo de metacaracteres, los iteradores. Usando estos metacaracteres se puede especificar el número de ocurrencias del caracter previo, de un metacaracter o de una subexpresión. Ellos son:

* `+`: 1 o más ocurrencias del patrón a la izquierda, ejemplo: "i+" = una o más ies.
* `*`: 0 o más ocurrencias del patrón a la izquierda.
* `?`: 0 o 1 ocurrencia del patrón a la izquierda.
* `{n}`: exactamente n veces.
* `{n, m}`: por lo menos n pero no más de m veces.

&nbsp;
<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"></i>
Si se omite n, el mínimo es cero, y si se omite m, no hay máximo. Esto permite especificar a los otros como casos particulares: ? es {0,1}, + es {1,} y * es {,} o {0,}.
</div>

## <font color="#004D7F">Voraz vs. no voraz</font>

Los patrones de repetición + y \* son voraces. Esto significa que siempre intentarán consumir la mayor parte de caracteres posibles de la cadena. Utilizando el metacaracter ? justo después de ellos (+? y \*?) podemos conseguir que el metacaracter se comporte de forma no voraz y consuma el menor número de caracterres posible.

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

### <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#004D7F"></i> Ejercicio</font>

Utilizar una expresión regular para obtener todas las direcciones de email del siguiente texto.

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
__NOTA!__ Podéis considerar como email una cadena de caracteres que contenga:
<ul>
    <li> Una o más letras, números, caracteres punto ( . ), guión ( - ) o barra baja ( \_ )</li>
    <li> El carácter arroba ( @ )</li>
    <li> Una o más letras, números, caracteres punto ( . ), guión ( - ) o barra baja ( \_ )</li>
    <li> El caracter punto ( . )</li>
    <li> Dos o más letras</li>
</ul>

In [14]:
email_uai = """
de:	Patrick Göttsch <Patrick.Goettsch@tuhh.de> a través de uclm.es 
para:	uai@engr.orst.edu
fecha:	22 de enero de 2018, 9:19
asunto:	[UAI] Call for Applications for Participation
lista de distribución:	Association for Uncertainty in AI <uai.ENGR.ORST.EDU> Filtrar los mensajes de esta lista de distribución
enviado por:	gmail.com
firmado por:	uclm.es
seguridad:	 Cifrado estándar (TLS) Más información

Call for Applications for Participation
RoboCup 2018 Standard Platform League
spl.robocup.org
Saturday 16th June through Friday 22nd June 2018 (Montréal, Canada)
http://www.robocup2018.com
RoboCup is an international initiative that fosters research and education in Robotics and Artificial Intelligence through a variety of competitions (RoboCupSoccer, RoboCupRescue, RoboCup@Home, RoboCupJunior) involving mostly multi-robot systems. RoboCup currently includes a number of different robot soccer leagues that focus on different research challenges.

The Standard Platform League (SPL) is characterized using an identical robot platform by all the teams. Participating researchers focus on algorithmic development for fully autonomous robots, i.e., robots that operate with no external control. The SPL at RoboCup 2018 will use V5 (Maybe also V6, but currently no final decision has been made) or older versions of the NAO humanoid robot manufactured by SoftBank Robotics. The SPL robot soccer team competition games at RoboCup 2018 will be played indoor and outdoor between teams of five robots on a 6m x 9m playing surface. Teams should be able to play on a randomly assigned indoor or outdoor field within one hour.

The RoboCup 2018 SPL will host both a team competition and a mixed teams competition.

The team competition will consist of more games for most teams than in recent years. We expect to qualify 24 teams. The structure from 2017 will be used and extended in the team competition to allow all teams to play more games and against teams with similar skill levels. See Appendix A.3 of the preliminary rulebook for more details.

Teams applying for the team competition may also apply for the mixed team competition. Each mixed team will consist of two teams. Mixed teams will play 6v6 games on the normal SPL field. Only 4 or 6 mixed teams will be selected to compete at RoboCup 2018. Teams, who participated in 2017, are encouraged to select another partner then in 2017. See Appendix B of the preliminary rulebook for more details.

[...]

Submission and Evaluation
All applications with the (pre-)qualification material must be submitted by 31st of January 2018, by email to rc-spl-tc@lists.robocup.org and to rc.spl.tc@lists.robocup.org.

[...]

_______________________________________________
uai mailing list
uai@ENGR.ORST.EDU
https://secure.engr.oregonstate.edu/mailman/listinfo/uai
"""

In [15]:
def list_emails(text):
    # Debe devolver todos los emails encontrados en cadena
    return re.findall("\w*[-.\w]*@[\w\.]+\.\w+", text)
    
list_emails(email_uai)

['Patrick.Goettsch@tuhh.de',
 'uai@engr.orst.edu',
 'rc-spl-tc@lists.robocup.org',
 'rc.spl.tc@lists.robocup.org',
 'uai@ENGR.ORST.EDU']

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<a id="section5"></a> 
# <font color="#004D7F">5. Grupos</font>

Los grupos en una expresión regular nos van a permitir coger partes de un match. Por ejemplo, supongamos que queremos utilizar una expresión regular para detectar emails, pero además queremos que nos separe la parte del usuario y la del host. Para ello, podemos añadir paréntesis ( ) alrededor del nombre de usuario y del host: "([\w\.-]+)@([\w\.-]+)". 

Los paréntesis no cambian la forma en la que el patrón hace match, en su lugar lo que establece son grupos dentro del match a los que podemos acceder con la sintaxis `match.group(index)`. Sobre el objeto match, la instrucción match.group(1) nos devolvería el texto correspondiente entre el primer paréntesis, y match.group(2) devolvería el texto correspondiente al segundo paréntesis.

Una forma habitual de trabajar con expresiones regulares consiste en escribir un patrón para las cosas que estamos buscando, añadiendo paréntesis para extraer grupos con las partes que queremos.

In [16]:
m1 = "(\w*[-.\w]*)"
m2 = "([\w\.]+\.\w+)"

In [17]:
for m in re.findall(f"{m1}@{m2}", email_uai):
    print(m)

('Patrick.Goettsch', 'tuhh.de')
('uai', 'engr.orst.edu')
('rc-spl-tc', 'lists.robocup.org')
('rc.spl.tc', 'lists.robocup.org')
('uai', 'ENGR.ORST.EDU')


In [18]:
for m in re.finditer(f"{m1}@{m2}", email_uai):
    print(m.group(2))

tuhh.de
engr.orst.edu
lists.robocup.org
lists.robocup.org
ENGR.ORST.EDU


## <font color="#004D7F">Grupos con nombre</font>

De la misma forma en la que podemos usar grupos numerados, también podemos usar grupos con nombre. Esto hace más cómodo el manejo de patrones complejos; ya que siempre es más natural manejar un nombre que un número. 

Los nombres de grupo se definen agregando ?P&lt;nombre&gt; al paréntesis de apertura del grupo:

In [19]:
m1 = "(?P<user>\w*[-.\w]*)"
m2 = "(?P<domain>[\w\.]+\.\w+)"
for m in re.finditer("(?P<user>\w*[-.\w]*)@(?P<domain>[\w\.]+\.\w+)", email_uai):
    print(f"USER: {m.group('user')} \nDOMAIN: {m.group('domain')}\n")


USER: Patrick.Goettsch 
DOMAIN: tuhh.de

USER: uai 
DOMAIN: engr.orst.edu

USER: rc-spl-tc 
DOMAIN: lists.robocup.org

USER: rc.spl.tc 
DOMAIN: lists.robocup.org

USER: uai 
DOMAIN: ENGR.ORST.EDU



## <font color="#004D7F">Referenciando grupos</font>

En un patrón también podemos referenciar a grupos que han sido capturados previamente por el propio patrón. Por ejemplo \1 hara match con la misma cadena que fue capturada por el primer grupo definido en el patrón.

In [20]:
cadena = "coco bebe casa"
for m in re.finditer(r"(\w+)\1", cadena):
    print(m)

<re.Match object; span=(0, 4), match='coco'>
<re.Match object; span=(5, 9), match='bebe'>


<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<a id="section6"></a> 
# <font color="#004D7F">6. Otras operaciones con expresiones regulares</font>

## <font color="#004D7F">Compilación</font>

Como hemos dicho anteriormente, las expresiones regulares son compiladas antes de ejecutarse. El módulo re cachea las últimas expresiones regulares utilizadas posteriormente, de forma que si se vuelven a utilizar no necesitan volver a ser compiladas.

También es posible compilar las expresiones regulares de forma forzada utilizando la siguiente sintaxis:

```python
regex = re.compile(pattern)
```

Una vez compilada una expresión regular, podemos utilizar el objeto resultante para hacer las mismas operaciones que realizaríamos sobre el módulo. Es decir, los 2 siguientes bloques de código son equivalentes:
```python
re.search(pattern, cadena)

regex = re.compile(pattern, cadena)
regex.search(cadena)
```

La compilación de expresiones regulares permite además definir los siguientes flags de compilación.
* `IGNORECASE, I`: Ignora mayúsculas/minúsculas
* `MULTILINE, M`: Math multi-línea: Los operadores $ y ^ matchean con el principio y el final de la linea.
* `DOTALL, S`: Hace que el operador punto ( . ) haga match con cualquier caracter, incluído el salto de línea.

In [21]:
cadena = "Esto es una cadena"
myreg = re.compile(r"[a-z]+", re.I) # para incluir mayúxculas
myreg.findall(cadena)

['Esto', 'es', 'una', 'cadena']

## <font color="#004D7F">Separar cadenas de caracteres</font>

El método `.split(cadena)` nos permite separar un string por una expresión regular definida.

In [22]:
cadena = "Esto es una cadena"
re.split(" ", cadena)

['Esto', 'es', 'una', 'cadena']

## <font color="#004D7F">Reemplazar en cadenas de caracteres</font>

El método `.sub(reemplazo, cadena)` nos permite reemplazar en la cadena "cadena" todos los match no solapados de la expresión regular por el texto reemplazo.


In [23]:
cadena = "Esto es una cadena"
re.sub("\s+", ".", cadena)

'Esto.es.una.cadena'

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

<a id="section7"></a> 
# <font color="#004D7F">7. Ejercicios

### <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#004D7F"></i> Extraer palabras</font> 

Extrae todas las palabras que empiecen por b o B 

In [24]:
text = """Betty bought a bit of butter, 
But the butter was so bitter, 
So she bought some better butter, 
To make the bitter butter better.""" 

res = re.findall("[Bb]\w+", text, flags=re.IGNORECASE)

print(res)
assert(res==["Betty", "bought", "bit", "butter", "But", "butter", "bitter", "bought", "better", "butter", "bitter", "butter", "better"])

['Betty', 'bought', 'bit', 'butter', 'But', 'butter', 'bitter', 'bought', 'better', 'butter', 'bitter', 'butter', 'better']


### <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#004D7F"></i> Limpiar texto y obtener palabras</font> 

Elimina todos los signos de puntuacion y espacios y separa la sentencia en una lista de palabras

In [25]:
text = """Esta.    frase esta muy;  muy, mal escrita""" 

res = re.split("\W+", text)

print(res) # Concatenamos la lista de palabras en una sola frase
assert(res==["Esta", "frase", "esta", "muy", "muy", "mal", "escrita"])

['Esta', 'frase', 'esta', 'muy', 'muy', 'mal', 'escrita']


### <font color="#00586D"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#00586D"></i> Limpiar tweet</font>

Elimina las url, hashtags, menciones del tweet y signos de puntuacion deja solo el texto del usuario. Elimina también espacio en blanco redundante.

- URls son links que empiezan con http
- Hashtags empiezan con #
- Menciones empiezan con @

In [26]:
tweet = """Good advice! @TheNextWeb: What I would do differently \
if I was learning to code today http://t.co/lbwej0pxOd @garybernhardt #rstats"""

def clean_tweet(tweet):
    tweet = re.sub("http:\/\/.*\/\w+", "", tweet)  # remove URLs
    tweet = re.sub("#\w*", "", tweet)  # remove hashtags
    tweet = re.sub("@\w*", "", tweet)  # remove mentions
    tweet = re.sub("[:\.!]", "", tweet)  # remove punctuations
    tweet = re.sub(r"\s+", " ", tweet)  # remove extra whitespace
    return tweet

res = clean_tweet(tweet)

print(res)
assert(res=="Good advice What I would do differently if I was learning to code today ")

Good advice What I would do differently if I was learning to code today 


### <font color="#00586D"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#00586D"></i> Obtén el texto interno de las siguientes tags html</font>

Una tag de HTML empieza con `<tag>` y termina con `</tag>`

In [27]:
html = """
<HTML>
    <HEAD>
        <TITLE>Your Title Here</TITLE>
    </HEAD>
    <BODY>
        <HR>
        <a href="http://someurl.com">Link Name</a>
        <H1>This is a Header</H1>
        <H2>This is a Medium Header</H2>
        <P>This is a new paragraph! </P>
        <P>This is a another paragraph!</P>
        <B>This is a new sentence without a paragraph break, in bold italics.</B>
        <HR>
    </BODY>
</HTML>
"""

res = re.findall("<.*>(.*?)<\/.*>", html) 

print(res)
assert(res==[
 "Your Title Here",
 "Link Name",
 "This is a Header",
 "This is a Medium Header",
 "This is a new paragraph! ",
 "This is a another paragraph!",
 "This is a new sentence without a paragraph break, in bold italics."
])

['Your Title Here', 'Link Name', 'This is a Header', 'This is a Medium Header', 'This is a new paragraph! ', 'This is a another paragraph!', 'This is a new sentence without a paragraph break, in bold italics.']


### <font color="#00586D"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#00586D"></i> Cuenta bancaria</font>

Escribe una función que determine si una cadena contiene un número de cuenta y limpie los espacios. Los formatos válidos que consideraremos son un código IBAN formado por dos letras mayúsculas y dos dígitos de control seguido de 20 dígitos. Aceptaremos cualquier número de espacios en blanco entre cada caracter.

La función deberá obtener un matching, eliminar los espacios y separar la secuencia en varios grupos:

- Código IBAN
- Primeros 4 digitos (entidad)
- Segundos 4 dígitos (oficina)
- Siguientes 2 dígitos (control)
- Siguientes 10 dígitos (cuenta)

* Los números de cuenta son aleatorios y en la práctica existen más restricciones al contenido de los códigos

In [28]:
def validate_account(code):
    clean = re.sub("\s+", "", code)
    # \Z final de string
    m = re.match("^(?P<iban>\w{2}\d{2})(?P<entidad>\d{4})(?P<oficina>\d{4})(?P<control>\d{2})(?P<cuenta>\d{10})\Z", clean)
    if m:
        return {
            "iban": m.group("iban"),
            "entidad": m.group("entidad"),        
            "oficina": m.group("oficina"),
            "control": m.group("control"),
            "cuenta": m.group("cuenta"),
        }
    else:
        return None

In [29]:
res = validate_account("ES56 8493 2093 03 2039573048")
print(res)
assert(res=={"iban": "ES56","entidad": "8493","oficina": "2093","control": "03","cuenta": "2039573048"})

{'iban': 'ES56', 'entidad': '8493', 'oficina': '2093', 'control': '03', 'cuenta': '2039573048'}


In [30]:
res = validate_account("ES5684932093032039573048")
print(res)
assert(res=={"iban": "ES56","entidad": "8493","oficina": "2093","control": "03","cuenta": "2039573048"})

{'iban': 'ES56', 'entidad': '8493', 'oficina': '2093', 'control': '03', 'cuenta': '2039573048'}


In [31]:
res = validate_account("ES56  8493  2093    03  2039573048")
print(res)
assert(res=={"iban": "ES56","entidad": "8493","oficina": "2093","control": "03","cuenta": "2039573048"})

{'iban': 'ES56', 'entidad': '8493', 'oficina': '2093', 'control': '03', 'cuenta': '2039573048'}


In [32]:
res = validate_account("ES56\t8493\t2093\t03\t2039573048")
print(res)
assert(res=={"iban": "ES56","entidad": "8493","oficina": "2093","control": "03","cuenta": "2039573048"})

{'iban': 'ES56', 'entidad': '8493', 'oficina': '2093', 'control': '03', 'cuenta': '2039573048'}


In [33]:
res = validate_account("ES56 8493 2093 03 2039573048 67")
print(res)
assert(res==None)

None


In [34]:
res = validate_account("ES56 8493 2093 2039573048")
print(res)
assert(res==None)

None


<div style="text-align: right"><font size=4> <i class="fa fa-check-square-o" aria-hidden="true" style="color:#004D7F"></i>
 </font></div>

### <font color="#00586D"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#00586D"></i> Parseo de log de Apache</font>

Escribir una expresión regular que sea capaz de extraer para cada línea de un fichero de log de Apache los campos hostname/IP, fecha y hora (ignorando zona horaria), tipo de petición (GET, POST...), recurso y código de estado.

El siguiente fichero contiene lineas de log en formato estandar de log de apache que de manera genérica contiene:

`<host ip> - - [<fecha> <zona horaria>] "<tipo> <URL recurso>" <código> <tamaño>`

```
64.242.88.10 - - [07/Mar/2004:16:05:49 -0800] "GET /twiki/bin/edit/Main/Double_bounce_sender?topicparent=Main.ConfigurationVariables HTTP/1.1" 401 12846

64.242.88.10 - - [07/Mar/2004:16:06:51 -0800] "GET /twiki/bin/rdiff/TWiki/NewUserTemplate?rev1=1.3&rev2=1.2 HTTP/1.1" 200 4523

64.242.88.10 - - [07/Mar/2004:16:10:02 -0800] "GET /mailman/listinfo/hsdivision HTTP/1.1" 200 6291
```

In [35]:
import re
file = open("../data/access_log", "r")
content = file.read()

In [36]:
patron = "^(?P<host>^\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}).*\[(?P<fecha>\d{1,2}\/\w{3}\/\d{4}):(?P<hora>\d{2}:\d{2}:\d{2}).*\"(?P<tipo>\w{3})\s(?P<recurso>.*)\sHTTP\/\d\.\d\"\s(?P<codigo>\d{3})\s\d.*"
regex = re.compile(patron, re.MULTILINE)

In [37]:
data = []

for match in regex.finditer(content):
    data.append({
        "host": match.group("host"),
        "fecha": match.group("fecha"),
        "hora": match.group("hora"),
        "tipo": match.group("tipo"),
        "recurso": match.group("recurso"),
        "codigo": match.group("codigo")
    })

In [38]:
print(data[0])
assert(data[0]=={"host": "64.242.88.10", "fecha": "07/Mar/2004", "hora": "16:05:49", "tipo": "GET", "recurso": "/twiki/bin/edit/Main/Double_bounce_sender?topicparent=Main.ConfigurationVariables", "codigo": "401"})

{'host': '64.242.88.10', 'fecha': '07/Mar/2004', 'hora': '16:05:49', 'tipo': 'GET', 'recurso': '/twiki/bin/edit/Main/Double_bounce_sender?topicparent=Main.ConfigurationVariables', 'codigo': '401'}


In [39]:
print(data[1])
assert(data[1]=={"host": "64.242.88.10", "fecha": "07/Mar/2004", "hora": "16:06:51", "tipo": "GET", "recurso": "/twiki/bin/rdiff/TWiki/NewUserTemplate?rev1=1.3&rev2=1.2", "codigo": "200"})

{'host': '64.242.88.10', 'fecha': '07/Mar/2004', 'hora': '16:06:51', 'tipo': 'GET', 'recurso': '/twiki/bin/rdiff/TWiki/NewUserTemplate?rev1=1.3&rev2=1.2', 'codigo': '200'}


In [40]:
print(data[2])
assert(data[2]=={"host": "64.242.88.10", "fecha": "07/Mar/2004", "hora": "16:10:02", "tipo": "GET", "recurso": "/mailman/listinfo/hsdivision", "codigo": "200"})

{'host': '64.242.88.10', 'fecha': '07/Mar/2004', 'hora': '16:10:02', 'tipo': 'GET', 'recurso': '/mailman/listinfo/hsdivision', 'codigo': '200'}


---

<a id="referencias"></a>
# <font color="#004D7F"> Referencias</font>

* [pythex.org](http://pythex.org)
* [HOW-TO oficial python.org](https://docs.python.org/3.6/howto/regex.html)
* [Documentación oficial python.org módulo re](https://docs.python.org/3.6/library/re.html#module-re)
* [Tutorial interactivo de regexone.com](http://regexone.com)


<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>