<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="./figures/cover-small.jpg">

*Este libro es una versión al español de [Python for Everybody](https://www.py4e.com/) escrito por el [Dr. Charles R. Severance](http://www.dr-chuck.com/); este contenido esta disponible en [GitHub](https://github.com/csev/py4e).*

Detalles de Copyright

*Copyright ~ 2009- Charles Severance.
Este trabajo está registrado bajo una Licencia Creative Commons AttributionNonCommercial-ShareAlike 3.0 [CC BY-NC-SA](https://creativecommons.org/licenses/by-nc-sa/3.0/).*

<!--NAVIGATION-->
| [Indice](indice.ipynb) | 

< [Capítulo 10 - Tuplas](cap10.ipynb) | [Capítulo 12 - Programas en red](cap12.ipynb) >

# Capítulo 11 - Expresiones regulares

Hasta ahora hemos estado leyendo archivos, buscando patrones y extrayendo varios trozos de líneas que nos parecen interesantes. Hemos usado métodos de cadena como `split`, `find` y usando listas y segmentación de cadenas para extraer porciones de las líneas.

Esta tarea de buscar y extraer es tan común que Python tiene una biblioteca muy poderosa llamada expresiones regulares que maneja muchas de estas tareas con bastante elegancia. La razón por la que no hemos introducido expresiones regulares anteriormente en el libro es que, aunque son muy poderosas, son un poco complicadas y su sintaxis toma un tiempo para acostumbrarse.

Las expresiones regulares son casi su propio lenguaje de programación para buscar y analizar cadenas. De hecho, libros completos han sido escritos sobre el tema de expresiones regulares. En este capítulo, solo cubriremos los conceptos básicos de expresiones regulares. Para más detalles sobre expresiones regulares, ver: [Wikipedia](http://en.wikipedia.org/wiki/Regular_expression) o en [Python Docs](https://docs.python.org/2/library/re.html).

La biblioteca de expresiones regulares `re` debe importarse en su programa para poder usarla. El uso más simple de la biblioteca de expresiones regulares es la función `search()`. El siguiente programa demuestra un uso trivial de la función de búsqueda.

In [1]:
# Busqueda de lineas que contengan 'From'
import re

hand = open('./codes/mbox-short.txt')
for linea in hand:
    linea = linea.rstrip()
    if re.search('From:', linea):
        print(linea)

From: stephen.marquard@uct.ac.za
From: louis@media.berkeley.edu
From: zqian@umich.edu
From: rjlowe@iupui.edu
From: zqian@umich.edu
From: rjlowe@iupui.edu
From: cwen@iupui.edu
From: cwen@iupui.edu
From: gsilver@umich.edu
From: gsilver@umich.edu
From: zqian@umich.edu
From: gsilver@umich.edu
From: wagnermr@iupui.edu
From: zqian@umich.edu
From: antranig@caret.cam.ac.uk
From: gopal.ramasammycook@gmail.com
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: stephen.marquard@uct.ac.za
From: louis@media.berkeley.edu
From: louis@media.berkeley.edu
From: ray@media.berkeley.edu
From: cwen@iupui.edu
From: cwen@iupui.edu
From: cwen@iupui.edu


Abrimos el archivo, recorremos cada línea y usamos la expresión regular `search()` para imprimir solo las líneas que contienen la cadena `From`. Este programa no usa el poder real de las expresiones regulares, ya que podríamos haberlo utilizado `linea.find()` con la misma facilidad para lograr el mismo resultado.

El poder de las expresiones regulares se produce cuando agregamos caracteres especiales a la cadena de búsqueda que nos permiten controlar con mayor precisión qué líneas coinciden con la cadena. Agregar estos caracteres especiales a nuestra expresión regular nos permite hacer una comparación y extracción sofisticada al escribir muy poco código.

Por ejemplo, el carácter de intercalación se usa en expresiones regulares para que coincida con "el comienzo" de una línea. Podríamos cambiar nuestro programa para que solo coincida con las líneas donde `From:` estaba al principio de la línea de la siguiente manera:

In [2]:
# Search for lines that start with 'From'
import re

hand = open('./codes/mbox-short.txt')
for linea in hand:
    linea = linea.rstrip()
    if re.search('^From:', linea):
        print(linea)

From: stephen.marquard@uct.ac.za
From: louis@media.berkeley.edu
From: zqian@umich.edu
From: rjlowe@iupui.edu
From: zqian@umich.edu
From: rjlowe@iupui.edu
From: cwen@iupui.edu
From: cwen@iupui.edu
From: gsilver@umich.edu
From: gsilver@umich.edu
From: zqian@umich.edu
From: gsilver@umich.edu
From: wagnermr@iupui.edu
From: zqian@umich.edu
From: antranig@caret.cam.ac.uk
From: gopal.ramasammycook@gmail.com
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: stephen.marquard@uct.ac.za
From: louis@media.berkeley.edu
From: louis@media.berkeley.edu
From: ray@media.berkeley.edu
From: cwen@iupui.edu
From: cwen@iupui.edu
From: cwen@iupui.edu


Ahora solo igualaremos líneas que comiencen con la cadena `From:`. Este sigue siendo un ejemplo muy simple que podríamos haber hecho de manera equivalente con el método `startswith()` de la biblioteca de cadenas. Pero sirve para introducir la noción de que las expresiones regulares contienen caracteres de acción especiales que nos dan más control sobre qué coincidirá con la expresión regular.

## Coincidencia de caracteres en expresiones regulares

Hay una serie de otros caracteres especiales que nos permiten construir expresiones regulares aún más potentes. El carácter especial más utilizado es el punto o punto final, que coincide con cualquier carácter.

En el siguiente ejemplo, la expresión regular "F..m:" coincidiría con cualquiera de las cadenas "From:", "Fxxm:", "F12m:", o "F! @ M :" ya que los caracteres intermedios en el expresión regular coincide con cualquier caracter.

In [3]:
# Busqueda de lineas que inicien con 'F', seguida de
# 2 carácteres, seguido por una 'm:'
import re

hand = open('./codes/mbox-short.txt')
for linea in hand:
    linea = linea.rstrip()
    if re.search('^F..m:', linea):
        print(linea)

From: stephen.marquard@uct.ac.za
From: louis@media.berkeley.edu
From: zqian@umich.edu
From: rjlowe@iupui.edu
From: zqian@umich.edu
From: rjlowe@iupui.edu
From: cwen@iupui.edu
From: cwen@iupui.edu
From: gsilver@umich.edu
From: gsilver@umich.edu
From: zqian@umich.edu
From: gsilver@umich.edu
From: wagnermr@iupui.edu
From: zqian@umich.edu
From: antranig@caret.cam.ac.uk
From: gopal.ramasammycook@gmail.com
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: stephen.marquard@uct.ac.za
From: louis@media.berkeley.edu
From: louis@media.berkeley.edu
From: ray@media.berkeley.edu
From: cwen@iupui.edu
From: cwen@iupui.edu
From: cwen@iupui.edu


Esto es particularmente poderoso cuando se combina con la capacidad de indicar que un carácter se puede repetir cualquier cantidad de veces usando los caracteres `*` o `+` en su expresión regular. Estos caracteres especiales significan que en lugar de emparejar un solo carácter en la cadena de búsqueda, coinciden con cero o más caracteres (en el caso del asterisco) o uno o más caracteres (en el caso del signo más).

Podemos reducir aún más las líneas que coinciden utilizando un carácter comodín repetido en el siguiente ejemplo:

In [4]:
# Busqueda de lineas que inicien con From y tengan un @
import re

hand = open('./codes/mbox-short.txt')
for linea in hand:
    linea = linea.rstrip()
    if re.search('^From:.+@', linea):
        print(linea)

From: stephen.marquard@uct.ac.za
From: louis@media.berkeley.edu
From: zqian@umich.edu
From: rjlowe@iupui.edu
From: zqian@umich.edu
From: rjlowe@iupui.edu
From: cwen@iupui.edu
From: cwen@iupui.edu
From: gsilver@umich.edu
From: gsilver@umich.edu
From: zqian@umich.edu
From: gsilver@umich.edu
From: wagnermr@iupui.edu
From: zqian@umich.edu
From: antranig@caret.cam.ac.uk
From: gopal.ramasammycook@gmail.com
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: stephen.marquard@uct.ac.za
From: louis@media.berkeley.edu
From: louis@media.berkeley.edu
From: ray@media.berkeley.edu
From: cwen@iupui.edu
From: cwen@iupui.edu
From: cwen@iupui.edu


La cadena de búsqueda `^From:. + @` Coincidirá con líneas que comienzan con `From:`, seguidas por uno o más caracteres `. +`, Seguidas por un `@`. Entonces esto coincidirá con la siguiente línea:

    From:uct.ac.za

Puede pensar que el comodín `. +` Se expande para coincidir con todos los caracteres entre el carácter de dos puntos y el `@`.

    From:

Es bueno pensar en los caracteres de más y asterisco como "agresivos". Por ejemplo, la siguiente cadena coincidiría con el último signo en la cadena a medida que el `. +` Empuja hacia afuera, como se muestra a continuación:

    From:iupui.edu

Es posible decirle a un asterisco o al signo más que no sea tan "codicioso" al agregar otro caracter. Consulte la documentación detallada para obtener información sobre cómo desactivar el comportamiento codicioso.

## Extraer datos usando expresiones regulares

Si queremos extraer datos de una cadena en Python, podemos usar el método `findall()` para extraer todas las subcadenas que coincidan con una expresión regular. Usemos el ejemplo de querer extraer cualquier cosa que se parezca a una dirección de correo electrónico desde cualquier línea, independientemente del formato. Por ejemplo, queremos extraer las direcciones de correo electrónico de cada una de las siguientes líneas:

    From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008
    Return-Path: <postmaster@collab.sakaiproject.org>
     for <source@collab.sakaiproject.org>;
    Received: (from apache@localhost)
    Author: stephen.marquard@uct.ac.za

No queremos escribir código para cada uno de los tipos de líneas, dividir y dividir de forma diferente para cada línea. Este siguiente programa utiliza `findall()` para encontrar las líneas con direcciones de correo electrónico en ellos y extraer una o más direcciones de cada una de esas líneas.

In [5]:
import re
s = 'A message from csev@umich.edu to cwen@iupui.edu about meeting @2PM'
lst = re.findall('\S+@\S+', s)
print(lst)

['csev@umich.edu', 'cwen@iupui.edu']


El método `findall()` busca la cadena en el segundo argumento y devuelve una lista de todas las cadenas que se parecen a las direcciones de correo electrónico. Estamos usando una secuencia de dos caracteres que coincide con un carácter que no es de espacio en blanco `\S`.

Al traducir la expresión regular, buscamos subcadenas que tengan al menos un carácter que no sea de espacio en blanco, seguido de un signo @, seguido de al menos un carácter que no sea de espacio en blanco. El `\S +` coincide con tantos caracteres que no sean de espacios en blanco como sea posible.

La expresión regular coincidiría dos veces (csev@umich.edu y cwen@iupui.edu), pero no coincidiría con la cadena "@ 2PM" porque no hay caracteres que no estén en blanco antes del signo `@`. Podemos usar esta expresión regular en un programa para leer todas las líneas de un archivo e imprimir todo lo que se parece a una dirección de correo electrónico de la siguiente manera:

In [6]:
# Busqueda en lineas con @ entre carácteres
import re

hand = open('./codes/mbox-short.txt')
for linea in hand:
    linea = linea.rstrip()
    x = re.findall('\S+@\S+', linea)
    if len(x) > 0:
        print(x)

['stephen.marquard@uct.ac.za']
['<postmaster@collab.sakaiproject.org>']
['<200801051412.m05ECIaH010327@nakamura.uits.iupui.edu>']
['<source@collab.sakaiproject.org>;']
['<source@collab.sakaiproject.org>;']
['<source@collab.sakaiproject.org>;']
['apache@localhost)']
['source@collab.sakaiproject.org;']
['stephen.marquard@uct.ac.za']
['source@collab.sakaiproject.org']
['stephen.marquard@uct.ac.za']
['stephen.marquard@uct.ac.za']
['louis@media.berkeley.edu']
['<postmaster@collab.sakaiproject.org>']
['<200801042308.m04N8v6O008125@nakamura.uits.iupui.edu>']
['<source@collab.sakaiproject.org>;']
['<source@collab.sakaiproject.org>;']
['<source@collab.sakaiproject.org>;']
['apache@localhost)']
['source@collab.sakaiproject.org;']
['louis@media.berkeley.edu']
['source@collab.sakaiproject.org']
['louis@media.berkeley.edu']
['louis@media.berkeley.edu']
['zqian@umich.edu']
['<postmaster@collab.sakaiproject.org>']
['<200801042109.m04L92hb007923@nakamura.uits.iupui.edu>']
['<source@collab.sakaiproject

Leemos cada línea y luego extraemos todas las subcadenas que coinciden con nuestra expresión regular. Como `findall()` devuelve una lista, simplemente verificamos si la cantidad de elementos en nuestra lista devuelta es mayor que cero para imprimir solo las líneas donde encontramos al menos una subcadena que se parece a una dirección de correo electrónico.

Algunas de nuestras direcciones de correo electrónico tienen caracteres incorrectos como " <" o ";" al principio o al final. Declaremos que solo estamos interesados en la parte de la cadena que comienza y termina con una letra o un número.

Para hacer esto, usamos otra característica de expresiones regulares. Los corchetes se usan para indicar un conjunto de múltiples caracteres aceptables que estamos dispuestos a considerar que coincidan. En cierto sentido, la `\S` está pidiendo que coincida con el conjunto de "caracteres que no son de espacios en blanco". Ahora seremos un poco más explícitos en términos de los caracteres con los que coincidiremos.

Aquí está nuestra nueva expresión regular:

    [a-zA-Z0-9]\S*@\S*[a-zA-Z]

Esto se está volviendo un poco complicado y puedes comenzar a ver por qué las expresiones regulares son su propio pequeño lenguaje en sí mismas. Traduciendo esta expresión regular, estamos buscando subcadenas que comiencen con una sola letra minúscula, letra mayúscula o número `[a-zA-Z0-9]`, seguidas de cero o más caracteres que no estén en blanco `\S *` , seguido de un signo `@`, seguido de cero o más caracteres que no estén en blanco `\S*`, seguidos de una letra mayúscula o minúscula. Tenga en cuenta que cambiamos de `+` a `*` para indicar cero o más caracteres que no son en blanco ya que `[a-zA-Z0-9]` ya es un carácter que no está en blanco. Recuerde que el `*` o `+` se aplica al carácter individual inmediatamente a la izquierda del signo más o asterisco.

Si usamos esta expresión en nuestro programa, nuestros datos son mucho más claros:

In [7]:
# Busqueda en lineas con @ entre carácteres
# el carácter debe ser una letra o un numero
import re

hand = open('./codes/mbox-short.txt')
for linea in hand:
    linea = linea.rstrip()
    x = re.findall('[a-zA-Z0-9]\S+@\S+[a-zA-Z]', linea)
    if len(x) > 0:
        print(x)

['stephen.marquard@uct.ac.za']
['postmaster@collab.sakaiproject.org']
['200801051412.m05ECIaH010327@nakamura.uits.iupui.edu']
['source@collab.sakaiproject.org']
['source@collab.sakaiproject.org']
['source@collab.sakaiproject.org']
['apache@localhost']
['source@collab.sakaiproject.org']
['stephen.marquard@uct.ac.za']
['source@collab.sakaiproject.org']
['stephen.marquard@uct.ac.za']
['stephen.marquard@uct.ac.za']
['louis@media.berkeley.edu']
['postmaster@collab.sakaiproject.org']
['200801042308.m04N8v6O008125@nakamura.uits.iupui.edu']
['source@collab.sakaiproject.org']
['source@collab.sakaiproject.org']
['source@collab.sakaiproject.org']
['apache@localhost']
['source@collab.sakaiproject.org']
['louis@media.berkeley.edu']
['source@collab.sakaiproject.org']
['louis@media.berkeley.edu']
['louis@media.berkeley.edu']
['zqian@umich.edu']
['postmaster@collab.sakaiproject.org']
['200801042109.m04L92hb007923@nakamura.uits.iupui.edu']
['source@collab.sakaiproject.org']
['source@collab.sakaiproject

Observe que en las líneas `source@collab.sakaiproject.org`, nuestra expresión regular eliminó dos letras al final de la cadena `>;`. Esto se debe a que cuando agregamos `[a-zA-Z]` al final de nuestra expresión regular, estamos exigiendo que cualquier cadena que el analizador de expresiones regulares encuentre debe terminar con una letra. Entonces cuando ve el `>` "después de" `sakaiproject.org >;` simplemente se detiene en la última letra "coincidente" que encontró (es decir, la `g` fue la última buena coincidencia).

También tenga en cuenta que la salida del programa es una lista de Python que tiene una cadena como único elemento en la lista.

## Combinando búsqueda y extracción

Si queremos encontrar números en líneas que comiencen con la cadena "X-", tales como:

    X-DSPAM-Confidence: 0.8475
    X-DSPAM-Probability: 0.0000

no solo queremos números en coma flotante de ninguna línea. Solo queremos extraer números de líneas que tienen la sintaxis anterior.

Podemos construir la siguiente expresión regular para seleccionar las líneas:

    ^X-.*: [0-9.]+

Al traducir esto, estamos diciendo que queremos líneas que comiencen con `X-`, seguido de cero o más caracteres `. *`, Seguidos por dos puntos `:` y luego un espacio. Después del espacio estamos buscando uno o más caracteres que son un dígito `(0-9)` o un período `[0-9.] +`. Tenga en cuenta que dentro de los corchetes, el período coincide con un período real (es decir, no es un comodín entre los corchetes).

Esta es una expresión muy cerrada que coincidirá bastante solo con las líneas que nos interesan de la siguiente manera:

In [8]:
import re

hand = open('./codes/mbox-short.txt')
for linea in hand:
    linea = linea.rstrip()
    if re.search('^X\S*: [0-9.]+', linea):
        print(linea)

X-DSPAM-Confidence: 0.8475
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.6178
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.6961
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.7565
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.7626
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.7556
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.7002
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.7615
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.7601
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.7605
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.6959
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.7606
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.7559
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.7605
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.6932
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.7558
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.6526
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.6948
X-DSPAM-Probability: 0.0000
X-DSPAM-Co

Cuando ejecutamos el programa, vemos los datos muy bien filtrados para mostrar solo las líneas que estamos buscando.

Pero ahora tenemos que resolver el problema de extraer los números. Si bien sería lo suficientemente simple de usar `split`, podemos usar otra característica de expresiones regulares para buscar y analizar la línea al mismo tiempo.

Los paréntesis son otro caracter especial en expresiones regulares. Cuando agrega paréntesis a una expresión regular, se ignoran al hacer coincidir la cadena. Pero cuando estás usando `findall()`, los paréntesis indican que si bien quieres que coincida toda la expresión, solo estás interesado en extraer una parte de la subcadena que coincida con la expresión regular.

Entonces hacemos el siguiente cambio a nuestro programa:

In [9]:
import re

hand = open('./codes/mbox-short.txt')
for linea in hand:
    linea = linea.rstrip()
    x = re.findall('^X\S*: ([0-9.]+)', linea)
    if len(x) > 0:
        print(x)

['0.8475']
['0.0000']
['0.6178']
['0.0000']
['0.6961']
['0.0000']
['0.7565']
['0.0000']
['0.7626']
['0.0000']
['0.7556']
['0.0000']
['0.7002']
['0.0000']
['0.7615']
['0.0000']
['0.7601']
['0.0000']
['0.7605']
['0.0000']
['0.6959']
['0.0000']
['0.7606']
['0.0000']
['0.7559']
['0.0000']
['0.7605']
['0.0000']
['0.6932']
['0.0000']
['0.7558']
['0.0000']
['0.6526']
['0.0000']
['0.6948']
['0.0000']
['0.6528']
['0.0000']
['0.7002']
['0.0000']
['0.7554']
['0.0000']
['0.6956']
['0.0000']
['0.6959']
['0.0000']
['0.7556']
['0.0000']
['0.9846']
['0.0000']
['0.8509']
['0.0000']
['0.9907']
['0.0000']


Los números todavía están en una lista y deben convertirse de cadenas a coma flotante, pero hemos utilizado el poder de las expresiones regulares tanto para buscar como para extraer la información que hemos encontrado interesante.

Como otro ejemplo de esta técnica, si mira el archivo, hay varias líneas del formulario:

    Details: http://source.sakaiproject.org/viewsvn/?view=rev&rev=39772

Si quisiéramos extraer todos los números de revisión (el número entero al final de estas líneas) usando la misma técnica que la anterior, podríamos escribir el siguiente programa:

In [10]:
# Busqueda en lineas que inicien con 'Details: rev='
# seguido de un numero y un '.'
# e imprimir el numero si es mayor a cero
import re

hand = open('./codes/mbox-short.txt')
for linea in hand:
    linea = linea.rstrip()
    x = re.findall('^Details:.*rev=([0-9.]+)', linea)
    if len(x) > 0:
        print(x)

['39772']
['39771']
['39770']
['39769']
['39766']
['39765']
['39764']
['39763']
['39762']
['39761']
['39760']
['39759']
['39758']
['39757']
['39756']
['39755']
['39754']
['39753']
['39752']
['39751']
['39750']
['39749']
['39746']
['39745']
['39744']
['39743']
['39742']


Traduciendo nuestra expresión regular, estamos buscando líneas que comiencen con "Detalles:", seguidas por cualquier número de caracteres `. *`, Seguido de `rev =`, y luego por uno o más dígitos. Queremos encontrar líneas que coincidan con la expresión completa, pero solo queremos extraer el número entero al final de la línea, por lo que rodeamos `[0-9] +` con paréntesis.

Recuerde que `[0-9] +` es `codicioso` e intenta hacer una cadena de dígitos lo más grande posible antes de extraer esos dígitos. Este comportamiento "codicioso" es la razón por la cual obtenemos los cinco dígitos para cada número. La biblioteca de expresiones regulares se expande en ambas direcciones hasta que encuentra un no dígito, o el principio o el final de una línea.

Ahora podemos usar expresiones regulares para rehacer un ejercicio anterior en el libro en el que estábamos interesados en la hora del día de cada mensaje de correo. Buscamos líneas de la forma:

    From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008

Si quiere extraer la hora del día para cada línea. Previamente hicimos esto con dos llamadas a `split`. Primero, la línea se dividió en palabras y luego sacamos la quinta palabra y la dividimos nuevamente en el carácter de dos puntos para sacar los dos caracteres que nos interesaban.

Si bien esto funcionó, en realidad resulta en un código bastante frágil que supone que las líneas están formateadas muy bien. Si añadiera suficiente comprobación de errores (o un gran boque `try` / `catch`) para asegurarse de que su programa nunca fallara cuando se presentan líneas formateadas incorrectamente, el código se dispararía a 10-15 líneas de código que será bastante difícil de leer.

Podemos hacer esto de una manera mucho más simple con la siguiente expresión regular:

    ^From .* [0-9][0-9]:

La traducción de esta expresión regular es que estamos buscando líneas que comiencen con "From" (observe el espacio), seguido de cualquier número de caracteres `. *`, Seguido de un espacio, seguido de dos dígitos `[0 -9][0-9]`, seguido de un carácter de dos puntos. Esta es la definición de los tipos de líneas que estamos buscando.

Para extraer solo la hora usando `findall()`, agregamos paréntesis alrededor de los dos dígitos de la siguiente manera:

    ^From .* ([0-9][0-9]):

Esto da como resultado el siguiente programa:

In [11]:
# Busqueda en lineas que inicien con 'From' y un carácter
# seguido por un numero de dos digitos entre 00 y 99 seguido por ':'
# imprime el numero si es mayor a cero
import re

hand = open('./codes/mbox-short.txt')
for linea in hand:
    linea = linea.rstrip()
    x = re.findall('^From .* ([0-9][0-9]):', linea)
    if len(x) > 0: print(x)

['09']
['18']
['16']
['15']
['15']
['14']
['11']
['11']
['11']
['11']
['11']
['11']
['10']
['10']
['10']
['09']
['07']
['06']
['04']
['04']
['04']
['19']
['17']
['17']
['16']
['16']
['16']


## Carácter de escape

Dado que usamos caracteres especiales en expresiones regulares para unir el principio o el final de una línea o especificar comodines, necesitamos una forma de indicar que estos caracteres son "normales" y queremos hacer coincidir el carácter real, como un signo de dólar o un símbolo.

Podemos indicar que queremos simplemente unir un carácter prefijando ese carácter con una barra invertida. Por ejemplo, podemos encontrar montos de dinero con la siguiente expresión regular.

In [12]:
import re
x = 'We just received $10.00 for cookies.'
y = re.findall('\$[0-9.]+',x)
print(y)

['$10.00']


Como prefijamos el signo de dólar con una barra diagonal inversa, en realidad coincide con el signo de dólar en la cadena de entrada en lugar de coincidir con el "final de línea", y el resto de la expresión regular coincide con uno o más dígitos o el carácter de período. Nota: Dentro de los corchetes, los caracteres no son "especiales". Entonces, cuando decimos `[0-9.]`, Realmente significa dígitos o un punto. Fuera de corchetes, un punto es el carácter de "comodín" y coincide con cualquier carácter. Dentro de los corchetes, el período es un punto.

## Resumen

Si bien esto solo arañó la superficie de las expresiones regulares, hemos aprendido un poco sobre el lenguaje de las expresiones regulares. Son cadenas de búsqueda con caracteres especiales que comunican sus deseos al sistema de expresiones regulares en cuanto a qué define "coincidencia" y qué se extrae de las cadenas coincidentes. Estos son algunos de esos personajes especiales y secuencias de caracteres:

- `^` Coincide con el comienzo de la línea.
- `$` Coincide con el final de la línea.
- `.` Coincide con cualquier personaje (un comodín).
- `\s` Coincide con un carácter de espacio en blanco.
- `\S` Coincide con un carácter que no es de espacio en blanco (opuesto a `\s`).
- `*` Se aplica al carácter inmediatamente anterior e indica que coincida con cero o más de los caracteres anteriores.
- `*?` Se aplica al carácter inmediatamente anterior e indica que coincida con cero o más de los caracteres anteriores en "modo no codicioso".
- `+` Se aplica al carácter inmediatamente anterior e indica que coincida con uno o más de los caracteres anteriores.
- `+?` Se aplica al carácter inmediatamente anterior e indica que coincida uno o más de los caracteres anteriores en "modo no codicioso".
- `[aeiou]` Coincide con un solo carácter siempre que ese carácter esté en el conjunto especificado. En este ejemplo, coincidiría con "a", "e", "i", "o" o "u", pero no con otros caracteres.
- `[a-z0-9]` Puede especificar rangos de caracteres usando el signo menos. Este ejemplo es un solo carácter que debe ser una letra minúscula o un dígito.
- `[ ^A-Za-z]` Cuando el primer caracter en la notación del conjunto es un símbolo de intercalación, invierte la lógica. Este ejemplo coincide con un solo carácter que es cualquier cosa que no sea una letra mayúscula o minúscula.
- `()` Cuando se agregan paréntesis a una expresión regular, se ignoran con el propósito de hacer coincidir, pero le permiten extraer un subconjunto particular de la cadena coincidente en lugar de la cadena completa cuando se usa `findall()`.
- `\b` Coincide con la cadena vacía, pero solo al comienzo o al final de una palabra.
- `\B` Coincide con la cadena vacía, pero no al principio o al final de una palabra.
- `\d` Coincide con cualquier dígito decimal; equivalente al conjunto [0-9].
- `\D` Coincide con cualquier carácter que no sea un dígito; equivalente al conjunto [ ^0-9].

## Sección de bonificación para usuarios de Unix / Linux

El soporte para buscar archivos usando expresiones regulares fue incorporado en el sistema operativo `Unix` desde la década de 1960 y está disponible en casi todos los lenguajes de programación de una forma u otra.

Como cuestión de hecho, hay un programa de línea de comandos integrado en `Unix` llamado `grep` (Analizador de expresiones regulares generalizadas) que hace más o menos lo mismo que los ejemplos de este capítulo usando `search()`. Entonces, si tiene un sistema Macintosh o Linux, puede probar los siguientes comandos en su ventana de línea de comandos.

    $ grep '^From:' mbox-short.txt
    From: stephen.marquard@uct.ac.za
    From: louis@media.berkeley.edu
    From: zqian@umich.edu
    From: rjlowe@iupui.edu

Esto le indica a `grep` que le muestre las líneas que comienzan con la cadena `From:` en el archivo `mbox-short.txt`. Si experimentas un poco con el comando y lees la documentación de `grep`, encontrarás algunas diferencias sutiles entre el soporte de expresiones regulares en Python y el soporte de expresiones regulares en `grep`. Como ejemplo, `grep` no admite el carácter `\S` que no está en blanco, por lo que deberá usar la notación de conjunto un poco más compleja `[ ^]`, que simplemente significa que coincide con un carácter que no sea un espacio.

## Depuración

Python tiene una documentación incorporada simple y rudimentaria que puede ser muy útil si necesita un repaso rápido para activar su memoria sobre el nombre exacto de un método en particular. Esta documentación se puede ver en el intérprete de Python en modo interactivo.

Puede abrir un sistema de ayuda interactiva utilizando `help()`.

In [13]:
help()


Welcome to Python 3.7's help utility!

If this is your first time using Python, you should definitely check out
the tutorial on the Internet at https://docs.python.org/3.7/tutorial/.

Enter the name of any module, keyword, or topic to get help on writing
Python programs and using Python modules.  To quit this help utility and
return to the interpreter, just type "quit".

To get a list of available modules, keywords, symbols, or topics, type
"modules", "keywords", "symbols", or "topics".  Each module also comes
with a one-line summary of what it does; to list the modules whose name
or summary contain a given string such as "spam", type "modules spam".

help> print
Help on built-in function print in module builtins:

print(...)
    print(value, ..., sep=' ', end='\n', file=sys.stdout, flush=False)
    
    Prints the values to a stream, or to sys.stdout by default.
    Optional keyword arguments:
    file:  a file-like object (stream); defaults to the current sys.stdout.
    sep:   stri

Si sabe qué módulo desea usar, puede usar el comando `dir()` para buscar los métodos en el módulo de la siguiente manera:

In [14]:
import re
dir(re)

['A',
 'ASCII',
 'DEBUG',
 'DOTALL',
 'I',
 'IGNORECASE',
 'L',
 'LOCALE',
 'M',
 'MULTILINE',
 'Match',
 'Pattern',
 'RegexFlag',
 'S',
 'Scanner',
 'T',
 'TEMPLATE',
 'U',
 'UNICODE',
 'VERBOSE',
 'X',
 '_MAXCACHE',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '__version__',
 '_cache',
 '_compile',
 '_compile_repl',
 '_expand',
 '_locale',
 '_pickle',
 '_special_chars_map',
 '_subx',
 'compile',
 'copyreg',
 'enum',
 'error',
 'escape',
 'findall',
 'finditer',
 'fullmatch',
 'functools',
 'match',
 'purge',
 'search',
 'split',
 'sre_compile',
 'sre_parse',
 'sub',
 'subn',
 'template']

También puede obtener una pequeña cantidad de documentación sobre un método particular usando el comando `dir`.

In [15]:
help(re.search)

Help on function search in module re:

search(pattern, string, flags=0)
    Scan through string looking for a match to the pattern, returning
    a Match object, or None if no match was found.



La documentación incorporada no es muy extensa, pero puede ser útil cuando tiene prisa o no tiene acceso a un navegador web o motor de búsqueda.

## Glosario

* **código frágil:** Código que funciona cuando los datos de entrada están en un formato particular, pero es propenso a romperse si hay alguna desviación del formato correcto. Llamamos a esto "código frágil" porque se rompe fácilmente.
* **juego codicioso:** La noción de que los caracteres `+` y `*` en una expresión regular se expanden hacia afuera para coincidir con la cadena más grande posible.
* **grep:** Un comando disponible en la mayoría de los sistemas Unix que busca archivos de texto en busca de líneas que coincidan con expresiones regulares. El nombre del comando significa "Analizador de expresiones regulares generalizadas".
* **expresión regular:** Un lenguaje para expresar cadenas de búsqueda más complejas. Una expresión regular puede contener caracteres especiales que indican que una búsqueda solo coincide al principio o al final de una línea u otras capacidades similares.
* **comodín:** Un personaje especial que combina con cualquier personaje. En expresiones regulares, el personaje comodín es el período.

## Ejercicios

**Ejercicio 1:** escriba un programa simple para simular la operación del comando `grep` en Unix. Pídale al usuario que ingrese una expresión regular y cuente el número de líneas que coinciden con la expresión regular:

    $ python grep.py
    Ingresa una expresion regular: ^Author
    mbox.txt had 1798 lines that matched ^Author

    $ python grep.py
    Ingresa una expresion regular: ^X
    mbox.txt had 14368 lines that matched ^X-

    $ python grep.py
    Ingresa una expresion regular: java$
    mbox.txt had 4218 lines that matched java$
    
**Ejercicio 2:** escriba un programa para buscar líneas del formulario `New Revision: 39772` y extrae el número de cada una de las líneas usando una expresión regular y el método `findall()`. Calcule el promedio de los números e imprima el promedio.

    Ingresa el nombre de archivo: mbox.txt
    38549.7949721
    Enter file:mbox-short.txt
    39756.9259259

<!--NAVIGATION-->
| [Indice](indice.ipynb) | 

< [Capítulo 10 - Tuplas](cap10.ipynb) | [Capítulo 12 - Programas en red](cap12.ipynb) >