# Cero o uno, cero o más, uno o más

[Pablo A. Haya](https://pablohaya.com)

El símbolo `?` indica que la expresión regular reconocerá cero o una repetición de la cadena precedente. En la siguiente expresión `planchas?` reconoce tanto `plancha` como `planchas`.

In [3]:
import re

trabalenguas = "Si Pancha plancha con cuatro planchas, con cuantas planchas Pancha plancha"
re.findall(r"planchas?", trabalenguas)

['plancha', 'planchas', 'planchas', 'plancha']

**Prueba tú mismo**. Modifica la expresión regular anterior para que también incluya las apariciones de `Pancha`

Otro símbolo que se emplea muy frecuentemente es `*` que indica que se reconoce cero o más repeticiones de la cadena precedente. Por ejemplo, la siguiente expresión `ja*` reconoce tantas `a` como queramos.

In [5]:
risas = "jaaa!, jaa!, ja, jaaaaaaa!, jaa, j!"
re.findall(r"ja*", risas)

['jaaa', 'jaa', 'ja', 'jaaaaaaa', 'jaa', 'j']

**Prueba tú mismo**. Limita la expresión anterior para que solo reconozca aquellas risas terminadas en admiración `!`.

**Prueba tú mismo**. La expresión anterior reconoce también `j!` ¿Por qué? ¿Cómo modificarías la expresión regular para que reconozca al menos una `a`?

In [None]:
re.findall(r"jaa*!?", risas)

El símbolo `+` simplifica el ejercicio anterior ya que reconoce uno o más apariciones de la cadena precendete.

In [None]:
re.findall(r"ja+!", risas)

Combinando con la definición de rangos `[]` se pueden realizar expresiones regulares más sofísticadas.

**Prueba tú mismo**. Define y prueba una expresión regular que reconozca todas las carcajadas de `risas = "jaaa!, jee!, ji!, joooooooo!, juu!"`

El siguiente caracter especial es `.` que indica que es un comodín que reconoce cualquier caracter excepto los saltos de líneas. 

En este ejemplo queremos extraer todas las palabras que empiecen con `c` y contenga `nt` como `cuentes`, `cuentos`, `cuantos`, o `cuentas`. Un primer patrón que se nos ocurre es buscar palabras que entre la `c` y la `nt` tengan dos caracteres cualesquiera (`..`), y después de `nt` tengan otros dos caracteres (`..`). 

In [6]:
trabalenguas = """Cuando cuentes cuentos cuenta cuantos cuentos cuentas por que, 
si no cuentas cuantos cuentos cuentas, nunca sabrás cuantos cuentos sabes contar."""

print(re.findall(r"c..nt..", trabalenguas))

['cuentes', 'cuentos', 'cuenta ', 'cuantos', 'cuentos', 'cuentas', 'cuentas', 'cuantos', 'cuentos', 'cuentas', 'cuantos', 'cuentos']


Como se puede comprobar cada punto espera que haya un caracter obligatoriamente ya que omite la palabra `contar`, que sólo tiene un caracter entre la `c` y `nt`, y nos devuelve la palabra `cuenta ` que incluye un espacio como uno de los caracteres que espera.

¿Cómo le indicamos que puede habar un número variable de caracteres entre la `c` y la `nt`? Combinando el punto con el asterisco. El patrón `.*` indica que espera encontrar cualquier número de caracteres. 

Modificamos la expresión regular por `c.*nt..`, y comprobamos que pasa:

In [7]:
trabalenguas = """Cuando cuentes cuentos cuenta cuantos cuentos cuentas por que, 
si no cuentas cuantos cuentos cuentas, nunca sabrás cuantos cuentos sabes contar."""

print(re.findall(r"c.*nt..", trabalenguas))

['cuentes cuentos cuenta cuantos cuentos cuentas', 'cuentas cuantos cuentos cuentas, nunca sabrás cuantos cuentos sabes contar']


El resultado no parece que sea el esperado. Por defecto, expresiones como `.*`, o `.+` intentan extraer la cadena más larga que responde a ese patrón. De la primera cadena que encuentra, hemos resaltado los caracteres que hacen que se dispare el patrón: 

_**c**uentes cuentos cuenta cuantos cuentos cue**ntas**_

El patrón `.*` toma todos los caracteres hasta la última subcadena que es capaz de cumplir `nt..`, aunque entre medias haya encontrado múltiples subcadenas que también lo cumplen. 

Este comportamiento se denomina avaricioso (_greedy_), y viene heredado de otros lenguajes de programación diseñados antes que Python. Es posible desactivarlo incluyendo el símbolo `?` (cuidado no confundir con el uso de este símbolo con el operador cero o uno).

In [8]:
trabalenguas = """Cuando cuentes cuentos cuenta cuantos cuentos cuentas por que, 
si no cuentas cuantos cuentos cuentas, nunca sabrás cuantos cuentos sabes contar."""

print(re.findall(r"c.*?nt..", trabalenguas))

['cuentes', 'cuentos', 'cuenta ', 'cuantos', 'cuentos', 'cuentas', 'cuentas', 'cuantos', 'cuentos', 'cuentas', 'ca sabrás cuantos', 'cuentos', 'contar']


Hemos mejorado el resultado, pero todavía nos queda por pulirlo. Se sigue colando una cadena ajena al patrón que buscamos: `ca sabrás cuantos`. Aunque hemos desactivado el comportamiento avaricioso, los espacios son caracteres que entran dentro de `.*`. De esta manera, `a sabrás cua` es perfectamente válido.

De las varias formas de indicar que sólo extraiga palabras completas, la más directa es emplear la bandera `\b`. 

In [9]:
trabalenguas = """Cuando cuentes cuentos cuenta cuantos cuentos cuentas por que, 
si no cuentas cuantos cuentos cuentas, nunca sabrás cuantos cuentos sabes contar."""

print(re.findall(r"\bc.*?nt..\b", trabalenguas))

['cuentes', 'cuentos', 'cuenta ', 'cuantos', 'cuentos', 'cuentas', 'cuentas', 'cuantos', 'cuentos', 'cuentas', 'cuantos', 'cuentos', 'contar']


Tenemos ya la solución sino fuera por que se nos cuela un espacio en `cuenta `. Como las palabras pueden terminar con uno o más caracteres, sustituimos los `..` finales por `.*?`. De nuevo, recordar que la `?` desactiva el comportamiento avaricioso. 

In [20]:
trabalenguas = """Cuando cuentes cuentos cuenta cuantos cuentos cuentas por que, 
si no cuentas cuantos cuentos cuentas, nunca sabrás cuantos cuentos sabes contar."""

print(re.findall(r"\bc.*?nt.*?\b", trabalenguas))

['cuentes', 'cuentos', 'cuenta', 'cuantos', 'cuentos', 'cuentas', 'cuentas', 'cuantos', 'cuentos', 'cuentas', 'cuantos', 'cuentos', 'contar']


**Prueba tú mismo**. A extraer todas las palabras que empiezen por `t`, y contengan una `j` de `trabalenguas = "Me trajo Tajo tres trajes tres trajes me trajo Tajo"`

**Prueba tú mismo**. En el trabalenguas anterior se han comentido algunos errores ortográficos quedan `"""Cuando cntes cuentos cuenta cuantos cuentos cuentas por que, si no cuentas cuantos cuentos cuentas, nun ca sabrás cuantos cuentos sabes contar."""`. Modificar la expresión para que sólo encuentre palabras correctas.

In [25]:

trabalenguas = """Cuando cntes cuentos cuenta cuantos cuentos cuentas por que, 
si no cuentas cuantos cuentos cuentas, nun ca sabrás cuantos cuentos sabes contar."""

print(re.findall(r"\bc[^ ]+?nt[^ ]+?\b", trabalenguas))

['cuentos', 'cuenta', 'cuantos', 'cuentos', 'cuentas', 'cuentas', 'cuantos', 'cuentos', 'cuentas', 'cuantos', 'cuentos', 'contar']


El símbolo `*` define que la expresión regular tiene que emparejar cero o más caracteres, mientras que el símbolo `+` sería uno o más caracteres. Hay veces que te puede interesar cambiar estos límites, por ejemplo, quiero emparejar como mínimo 2 y como máximo 4 caracteres. Esto se indica mediante `{2,4}`.

En el siguiente ejemplo se quieren encontrar aquellas palabras que contenga uno o dos caracteres entre  `c` y `nt`, o después de `nt`. Si te fijas quedan excluidas la segunda y tercera palabra que hubieran emparejado con `+`.  

In [28]:
trabalenguas = """Cuando cueeeeeeeeeentes cuentoooooos cuenta cuantos cuentos cuentas por que, 
si no cuentas cuantos cuentos cuentas, nunca sabrás cuantos cuentos sabes contar.
"""

print(re.findall(r"\bc.{1,2}nt.{1,2}\b", trabalenguas))

['cuenta ', 'cuantos', 'cuentos', 'cuentas', 'cuentas', 'cuantos', 'cuentos', 'cuentas', 'cuantos', 'cuentos', 'contar']


**Prueba tú mismo**. A buscar todas las palabras que tenga entre una y cinco letras

In [31]:
print(re.findall(r"\b[^ ]{1,5}\b", trabalenguas))

['por', 'que', 'si', 'no', 'nunca', 'sabes']


**Prueba tú mismo**. A buscar todas las palabras de cinco letras

In [30]:
print(re.findall(r"\b[^ ]{5}\b", trabalenguas))

['nunca', 'sabes']


## Ejercicios

**1. Ejercicio** Dada la siguiente lista de nombres:

```
ling = "Willem Adelaar,John L. Austin,Charles Bally,Andrés Bello,Émile Benveniste,Leonard Bloomfield,Franz Bopp,Ignacio Bosque,Salvador Gutiérrez Ordóñez,Francisco Marcos Marín,Pedro Martín Butragueño,Lyle Campbell,Rodolfo Cerrón Palomino,Eugen Coșeriu,Noam Chomsky,Violeta Demonte,Lucien Tesnière,Robert M. W. Dixon,John Rupert Firth,Joseph Greenberg,Jacob Grimm y Wilhelm Grimm,Claude Hagège,Michael Halliday,Henk Haverkate,Louis Hjelmslev,Roman Jakobson,William Labov,George Lakoff,Čestmír Loukotka,André Martinet,Alfredo Matus Olivier,Igor Mel'čuk,Merritt Ruhlen,Edward Sapir,Ferdinand de Saussure,Sergéi Stárostin,John Sinclair,Morris Swadesh,Alfredo Torero,Nikolái Trubetskói,Robert van Valin,Teun van Dijk,Viktor Vinográdov"
```

extraer aquellos nombres y apellidos que empiecen por `J`.

In [10]:
import re
ling = "Willem Adelaar,John L. Austin,Charles Bally,Andrés Bello,Émile Benveniste,Leonard Bloomfield,Franz Bopp,Ignacio Bosque,Salvador Gutiérrez Ordóñez,Francisco Marcos Marín,Pedro Martín Butragueño,Lyle Campbell,Rodolfo Cerrón Palomino,Eugen Coșeriu,Noam Chomsky,Violeta Demonte,Lucien Tesnière,Robert M. W. Dixon,John Rupert Firth,Joseph Greenberg,Jacob Grimm y Wilhelm Grimm,Claude Hagège,Michael Halliday,Henk Haverkate,Louis Hjelmslev,Roman Jakobson,William Labov,George Lakoff,Čestmír Loukotka,André Martinet,Alfredo Matus Olivier,Igor Mel'čuk,Merritt Ruhlen,Edward Sapir,Ferdinand de Saussure,Sergéi Stárostin,John Sinclair,Morris Swadesh,Alfredo Torero,Nikolái Trubetskói,Robert van Valin,Teun van Dijk,Viktor Vinográdov"
re.findall(r"\bV.*? V[^ ]*?\b", ling)

["Violeta Demonte,Lucien Tesnière,Robert M. W. Dixon,John Rupert Firth,Joseph Greenberg,Jacob Grimm y Wilhelm Grimm,Claude Hagège,Michael Halliday,Henk Haverkate,Louis Hjelmslev,Roman Jakobson,William Labov,George Lakoff,Čestmír Loukotka,André Martinet,Alfredo Matus Olivier,Igor Mel'čuk,Merritt Ruhlen,Edward Sapir,Ferdinand de Saussure,Sergéi Stárostin,John Sinclair,Morris Swadesh,Alfredo Torero,Nikolái Trubetskói,Robert van Valin",
 'Viktor Vinográdov']

**2. Ejercicio** Siguiendo con el ejercicio anterior extraer aquellos lingüistas cuyo nombre y apellido empiece por `V`.

In [2]:
ling = "Willem Adelaar,John L. Austin,Charles Bally,Andrés Bello,Émile Benveniste,Leonard Bloomfield,Franz Bopp,Ignacio Bosque,Salvador Gutiérrez Ordóñez,Francisco Marcos Marín,Pedro Martín Butragueño,Lyle Campbell,Rodolfo Cerrón Palomino,Eugen Coșeriu,Noam Chomsky,Violeta Demonte,Lucien Tesnière,Robert M. W. Dixon,John Rupert Firth,Joseph Greenberg,Jacob Grimm y Wilhelm Grimm,Claude Hagège,Michael Halliday,Henk Haverkate,Louis Hjelmslev,Roman Jakobson,William Labov,George Lakoff,Čestmír Loukotka,André Martinet,Alfredo Matus Olivier,Igor Mel'čuk,Merritt Ruhlen,Edward Sapir,Ferdinand de Saussure,Sergéi Stárostin,John Sinclair,Morris Swadesh,Alfredo Torero,Nikolái Trubetskói,Robert van Valin,Teun van Dijk,Viktor Vinográdov"
re.findall(r"V\w+ +V\w+", ling)

['Viktor Vinográdov']

**3. Ejercicio** Dado el siguiente extracto de una página web:

```
<h2><a></a><a href="/browse/authors/u#a5605">Unamuno, Miguel de, 1864-1936</a></h2>
<ul>
  <li><a href="/ebooks/44512">Abel Sánchez: Una Historia de Pasión</a> (Spanish) (as Author)</li>
  <li><a href="/ebooks/49149">Amor y Pedagogía</a> (Spanish) (as Author)</li>
  <li><a href="/ebooks/59852">Del sentimiento trágico de la vida</a> (Spanish) (as Author)</li>
  <li><a href="/ebooks/49836">Niebla (Nivola)</a> (Spanish) (as Author)</li>
  <li><a href="/ebooks/44358">La Tía Tula (Novela)</a> (Spanish) (as Author)</li>
  <li><a href="/ebooks/55916">Tres novelas ejemplares y un prólogo</a> (Spanish) (as Author)</li>
  <li><a href="/ebooks/40827">La voz de la conseja</li>
<br>Selección de las mejores novelas breves y cuentos de los más esclarecidos literatos</a> (Spanish) (as Author)</li>
</ul>
```

extraer todas las etiquetas html de apertura, es decir, por ejemplo, `<h2>` debería aparecer, en cambio `</h2>` no.

In [None]:
re.findall(r"<[^/].*?>", s)

**4. Ejercicio** Dado el siguiente correo electrónico:

```
MIME-Version: 1.0
From: <usuario01@ejemplo.es>
To: usuario02@ejemplo.es, "Usuario 03" <usuario-03@ejemplo.es>
Cc: <usuario.08@ejemplo.es>, <usuario09@ejemplo.es>
Date: Wed, 9 Jan 2019 08:36:15 -0800
Subject: <Ficheros solicitados>
X-FLAG=CONFIRM_DELIVERY
X-FLAG=ATTACH <c:\docs\files\data01.zip, MIME> -X

Os adjunto los ficheros solicitados
```

extraer todas las direcciones de correo electrónico.

In [18]:
s = """MIME-Version: 1.0
From: <usuario01@ejemplo.es>
To: usuario02@ejemplo.es, "Usuario 03" <usuario-03@ejemplo.es>
Cc: <usuario.08@ejemplo.es>, <usuario09@ejemplo.es>
Date: Wed, 9 Jan 2019 08:36:15 -0800
Subject: <Ficheros solicitados>
X-FLAG=CONFIRM_DELIVERY
X-FLAG=ATTACH <c:\docs\files\data01.zip, MIME> -X

Os adjunto los ficheros solicitados"""

re.findall(r"[\w.-]+?@[\w-]+\.\w+", s)

['usuario01@ejemplo.es',
 'usuario02@ejemplo.es',
 'usuario-03@ejemplo.es',
 'usuario.08@ejemplo.es',
 'usuario09@ejemplo.es']