# Agrupar

[Pablo A. Haya](https://pablohaya.com)

Una característica muy útil de las expresiones regulares es la posibilidad de poder dividir en partes el texto que se empareja. Cada parte se delimita mediante paréntesis, y se denomina grupo. La expresión regular sigue funcionando igual que antes, con el añadido que en caso de encontrar una cadena que cumpla el patrón, se forman también los grupos indicados. El método  `group()` permite recuperar toda la cadena, mientras que indicando como argumento el número de grupo se puede acceder a cada uno de los grupos. 

Veamos un ejemplo. La siguiente expresión regular `r"([a-z])([a-z]+)$"` se cumple únicamente con una palabra que esté en minúsculas, definiendo dos grupos, la primera letra `([a-z])`, y el resto de la palabra `([a-z]+)`.

In [2]:
import re

match = re.match(r"([a-z])([a-z]+)$","pablito")
if match:
    print(match.group())
    print(match.group(1))
    print(match.group(2))

pablito
p
ablito


**Prueba tú mismo**. Comprueba que si pasa una palabra con alguna letra en mayúsculas, la expresión regular no se cumple. Comprueba, también, que una frase en minúsculas tampoco dispara la expresión regular.

**Prueba tú mismo**. Modifica el código anterior para que imprima el nombre con la primera letra en mayúsculas.

La agrupación se puede aplicar también a la función `re.findall()`, la cual devolverá una lista de tuplas con los términos que ha encontrados dividos en los grupos correspondientes.

En el siguiente código queremos encontrar todas las aparaciones de palabras que tengan como raiz `encapot`, diviéndolas en prefijo, raiz, y sufijo

In [4]:
trabalenguas = """El cielo está encapotado.
¿Quién lo desencapotará?
El que lo desencapote,
buen desencapotador será."""

re.findall(r"\b(des)?(encapot)(\w+)\b", trabalenguas)

[('', 'encapot', 'ado'),
 ('des', 'encapot', 'ará'),
 ('des', 'encapot', 'e'),
 ('des', 'encapot', 'ador')]

La expresión regular `r"\b(des)?(encapot)(\w+)\b"` define tres grupos: `(des)`, `(encapot)`, y `(\w+)`. 

El primero viene acompañado del símbolo `?`, lo cual implica que este grupo puede aparacer o no. Si nos fijamos en el resultado esto permite que `encapatado` cumpla la expresión regular, devolviendo vacio en el primer grupo.

El segundo grupo `(encapot)` es una cadena por lo que aparece siempre igual en la segunda posición de las tuplas que componente en el resultado.

El tercer grupo `(\w+)` son todos los caracteres que se encuentre después de la raíz. Como podemos observar estos cambían para cada palabra:  `ado`, `ará`, `e`, `ador`.

Los símbolos `\b` al principio y al final se incluyen para asegurar que se emparejan únicamente palabras, aunque en este caso no existen ambigüiedades.

**Prueba tú mismo**. Modifica el código anterior para que únicamente aparezcan los prefijos.  

Hay veces que nos gustaría desactivar la funcionalidad de agrupar que los paréntesis simplemente delimitaran una parte de la expresión regular sin que generaran un grupo. 

Siguiendo con el ejemplo anterior, si queremos extraer todas las variantes que tenga la raiz `encapot` quitaríamos todos los paréntesis para no generar grupos. Ahora bien, no podemos eliminar los paréntesis del prefijo `des`, ya que nos son útiles para indicar que todo el prefijo es opcional. En cambio, si los dejamos se intepretan como un grupo. 

In [9]:
re.findall(r"\b(des)?encapot\w+\b", trabalenguas)

['desencapotará', 'desencapote', 'desencapotador']

**Prueba tú mismo**. Elimina todos los paréntesis y comprueba que el resultado tampoco es satisfactorio.

Para evitar que los paréntesis generen un grupo se añade `?:` después del primer paréntesis.  

In [10]:
trabalenguas = """El cielo está encapotado.
¿Quién lo desencapotará?
El que lo desencapote,
buen desencapotador será."""

print(re.findall(r"\b(?:des)?encapot\w+\b", trabalenguas))

['encapotado', 'desencapotará', 'desencapote', 'desencapotador']


## Ejercicios

**Ejercicio. 1** Dado el siguiente lista de direcciones de correo electrónico:

```
pablohaya@acm.org,pablohaya@uam.es,pablohaya@gmail.com,pablohaya@ieee.org
```

imprimir por separado el nombre y el dominio. 

In [None]:
emails = "pablohaya@acm.org,pablohaya@uam.es,pablohaya@gmail.com,pablohaya@ieee.org".split(",")
for email in emails:
    match = re.match(r'(\w+)@([\w.]+)', email)
    if match:        
        print(match.group(1), " en ", match.group(2))
    else:
        print("No es una dirección válida")

**Ejercicio. 2** Dado el siguiente extracto de una página web:

```
<h2>Páginas en la categoría «Lingüistas de España del siglo XVIII»</h2>
<p>
Esta categoría contiene las siguientes 10 páginas:
</p><h3>A</h3>
<ul><li><a href="/wiki/Antonio_de_Bastero_y_Lled%C3%B3" title="Antonio de Bastero y Lledó">Antonio de Bastero y Lledó</a></li>
</ul><h3>B</h3>
<ul><li><a href="/wiki/Bernardo_Bruno_de_la_Fuente" title="Bernardo Bruno de la Fuente">Bernardo Bruno de la Fuente</a></li></ul>
<h3>D</h3>
<ul><li><a href="/wiki/Bernardo_Agust%C3%ADn_de_Zamora" title="Bernardo Agustín de Zamora">Bernardo Agustín de Zamora</a></li></ul>
<h3>H</h3>
<ul><li><a href="/wiki/Lorenzo_Herv%C3%A1s_y_Panduro" title="Lorenzo Hervás y Panduro">Lorenzo Hervás y Panduro</a></li></ul>
<h3>M</h3>
<ul><li><a href="/wiki/Jos%C3%A9_Celestino_Mutis" title="José Celestino Mutis">José Celestino Mutis</a></li></ul>
<h3>S</h3>
<ul><li><a href="/wiki/Filippo_Salvatore_Gilii" title="Filippo Salvatore Gilii">Filippo Salvatore Gilii</a></li>
<li><a href="/wiki/Buenaventura_Sitjar" title="Buenaventura Sitjar">Buenaventura Sitjar</a></li>
<li><a href="/wiki/Francisco_Sobrino_(lexic%C3%B3grafo)" title="Francisco Sobrino (lexicógrafo)">Francisco Sobrino (lexicógrafo)</a></li></ul>
<h3>T</h3>
<ul><li><a href="/wiki/Esteban_Terreros" title="Esteban Terreros">Esteban Terreros</a></li>
<li><a href="/wiki/Joaqu%C3%ADn_Traggia" title="Joaquín Traggia">Joaquín Traggia</a></li></ul>
```

extraer todos los nombres de los lingüístas mencionados.

La lista esperada sería:

```
['Antonio de Bastero y Lledó',
 'Bernardo Bruno de la Fuente',
 'Bernardo Agustín de Zamora',
 'Lorenzo Hervás y Panduro',
 'José Celestino Mutis',
 'Filippo Salvatore Gilii',
 'Buenaventura Sitjar',
 'Francisco Sobrino (lexicógrafo)',
 'Esteban Terreros',
 'Joaquín Traggia']
```

In [4]:
s ="""<h2>Páginas en la categoría «Lingüistas de España del siglo XVIII»</h2>
<p>
Esta categoría contiene las siguientes 10 páginas:
</p><h3>A</h3>
<ul><li><a href="/wiki/Antonio_de_Bastero_y_Lled%C3%B3" title="Antonio de Bastero y Lledó">Antonio de Bastero y Lledó</a></li>
</ul><h3>B</h3>
<ul><li><a href="/wiki/Bernardo_Bruno_de_la_Fuente" title="Bernardo Bruno de la Fuente">Bernardo Bruno de la Fuente</a></li></ul>
<h3>D</h3>
<ul><li><a href="/wiki/Bernardo_Agust%C3%ADn_de_Zamora" title="Bernardo Agustín de Zamora">Bernardo Agustín de Zamora</a></li></ul>
<h3>H</h3>
<ul><li><a href="/wiki/Lorenzo_Herv%C3%A1s_y_Panduro" title="Lorenzo Hervás y Panduro">Lorenzo Hervás y Panduro</a></li></ul>
<h3>M</h3>
<ul><li><a href="/wiki/Jos%C3%A9_Celestino_Mutis" title="José Celestino Mutis">José Celestino Mutis</a></li></ul>
<h3>S</h3>
<ul><li><a href="/wiki/Filippo_Salvatore_Gilii" title="Filippo Salvatore Gilii">Filippo Salvatore Gilii</a></li>
<li><a href="/wiki/Buenaventura_Sitjar" title="Buenaventura Sitjar">Buenaventura Sitjar</a></li>
<li><a href="/wiki/Francisco_Sobrino_(lexic%C3%B3grafo)" title="Francisco Sobrino (lexicógrafo)">Francisco Sobrino (lexicógrafo)</a></li></ul>
<h3>T</h3>
<ul><li><a href="/wiki/Esteban_Terreros" title="Esteban Terreros">Esteban Terreros</a></li>
<li><a href="/wiki/Joaqu%C3%ADn_Traggia" title="Joaquín Traggia">Joaquín Traggia</a></li></ul>
"""
re.findall(r'title="(.*?)"',s)

['Antonio de Bastero y Lledó',
 'Bernardo Bruno de la Fuente',
 'Bernardo Agustín de Zamora',
 'Lorenzo Hervás y Panduro',
 'José Celestino Mutis',
 'Filippo Salvatore Gilii',
 'Buenaventura Sitjar',
 'Francisco Sobrino (lexicógrafo)',
 'Esteban Terreros',
 'Joaquín Traggia']

**Ejercicio. 3** Descargarse la página web https://www.gutenberg.org/browse/languages/es y extraer todos los títulos de las novelas.

El siguiente código descarga la página en un archivo denominado `webpage.txt`:

```
import requests

url = 'https://www.gutenberg.org/browse/languages/es'
f = requests.get(url)
open('webpage.txt', 'wb').write(f.content)
```

In [1]:
import requests

url = 'https://www.gutenberg.org/browse/languages/es'

f = requests.get(url)

open('webpage.txt', 'wb').write(f.content)

219653

In [2]:
with open('webpage.txt', encoding="iso-8859-1") as f:
    txt = f.read()
    print(txt[:200])

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">

<html lang="en">
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
    <meta 


In [3]:
import re
re.findall(r"<li.*pgdbetext.*?><.*?>(.*?)</a>.*?</li>", txt)

['Germana',
 'La nariz de un notario',
 'Historia natural y moral de las Indias (vol 2 of 2)',
 'Historia de Venezuela, Tomo I',
 'Historia de Venezuela, Tomo II',
 'ReseÃ±a Veridica de la RevoluciÃ³n Filipina',
 'Las noches mejicanas',
 'Los Merodeadores de Fronteras',
 'Novelas Cortas',
 'El CapitÃ¡n Veneno<br>The Hispanic Series',
 'El NiÃ±o de la Bola: Novela',
 'Novelas Cortas',
 'Viajes por EspaÃ±a',
 'La Regenta',
 'Su Ãºnico hijo',
 'El tratado de la pintura',
 'La Navidad en las MontaÃ±as',
 'La transformaciÃ³n de las razas en AmÃ©rica',
 'Viajes por Filipinas: De Manila Ã¡ Albay',
 'Viajes por Filipinas: De Manila Ã¡ Marianas',
 'Viajes por Filipinas: De Manila Ã¡ Tayabas',
 'Memorias de un vigilante',
 'DoÃ±a Clarines y MaÃ±ana de Sol',
 'DoÃ±a Clarines y MaÃ±ana de Sol',
 'Obras escogidas',
 'DoÃ±a Clarines y MaÃ±ana de Sol',
 'DoÃ±a Clarines y MaÃ±ana de Sol',
 'Obras escogidas',
 'De Las Islas Filipinas',
 'Los espectros: Novelas breves',
 'La Argentina<br>La conquista de