# üß© 1.3 ‚Äì Cuantificadores y Grupos

En este notebook aprender√°s a controlar **cu√°ntas veces se repite un patr√≥n** y c√≥mo **agrupar partes espec√≠ficas** del texto mediante **grupos de captura**.

---
## üéØ Objetivos
- Comprender el uso de `*`, `+`, `?`, `{n}`, `{n,m}`.
- Entender la diferencia entre grupos capturantes `( )` y no capturantes `(?: )`.
- Acceder a los grupos mediante el objeto `Match`.
- Aplicar estos conceptos en la extracci√≥n de datos estructurados (ej. correos electr√≥nicos).

> üí° **Recuerda:** ejecuta las celdas en orden para mantener las variables disponibles.

---
## 1Ô∏è‚É£ Cuantificadores b√°sicos

| S√≠mbolo | Significado | Ejemplo |
|:--------:|:------------|:--------|
| `*` | Cero o m√°s repeticiones | `ba*` ‚Üí b, ba, baa, baaa |
| `+` | Una o m√°s repeticiones | `ba+` ‚Üí ba, baa |
| `?` | Cero o una repetici√≥n | `colou?r` ‚Üí color o colour |
| `{n}` | Exactamente n repeticiones | `\d{4}` ‚Üí 4 d√≠gitos |
| `{n,m}` | Entre n y m repeticiones | `a{2,4}` ‚Üí aa, aaa, aaaa |

In [1]:
import re

texto = "ba baa baaa baaaa"

print(re.findall(r"ba*", texto))   # cero o m√°s 'a'
print(re.findall(r"ba+", texto))   # una o m√°s 'a'
print(re.findall(r"ba{2,3}", texto)) # entre 2 y 3 'a'

['ba', 'baa', 'baaa', 'baaaa']
['ba', 'baa', 'baaa', 'baaaa']
['baa', 'baaa', 'baaa']


---
## 2Ô∏è‚É£ Grupos de captura `( )`

Los par√©ntesis permiten **agrupar y capturar** partes espec√≠ficas del texto.

Por ejemplo, para capturar el n√∫mero y las letras de una matr√≠cula espa√±ola (`1234-ABC`):

In [2]:
texto = "Coches: 1234-ABC-12333, 5555-XYZ 5555" 
patron = r"(\d{4})-([A-Z]{3})"

coincidencias = re.findall(patron, texto)
print(coincidencias)  # [('1234', 'ABC'), ('5555', 'XYZ')]

[('1234', 'ABC'), ('5555', 'XYZ')]


El c√≥digo anterior, con re.findall(), devuelve una lista de elementos. Como hemos creado dos grupos de captura, cada coincidencia va a venir dividida en dos partes correspondientes a cada grupo.

In [3]:
# Diferencia si no hubi√©ramos creado los grupos

texto = "Coches: 1234-ABC-12333, 5555-XYZ 5555" 
patron = r"\d{4}-[A-Z]{3}"

coincidencias = re.findall(patron, texto)
print(coincidencias)  # [('1234', 'ABC'), ('5555', 'XYZ')]

['1234-ABC', '5555-XYZ']


‚úÖ Cada coincidencia devuelve una **tupla** con el contenido de los grupos.

Si solo quieres agrupar sin capturar, usa **grupos no capturantes**: `(?: ... )`.

In [None]:
texto = "aaa bbb ccc"
print(re.findall(r"(a+)", texto))     # grupo capturante
print(re.findall(r"(?:a+)", texto))   # grupo no capturante

['aaa']
['aaa']


In [None]:
texto = "color colour"

# Capturante
print("CAPTURANTE:", re.findall(r"col(ou)?r", texto))

# No capturante
print("NO CAPTURANTE:", re.findall(r"col(?:ou)?r", texto))

CAPTURANTE: ['ou']
NO CAPTURANTE: ['colour']


- re.findall() devuelve **todas las coincidencias completas** si no hay grupos capturantes
- Si hay grupos capturantes, re.findall() devuelve **solo lo que capturan los grupos**

Utiliza el resto del texto para buscar coincidencias, aunque solo devuelva lo del grupo capturante.

In [5]:
texto = "Matr√≠cula: 4321-DFG"
m1 = re.search(r"(\d{4})-([A-Z]{3})", texto)
m2 = re.search(r"(\d{4})-(?:[A-Z]{3})", texto)

print("CAPTURANTE:", m1.groups())  # ('4321', 'DFG')
print("NO CAPTURANTE:", m2.groups())  # ('DFG',) -> busca todo el texto pero solo devuelve lo que est√° dentro
# de un grupo capturante: (\d{4})

CAPTURANTE: ('4321', 'DFG')
NO CAPTURANTE: ('4321',)


Se utilizan los grupos **no capturantes** para aplicar cuantificadores o alternancias, pero no se necesita guardar ese grupo. Otro ejemplo:

In [6]:
# Se quiere buscar tanto "color" como "colour", pero solo nos interesa el contenido del color:

texto = "color: rojo, colour: azul"

patron = r"colou?r: (\w+)" # el ? indica que la "u" es opcional. Se refiere al caracter anterior.
                           # ":" es el car√°cter literal que debe aparecer en el texto.
                           # (\w+) es grupo capturante, guarda lo que coincida.
coincidencias = re.findall(patron, texto)
print(coincidencias) # ['rojo', 'azul']

['rojo', 'azul']


---
## 3Ô∏è‚É£ El objeto `Match`

Cuando usamos `re.search()` o `re.match()`, obtenemos un objeto `Match` que guarda los grupos encontrados.
 
Cuando usamos `re.finditer()`, obtenemos un iterador de objetos `Match`

Podemos acceder a ellos mediante:
- `.group(n)` ‚Üí texto del grupo *n*.
- `.groups()` ‚Üí todos los grupos.
- `.start()` / `.end()` ‚Üí posiciones en el texto.

In [15]:
iter = re.finditer(r"(\d{4}+)-([A-Z]{3}+)", "Matr√≠cula: 4321-DFG, Matricula: 3453-XRW")
for m in iter:
    print(m)
    print("Coincidencia completa:", m.group(0)) 
    print("Grupo 1 (n√∫meros):", m.group(1)) # group(0) es el grupo de captura 1
    print("Grupo 2 (letras):", m.group(2)) # group(1) es el grupo de captura 2
    print("Posici√≥n en texto:", m.span()) # las posiciones de inicio y fin de la coincidencia
    print("Inicio de la coincidencia:", m.start())
    print("Final de la coincidencia:", m.end())
    print('-'*50)

<re.Match object; span=(11, 19), match='4321-DFG'>
Coincidencia completa: 4321-DFG
Grupo 1 (n√∫meros): 4321
Grupo 2 (letras): DFG
Posici√≥n en texto: (11, 19)
Inicio de la coincidencia: 11
Final de la coincidencia: 19
--------------------------------------------------
<re.Match object; span=(32, 40), match='3453-XRW'>
Coincidencia completa: 3453-XRW
Grupo 1 (n√∫meros): 3453
Grupo 2 (letras): XRW
Posici√≥n en texto: (32, 40)
Inicio de la coincidencia: 32
Final de la coincidencia: 40
--------------------------------------------------


In [16]:
type(m.group(1))

str

**NOTA**
- re.findall() devolver√≠a solo los valores de los grupos, pero perder√≠amos la posici√≥n y el objeto de Match completo.
- re.finditer() devuelve la informaci√≥n completa: grupo, coincidencia completa, posici√≥n, m√©todos extra (start(), end(), span(), etc.). Esto es √∫til si despu√©s queremos hacer operaciones como reemplazar partes del texto, resaltar coincidencias, etc.

- re.finditer() busca todas las coincidencias del patr√≥n en el texto. Devuelve un iterador de objetos Match.
- Cada objeto Match contiene informaci√≥n completa sobre la coincidencia:
    - La coincidencia completa: group(0)
    - Cada grupo capturado: group(1), group(2)
    - La posici√≥n de la coincidencia en el texto: span()

---
## 4Ô∏è‚É£ Ejercicio guiado ‚Äì Extraer nombre y dominio de correos electr√≥nicos

Tenemos un texto con correos electr√≥nicos y queremos separar:
- **nombre de usuario**
- **dominio** (ej. `gmail.com`)

üí° *Pista:* usa dos grupos `( ... )@( ... )` y el cuantificador `+`.

In [21]:
texto = "Correos: ana@gmail.com, juan.perez@empresa.es, maria-99@sub.uni.edu"

# TODO: escribe tu patr√≥n aqu√≠
patron = r"([\w\.-]+)@([\w\.-]+\.\w+)"

resultados = re.finditer(patron, texto)
for m in resultados:
    print(m)
    print("Nombre de correo completo", m.group(0))
    print("Nombre de usuario del correo", m.group(1))
    print("Nombre del dominio:", m.group(2))
    print("Inicio y final de las coincidencias:", m.span())
    print("-"*50)

# Resultado esperado:
# [('ana', 'gmail.com'), ('juan.perez', 'empresa.es'), ('maria-99', 'uni.edu')]

<re.Match object; span=(9, 22), match='ana@gmail.com'>
Nombre de correo completo ana@gmail.com
Nombre de usuario del correo ana
Nombre del dominio: gmail.com
Inicio y final de las coincidencias: (9, 22)
--------------------------------------------------
<re.Match object; span=(24, 45), match='juan.perez@empresa.es'>
Nombre de correo completo juan.perez@empresa.es
Nombre de usuario del correo juan.perez
Nombre del dominio: empresa.es
Inicio y final de las coincidencias: (24, 45)
--------------------------------------------------
<re.Match object; span=(47, 67), match='maria-99@sub.uni.edu'>
Nombre de correo completo maria-99@sub.uni.edu
Nombre de usuario del correo maria-99
Nombre del dominio: sub.uni.edu
Inicio y final de las coincidencias: (47, 67)
--------------------------------------------------


---
## 5Ô∏è‚É£ Soluci√≥n sugerida
Puedes comprobar tu resultado con esta celda:

In [22]:
patron = r"([\w\.-]+)@([\w\.-]+)"
resultados = re.findall(patron, texto)
print(resultados)

[('ana', 'gmail.com'), ('juan.perez', 'empresa.es'), ('maria-99', 'sub.uni.edu')]


---
## 6Ô∏è‚É£ Bonus ‚Äì Validaci√≥n con grupos

Podemos usar grupos tambi√©n en validaciones, por ejemplo para comprobar si un email es v√°lido:

`^[\w\.-]+@[\w\.-]+\.\w+$`

In [23]:
correos = ["usuario@mail.com", "nombre@empresa", "maria99@uni.edu"]
patron = r"^[\w\.-]+@[\w\.-]+\.\w+$"

for c in correos:
    print(c, "‚úÖ" if re.match(patron, c) else "‚ùå")

usuario@mail.com ‚úÖ
nombre@empresa ‚ùå
maria99@uni.edu ‚úÖ


---
## 7Ô∏è‚É£ Resumen del notebook

- Los **cuantificadores** controlan el n√∫mero de repeticiones.
- Los **grupos `( )`** permiten extraer partes concretas del texto.
- Los **grupos no capturantes `(?: )`** agrupan sin devolver resultados.
- El **objeto Match** proporciona m√©todos √∫tiles (`group()`, `span()`, etc.).

ÔøΩÔøΩ Dominar los grupos es esencial para estructurar y validar texto en cualquier contexto (correos, logs, formularios, etc.).

---
**Fin del notebook 1.3 ‚Äì Cuantificadores y Grupos.**