## ¿Qué es Regex?

Regex (abreviatura de **expresión regular**) es un lenguaje de patrones para buscar, validar o extraer texto. Sirve para:

* Encontrar coincidencias en textos (palabras, números, fechas, etc.)
* Validar formatos (correos, teléfonos)
* Reemplazar fragmentos
* Dividir cadenas

> Es como un "buscador avanzado" que te permite definir exactamente qué estás buscando.

- Regex es universal para cualquier lenguaje de programación, será igual para Python, que para Java por ejemplo.


👉 Por ejemplo, aunque no sepas el número exacto de teléfono de alguien, sabes cómo **debería verse**:
En EE.UU. o Canadá, un número suele tener **3 dígitos, un guion y luego 4 dígitos** (como `555-1234`, o `415-555-1234` si incluye el código de área).

🧠 Reconocemos muchos otros patrones sin darnos cuenta:

* Correos electrónicos contienen `@`
* Números de la seguridad social tienen 9 dígitos y guiones
* URLs usan puntos y barras `/`
* Hashtags comienzan con `#` y no tienen espacios

### 🔍 Buscar patrones de texto **sin** expresiones regulares

Supongamos que quieres encontrar un número de teléfono estadounidense dentro de una cadena de texto.
Sabes que el patrón es: **tres dígitos, un guion, tres dígitos, otro guion y cuatro dígitos**.
Por ejemplo: `415-555-4242`

Podemos crear una función llamada `esNumeroTelefono()` que verifique si una cadena sigue este formato.
La función devolverá `True` si es un número válido y `False` si no lo es.

Esto es lo que vamos a implementar paso a paso antes de usar expresiones regulares. Así veremos **cuánto más código** hace falta sin regex.


In [None]:
# Validar teléfono
telef = '415-555-4242'

# Verificar si es un dígito
# verificar si tiene guiones y si los guiones están en su sitio
# verificar si tenemos 12 caracteres en total

In [3]:
numero = telef.replace('-', '')

In [4]:
numero

'4155554242'

In [10]:
numero.isdecimal()

True

In [13]:
telef[3] == '-'

True

In [15]:
telef[7]

'-'

In [22]:
telef[:3].isdecimal()

True

In [50]:
def esNumeroTelefono(telefono):
    
    if len(telefono) != 12:
        print('1')
        return False
    
    if telefono[3] != '-' or telefono[7] != '-':
        print('2')
        return False
    
    parte1 = telefono[:3]
    parte2 = telefono[4:7]
    parte3 = telefono[8:]

    if not (parte1.isdecimal() and parte2.isdecimal() and parte3.isdecimal()):
        print('3')
        return False
    
    return True


In [52]:
esNumeroTelefono('414-555-4242')

True

### 🔍 Buscar patrones de texto **con** expresiones regulares

* `\d` representa **un dígito del 0 al 9**

Entonces el patrón:

```regex
\d\d\d-\d\d\d-\d\d\d\d
```

coincide con números como `415-555-4242`:
👉 tres dígitos, un guion, tres dígitos, otro guion, y cuatro dígitos.

Este patrón hace lo mismo que hicimos antes con la función `esNumeroTelefono()` pero con **menos código** y más elegancia.


### 🧠 Versión mejorada

En lugar de escribir `\d\d\d`, podemos usar **llaves `{}`** para indicar cuántas repeticiones queremos.
Así, el patrón:

```regex
\d{3}-\d{3}-\d{4}
```

también coincide con `415-555-4242` y es más **limpio y fácil de leer**.

### Importar el módulo `re`

```python
import re
```


In [53]:
import re

In [56]:
patron = '\d{3}-\d{3}-\d{4}'

coincide = re.match(patron, '415-55-4242') # si hay coincidencia, devuelve un objeto de tipo re.match

In [58]:
if coincide:
    print('ok')

In [64]:
def esNumeroTelefono_regex(telefono):
    patron = '\d{3}-\d{3}-\d{4}'
    coincide = re.match(patron, telefono)
    return True if coincide else False

    # esto es lo mismo:
    # if coincide:
    #     return True
    # else:
    #     return False


In [65]:
esNumeroTelefono_regex('458-676-6789')

True

## Funciones principales del módulo `re`

### `re.findall()`

Busca **todas las coincidencias** y devuelve una lista.

In [66]:
re.findall("\d+", "Mi teléfono es 654123987 y mi edad es 30, bla bla bla, 876, que frío hace, 10ºC.")

['654123987', '30', '876', '10']

### `re.sub()`

Sustituye coincidencias por otro texto.

In [67]:
re.sub("\d", "*", "clave123, mi telefono es 890765456, tengo 25 años.") # cuando encuentres un número, sustituye por *

'clave***, mi telefono es *********, tengo ** años.'

### `re.split()`

Divide un texto según el patrón.

In [68]:
re.split("\s", "Hola mundo bonito")

['Hola', 'mundo', 'bonito']

In [71]:
re.split("@", "Hola@mundo@bonito")

['Hola', 'mundo', 'bonito']

### `re.match()`

Comprueba si **al principio del texto** hay una coincidencia.

In [76]:
re.match("Hola", "Hola mundo") # Coincide porque comienza con 'Hola' 

<re.Match object; span=(0, 4), match='Hola'>

### `re.search()`

Busca la **primera coincidencia en cualquier parte del texto**.

In [79]:
re.search("bonito", "Hola mundo bonito") # Coincide aunque no esté al principio

<re.Match object; span=(11, 17), match='bonito'>

## Operadores comunes de Regex

| Símbolo | Significado                                  | Ejemplo                                                                                         |
| ------- | -------------------------------------------- | ----------------------------------------------------------------------------------------------- |
| `+`     | Una o más repeticiones del elemento anterior | `ab+c`  → "abc", "abbc", "abbbc". La letra "b" debe aparecer 1 o más veces.                     |
| `*`     | Cero o más repeticiones                      | `ab*c`  → "abc", "abbc", "abbbc", "ac". La "b" puede aparecer muchas veces o ninguna.           |
| `?`     | Cero o una repetición                        | `colou?r` → "color", "colour". La "u" puede aparecer 1 vez o ninguna.                           |
| `.`     | Cualquier carácter                           | `a.c`  → "abc", "a-c", "a9c" (pero no "ac"). Debe haber un carácter cualquiera entre "a" y "c". |
| `.*`    | Cualquier cantidad de caracteres             | `a.*c` → "abc", "axyzc", "ac". Cualquier cosa entre "a" y "c" (incluso nada).                   |
| `^`     | Inicio de la cadena                          | `^Hola` → Coincide con "Hola mundo", pero no con "Mundo Hola".                                  |
| `$`     | Fin de la cadena                             | `mundo$` → Coincide con "Hola mundo", pero no con "mundo cruel".                                |

---

## Sintaxis especial

| Código | Significado                   | Ejemplo                                               |
| ------ | ----------------------------- | ----------------------------------------------------- |
| `\w`   | Cualquier letra o dígito      | `\w+` encuentra "palabras" como "Hola123"             → letras a-z, A-Z, números 0-9 y guión bajo _, es decir \w ≈ [a-zA-Z0-9_]| 
| `\d`   | Cualquier dígito              | `\d+` encuentra números como "123", "4567"            |
| `\s`   | Espacios                      | `\s+` detecta espacios o tabulaciones entre palabras  |
| `\n`   | Saltos de línea               | `\n` detecta un salto de línea en un texto multilínea |
| `\W`   | Todo excepto letras o dígitos | `\W+` encuentra signos como ".", "!", "#" → opuesto de \w|
| `\D`   | Todo excepto dígitos          | `\D+` encuentra letras, espacios, signos, etc. → opuesto de \d|
| `\S`   | Todo excepto espacios         | `\S+` encuentra bloques de texto sin espacios → opuesto de \s|


### Otros:

* `()` agrupa y captura
* `[]` define un conjunto: `[a-z]`, `[A-Z]`, `[0-9]`
* `[^x]` niega: todo excepto "x"
* `|` operador OR: `hola|hi`
* `\.` escapa un carácter especial (como el punto)
* `{n}` n repeticiones, `{n,}` al menos n repeticiones, `{n,m}` entre n y m repecticiones → para definir cuántas repeticiones queremos

---

## Links útiles  🤓

**1- Documentación**

   - [La documentación](https://docs.python.org/3/howto/regex.html)

**2- Cheatsheet**

   - [Cheatsheet de expresiones regulares](https://cheatography.com/davechild/cheat-sheets/regular-expressions/)

**3- Para practicar y comprobar patrones**

- Regex101, [para comprobar patrones](https://regex101.com/)
- RegexOne, [RegexOne](https://regexone.com/)

**4- Más enlaces**

   - [Construir, probar y depurar regex](https://regex101.com/)