## ¬øQu√© es Regex?

Regex (abreviatura de **expresi√≥n regular**) es un lenguaje de patrones para buscar, validar o extraer texto. Sirve para:

* Encontrar coincidencias en textos (palabras, n√∫meros, fechas, etc.)
* Validar formatos (correos, tel√©fonos)
* Reemplazar fragmentos
* Dividir cadenas

> Es como un "buscador avanzado" que te permite definir exactamente qu√© est√°s buscando.

- Regex es universal para cualquier lenguaje de programaci√≥n, ser√° igual para Python, que para Java por ejemplo.


üëâ Por ejemplo, aunque no sepas el n√∫mero exacto de tel√©fono de alguien, sabes c√≥mo **deber√≠a verse**:
En EE.UU. o Canad√°, un n√∫mero suele tener **3 d√≠gitos, un guion y luego 4 d√≠gitos** (como `555-1234`, o `415-555-1234` si incluye el c√≥digo de √°rea).

üß† Reconocemos muchos otros patrones sin darnos cuenta:

* Correos electr√≥nicos contienen `@`
* N√∫meros de la seguridad social tienen 9 d√≠gitos y guiones
* URLs usan puntos y barras `/`
* Hashtags comienzan con `#` y no tienen espacios

### üîç Buscar patrones de texto **sin** expresiones regulares

Supongamos que quieres encontrar un n√∫mero de tel√©fono estadounidense dentro de una cadena de texto.
Sabes que el patr√≥n es: **tres d√≠gitos, un guion, tres d√≠gitos, otro guion y cuatro d√≠gitos**.
Por ejemplo: `415-555-4242`

Podemos crear una funci√≥n llamada `esNumeroTelefono()` que verifique si una cadena sigue este formato.
La funci√≥n devolver√° `True` si es un n√∫mero v√°lido y `False` si no lo es.

Esto es lo que vamos a implementar paso a paso antes de usar expresiones regulares. As√≠ veremos **cu√°nto m√°s c√≥digo** hace falta sin regex.


In [None]:
# Validar tel√©fono
telef = '415-555-4242'

# Verificar si es un d√≠gito
# verificar si tiene guiones y si los guiones est√°n en su sitio
# verificar si tenemos 12 caracteres en total

In [3]:
numero = telef.replace('-', '')

In [4]:
numero

'4155554242'

In [10]:
numero.isdecimal()

True

In [13]:
telef[3] == '-'

True

In [15]:
telef[7]

'-'

In [22]:
telef[:3].isdecimal()

True

In [50]:
def esNumeroTelefono(telefono):
    
    if len(telefono) != 12:
        print('1')
        return False
    
    if telefono[3] != '-' or telefono[7] != '-':
        print('2')
        return False
    
    parte1 = telefono[:3]
    parte2 = telefono[4:7]
    parte3 = telefono[8:]

    if not (parte1.isdecimal() and parte2.isdecimal() and parte3.isdecimal()):
        print('3')
        return False
    
    return True


In [52]:
esNumeroTelefono('414-555-4242')

True

### üîç Buscar patrones de texto **con** expresiones regulares

* `\d` representa **un d√≠gito del 0 al 9**

Entonces el patr√≥n:

```regex
\d\d\d-\d\d\d-\d\d\d\d
```

coincide con n√∫meros como `415-555-4242`:
üëâ tres d√≠gitos, un guion, tres d√≠gitos, otro guion, y cuatro d√≠gitos.

Este patr√≥n hace lo mismo que hicimos antes con la funci√≥n `esNumeroTelefono()` pero con **menos c√≥digo** y m√°s elegancia.


### üß† Versi√≥n mejorada

En lugar de escribir `\d\d\d`, podemos usar **llaves `{}`** para indicar cu√°ntas repeticiones queremos.
As√≠, el patr√≥n:

```regex
\d{3}-\d{3}-\d{4}
```

tambi√©n coincide con `415-555-4242` y es m√°s **limpio y f√°cil de leer**.

### Importar el m√≥dulo `re`

```python
import re
```


In [53]:
import re

In [56]:
patron = '\d{3}-\d{3}-\d{4}'

coincide = re.match(patron, '415-55-4242') #¬†si hay coincidencia, devuelve un objeto de tipo re.match

In [58]:
if coincide:
    print('ok')

In [64]:
def esNumeroTelefono_regex(telefono):
    patron = '\d{3}-\d{3}-\d{4}'
    coincide = re.match(patron, telefono)
    return True if coincide else False

    # esto es lo mismo:
    # if coincide:
    #     return True
    # else:
    #     return False


In [65]:
esNumeroTelefono_regex('458-676-6789')

True

## Funciones principales del m√≥dulo `re`

### `re.findall()`

Busca **todas las coincidencias** y devuelve una lista.

In [66]:
re.findall("\d+", "Mi tel√©fono es 654123987 y mi edad es 30, bla bla bla, 876, que fr√≠o hace, 10¬∫C.")

['654123987', '30', '876', '10']

### `re.sub()`

Sustituye coincidencias por otro texto.

In [67]:
re.sub("\d", "*", "clave123, mi telefono es 890765456, tengo 25 a√±os.") # cuando encuentres un n√∫mero, sustituye por *

'clave***, mi telefono es *********, tengo ** a√±os.'

### `re.split()`

Divide un texto seg√∫n el patr√≥n.

In [68]:
re.split("\s", "Hola mundo bonito")

['Hola', 'mundo', 'bonito']

In [71]:
re.split("@", "Hola@mundo@bonito")

['Hola', 'mundo', 'bonito']

### `re.match()`

Comprueba si **al principio del texto** hay una coincidencia.

In [76]:
re.match("Hola", "Hola mundo") # Coincide porque comienza con 'Hola' 

<re.Match object; span=(0, 4), match='Hola'>

### `re.search()`

Busca la **primera coincidencia en cualquier parte del texto**.

In [79]:
re.search("bonito", "Hola mundo bonito") # Coincide aunque no est√© al principio

<re.Match object; span=(11, 17), match='bonito'>

## Operadores comunes de Regex

| S√≠mbolo | Significado                                  | Ejemplo                                                                                         |
| ------- | -------------------------------------------- | ----------------------------------------------------------------------------------------------- |
| `+`     | Una o m√°s repeticiones del elemento anterior | `ab+c`  ‚Üí "abc", "abbc", "abbbc". La letra "b" debe aparecer 1 o m√°s veces.                     |
| `*`     | Cero o m√°s repeticiones                      | `ab*c`  ‚Üí "abc", "abbc", "abbbc", "ac". La "b" puede aparecer muchas veces o ninguna.           |
| `?`     | Cero o una repetici√≥n                        | `colou?r` ‚Üí "color", "colour". La "u" puede aparecer 1 vez o ninguna.                           |
| `.`     | Cualquier car√°cter                           | `a.c`  ‚Üí "abc", "a-c", "a9c" (pero no "ac"). Debe haber un car√°cter cualquiera entre "a" y "c". |
| `.*`    | Cualquier cantidad de caracteres             | `a.*c` ‚Üí "abc", "axyzc", "ac". Cualquier cosa entre "a" y "c" (incluso nada).                   |
| `^`     | Inicio de la cadena                          | `^Hola` ‚Üí Coincide con "Hola mundo", pero no con "Mundo Hola".                                  |
| `$`     | Fin de la cadena                             | `mundo$` ‚Üí Coincide con "Hola mundo", pero no con "mundo cruel".                                |

---

## Sintaxis especial

| C√≥digo | Significado                   | Ejemplo                                               |
| ------ | ----------------------------- | ----------------------------------------------------- |
| `\w`   | Cualquier letra o d√≠gito      | `\w+` encuentra "palabras" como "Hola123"             ‚Üí letras a-z, A-Z, n√∫meros 0-9 y gui√≥n bajo _, es decir \w ‚âà [a-zA-Z0-9_]| 
| `\d`   | Cualquier d√≠gito              | `\d+` encuentra n√∫meros como "123", "4567"            |
| `\s`   | Espacios                      | `\s+` detecta espacios o tabulaciones entre palabras  |
| `\n`   | Saltos de l√≠nea               | `\n` detecta un salto de l√≠nea en un texto multil√≠nea |
| `\W`   | Todo excepto letras o d√≠gitos | `\W+` encuentra signos como ".", "!", "#" ‚Üí opuesto de \w|
| `\D`   | Todo excepto d√≠gitos          | `\D+` encuentra letras, espacios, signos, etc. ‚Üí opuesto de \d|
| `\S`   | Todo excepto espacios         | `\S+` encuentra bloques de texto sin espacios ‚Üí opuesto de \s|


### Otros:

* `()` agrupa y captura
* `[]` define un conjunto: `[a-z]`, `[A-Z]`, `[0-9]`
* `[^x]` niega: todo excepto "x"
* `|` operador OR: `hola|hi`
* `\.` escapa un car√°cter especial (como el punto)
* `{n}` n repeticiones, `{n,}` al menos n repeticiones, `{n,m}` entre n y m repecticiones ‚Üí para definir cu√°ntas repeticiones queremos

---

## Links √∫tiles  ü§ì

**1- Documentaci√≥n**

   - [La documentaci√≥n](https://docs.python.org/3/howto/regex.html)

**2- Cheatsheet**

   - [Cheatsheet de expresiones regulares](https://cheatography.com/davechild/cheat-sheets/regular-expressions/)

**3- Para practicar y comprobar patrones**

- Regex101, [para comprobar patrones](https://regex101.com/)
- RegexOne, [RegexOne](https://regexone.com/)

**4- M√°s enlaces**

   - [Construir, probar y depurar regex](https://regex101.com/)