<a href="https://colab.research.google.com/github/ErnestoFranCh/Repaso/blob/main/Regex.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regex

Son patrones de texto que se usan para hacer coincidir combinaciones de caracteres en cadenas. Son muy útiles en tareas como:

- Validar correos electrónicos.

- Buscar números de teléfono.

- Extraer fechas.

- Filtrar palabras claves.

- Reemplazar texto.




#Funciones

| N.º | Función                 | Sintaxis básica                          | Descripción breve                                                  |
|-----|-------------------------|------------------------------------------|---------------------------------------------------------------------|
| 1   | `match()`               | `re.match(pattern, string)`              | Busca una coincidencia al inicio del string.                       |
| 2   | `fullmatch()`           | `re.fullmatch(pattern, string)`          | Requiere que todo el string coincida con el patrón.                |
| 3   | `search()`              | `re.search(pattern, string)`             | Busca la primera coincidencia en el string.                        |
| 4   | `findall()`             | `re.findall(pattern, string)`            | Retorna una lista con todas las coincidencias.                     |
| 5   | `finditer()`            | `re.finditer(pattern, string)`           | Retorna un iterador con todos los objetos Match.                   |
| 6   | `sub()`                 | `re.sub(pattern, repl, string)`          | Reemplaza coincidencias por otro string.                           |
| 7   | `subn()`                | `re.subn(pattern, repl, string)`         | Igual que `sub()`, pero también devuelve el número de reemplazos.  |
| 8   | `split()`               | `re.split(pattern, string)`              | Divide el string usando el patrón como separador.                  |
| 9   | `compile()`             | `re.compile(pattern)`                    | Compila un patrón en un objeto `RegexObject`.                      |
| 10  | `purge()`               | `re.purge()`                             | Limpia la caché de patrones compilados.                            |
| 11  | `escape()`              | `re.escape(string)`                      | Escapa caracteres especiales en un string.                         |
| 12  | `error`                 | `re.error`                               | Clase base para errores de expresiones regulares.                  |
| 13  | `Scanner()`             | `re.Scanner(patterns)`                   | Herramienta para tokenizar texto con múltiples patrones.           |
| 14  | `Pattern.fullmatch()`   | `pattern.fullmatch(string)`              | Método del objeto Pattern; similar a `re.fullmatch()`.             |
| 15  | `Pattern.match()`       | `pattern.match(string)`                  | Método del objeto Pattern; similar a `re.match()`.                 |
| 16  | `Pattern.search()`      | `pattern.search(string)`                 | Método del objeto Pattern; similar a `re.search()`.                |
| 17  | `Pattern.findall()`     | `pattern.findall(string)`                | Método del objeto Pattern; igual a `re.findall()`.                 |
| 18  | `Pattern.sub()`         | `pattern.sub(repl, string)`              | Método del objeto Pattern; igual a `re.sub()`.                     |


Se importa el modulo `re`

In [1]:
import re

# Simbologia

| Símbolo  | Significado                        | Ejemplo      | Coincide con                         |
|----------|------------------------------------|--------------|--------------------------------------|
| `.`      | Cualquier carácter excepto nueva línea | `a.c`        | `abc`, `axc`                         |
| `\d`     | Cualquier dígito (0–9)             | `\d\d`       | `23`, `07`                           |
| `\D`     | Cualquier no dígito                | `\D`         | `a`, `#`                             |
| `\w`     | Cualquier carácter alfanumérico    | `\w`         | `a`, `A`, `1`, `_`                   |
| `\W`     | Cualquier no alfanumérico          | `\W`         | `@`, `*`, `!`                        |
| `\s`     | Espacio en blanco                  | `\s`         | espacio, tab                         |
| `\S`     | Cualquier no espacio               | `\S`         | `a`, `b`                             |
| `^`      | Inicio de línea                    | `^Hola`      | Coincide con `"Hola mundo"`         |
| `$`      | Fin de línea                       | `mundo$`     | Coincide con `"Hola mundo"`         |
| `[]`     | Conjunto de caracteres             | `[abc]`      | `a`, `b`, `c`                        |
| `[^]`    | Negación de conjunto               | `[^abc]`     | Cualquier cosa menos `a`, `b` o `c` |
| `*`      | 0 o más repeticiones               | `a*`         | ``, `a`, `aaaa`                     |
| `+`      | 1 o más repeticiones               | `a+`         | `a`, `aa`                           |
| `?`      | 0 o 1 repetición                   | `a?`         | ``, `a`                             |
| `{n}`    | Exactamente n repeticiones         | `\d{4}`      | `2023`                              |
| `{n,m}`  | Entre n y m repeticiones           | `\d{2,4}`    | `12`, `123`, `1234`                 |
| `|`      | O lógico                           | `azul|rojo`  | `azul` o `rojo`                     |
| `()`     | Agrupar                            | `(abc)+`     | `abc`, `abcabc`                     |


#Ejemplos

## Validar correo electronico

In [2]:
email = "user@example.com"
pattern = r"^[\w\.-]+@[\w\.-]+\.\w+$"

re.match(pattern, email)


<re.Match object; span=(0, 16), match='user@example.com'>

Explicacion:

El patrón `[\w\.-]+` significa lo siguiente:

- `\w` : Coincide con cualquier carácter alfanumérico (letras de la A a la Z, números de 0 a 9) y el guion bajo  `(_)` .

- `\.`: Coincide con el carácter punto literal `(.)`. El punto es un carácter especial en expresiones regulares, por lo que se debe escapar con la barra invertida `(\)` para que se interprete como un punto literal.

- `-`: Coincide con el carácter guion (-) de forma literal.

- El signo `+` al final de `[\w\.-]+` indica que debe haber al menos un carácter de esos tres tipos (alfanuméricos, puntos o guiones) y que se repite una o más veces.

## Extraer fechas

In [3]:
text = "Mi cita es el 2023-08-15 y mi cumpleaños 1990-03-25"
re.findall(r"\d{4}-\d{2}-\d{2}", text)

['2023-08-15', '1990-03-25']

Definir el siguiente patron de numero telefonico mexicano:

52 XXXX XXXX

In [None]:
phone = r'^52\s\d{4}\s\d{4}$'

Definir el patron del curp

In [None]:
curp = r'^[A-Z]{4}\d{6}[A-Z]{6}\d{2}$'