# 📚 Expresiones Regulares en Python

## Guía del Módulo `re`

Las expresiones regulares (regex) son patrones que se utilizan para hacer coincidir combinaciones de caracteres en cadenas de texto. En Python, el módulo `re` proporciona soporte para expresiones regulares.

## 1. Importar el módulo re

In [1]:
import re

## 2. Conceptos Básicos

### 2.1 Caracteres literales

In [2]:
saludo = "Hola a todos mis alumnos"
"perro" in saludo

False

In [3]:
texto = "Me gusta programar en Python!, python es lo máximo."

resultado = re.search("python", texto)

In [4]:
type(resultado)

re.Match

In [5]:
texto = "Me gusta programar en python!, python es lo máximo."

resultado = re.search("python", texto)

if resultado:
    print(f"Se encontró: {resultado.group()} en la posición {resultado.start()}-{resultado.end()}")
else:
    print("No se encontró coincidencia")

Se encontró: python en la posición 22-28


In [6]:
dir(resultado)

['__class__',
 '__class_getitem__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'end',
 'endpos',
 'expand',
 'group',
 'groupdict',
 'groups',
 'lastgroup',
 'lastindex',
 'pos',
 're',
 'regs',
 'span',
 'start',
 'string']

### 2.2 Caracteres especiales (metacaracteres)

Los metacaracteres tienen significados especiales:

- `.` : Cualquier carácter excepto salto de línea
- `^` : Inicio de cadena
- `$` : Final de cadena
- `*` : 0 o más repeticiones
- `+` : 1 o más repeticiones
- `?` : 0 o 1 repetición
- `{m,n}` : Entre m y n repeticiones
- `[]` : Conjunto de caracteres
- `|` : Alternativa (OR)
- `()` : Grupo

In [7]:
texto = "gato, pato, rato, dato"

re.findall(".ato", texto)

['gato', 'pato', 'rato', 'dato']

In [8]:
texto2 = "Python es lo máximo, lo adoro"
re.search("^Python", texto2).group()

'Python'

In [9]:
re.search("adoro$", texto2)

<re.Match object; span=(24, 29), match='adoro'>

## 3. Funciones Principales del Módulo re

### 3.1 re.search()
Busca la primera coincidencia en cualquier parte de la cadena.

In [10]:
# Ya lo hicimos

### 3.2 re.match()
Busca coincidencias solo al inicio de la cadena.

In [11]:
texto2

'Python es lo máximo, lo adoro'

In [12]:
bool(re.match("Python", texto2))

True

### 3.3 re.findall()
Encuentra todas las coincidencias y las devuelve como una lista.

In [13]:
print("Esta es una comilla doble \"")

Esta es una comilla doble "


In [14]:
"C:\\Users\\mike\\UP\\NLP\\2025\\Semana III"

'C:\\Users\\mike\\UP\\NLP\\2025\\Semana III'

In [15]:
texto3 = "Mis números favoritos son : , . ! / ( ) = ? 1, 6, 23, 26, 96 y 100000000000000"

re.findall(r"\d+", texto3)

['1', '6', '23', '26', '96', '100000000000000']

In [16]:
re.findall(r"\W+", texto3)

[' ', ' ', ' ', ' : , . ! / ( ) = ? ', ', ', ', ', ', ', ', ', ' ', ' ']

### 3.4 re.finditer()
Devuelve un iterador con objetos Match.

In [17]:
#

### 3.5 re.sub()
Sustituye coincidencias por un texto de reemplazo.

In [18]:
texto2

'Python es lo máximo, lo adoro'

In [19]:
re.sub(r"\W", "", texto2, count=0)

'Pythoneslomáximoloadoro'

### 3.6 re.split()
Divide una cadena usando un patrón como delimitador.

In [20]:
texto4 = "Mis frutas favoritas son: uva,,,,,,,,, manzana; pera: coco"
texto4.split(",")

['Mis frutas favoritas son: uva',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 ' manzana; pera: coco']

In [21]:
re.split(r"[,:;\s]+", texto4)

['Mis', 'frutas', 'favoritas', 'son', 'uva', 'manzana', 'pera', 'coco']

## 4. Clases de Caracteres Predefinidas

### 4.1 Secuencias de escape comunes

In [28]:
texto5 = "Usuario123: contraseña, correo@dominio.mx, tel: 5512345678"

# \d: dígitos [0-9]
digitos = re.findall(r"\d+", texto5)
print(f"Digitos: {digitos}")

# \w: caracteres alfanuméricos [a-zA-Z0-9]
palabras = re.findall(r"\w+", texto5)
print(f"Palabras: {palabras}")

# \s: espacios en blanco
espacios = re.findall(r"\s+", texto5)
print(f"Espacios encontrados: {len(espacios)}")

# Versiones negadas \D \W \S
no_digitos = re.findall(r"\D+", texto5)
print(f"NO-Digitos: {no_digitos}")

Digitos: ['123', '5512345678']
Palabras: ['Usuario123', 'contraseña', 'correo', 'dominio', 'mx', 'tel', '5512345678']
Espacios encontrados: 4
NO-Digitos: ['Usuario', ': contraseña, correo@dominio.mx, tel: ']


### 4.2 Conjuntos de caracteres personalizados

In [38]:
texto6 = "Mis colores favoritos son: azul, naranja, verde."

vocales = re.findall("[aeiou]", texto6)
print(f"Vocales: {vocales}")
print(f"Se encontraron {len(vocales)} vocales")

# [a-z] [A-Z] [0-9] Rangos

# Negación
consonantes = re.findall(r"[^aeiou:\s.,]", texto6)
print(f"Consonantes: {consonantes}")
print(f"Se encontraron {len(consonantes)} vocales")

Vocales: ['i', 'o', 'o', 'e', 'a', 'o', 'i', 'o', 'o', 'a', 'u', 'a', 'a', 'a', 'e', 'e']
Se encontraron 16 vocales
Consonantes: ['M', 's', 'c', 'l', 'r', 's', 'f', 'v', 'r', 't', 's', 's', 'n', 'z', 'l', 'n', 'r', 'n', 'j', 'v', 'r', 'd']
Se encontraron 22 vocales


## Cheat Sheet - Referencia Rápida

### Metacaracteres básicos:
- `.` - Cualquier carácter
- `^` - Inicio de línea
- `$` - Final de línea
- `*` - 0 o más repeticiones
- `+` - 1 o más repeticiones
- `?` - 0 o 1 repetición
- `{n,m}` - Entre n y m repeticiones
- `[]` - Conjunto de caracteres
- `|` - OR lógico
- `()` - Grupo

### Clases de caracteres:
- `\d` - Dígitos [0-9]
- `\D` - No dígitos
- `\w` - Caracteres de palabra [a-zA-Z0-9_]
- `\W` - No caracteres de palabra
- `\s` - Espacios en blanco
- `\S` - No espacios en blanco

### Funciones principales:
- `re.search(patron, texto)` - Busca primera coincidencia
- `re.match(patron, texto)` - Busca al inicio
- `re.findall(patron, texto)` - Encuentra todas
- `re.finditer(patron, texto)` - Iterador de coincidencias
- `re.sub(patron, reemplazo, texto)` - Reemplazar
- `re.split(patron, texto)` - Dividir cadena
- `re.compile(patron)` - Compilar patrón

### Banderas comunes:
- `re.IGNORECASE` o `re.I` - Ignorar mayúsculas/minúsculas
- `re.MULTILINE` o `re.M` - Modo multilínea
- `re.DOTALL` o `re.S` - . incluye \n