 Las expresiones regulares (o regex) son una herramienta poderosa para trabajar con cadenas de texto. Permiten buscar, coincidir y manipular texto de manera muy flexible. En Python, el módulo re proporciona funciones para trabajar con expresiones regulares.

# Expresiones regulares en Python: Mini-curso


1. Conceptos básicos de regex:



Metacaracteres: Son caracteres con un significado especial:

+ .: Coincide con cualquier carácter, excepto un salto de línea.
+ ^: Coincide con el inicio de la cadena.
+ $: Coincide con el final de la cadena.
+ *: Coincide con 0 o más repeticiones del patrón anterior.
+ +: Coincide con 1 o más repeticiones del patrón anterior.
+ ?: Coincide con 0 o 1 repetición del patrón anterior.
+ {n}: Coincide exactamente con n repeticiones.
+ {n,}: Coincide con n o más repeticiones.
+ {,m}: Coincide con m o menos repeticiones.
+ {n,m}: Coincide entre n y m repeticiones.
+ \: Se utiliza para escapar metacaracteres.
+ []: Define un conjunto de caracteres.
+ |: Operador "o".
+ (): Agrupa patrones.



Conjuntos predefinidos:

+ \d: Coincide con cualquier dígito. Equivalente a [0-9].
+ \D: Coincide con cualquier carácter no dígito.
+ \s: Coincide con cualquier carácter de espacio en blanco.
+ \S: Coincide con cualquier carácter no espacio en blanco.
+ \w: Coincide con cualquier carácter alfanumérico. Equivalente a [a-zA-Z0-9_].
+ \W: Coincide con cualquier carácter no alfanumérico.



2. Funciones principales del módulo re:
+ re.search(): Busca una coincidencia en cualquier parte de la cadena.
+ re.match(): Busca una coincidencia solo al principio de la cadena.
+ re.findall(): Devuelve todas las coincidencias en una lista.
+ re.finditer(): Devuelve un iterador con todas las coincidencias.
+ re.sub(): Sustituye las coincidencias con una cadena.



3. Ejemplos prácticos:



a. Búsqueda básica

In [1]:
import re

texto = "El número es 12345."
coincidencia = re.search(r'\d+', texto)
if coincidencia:
    print(coincidencia.group())  # Salida: 12345


12345


In [5]:
coincidencia.__dir__()

['__repr__',
 '__getitem__',
 'group',
 'start',
 'end',
 'span',
 'groups',
 'groupdict',
 'expand',
 '__copy__',
 '__deepcopy__',
 '__class_getitem__',
 'string',
 're',
 'pos',
 'endpos',
 'lastindex',
 'lastgroup',
 'regs',
 '__doc__',
 '__module__',
 '__new__',
 '__hash__',
 '__str__',
 '__getattribute__',
 '__setattr__',
 '__delattr__',
 '__lt__',
 '__le__',
 '__eq__',
 '__ne__',
 '__gt__',
 '__ge__',
 '__init__',
 '__reduce_ex__',
 '__reduce__',
 '__getstate__',
 '__subclasshook__',
 '__init_subclass__',
 '__format__',
 '__sizeof__',
 '__dir__',
 '__class__']

In [8]:
texto = "El número es 12345, 6789."
coincidencia = re.findall(r'\d+', texto)
if coincidencia:
    print(coincidencia)  #

['12345', '6789']


In [7]:
coincidencia

['12345', '6789']

In [11]:
texto = "El número es 12345, 6789."
coincidencia = re.finditer(r'\d+', texto)
if coincidencia:
    for num in coincidencia:
        print(num.group())  #

12345
6789


b. Uso de grupos

In [12]:
texto = "Mi número de teléfono es (123) 456-7890."
coincidencia = re.search(r'(\(\d{3}\)) (\d{3}-\d{4})', texto)
if coincidencia:
    print(coincidencia.group(1))  # Salida: (123)
    print(coincidencia.group(2))  # Salida: 456-7890


(123)
456-7890


c. Sustitución

In [13]:
texto = "blue, red, green"
nuevo_texto = re.sub(r'red', 'yellow', texto)
print(nuevo_texto)  # Salida: blue, yellow, green


blue, yellow, green


4. Flags:

Los flags modifican el comportamiento de las expresiones regulares. Algunos comunes incluyen:

+ re.IGNORECASE o re.I: Hace que la búsqueda sea insensible a mayúsculas/minúsculas.
+ re.MULTILINE o re.M: Hace que ^ y $ coincidan con el inicio y el final de cada línea.

In [14]:
texto = "Hello world\nhello Python"
coincidencias = re.findall(r'^hello', texto, re.I | re.M)
print(coincidencias)  # Salida: ['Hello', 'hello']


['Hello', 'hello']
