In [1]:
import re

Patrón de solo letras

In [2]:
pat = re.compile('[a-zA-Z]+')

Encontrar las letras en la cadena

In [3]:
pat.findall('123abc345cd3fg1d3f4k6l0z1$')

['abc', 'cd', 'fg', 'd', 'f', 'k', 'l', 'z']

Convertir las letras detectadas en mayúsculas

In [4]:
pat.sub(lambda x: x.group().upper(), '123abc345cd3fg1d3f4k6l0z1$')

'123ABC345CD3FG1D3F4K6L0Z1$'

Detectar una palabra exacta

In [5]:
pat = re.compile('hola')

In [6]:
pat.search('holaHOLAhOlahola')

<re.Match object; span=(0, 4), match='hola'>

Encontrar todas las ocurrencias

In [7]:
pat.findall('holaHOLAhOlahola')

['hola', 'hola']

Ignorar las mayúsculas o minúsculas

In [8]:
pat = re.compile('hola', re.IGNORECASE)

In [9]:
pat.search('holaHOLAhOlahola')

<re.Match object; span=(0, 4), match='hola'>

In [10]:
pat.findall('holaHOLAhOlahola', re.IGNORECASE)

['HOLA', 'hOla', 'hola']

Otra manera de conseguir el mismo efecto sin emplear la opción `IGNORECASE`

In [11]:
pat = re.compile('(?i)hola')

In [12]:
pat.findall('holaHOLAhOlahola')

['hola', 'HOLA', 'hOla', 'hola']

Note que se emplea una combinación especial: `(?i)` para indicar que pueden ser mayúsculas o minúsculas. Otras secuencias especiales son las siguientes:

* El símbolo `^` indica el inicio del patrón. Si no se utiliza el patrónp odría estar en cualquier lugar de la cadena.
* Para detectar mayúsculas empleamos `[A-Z]`.
* El símbolo `+` indica que lo indicado anteriormente debe ocurrir, al menos, una vez.
* El `$` indica el final de la cadena.

Ejemplo:

Un patrón de cadenas que empiezan y terminan con mayúsculas:

In [13]:
pat = re.compile('^[A-Z]+$')

In [14]:
pat.search('Hola mundo')

In [15]:
pat.search('HOLA MUNDO')

In [16]:
pat.search('HOLAMUNDO')

<re.Match object; span=(0, 9), match='HOLAMUNDO'>

El espacio no ayuda. ¿Qué se puede hacer para incorporar el espacio en el patrón? Se emplea el patrón \s

In [17]:
pat = re.compile('^[A-Z\s]+$')

In [18]:
pat.search('Hola mundo')

In [19]:
pat.search('HOLA MUNDO')

<re.Match object; span=(0, 10), match='HOLA MUNDO'>

In [20]:
pat.search('HOLAMUNDO')

<re.Match object; span=(0, 9), match='HOLAMUNDO'>

¿Y si se desea capturar tanto mayúsculas como minúsculas?

In [21]:
pat = re.compile('^[a-zA-Z\s]+$')

In [22]:
pat = re.compile('(?i)^[a-z\s]+$')

In [23]:
pat.search('Hola mundo')

<re.Match object; span=(0, 10), match='Hola mundo'>

In [24]:
pat.search('HOLA MUNDO')

<re.Match object; span=(0, 10), match='HOLA MUNDO'>

In [25]:
pat.search('HOLAMUNDOo')

<re.Match object; span=(0, 10), match='HOLAMUNDOo'>

Imagine con patrón con las siguientes características:

* Empieza tres letras minúsculas
* Entre tres y cinco dígitos
* Un símbolo
* Termina opcionalmente con hasta dos letras mayúsculas

In [26]:
pat = re.compile('^[a-z]{3}[0-9]{3,5}[^a-zA-Z0-9]{1}[A-Z]{0,2}$')

In [27]:
import random 
def crear_patron():
    minusculas = 'abcdefghijklmnopqrstuvwxyz'
    mayusculas = minusculas.upper()
    nums = ''.join([str(i) for i in range(10)])
    simbolos = '!"#$%&/()=?¿¡.+}{[]|¬°'
    subpatmins = random.sample(minusculas,3)
    subpatnums = [random.sample(nums, 3), random.sample(nums, 4), random.sample(nums, 5)][random.randint(0,2)]
    subpatmayus = [[''], random.sample(mayusculas, 1), random.sample(mayusculas, 2)][random.randint(0,2)]
    return ''.join(subpatmins + subpatnums + random.sample(simbolos, 1) + subpatmayus)

In [28]:
patrones = [crear_patron() for _ in range(5)]
patrones

['lcz807$YB', 'nqm60891+', 'mgs2583+I', 'lwm6392/B', 'eso28374{']

In [29]:
patrones.append('abcd123456/')

In [30]:
[pat.search(patron) for patron in patrones]

[<re.Match object; span=(0, 9), match='lcz807$YB'>,
 <re.Match object; span=(0, 9), match='nqm60891+'>,
 <re.Match object; span=(0, 9), match='mgs2583+I'>,
 <re.Match object; span=(0, 9), match='lwm6392/B'>,
 <re.Match object; span=(0, 9), match='eso28374{'>,
 None]

Detectar cadenas de texto con una longitud específica al margen del contenido de la cadena, sin emplear la función `len`.

In [31]:
def crear_cadena():
    minusculas = 'abcdefghijklmnopqrstuvwxyz'
    mayusculas = minusculas.upper()
    nums = ''.join([str(i) for i in range(10)])
    simbolos = '!"#$%&/()=?¿¡. +}{[]|¬°'
    return ''.join(random.sample(minusculas+mayusculas+nums+simbolos,10))

In [32]:
crear_cadena()

'?DUE8=XiYk'

In [33]:
patrones = [crear_cadena() for _ in range(5)]
patrones

['b]&¿8HN(eI', 's03dxM8EVC', 'uLvNa7z4dD', '6$¡(EJ/gWn', '98XD0$ksp(']

In [34]:
patrones.append('123456789aeiou')

In [35]:
pat = re.compile('^.{10}$')

In [36]:
[pat.search(patron) for patron in patrones]

[<re.Match object; span=(0, 10), match='b]&¿8HN(eI'>,
 <re.Match object; span=(0, 10), match='s03dxM8EVC'>,
 <re.Match object; span=(0, 10), match='uLvNa7z4dD'>,
 <re.Match object; span=(0, 10), match='6$¡(EJ/gWn'>,
 <re.Match object; span=(0, 10), match='98XD0$ksp('>,
 None]

Detectar correos electrónicos de la forma caracteres@dominio.com

In [37]:
pat = re.compile('^[a-zA-Z0-9\._]+@{1}[a-zA-Z]+\.com$')

In [38]:
def crear_correo():
    minusculas = 'abcdefghijklmnopqrstuvwxyz'
    mayusculas = minusculas.upper()
    simbolos = '._'
    user = random.sample(minusculas+mayusculas+simbolos, random.randint(5,10))
    domain = random.sample(minusculas+mayusculas, random.randint(5,10))
    return ''.join(user + ['@'] + domain + ['.com'])

In [39]:
correos = [crear_correo() for _ in range(5)]
correos

['MNRApfXoE@ITGSlRFPd.com',
 'oUiBA@ODgCAJQ.com',
 'rmNeLs@zeEniUuSq.com',
 'FSJQZKgtO@GPMBbzt.com',
 'MLXzuv_@OoYhu.com']

In [40]:
correos.append('compa.causa@pucp.edu.pe')

In [41]:
correos

['MNRApfXoE@ITGSlRFPd.com',
 'oUiBA@ODgCAJQ.com',
 'rmNeLs@zeEniUuSq.com',
 'FSJQZKgtO@GPMBbzt.com',
 'MLXzuv_@OoYhu.com',
 'compa.causa@pucp.edu.pe']

In [42]:
[pat.search(correo) for correo in correos]

[<re.Match object; span=(0, 23), match='MNRApfXoE@ITGSlRFPd.com'>,
 <re.Match object; span=(0, 17), match='oUiBA@ODgCAJQ.com'>,
 <re.Match object; span=(0, 20), match='rmNeLs@zeEniUuSq.com'>,
 <re.Match object; span=(0, 21), match='FSJQZKgtO@GPMBbzt.com'>,
 <re.Match object; span=(0, 17), match='MLXzuv_@OoYhu.com'>,
 None]