# Métodos y funciones adicionales del módulo re

En la primera parte se abordaron los temas de expresiones regulares en Python, y vimos como funcionan estas expresiones con el módulo, todo lo visto allí es facilmente aplicable a otras herramientas y lenguages de programación que empleen expresiones regulares.

Ahora veremos funciones adicionales que nos facilitarán el desarrollo en Python, estas funciones viene con el módulo y aunque es posible que se puedan encontrar en otros lenguajes, no son nativos de regex

## Case-Insensitive Matching

Si queremos buscar una coincidencia de una palabra sin importar si son mayusculas o minusculas, en lugar de crear una expresión que tenga en cuenta todas las posbiles combinaciones podemos pasar el parámetro ``re.IGNORECASE`` o ``re.I``

In [1]:
import re

# como no se debe hacer
regex1 = re.compile('RoboCop')
regex2 = re.compile('ROBOCOP')
regex3 = re.compile('robOcop')
regex4 = re.compile('RobocOp')
# como si se debe hacer
robocop = re.compile(r'robocop', re.I)
print(robocop.search('RoboCop is part man, part machine, all cop.').group())
print(robocop.search('ROBOCOP protects the innocent.').group())
print(robocop.search('Al, why does your programming book talk about robocop so much?').group())

RoboCop
ROBOCOP
robocop


## Substituting Strings with the sub() Method

también con ayuda de las expresiones regulares y el método ``sub()`` podemos reemplazar las coincidencias dentro de un texto con una frase en especifico, este método es sencillo de usar y se puede usar una vez ya se haya compilado la expresión regular

In [2]:
namesRegex = re.compile(r'Agent \w+')
namesRegex.sub('CENSORED', 'Agent Alice gave the secret documents to Agent Bob.')

'CENSORED gave the secret documents to CENSORED.'

> Cabe resaltar que el método ``sub()`` devuelve un nuevo string con los cambios efectuados

También uno de los modos de uso es reemplazar los grupos dentro de la expresión regular generada, y esto se hace con la combinaci;on de strings ``\1``, ``\2``, `\3` y así susesivamente, veamoslo en un ejemplo

In [3]:
agentNamesRegex = re.compile(r'Agent (\w)\w*')
agentNamesRegex.sub(r'\1****', 'Agent Alice told Agent Carol that Agent Eve knew Agent Bob was a double agent.')

'A**** told C**** that E**** knew B**** was a double agent.'

Lo que se esta especificando en el código anterior es que agregue el primer grupo de la coincidencia y después agrege los caracteres ``****`` y el primer grupo es el de la inicial del nombre

## Manejando expresiones regulares complejas

Muchas veces se crean expresiones regulares complejas que son dificiles de leer y que pueden ser tediosas y mas si estas se exeden de los 80 caracteres que segun el zen de python es el maximo limite que deberia tener una línea de código.

supongamos que tenemos el siguiente código

In [4]:
phoneRegex = re.compile(r'((\d{3}|\(\d{3}\))?(\s|-|\.)?\d{3}(\s|-|\.)\d{4} (\s*(ext|x|ext.)\s*\d{2,5})?)')

es un código muy dificil de leer a primera instancia, pero el modulo `re` nos permite organizar nuestra expresión regular en varias líneas sin que se tomen en cuenta los saltos de línea, esto se hace enviando un parametro adicional llamado ``vervose`` y se hace de la siguiente forma

In [5]:
phoneRegex = re.compile(r'''(
    (\d{3}|\(\d{3}\))? # area code
    (\s|-|\.)? # separator
    \d{3} # first 3 digits
    (\s|-|\.) # separator
    \d{4} # last 4 digits
    (\s*(ext|x|ext.)\s*\d{2,5})? # extension
    )''', re.VERBOSE
)

De esta forma es mucho mas amigable y nos permite incluso colocar comentarios como se ahce normalmente en Python sin que estos sean tomados en cuenta, esto nos permite tener una mejor documentación de nuestro código

## Combinación de los parámetros re.IGNORECASE, re.DOTALL y re.VERBOSE

para combinar estos parámetros si llegase a ser necesario estos se deben de enviar con el caracter ``or`` o ``pipe`` (|) como se muestra a continuación


In [6]:
someRegexValue = re.compile('foo', re.IGNORECASE | re.DOTALL)
someRegexValue = re.compile('foo', re.IGNORECASE | re.DOTALL | re.VERBOSE)