# Expresiones regulares

Las expresiones regulares son un método de busqueda optimizado para encontrar patrones dentro de las cadenas de caracter, es suma mente potente para encontrar coincidencias de elementos que sabes su estructura pero no los valores exactos.

Aunque las espresiones regulares, también llamado ``regex`` no son solo aplicables a la programación estas brindan una muy potente herramienta a la hora de filtar o extraer datos de cadenas de caracter, para empezar a usarlo en ``Python`` debemos de usar el módulo ``re`` que viene con la instalación de ``Python``

Supongamos que queremos extraer un número telefónico, pero antes de empezar vamos a hacer elcódigo como si fura un script que lo busca a través de métodos de Strings.

El número que queremos encontrar va a tener la siguiente estructrua: **415-555-4242**

In [5]:
def isPhoneNumber(text):
    if len(text) != 12:
        return False
    for i in range(0, 3):
        if not text[i].isdecimal():
            return False
    if text[3] != '-':
        return False
    for i in range(4, 7):
        if not text[i].isdecimal():
            return False
    if text[7] != '-':
        return False
    for i in range(8, 12):
        if not text[i].isdecimal():
            return False
    return True

En el anterior código estamos busca una coincidencia dentro de una cadena de caracteres que vaya cumpliendo con la estructura que habiamos definido, ahora podemos probarlo

In [6]:
print('415-555-4242 is a phone number:')
print(isPhoneNumber('415-555-4242'))
print('Moshi moshi is a phone number:')
print(isPhoneNumber('Moshi moshi'))

415-555-4242 is a phone number:
True
Moshi moshi is a phone number:
False


Sin embargo tenemos un código bastante largo para la simple tarea de extraer un número y aún así tenemos el problema de que sucedería si el numero que nos envían tiene la siguiente estructura **(415)-555-4242**, nuestro código no lo encontraría porque no esta dentro de las validaciones del código que tenemos, aqui es donde entra la potencia de las expresiones regulares.

``regex`` nos permite obtener información según patrones que nosotros definamos, estos patrones estan definidos por una sintaxis bien planteada y que empezaremos a abordar.

In [7]:
import re

regex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
om = regex.search('this 415-555-4242 is a phone number?')
om.group()

'415-555-4242'

en primera instancia con este código lo que hicimos fue crear una expresión regular que se va a aplicar a las cadenas de caracter que enviemos a nuestro modelo compilado, en este caso la frase **"this 415-555-4242 is a phone number?"**

> Fíjate que la expresión regular encontro el número dentro del string completo, no toco pasarlo como parámetro filtrado

la expresión regex **'\d\d\d-\d\d\d-\d\d\d\d'** lo que esta diciendo es que busca tres caracteres numericos (0-9) seguido de un guion (-) y luego otros 3 caracteres númericos junto a otro guión y finalmente otros 4 caracteres numericos.

sin embargo asi se ve un poco mas tediosa la expresión, afortunadamente ``regex`` nos permite simplificar y facilitar el entendimiento de las expresiones, con el caracte ``{}`` nos permite defnir la cantidad de elementos que queremos buscar en la coincidencia

- podemos definir una cantidad en especifico ``{1}``, ``{3}``
- podemos definir un rango ``{3,5}`` ``{min, max}``
- podemos definir un limite minimo o maximo y que el otro extremo sea variable
  - ``{, max}``: encontrar 0 o max coincidencias
  - ``{min, }``: encontrar min o inf coincidencias

veamoslo en funcionamiento

In [8]:
regex = re.compile(r'\d{3}-\d{3}-\d{4}')
om = regex.search('this 415-555-4242 is a phone number?')
om.group()

'415-555-4242'

In [16]:
regex = re.compile(r'a{3,5}')
om = regex.search('aa')
print(om)
om = regex.search('aaaa')
print(om)


None
<re.Match object; span=(0, 4), match='aaaa'>


También podemos agrupar elementos para realizar busquedas de agrupamientos de caracteres, por ejemplo que quisieramos buscar las palabras que empiezan con ``Bat`` como Batimovil, Baticinturon, etc.

# Acceso rapido a Caracteres 

Antes de mostrar los grupos vamos a ver las demas opciones que nos ofrece regex similares a ``\d``

![caracteres especiales regex](./images/img1.png)

Ahora si para agrupar los elementos usaremos los ``()`` lo cual ademas de permitirnos definir los patrones de ese grupos, al momento de extraer datos también podemos manejarlo por grupos y accder a cada grupo dentro de nuestra expresión

In [27]:
regex = re.compile(r'Bat(man|mobile|copter|bat)')
om = regex.findall('Batman, batman, Batmobile, Batbat')
om


['man', 'mobile', 'bat']

> fíjate que para esta expresión usamos el método ``findall`` que nos permite buscar todas las coincidencias de la expresión y no solo la primera como lo define ``search``

# Agrupamiento

En esta expresión podemos ver dos nuevos comportamientos de las ``regex``

1. el pipe ``|`` que es analogo a la condicional ``or`` de logica booleana, es decir que buscara esta coincidencia Ó la otra.
2. el agrupamiento `()` el cual nos ayuda a definir que buscaremos dentro de las cadenas de catacteres.

muchas veces los caracteres especiales como ``\d`` y ``\w`` no cumplen con nuestros requisitos de buscar elementos dentro de una expresión regular, supongamos que queremos buscar solo las vocales dentro de nuesto string, esto se define con los ``[]`` dentro de los cuales podremos definir los caracteres que buscamos

In [29]:
vowelRegex = re.compile(r'[aeiouAEIOU]')
vowelRegex.findall('RoboCop eats baby food. BABY FOOD.')

['o', 'o', 'o', 'e', 'a', 'a', 'o', 'o', 'A', 'O', 'O']

la sentencia ``regex`` creada esta definiendo que busque las vocales, tanto mayusculas como minusculas

otros wildcards que nos ofrece ``regex`` son los de coincidencias, que nos permiten selecionar definir si queremos o no encontrar una coincidencia de elementos en nuestros grupos o caracteres, aunque muchos de estos se pueden hacer con ``{}``, a veces es mas facil usar estos wildcards

# wildcards

- ``*`` cero o mas coincidencias
- ``+`` una o mas coincidencia
- ``?`` cero o una coincidencia

In [36]:
# uso de ?
phoneRegex = re.compile(r'(\d\d\d-)?\d\d\d-\d\d\d\d')
mo1 = phoneRegex.search('My number is 415-555-4242')
print('mo1:', mo1.group())
mo2 = phoneRegex.search('My number is 555-4242')
print('mo2:', mo2.group())

mo1: 415-555-4242
mo2: 555-4242


In [33]:
# uso de *
batRegex = re.compile(r'Bat(wo)*man')
mo1 = batRegex.search('The Adventures of Batman')
print('mo1:', mo1.group())
mo2 = batRegex.search('The Adventures of Batwoman')
print('mo2:', mo2.group())
mo3 = batRegex.search('The Adventures of Batwowowowoman')
print('mo3:', mo3.group())

mo1: Batman
mo2: Batwoman
mo3: Batwowowowoman


In [35]:
# uso de +
batRegex = re.compile(r'Bat(wo)+man')
mo1 = batRegex.search('The Adventures of Batwoman')
print('mo1:', mo1.group())
mo2 = batRegex.search('The Adventures of Batwowowowoman')
print('mo2:', mo2.group())
mo3 = batRegex.search('The Adventures of Batman')
print('mo3:', mo3 == None)

mo1: Batwoman
mo2: Batwowowowoman
mo3: True


# Caret and Dollar Sign Characters

el caret ``^`` nos permite definir coincidencias solo que esten desde el inicio de la cadena de caracter estudiada, y de manera analoga el caracter ``$`` nos permite buscar coincidencia que esten al final de nuestra cadena

In [38]:
beginsWithHello = re.compile(r'^Hello')
print('result:', beginsWithHello.search('Hello world!'))
print('result:', beginsWithHello.search('He said hello.') == None)

endsWithNumber = re.compile(r'\d$')
print('result:', endsWithNumber.search('Your number is 42'))
print('result:', endsWithNumber.search('Your number is forty two.') == None)

wholeStringIsNum = re.compile(r'^\d+$')
print('result:', wholeStringIsNum.search('1234567890'))
print('result:', wholeStringIsNum.search('12345xyz67890') == None)
print('result:', wholeStringIsNum.search('12 34567890') == None)

result: <re.Match object; span=(0, 5), match='Hello'>
result: True
result: <re.Match object; span=(16, 17), match='2'>
result: True
result: <re.Match object; span=(0, 10), match='1234567890'>
result: True
result: True


por último vamos a ver un ultimo wildcard que nos permite capturar todos los tipos de caracteres, este es el . y puede ser usado en combinación con los otros wildcards para obtener mayor funcionalidad

- ``.`` obtener todos los caracteres excepto el salto le línea
- ``.*`` obtener todo en su mayor coincidencia
- ``.*?`` obtener todo en su menor coincidencia

In [41]:
# uso de .
atRegex = re.compile(r'.at')
print('uso de .', atRegex.findall('The cat in the hat sat on the flat mat.'))

# uso de .*
nameRegex = re.compile(r'First Name: (.*) Last Name: (.*)')
mo = nameRegex.search('First Name: Al Last Name: Sweigart')
print('uso de .*', mo.group(1))
print('uso de .*', mo.group(2))

# uso de .*?
greedyRegex = re.compile(r'<.*>')
mo = greedyRegex.search('<To serve man> for dinner.>')
print('uso de .*', mo.group())
nongreedyRegex = re.compile(r'<.*?>')
mo = nongreedyRegex.search('<To serve man> for dinner.>')
print('uso de .*?', mo.group())

uso de . ['cat', 'hat', 'sat', 'lat', 'mat']
uso de .* Al
uso de .* Sweigart
uso de .* <To serve man> for dinner.>
uso de .*? <To serve man>


Resumen de las expresiones regulares que hemos visto hasta el momento

![expresiones regulares](./images/img2.png)