# Expresiones Regulares

Para utilizar expresiones regulares utilizamos la librería re

In [12]:
import re

In [30]:
message = "Calle me at 554-593-0921 tomorrow, or at 712-579-2912"

Nota: 'r' antes de un string nos sirve para marcar un string literal, es decir, podemos indicar que se trata de un string en bytes y que no interprete nuestros patrón como whitespace<

Podemos buscar un patrón de número teléfonico con el método findall

In [31]:
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')

In [34]:
match_obj = phoneNumRegex.findall(message)

In [37]:
print(match_obj)

['554-593-0921', '712-579-2912']


o bien un patrón separado por grupos con el método search() donde utilizamos el método group para recuperar los resultados de nuestra búsqueda 

In [38]:
phoneNumRegex2 = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')

In [40]:
match_obj2= phoneNumRegex2.search(message)

In [42]:
print(match_obj2.group())

554-593-0921


In [43]:
print(match_obj2.group(1))

554


In [44]:
print(match_obj2.group(2))

593-0921


Podemos buscar distintas terminaciones de la misma palabra con la siguiente sintaxis

In [45]:
batiRegex = re.compile(r'bati(cueva|móvil|chica)')

In [46]:
match_obj_bati = batiRegex.search("El batimóvil perdió una rueda")

In [47]:
print(match_obj_bati.group())

batimóvil


El signo '?' significa que la expresión agrupada puede aparecer una o cero veces.

In [49]:
pueblaRegex = re.compile(r'Puebla (de los Ángeles)?')

In [51]:
match_obj_puebla = pueblaRegex.search("La hermosa ciudad de Puebla de los Ángeles")

In [52]:
print(match_obj_puebla.group())

Puebla de los Ángeles


In [53]:
match_obj_puebla2 = pueblaRegex.search("La hermosa ciudad de Puebla estaba sienso asediada")

In [54]:
print(match_obj_puebla2.group())

Puebla 


El signo '+' después del paréntesis significa que la expresión agrupada puede aparecer una o más veces

In [64]:
jorgeFalconRegex = re.compile(r'Jo(jo)+rge Falcón')

In [65]:
match_obj_jorgeFalcon = jorgeFalconRegex.search("Mi nombre es Jojojorge Falcón, reír es mi profesión")

In [66]:
print(match_obj_jorgeFalcon.group())

Jojojorge Falcón


El signo '*' sirve para 0 o más

Si queremos especificar un número exacto de veces, por ejemplo, 'jajaja' utilizamos {3} para indicarlo

In [70]:
jaRegex = re.compile(r'(ja){3,10}')

In [74]:
match_obj_ja = jaRegex.search("Y le dije jajaja, no me hagas reír")

In [75]:
match_obj_ja2 = jaRegex.search("Y le dije jajajajajaja, no me hagas reír")

In [76]:
print(match_obj_ja.group())

jajaja


In [77]:
print(match_obj_ja2.group())

jajajajajaja


Podemos buscar entre un grupo de letras con la siguiente sintaxis

In [78]:
vowelRegex = re.compile(r'[aeiouAEIOU]')

In [80]:
match_obj_vowel = vowelRegex.findall("Adoro el ketorolaco")

In [82]:
print(match_obj_vowel)

['A', 'o', 'o', 'e', 'e', 'o', 'o', 'a', 'o']


Si queremos todas aquellos caracteres que no sean vocales lo indicamos con ^ dentro del corchete

In [83]:
notVowelRegex = re.compile(r'[^aeiouAEIOU]')

In [84]:
match_obj_notVowel = notVowelRegex.findall("Adoro el ketorolaco")

In [85]:
print(match_obj_notVowel)

['d', 'r', ' ', 'l', ' ', 'k', 't', 'r', 'l', 'c']


Indicamos con ^ la expresión que nos regresa las strings que comienzan con 'Hello'

In [86]:
startsWithHello = re.compile(r'^Hello')

In [87]:
match_obj_startsHello = startsWithHello.search("Hello World!")

In [88]:
print(match_obj_startsHello.group())

Hello


Mientras que '$' nos indica la terminación de palabra que estamos buscando

In [92]:
endsWithWorld = re.compile(r'World!$')

In [93]:
match_obj_endsWorld = endsWithWorld.search("Hello World!")

In [94]:
print(match_obj_endsWorld.group())

World!


In [96]:
endsWithWorld.search("Hello World! My name is Juan") == None

True

Otro caracter que podemos utilizar es .* para indicar que nos regrese cualquier caracter excepto una línea nueva

In [15]:
noNewlineRegex = re.compile('.*')

In [17]:
match_obj_noNewLine = noNewlineRegex.search('Cuando calienta el sol. \n Aquí en la playa. \n Siento mi cuerpo vibrar \n Cerca de ti')

In [18]:
print(match_obj_noNewLine.group())

Cuando calienta el sol. 


Si quisieramos obtener todas las líneas entonces escribiríamos

In [19]:
noNewlineRegex = re.compile('.*', re.DOTALL)

In [20]:
match_obj_noNewLine = noNewlineRegex.search('Cuando calienta el sol. \n Aquí en la playa. \n Siento mi cuerpo vibrar \n Cerca de ti')

In [21]:
print(match_obj_noNewLine.group())

Cuando calienta el sol. 
 Aquí en la playa. 
 Siento mi cuerpo vibrar 
 Cerca de ti


**Resumen de Símbolos de Regex**
<table>
<tr> 
<td> **Símbolo**</td> <td> **Descripción**</td> 
</tr>
<tr> 
<td> ?</td> <td> Encuentra 0 o más del grupo anterior</td> 
</tr>
<tr> 
<td> *</td> <td> Encuentra 1 o más del grupo anterior</td> 
</tr>
<tr> 
<td> {n}</td> <td> Encuentra exactamente n del grupo anterior</td> 
</tr>
<tr> 
<td> {n,}</td> <td> Encuentra n o más del grupo anterior</td> 
</tr>
<tr> 
<td> {,m}</td> <td> Encuentra entre 0 y m del grupo anterior</td> 
</tr>
<tr> 
<td> {n,m}</td> <td> Encuentra entre n y m del grupo anterior</td> 
</tr>
<tr> 
<td> ^hola </td> <td> El string debe comenzar con hola </td> 
</tr>
<tr> 
<td> hola$ </td> <td> El string debe terminar con hola</td> 
</tr>
<tr> 
<td> .</td> <td> Encuentra cualquier caracter excepto nuevas líneas \n</td> 
</tr>
<tr> 
<td> \d \w \s </td> <td> Encuentra digitos, palabras o espacios, respectivamente</td> 
</tr>
<tr> 
<td> \D \W \S </td> <td> Encuentra todo excepto digitos, palabras o espacios, respectivamente</td> 
</tr>
<tr> 
<td> [abc] </td> <td> Encuentra cualquier caracter dentro de los corchetes (a ó b ó c)</td> 
</tr>
<tr> 
<td> [^abc] </td> <td> Encuentra cualquier caracter que no esté dentro de los corchetes (que no sea a ó b ó c)</td> 
</tr>
</table>