In [5]:
#Las expresiones regulares permiten localizar y modificar strings de forma muy poderosa
#Trabajan casi exactamente de la misma manera en cada lenguaje de programacion

#Las Expresiones Regulares (Regex) se usan para:
#1. Buscar un string especifico en una gran cantidad de informacion
#2. Verificar que un string tiene el formato correcto (Email, telefono)
#3. Encontrar un string y reemplazarlo por otro
#4. Formatear datos en el formato correcto para, por ejemplo, importar

#importar el modulo Regex
import re

#------------ Encontrar una coincidencia -------------

#Buscar un mono en el string
if re.search("mono", "El mono estaba con los monos"):
    print("Hay un mono")


Hay un mono


In [6]:
#------------ Encontrar todas las coincidencias -------------
import re

#findall() devuelve una lista de coincidencias
# el . es usado para matchear cada 1 caracter o espacio 

todosLosMonos = re.findall("mono.", "El mono estaba con los monos")
for i in todosLosMonos:
    print(i)

mono 
monos


In [9]:
#finditer devuelve un iterador de los objetos coincidentes
#se puede usar span para obtener la locacion

elStr = "El mono estaba con los monos"

for i in re.finditer("mono.",elStr):
    
    #Span devuelve una tupla
    locTupla = i.span()
    
    print(locTupla)
    
    #Segmentar la coincidencia con los valores de la tupla
    print(elStr[locTupla[0]:locTupla[1]])

(3, 8)
mono 
(23, 28)
monos


In [12]:
import re
#---------------- Coincidir una de varias letras -----------------

#Los corchetes coincidirán cualquiera de los caracteres que contienen
#sin incluir variaciones mayucuslas y minusculas
#a no ser que esten listadas

animalStr = "Cat rat mat fat pat"

todosLosAnimales = re.findall("[crmfp]at", animalStr)  #probar cambiando c por C
for i in todosLosAnimales:
    print(i)

print()

rat
mat
fat
pat



In [13]:
#Tambien podemos buscar por caracteres en un rango
#Incluir mayusculas y minusculas

animalStr = "Cat rat mat fat pat"
algunosAnimales = re.findall("[c-mC-M]at", animalStr)

#esto se lee asi: el rango 1 es de 'c' a 'm' y el rango 2 es de 'C' a 'M'
#pat no esta incluido xq la 'p' queda afuera del rango

for i in algunosAnimales:
    print(i)
print()

Cat
mat
fat



In [14]:
#Usar ^ para omitir caracteres entre corchetes

animalStr = "Cat rat mat fat pat"
algunosAnimales = re.findall("[^Cr]at", animalStr) #omito los que comienzan con 'C' y 'r'

for i in algunosAnimales:
    print(i)
print()

mat
fat
pat



In [1]:
#----------- Reemplazar todas las coincidencias ----------------

#Reemplazar items coincidentes en un string

import re

owlComida = "rat cat mat pat"

#Se puede compilar un regex en objetos de patrones, el cual provee metodos adicionales

regex = re.compile("[cr]at")

#sub() reemplaza items que coinciden con el regex en el string con el string definido en el 1er atributo
owlComida = regex.sub("owl", owlComida)
print(owlComida)

owl owl mat pat


In [3]:
#----------- Resolver problemas de barra invertida (\\) ----------------

#Regex usa las barras invertidas para designar caracteres especiales
#pero python hace lo mismo dentro de los strings, lo que puede causar problemas

#Intentemos obtener "\\algo" del string
import re
randStr = "Aca hay \\algo"

#Esto no lo encontraría:
print("Encuentra \\algo: ",re.search("\\algo", randStr))

#Esto si, pero hay que ponerlo con 4 barras, lo cual es un desprolijo:
print("Encuentra \\algo: ",re.search("\\\\algo", randStr))

#Se puede resolver usando raw strings, que no tratan a la barras como algo especial:
print("Encuentra \\algo: ",re.search(r"\\algo", randStr))

Encuentra \algo:  None
Encuentra \algo:  <re.Match object; span=(8, 13), match='\\algo'>
Encuentra \algo:  <re.Match object; span=(8, 13), match='\\algo'>


In [10]:
##----------- Coincidir cualquier caracter ------------------

#Ya vimos que con . coincidimos cualquier caracter, pero qué si queremos coincidir un punto?
#Usamos \.
#Se hace lo mismo con [, ] y otros

import re

randStr = "F.B.I. I.R.S. CIA"

print("Coincidencias: ", len(re.findall(".\..\..", randStr)))  #Es decir que . = cualquier caracter, y
print("Coincidencias: ", re.findall(".\..\..", randStr))       # \. = puntos
print("Coincidencias: ", re.findall(".\..\..\.", randStr))     # Aca se imprimen con los 3 puntos

Coincidencias:  2
Coincidencias:  ['F.B.I', 'I.R.S']
Coincidencias:  ['F.B.I.', 'I.R.S.']


In [11]:
##----------- Coincidir espacios en blanco ------------------
import re

randStr = """Este es un
string muy largo que
utiliza varias lineas"""

print(randStr)

#Remover saltos de linea
regex = re.compile("\n")

randStr = regex.sub(" ", randStr)
print(randStr)


Este es un
string muy largo que
utiliza varias lineas
Este es un string muy largo que utiliza varias lineas


In [None]:
#Tambien se puede coincidir:
# \b : backspace
# \f : Form Feed
# \r : Carriage Return
# \t : Tab
# \v : Vertical Tab

#Quizas debas remover \r\n en Windows

In [15]:
##----------- Coincidir cualquier numero ------------------
# \d se puede usar en vez de [0-9]
# \D es lo mismo para [^0-9]

import re

randStr = "123as4 5"

print("Coincidencias: ", len(re.findall("\d", randStr)))
print("Coincidencias: ", re.findall("\d", randStr))

Coincidencias:  5
Coincidencias:  ['1', '2', '3', '4', '5']


In [18]:
##----------- Coincidir multiples numeros ------------------
# Se puede hacer poniendo despues de la \d {numOfValues}

import re

#Coincidir solamente 5 numeros
if re.search("\d{5}", "12345"):
    print("Este es un codigo postal")

#Se puede coincidir dentro de un rango
#Coincidir valores que esten entre 5 y 7 digitos

numStr = "123 12345 123456 1234567"
print("Coincidencias: ", len(re.findall("\d{5,7}", numStr)))
print("Coincidencias: ", re.findall("\d{5,7}", numStr))


Este es un codigo postal
Coincidencias:  3
Coincidencias:  ['12345', '123456', '1234567']


In [20]:
##----------- Coincidir cualquier letra o numero ------------------
# \w es lo mismo que [a-zA-Z0-9]
# \W es lo mismo que [^a-zA-Z0-9_]

import re

numTel = "412-555-1212"
nombre = "Jorge"

#Chequear que sea un telefono valido
if re.search("\w{3}-\w{3}-\w{4}", numTel):
    print("Es un telefono valido")

#Chequear si el nombre es valido, entre 2 y 20 caracteres
if re.search("\w{2,20}", nombre):
    print("Es un nombre valido")

Es un telefono valido
Es un nombre valido


In [21]:
##----------- Coincidir espacios en blanco ------------------
# \s es lo mismo que [\f\n\r\t\v]
# \S es lo mismo que [^\f\n\r\t\v]

#Chequear que el nombre y apellido sean validos con un espacio en blanco que los separe

import re
nombreCompleto = "Ernestina Arias"

if re.search("\w{2,20}\s\w{2,20}", nombreCompleto):
    print("El nombre es completo")

El nombre es completo


In [22]:
##----------- Coincidir uno o mas ------------------
# '+' coincide uno o mas caracteres

import re
randStr = "a alamo abrazo conejo"

#Coincidir 'a' seguida de uno o mas caracteres
print("Coincidencias: ", len(re.findall("a+", "a as ape bug")))
print("Coincidencias: ", re.findall("a+", "a as ape bug"))

Coincidencias:  3
Coincidencias:  ['a', 'a', 'a']


In [2]:
##----------- Ejercicio ------------------
#Crear un Regex que coincida direcciones de email de una lista
# 1. 1 a 20 letras (minusculas y mayusculas), numeros, mas ._%+-
# 2. Un simbolo @
# 3. 2 a 20 letras (minusculas y mayusculas), numeros, mas .-
# 4. Un punto
# 5. 2 a 3 letras (minusculas y mayusculas)

import re

emailLista = "db@aol.com m@.com @apple.com db@.com"  #Solo la primera es valida

print("Cantidad de emails correctos: ",len(re.findall("[\w._%+-]{1,20}@[\w.-]{2,20}.[\w]{2,3}",emailLista)))
print("Emails correctos: ",re.findall("[\w._%+-]{1,20}@[\w.-]{2,20}.[\w]{2,3}",emailLista))




Cantidad de emails correctos:  1
Emails correctos:  ['db@aol.com']
