# Expresiones regulares

In [3]:
import re

texto = 'En esta cadena se encuentra una palabra magica'

# re.search() Buscar un patron
# No devuelve True o False. Es un objeto que existe o es None
re.search('magica', texto)

<re.Match object; span=(40, 46), match='magica'>

In [4]:
re.search('hola', texto)

In [5]:
palabra = 'magica'
encontrado = re.search(palabra, texto)

In [6]:
if encontrado is not None:
    print('Se ha encontrado la palabra')
else:
    print('No se ha encontrado la palabra')

Se ha encontrado la palabra


In [7]:
encontrado.start() # Posicion en donde empieza la coincidencia

40

In [8]:
encontrado.end()# Posicion en donde termina la coincidencia

46

In [9]:
encontrado.span() # Devuelve una tupla con el inicio y fin del patron

(40, 46)

In [10]:
encontrado.string # Devuelve la cadena de donde proviene

'En esta cadena se encuentra una palabra magica'

In [11]:
# re.match() Buscar un patron al principio de otra cadena
texto = 'Hola mundo'
re.match('Hola', texto)

<re.Match object; span=(0, 4), match='Hola'>

In [12]:
# re.split() Dividir una cadena

re.split(' ', texto) 

['Hola', 'mundo']

In [13]:
# re.sub() Sustituye todas las coincidencias en una cadena
texto = 'Hola amigo'
re.sub('amigo','amiga', texto)

'Hola amiga'

In [14]:
# re.findall() Buscar todas las coincidencias en una cadena
texto = "Hola adios Hola Hola"

re.findall('Hola', texto)

['Hola', 'Hola', 'Hola']

In [15]:
len(re.findall('Hola', texto))

3

In [16]:
len(re.findall('a', texto))

4

In [17]:
texto = "Hola adios Hello bye"

re.findall('(Hola | Hello)', texto)

['Hola ', ' Hello']

In [18]:
# Patrones con sintaxis repetida

texto = 'hla hola hoola hooola hooooooola'

def buscar(patrones, texto):
    for patron in patrones:
        print(re.findall(patron, texto))

patrones = ['hla', 'hola', 'hoola']

buscar(patrones, texto)

['hla']
['hola']
['hoola']


In [19]:
texto = 'hla hola hoola hooola hooooooola'

# Meta-caracter *
# Ninguna o mas repeticiones de la letra a su izquierda

patrones = ['ho', 'ho*la'] #Buscamos ninguna o mas o's
buscar(patrones, texto)

['ho', 'ho', 'ho', 'ho']
['hla', 'hola', 'hoola', 'hooola', 'hooooooola']


In [20]:
# Meta-caracter +
# Una o mas repeticiones de la letra a su izquierda

texto = 'hla hola hoola hooola hooooooola'
patrones = ['ho*la', 'ho+la'] #Buscamos una o mas o's

buscar(patrones, texto)

['hla', 'hola', 'hoola', 'hooola', 'hooooooola']
['hola', 'hoola', 'hooola', 'hooooooola']


In [21]:
# Meta-caracter ?
# Una o ninguna repeticion de la letra a su izquierda

texto = 'hla hola hoola hooola hooooooola'
patrones = ['ho?la'] #Buscamos una ninguna  o

buscar(patrones, texto)

['hla', 'hola']


In [22]:
# Sintaxis con {n}. Indica un numero de repeticiones explicito de
# la letra a su izquierda

texto = 'hla hola hoola hooola hooooooola'
patrones = ['ho{0}la', 'ho{3}la']

buscar(patrones, texto)

['hla']
['hooola']


In [23]:
# Sintaxis con un rango {n,m}. Indica un numero de repeticiones 
# explicito de la letra a su izquierda
texto = 'hla hola hoola hooola hooooooola'
patrones = ['ho{0,1}la', 'ho{1,2}la', 'ho{2,10}la']

buscar(patrones, texto)


['hla', 'hola']
['hola', 'hoola']
['hoola', 'hooola', 'hooooooola']


In [26]:
# Conjuntos de caracteres []

texto = 'hala hela hila hola hula'
patrones = ['h[ou]la', 'h[aio]la', 'h[aeiou]la']

buscar(patrones, texto)

['hola', 'hula']
['hala', 'hila', 'hola']
['hala', 'hela', 'hila', 'hola', 'hula']


In [28]:
texto = 'haaaaaaaaaala heeeeela hiiiiiiiiiiiila hooooooooooola hula'
patrones = ['h[ou]la', 'h[aio]{2, 6}la', 'h[aeiou]*la']

buscar(patrones, texto)

['hula']
[]
['haaaaaaaaaala', 'heeeeela', 'hiiiiiiiiiiiila', 'hooooooooooola', 'hula']


In [29]:
# Exclusion en conjunto [^]

texto = 'haaaaaaaaaala heeeeela hiiiiiiiiiiiila hooooooooooola hula'

patrones = ['h[^o]la']

buscar(patrones, texto)

['hula']


In [34]:
# Rangos []
# [A-Z]
# [a-z]
# [A-Za-z]
# [A-z]
# [0-9]
# [a-zA-Z0-9]

texto = 'hola h0la Hola mola m0la M0la'
patrones = ['h[a-z]la', 'h[0-9]la', '[A-z]{4}', '[A-Z][A-z0-9]{3}']

buscar(patrones, texto)

['hola']
['h0la']
['hola', 'Hola', 'mola']
['Hola', 'M0la']


In [46]:
# Caracteres escapados
# \d numerico
# \D no numerico
# \s espacio en blanco
# \S no espacio en blanco
# \w alfanumerico
# \W no alfanumerico

texto = 'Este curso de Python 3 se publico en el 2016'

patrones = [r'\d', r'\d+', r'\D+', r'\s', r'\S', r'\S+',  r'\w+', r'\W',  r'\W+']
buscar(patrones, texto)

['3', '2', '0', '1', '6']
['3', '2016']
['Este curso de Python ', ' se publico en el ']
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']
['E', 's', 't', 'e', 'c', 'u', 'r', 's', 'o', 'd', 'e', 'P', 'y', 't', 'h', 'o', 'n', '3', 's', 'e', 'p', 'u', 'b', 'l', 'i', 'c', 'o', 'e', 'n', 'e', 'l', '2', '0', '1', '6']
['Este', 'curso', 'de', 'Python', '3', 'se', 'publico', 'en', 'el', '2016']
['Este', 'curso', 'de', 'Python', '3', 'se', 'publico', 'en', 'el', '2016']
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']
