# Expresiones regulares

In [2]:
import re

texto = "En esta cadena se encuentra una palabra mágica"

re.search("mágica", texto) # el resultado es un objeto Match

<re.Match object; span=(40, 46), match='mágica'>

In [3]:
encontrado = re.search("mágica", texto)

if encontrado is not None:
    print("Se ha encontrado la palabra")

Se ha encontrado la palabra


In [4]:
# Buscar un patrón en una cadena

encontrado.start() # Regresa la posicion donde se encuentra la coincidencia

40

In [5]:
encontrado.end() # Regresa donde acaba la palabra buscada

46

In [7]:
encontrado.span() # Regresa el inicio y fin en una tupla

(40, 46)

In [8]:
encontrado.string

'En esta cadena se encuentra una palabra mágica'

In [4]:
# Busca un patron al PRINCIPIO de otra cadena
texto = "Hola mundo"
re.match("Hola", texto)

<re.Match object; span=(0, 4), match='Hola'>

In [7]:
re.match("ola", texto) # No regresda nada si no se encuentra la palabra al inicio de la cadena

In [8]:
texto = "Vamos a dividir esta cadena"
re.split(' ', texto) # Permite separar las palabras a partir de un patrón, en este caso el espacio

['Vamos', 'a', 'dividir', 'esta', 'cadena']

In [10]:
texto = "Hola amigo"
re.sub("amigo", "amigx", texto)

'Hola amigx'

In [11]:
texto = "hola adios hola hola"
re.findall("hola", texto) # Busca todas las coincidencias en una cadena

['hola', 'hola', 'hola']

In [13]:
len(re.findall("a", texto))

4

In [15]:
texto = "hola adios hello bye, hola, hola, hello"

re.findall("hola|hello", texto) # Se pueden buscar varias palabras usando el pipe

['hola', 'hello', 'hola', 'hola', 'hello']

In [17]:
texto = "hla hola hoola hooola hooooooola"

re.findall("hola", texto)

['hola']

In [18]:
def buscar(patrones, texto):
    for patron in patrones:
        print(re.findall(patron, texto))

patrones = ["hla", "hola", "hoola"]
buscar(patrones, texto)

['hla']
['hola']
['hoola']


In [22]:
# meta-caracter: Ninguna o mas repeticiones de la letra a su izquierda ho*la - significa ninguna o mas o's

texto = "hla hola hoola hooola hooooooola"

patrones= ['ho', 'ho*', 'ho*la', 'hu*la']

buscar(patrones, texto)


['ho', 'ho', 'ho', 'ho']
['h', 'ho', 'hoo', 'hooo', 'hooooooo']
['hla', 'hola', 'hoola', 'hooola', 'hooooooola']
['hla']


In [24]:
# MEta-caracter +, busca UNA o MAS repeticiones
texto = "hla hola hoola hooola hooooooola"

patrones= ['ho', 'ho+']

buscar(patrones, texto)

['ho', 'ho', 'ho', 'ho']
['ho', 'hoo', 'hooo', 'hooooooo']


In [26]:
# MEta-caracter ?: Sirve para encontrar UNA o NINGUNA repeticion de la letra a su izquierda
texto = "hla hola hoola hooola hooooooola"

patrones= ['ho', 'ho+', 'ho?', 'ho?la']

buscar(patrones, texto)

['ho', 'ho', 'ho', 'ho']
['ho', 'hoo', 'hooo', 'hooooooo']
['h', 'ho', 'ho', 'ho', 'ho']
['hla', 'hola']


In [29]:
# Sintaxis con {n} indica un numero de repeticiones explicito de la letra a su izquierda
texto = "hla hola hoola hooola hooooooola"

patrones= ['ho{7}la', 'ho{3}la']

buscar(patrones, texto)

['hooooooola']
['hooola']


In [32]:
texto = "hla hola hoola hooola hooooooola"

patrones= ['ho{0,1}la', 'ho{1,2}la', 'ho{2,10}la']

buscar(patrones, texto)

['hla', 'hola']
['hola', 'hoola']
['hoola', 'hooola', 'hooooooola']


In [34]:
# Conjunto de caracteres

texto = "hala hela hila hola hula"
patrones = ['h[ou]la', 'h[aeiou]la']
buscar(patrones,texto)

['hola', 'hula']
['hala', 'hela', 'hila', 'hola', 'hula']


In [35]:

texto = "hala heeela hiiiila hooooola hula"
patrones = ['h[ou]la', 'h[aeiou]la']
buscar(patrones,texto)

['hula']
['hala', 'hula']


In [37]:
patrones = ['h[ae]la', 'h[ae]*la', 'h[io]{3,9}la']
buscar(patrones,texto)

['hala']
['hala', 'heeela']
['hiiiila', 'hooooola']


In [41]:
# Exclusion en conjunto [^] para busquedas contrarias
texto = "hala hela hila hola hula"
patrones = ['h[o]la', 'h[^o]la'] # Busca todas las letras excepto la O
buscar(patrones,texto)

['hola']
['hala', 'hela', 'hila', 'hula']


In [50]:
# Rangos
texto = "hola h0la Hola mola m0la M0la AAsA BdsD"
patrones = ['h[a-z]la', 'h[0-9]la', '[A-z]{4}']

buscar(patrones, texto)

['hola']
['h0la']
['hola', 'Hola', 'mola', 'AAsA', 'BdsD']


In [53]:
# Rangos
texto = "hola h0la Hola mola m0la M0la AAsA BdsD"
patrones = ['[A-Z][A-z0-9]{3}']

buscar(patrones, texto)

['Hola', 'M0la', 'AAsA', 'BdsD']


In [55]:
# Caracteres escapados
'''
\d numerico
\D no numerico
\s espacio
\S no espacio en blanco
\w alfanumerico
\W no alfanumerico

ES NECESARIO INDICAR LA LETRA r PARA INDICAR QUE ES UN TEXTO EN CRUDO (RAW):
'''

texto = "Este curso de python 3 se publicó en el año 2016"

patrones = [r'\d'] # Encuentra los valores numericos

buscar(patrones, texto)

['3', '2', '0', '1', '6']


In [56]:

texto = "Este curso de python 3 se publicó en el año 2016"

patrones = [r'\d+'] # Encuentra los valores numericos que se repita 1 o MAS VECES

buscar(patrones, texto)

['3', '2016']


In [57]:
texto = "Este curso de python 3 se publicó en el año 2016"

patrones = [r'\D'] # Encuentra los valores no numericos

buscar(patrones, texto)

['E', 's', 't', 'e', ' ', 'c', 'u', 'r', 's', 'o', ' ', 'd', 'e', ' ', 'p', 'y', 't', 'h', 'o', 'n', ' ', ' ', 's', 'e', ' ', 'p', 'u', 'b', 'l', 'i', 'c', 'ó', ' ', 'e', 'n', ' ', 'e', 'l', ' ', 'a', 'ñ', 'o', ' ']


In [58]:
texto = "Este curso de python 3 se publicó en el año 2016"

patrones = [r'\D+'] # Encuentra los valores no numericos. OJO se divide el string

buscar(patrones, texto)

['Este curso de python ', ' se publicó en el año ']


In [59]:
texto = "Este curso de python 3 se publicó en el año 2016"

patrones = [r'\s'] # Encuentra los espacios

buscar(patrones, texto)

[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']


In [62]:
texto = "Este curso de python 3 se publicó en el año 2016"

patrones = [r'\S'] # Encuentra los valores excepto espacios

buscar(patrones, texto)

['E', 's', 't', 'e', 'c', 'u', 'r', 's', 'o', 'd', 'e', 'p', 'y', 't', 'h', 'o', 'n', '3', 's', 'e', 'p', 'u', 'b', 'l', 'i', 'c', 'ó', 'e', 'n', 'e', 'l', 'a', 'ñ', 'o', '2', '0', '1', '6']


In [63]:
texto = "Este curso de python 3 se publicó en el año 2016"

patrones = [r'\w'] # Encuentra todos los caracteres sin importar si son numeros

buscar(patrones, texto)

['E', 's', 't', 'e', 'c', 'u', 'r', 's', 'o', 'd', 'e', 'p', 'y', 't', 'h', 'o', 'n', '3', 's', 'e', 'p', 'u', 'b', 'l', 'i', 'c', 'ó', 'e', 'n', 'e', 'l', 'a', 'ñ', 'o', '2', '0', '1', '6']


In [65]:
texto = "Este curso de python 3 se publicó en el año 2016"

patrones = [r'\w+'] # Encuentra todoas las palabras que tengan una o mas alfanumericas

buscar(patrones, texto)

['Este', 'curso', 'de', 'python', '3', 'se', 'publicó', 'en', 'el', 'año', '2016']


In [67]:
texto = "Este curso de python 3 se       publicó en el año 2016"

patrones = [r'\W'] # Encuentra todos los que no sean alfanumericos

buscar(patrones, texto)

[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']


In [69]:
texto = "Este curso de python 3 se       publicó en el año  2016"

patrones = [r'\W+'] # Encuentra todos los que no son alfanumericos que se repiten mas de una vez

buscar(patrones, texto)

[' ', ' ', ' ', ' ', ' ', '       ', ' ', ' ', ' ', '  ']
