# Expresiones regulares

Búsqueda de patrones

### re.search: buscar un patrón en una cadena

In [1]:
import re # Regular Expression

texto = "En esta cadena se encuentra una palabra mágica"

re.search('mágica', texto)

<re.Match object; span=(40, 46), match='mágica'>

Observa que nos devuelve un objeto de tipo Match, indicando los índices en donde fue encontrada

In [3]:
# Si no se encuentra el patrón, no devuelve nada:
re.search('hola', texto)

Podemos utilizar la propia funcionalidad junto a un condicional:

In [45]:
palabra = "mágica"

encontrado = re.search(palabra,  texto)

if encontrado:
    print("Se ha encontrado la palabra:", palabra)
else:
    print("No se ha encontrado la palabra:", palabra)

Se ha encontrado la palabra: mágica


Opciones del objeto Match:

In [57]:
print( encontrado.start() )  # Posición donde empieza la coincidencia
print( encontrado.end() )    # Posición donde termina la coincidencia
print( encontrado.span() )   # Tupla con posiciones donde empieza y termina la coincidencia
print( encontrado.string )   # Cadena sobre la que se ha realizado la búsqueda

40
46
(40, 46)
En esta cadena se encuentra una palabra mágica


### re.match: buscar un patrón al principio de otra cadena

In [4]:
texto = "Hola mundo"
re.match('Hola', texto)

<re.Match object; span=(0, 4), match='Hola'>

In [5]:
texto = "Hola mundo"
re.match('Mola', texto)  # no devuelve nada

### re.split: dividir una cadena a partir de un patrón

In [6]:
texto = "Vamos a dividir esta cadena"
re.split(' ', texto)

['Vamos', 'a', 'dividir', 'esta', 'cadena']

### re.sub: sustituye todas las coincidencias en una cadena

In [7]:
texto = "Hola amigo"
re.sub('amigo', 'amiga', texto)

'Hola amiga'

### re.findall: buscar todas las coincidencias en una cadena

In [9]:
texto = "hola adios hola hola"
re.findall('hola', texto)

['hola', 'hola', 'hola']

Aquí se nos devuelve una lista, pero podríamos aplicar la función *len()* para saber el número:

In [10]:
len(re.findall('hola', texto))

3

## Patrones con múltiples alternativas
Utilizamos una barra vertical:

In [290]:
texto = "hola adios hello bye"
re.findall('hola|hello', texto)

['hola', 'hello']

## Patrones con sintaxis repetida

Primero creamos una función que aplique varios patrones (colocados en forma de lista) a un texto:

In [4]:
def buscar(patrones, texto):
    for patron in patrones:
        print( re.findall(patron, texto) )


In [5]:
texto = "hla hola hoola hooola hooooola"
patrones = ['hla', 'hola', 'hoola']
buscar(patrones, texto)

['hla']
['hola']
['hoola']


### Con meta-carácter *
Busca ninguna o más repeticiones de la letra a la izquierda del meta-carácter *:

In [6]:
patrones = ['ho','ho*','ho*la','hu*la']
buscar(patrones, texto)

['ho', 'ho', 'ho', 'ho']
['h', 'ho', 'hoo', 'hooo', 'hooooo']
['hla', 'hola', 'hoola', 'hooola', 'hooooola']
['hla']


### Con meta-carácter +
Busca una o más repeticiones de la letra a la izquierda del meta-carácter:

In [7]:
patrones = ['ho*', 'ho+']
buscar(patrones, texto)

['h', 'ho', 'hoo', 'hooo', 'hooooo']
['ho', 'hoo', 'hooo', 'hooooo']


### Con meta-carácter ?
Busca una o ninguna repetición de la letra a la izquierda del meta-carácter:

In [8]:
patrones = ['ho*', 'ho+', 'ho?', 'ho?la'] 
buscar(patrones, texto)

['h', 'ho', 'hoo', 'hooo', 'hooooo']
['ho', 'hoo', 'hooo', 'hooooo']
['h', 'ho', 'ho', 'ho', 'ho']
['hla', 'hola']


### Con número de repeticiones explícito {n}
Busca cadenas con 'n' repeticiones exactas de la letra a la izquierda del meta-carácter:

In [9]:
patrones = ['ho{0}la', 'ho{1}la', 'ho{2}la']  # 'ho[0]la', 'ho[1]la', 'ho[2]la'
buscar(patrones, texto)

['hla']
['hola']
['hoola']


Busca cadenas con repeticiones que se encuentren en un intervalo {n,m} de la letra a la izquierda del meta-carácter:

In [10]:
patrones = ['ho{0,1}la', 'ho{1,2}la', 'ho{2,9}la']  # 'ho[0..1]la', 'ho[1..2]la', 'ho[2..9]la'
buscar(patrones, texto)

['hla', 'hola']
['hola', 'hoola']
['hoola', 'hooola', 'hooooola']


## Búsqueda con conjuntos de caracteres [ ]

In [11]:
texto = "hala hela hila hola hula"

patrones = ['h[ou]la', 'h[aio]la', 'h[aeiou]la'] # los corchetes indican que la cadena puede contener una u otra letra
buscar(patrones, texto)

['hola', 'hula']
['hala', 'hila', 'hola']
['hala', 'hela', 'hila', 'hola', 'hula']


### Exclusión en grupos [^ ]
Para realizar una búsqueda de los contrario:

In [12]:
texto = "hala hela hila hola hula"

patrones = ['h[o]la', 'h[^o]la'] 
buscar(patrones, texto)

['hola']
['hala', 'hela', 'hila', 'hula']


### Rangos de búsqueda [ - ]:
- **[A-Z]**: Cualquier carácter alfabético en mayúscula (no especial ni número)
- **[a-z]**: Cualquier carácter alfabético en minúscula (no especial ni número)
- **[A-Za-z]**: Cualquier carácter alfabético en minúscula o mayúscula (no especial ni número)
- **[A-z]**: Cualquier carácter alfabético en minúscula o mayúscula (no especial ni número)
- **[0-9]**: Cualquier carácter numérico (no especial ni alfabético)
- **[a-zA-Z0-9]**: Cualquier carácter alfanumérico (no especial)

In [13]:
texto = "hola h0la Hola mola m0la M0la"

patrones = ['h[a-z]la', 'h[0-9]la', '[A-z]{4}', '[A-Z][A-z0-9]{3}'] 
buscar(patrones, texto)

['hola']
['h0la']
['hola', 'Hola', 'mola']
['Hola', 'M0la']


## Filtros de búsqueda con: \


- \d numérico
- \D no numérico
- \s espacio en blanco
- \S no espacio en blanco
- \w alfanumérico
- \W no alfanumérico

 **Tenemos que indicar que es código crudo (raw) en las expresiones regulares con una r" "**.

In [15]:
texto = "<Ángel Jiménez Rico nació en el año 1993>"

patrones = [r'\d+', r'\D+', r'\s', r'\S+', r'\w+', r'\W+'] 
buscar(patrones, texto)

['1993']
['<Ángel Jiménez Rico nació en el año ', '>']
[' ', ' ', ' ', ' ', ' ', ' ', ' ']
['<Ángel', 'Jiménez', 'Rico', 'nació', 'en', 'el', 'año', '1993>']
['Ángel', 'Jiménez', 'Rico', 'nació', 'en', 'el', 'año', '1993']
['<', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '>']
