# Expresiones regulares

In [1]:
import re

## Search looks for the expressión in all the sentence

In [22]:
string = "Find the magic word dude"
found = re.search("magic", string)

if found is not None:
    print("Word found")
else:
    print("Word not found")

Word found


In [23]:
found

<_sre.SRE_Match object; span=(9, 14), match='magic'>

In [6]:
found.start()

9

In [7]:
found.end()

14

In [8]:
found.span()

(9, 14)

In [9]:
found.string

'Find the magic word dude'

In [11]:
found.string[found.start() : found.end()]

'magic'

In [3]:
found = re.search("goodbye", string)

if found is not None:
    print("Word found")
else:
    print("Word not found")

Word not found


## Match, only looks for the expression at the start of the sentence

In [31]:
string = "Find the magic word dude"
match = re.match("Find", string)

In [32]:
match

<_sre.SRE_Match object; span=(0, 4), match='Find'>

In [24]:
match.string

'Find the magic word dude'

In [26]:
match.span()

(0, 4)

In [33]:
match = re.match("the", string)

In [28]:
match

In [34]:
if match is not None:
    print("Word found at the start of the sentence")
else:
    print("Word not found at the start of the sentence")

Word not found at the start of the sentence


## Split, split a string with an expression

In [35]:
string = "Find the magic word dude"
re.split(" ", string)

['Find', 'the', 'magic', 'word', 'dude']

# Sub, replace the expression

In [36]:
string = "Hello boy"
re.sub("boy", "girl", string)

'Hello girl'

## Find all the matches in a string

In [37]:
string = "Hola hola adios"
re.findall("Hola", string)

['Hola']

In [38]:
re.findall("(Hola|hola)", string)

['Hola', 'hola']

In [39]:
string = "Hola hola adios Hello Goodbye hello"
re.findall("(Hola|hola|hello|Hello)", string)

['Hola', 'hola', 'Hello', 'hello']

In [40]:
len(re.findall("(Hola|hola|hello|Hello)", string))

4

## Patterns with repeated syntax

In [41]:
def search(patrones, string):
    for patron in patrones:
        print(re.findall(patron, string))

In [42]:
texto = "hla hola hoola hooola hooooola"

In [44]:
patrones = ['hla', 'hola', 'hoola']
search(patrones, texto)

['hla']
['hola']
['hoola']


### With meta-character *
None or more repetitions of the letter to the left of the meta-character:

In [48]:
patrones = ["ho*", "ho*la", "hu*la"]
search(patrones, texto)

['h', 'ho', 'hoo', 'hooo', 'hooooo']
['hla', 'hola', 'hoola', 'hooola', 'hooooola']
['hla']


### With meta-character +
One or more repetitions of the letter to the left of the meta-character

In [51]:
patrones = ["ho+"]
search(patrones, texto)

['ho', 'hoo', 'hooo', 'hooooo']


### With meta-character ?
One or none repetitions of the character to the left of the meta-character

In [53]:
patrones = ["ho?la"]
search(patrones, texto)

['hla', 'hola']


### With a number of repetitions explicit {n}
N exact repetitions of the character to the left of the meta-character

In [55]:
patrones = ["ho{1}la", "ho{0}la", "ho{2}la"]
search(patrones, texto)

['hola']
['hla']
['hoola']


### With a number of repetitions in a range {n,m}
Range from n to m repetitions of the character to the left of the meta-character

In [59]:
patrones = ["ho{1,5}la"]
search(patrones, texto)

['hola', 'hoola', 'hooola', 'hooooola']


## Working with a range of characters [ ]

In [60]:
texto = "hala hela hila hola hula"

patrones = ['h[ou]la', 'h[aio]la', 'h[aeiou]la']
search(patrones, texto)

['hola', 'hula']
['hala', 'hila', 'hola']
['hala', 'hela', 'hila', 'hola', 'hula']


In [61]:
texto = "haaala hela heeela hiiiiila hooooola hola hula"
patrones = ["h[ae]*la", "h[ae]*la", "h[u]la", "h[io]{3,9}la"]
search(patrones, texto)

['haaala', 'hela', 'heeela']
['haaala', 'hela', 'heeela']
['hula']
['hiiiiila', 'hooooola']


### Excolosing in groups

In [62]:
texto = "hala hela hila hola hula"

patrones = ["h[o]la", "h[^o]la"]
search(patrones, texto)

['hola']
['hala', 'hela', 'hila', 'hula']


### Ranges [ - ]
[SPANISH]
Otra característica que hace ultra potentes los grupos, es la capacidad de definir rangos. Ejemplos de rangos:
- **[A-Z]**: Cualquier carácter alfabético en mayúscula (no especial ni número)
- **[a-z]**: Cualquier carácter alfabético en minúscula (no especial ni número)
- **[A-Za-z]**: Cualquier carácter alfabético en minúscula o mayúscula (no especial ni número)
- **[A-z]**: Cualquier carácter alfabético en minúscula o mayúscula (no especial ni número)
- **[0-9]**: Cualquier carácter numérico (no especial ni alfabético)
- **[a-zA-Z0-9]**: Cualquier carácter alfanumérico (no especial)

In [64]:
texto = "hola h0la Hola mola m0la M0la"

patrones = ['h[a-z]la', 'h[0-9]la', '[A-z]{4}', '[A-Z][A-z0-9]{3}'] 
search(patrones, texto)

['hola']
['h0la']
['hola', 'Hola', 'mola']
['Hola', 'M0la']


## Escaped codes \
[Spanish]
Si cada vez que quisiéramos definir un patrón variable tuviéramos que crear rangos, al final tendríamos expresiones regulares gigantes. Por suerte su sintaxis también acepta una serie de caracteres escapados que tienen un significo único. Algunos de los más importantes son:

| Código | Significado |
|:------:|:------------|
|\d|numérico|
|\D|no numérico|
|\s|espacio en blanco|
|\S|no espacio en blanco|
|\w|alfanumérico|
|\W|no alfanumérico|

El problema que encontraremos en Python a la hora de definir código escapado, es que las cadenas no tienen en cuenta el \ a no ser que especifiquemos que son cadenas en crudo (raw), **por lo que tendremos que precedir las expresiones regulares con una 'r'**.

In [65]:
texto = "Este curso de Python se publicó en el año 2016"

patrones = [r'\d+', r'\D+', r'\s', r'\S+', r'\w+', r'\W+'] 
search(patrones, texto)

['2016']
['Este curso de Python se publicó en el año ']
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']
['Este', 'curso', 'de', 'Python', 'se', 'publicó', 'en', 'el', 'año', '2016']
['Este', 'curso', 'de', 'Python', 'se', 'publicó', 'en', 'el', 'año', '2016']
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']
