# 06 Expresións regulares
## Contidos

- Funcións básicas do módulo *re*
- Expresións regulares
  - Literais
  - Secuencias de escape
  - Grupos de caracteres
  - Metacaracteres

As expresións regulares (***regex***) serven para buscar patróns dentro de textos.

Para manexa-las cadeas de caracteres hai varias funcións para obte-los caracteres que ocupan posicións concretas ou coñece-la posición de subcadeas específicas (*literais*). Con todo, en moitas ocasións necesítase buscar outras **subcadeas que non teñen o mesmo contido sempre, pero que seguen un patrón**, como por exemplo un número de teléfono; **para poder buscar este tipo de subcadeas hai que utilizar expresións regulares**.

**As expresións regulares son unha secuencia de caracteres con outros caracteres especiais que permiten definir patróns de texto**. Utilizando estas expresións regulares, pódense buscar estes patróns en cadeas de texto.

## Funcións básicas do módulo *re*
De seguido explícanse as funcións básicas máis habituais, e posteriormente como construír patróns máis complexos que nos permitan buscar subcadeas con diferente contido, pero que teñan un patrón en común, por exemplo, datas, números de teléfono, URLs, enderezos de correo electrónico, etc. 


Para aplica-las expresións regulares en cadeas de texto, úsase o módulo `re` de Python.

`import re`

In [8]:
import re

### search() 
Busca a primeira aparición do patrón na cadea de texto. Como resultado devolve un obxecto de tipo `match` no que podemos obte-las posicións onde se atopa o patrón dentro da cadea de texto. En caso de que non exista o patrón dentro da cadea, a función devolve un obxecto `None`.

In [9]:
texto = "Isto é un texto de proba para o curso de Python."
match = re.search('proba', texto)
print("Comenzo:", match.start(), "Final:", match.end()) # devolve Comenzo: 19 Final: 24

Comenzo: 19 Final: 24


### match()
Busca un patrón ó principio da cadea e, no caso de que non exista ou non se atope ó principio da cadea, devolverá un obxecto de tipo `None`.

In [6]:
texto = "Isto é un texto de proba para o curso de Python."
match = re.match('Isto', texto)
print("Comezo:", match.start(), "Final:", match.end()) # devolve Comezo: 0 Final:4

Comezo: 0 Final: 4


### split() ###
Divide unha cadea de caracteres seguindo un patrón; como resultado devolve unha lista con cada unha das divisións.

In [10]:
texto = "Isto é un texto de proba para o curso de Python."
re.split(' ', texto) # devolve unha lista onde cada elemento é unha palabra da mensaxe.

['Isto',
 'é',
 'un',
 'texto',
 'de',
 'proba',
 'para',
 'o',
 'curso',
 'de',
 'Python.']

### sub()
Substitúe os patróns atopados por outra subcadea que se lle pasa por parámetro.

In [11]:
texto = "Isto é un texto de proba para o curso de Python."
re.sub('Python', 'Big Data', texto) # devolve 'Isto é un texto de proba para o curso de Big Data.'

'Isto é un texto de proba para o curso de Big Data.'

### findall()
Busca tódalas aparicións dun patrón dentro dunha cadea de caracteres; como resultado devolve unha lista con tódalas subcadeas que cumpren co patrón.

In [12]:
texto = "Isto é un texto de proba para o curso de Python."
re.findall('de', texto) # devolve ['de', 'de']

['de', 'de']

## Expresións regulares

Nos anteriores exemplos coas funcións básicas só usamos expresións literais, pero é posible construír patróns máis complexos que nos permitan buscar subcadeas con diferente contido, pero cun patrón en común, por exemplo, datas
de nacemento, apelidos, localidades, etc.

![expresions_regulares_python.png](attachment:expresions_regulares_python.png)

Imaxe obtida do bo titorial sobre expresións regulares en Python, por *Raúl E. López Briega* (notebook baixo licenza BSD: https://github.com/relopezbriega/relopezbriega.github.io/blob/master/downloads/RegexPython.ipynb

Para os seguintes exemplos usaremos un texto máis grande extraído do comezo da fermosa novela "*Memorias dun Neno Labrego*", de *Xosé Neira Vilas*, publicada no 1961 por *Follas Novas* en Arxentina (*fonte: https://www.edu.xunta.gal/espazoAbalar/sites/espazoAbalar/files/datos/1390304363/contido/251_memorias_dun_neno_labrego.html)*:

In [59]:
texto = """Eu son... BALBINO. Un rapaz da aldea. Coma quen dis, un ninguén. E ademáis, probe. Porque da aldea tamén é Manolito, e non hai quen lle tusa, a pesares do que lle aconteceu por causa miña.
No vrao ando descalzo. O pó quente dos camiños faime alancar. Magóanme as areas e nunca falta algunha brocha pra espetárseme nos pés. Érgome con noite pecha, ás dúas ou tres da mañán, pra ir co gando, restrevar ou xuntar monllos. Cando amañece xa me doi o lombo e as pernas. Pero o día comenza. Sede, sol, moxardos.
No inverno, frío. Ganas de estar arreo ó pé do lume. Muíños apeados. Faladurías de neves e lobos. Os brazos son como espeteiras pra colgar farrapos. Murnas, fridas, dedos sin tentos.
¡Qué saben desto os nenos da vila!"""
print(texto)

Eu son... BALBINO. Un rapaz da aldea. Coma quen dis, un ninguén. E ademáis, probe. Porque da aldea tamén é Manolito, e non hai quen lle tusa, a pesares do que lle aconteceu por causa miña.
No vrao ando descalzo. O pó quente dos camiños faime alancar. Magóanme as areas e nunca falta algunha brocha pra espetárseme nos pés. Érgome con noite pecha, ás dúas ou tres da mañán, pra ir co gando, restrevar ou xuntar monllos. Cando amañece xa me doi o lombo e as pernas. Pero o día comenza. Sede, sol, moxardos.
No inverno, frío. Ganas de estar arreo ó pé do lume. Muíños apeados. Faladurías de neves e lobos. Os brazos son como espeteiras pra colgar farrapos. Murnas, fridas, dedos sin tentos.
¡Qué saben desto os nenos da vila!


### Literais
Son os elementos que conteñen unicamente caracteres básicos, como os que vimos nos exemplos anteriores para explica-las funcións do módulo `re`.

Unha secuencia de caracteres de texto sen *metacaracteres* de significado especial. Por exemplo, o patrón "Ricardo" só se corresponde coas aparicións de "Ricardo" no texto que se procese.

### Secuencias de escape
Utilízanse para definir caracteres especiais dentro dunha cadea de texto como, por exemplo, os saltos de liña, tabuladores,... Tamén é necesario utilizalas para buscar caracteres que dentro dunha expresión regular teñen un significado propio, por exemplo, o asterisco (`*`). 

As secuencias de escape comezan cunha barra invertida (`\`). 

As principais secuencias de escape son as seguintes:

- `\n`  salto de liña.
- `\t`  tabulador.
- `\\`  barra diagonal inversa (*back slash*).
- `\d`  un díxito decimal; isto equivalente á clase [0-9].
- `\D`  un carácter que non sexa un díxito decimal; isto equivalente á clase [^0-9].
- `\w`  un carácter alfanumérico; isto é equivalente á clase [a-zA-Z0-9_].
- `\W`  un carácter que non sexa alfanumérico; isto é equivalente á clase [^a-zA-Z0-9_].
- `\s`  un espazo en branco; isto é equivalente á clase [ \t\n\r\f\v].
- `\S`  un carácter que non sexa un espazo en branco; isto é equivalente á clase [^ \t\n\r\f\v].


Para usalos, só hai que incluílos dentro dunha cadea de texto a usar na función correspondente do módulo `re`. 

Por exemplo, para substituír tódolos saltos de liña polo texto “\*\*->EIQUÍ<-\*\*”, usaremo-lo carácter de escape `\n` para usalo na función `sub`:

In [61]:
re.sub('\n', '**->EIQUÍ<-**', texto)

'Eu son... BALBINO. Un rapaz da aldea. Coma quen dis, un ninguén. E ademáis, probe. Porque da aldea tamén é Manolito, e non hai quen lle tusa, a pesares do que lle aconteceu por causa miña.**->EIQUÍ<-**No vrao ando descalzo. O pó quente dos camiños faime alancar. Magóanme as areas e nunca falta algunha brocha pra espetárseme nos pés. Érgome con noite pecha, ás dúas ou tres da mañán, pra ir co gando, restrevar ou xuntar monllos. Cando amañece xa me doi o lombo e as pernas. Pero o día comenza. Sede, sol, moxardos.**->EIQUÍ<-**No inverno, frío. Ganas de estar arreo ó pé do lume. Muíños apeados. Faladurías de neves e lobos. Os brazos son como espeteiras pra colgar farrapos. Murnas, fridas, dedos sin tentos.**->EIQUÍ<-**¡Qué saben desto os nenos da vila!'

### Grupos de caracteres
Os grupos de caracteres permiten atopar un patrón no texto e colle-lo resultado do patrón para procesalo máis adiante.

Por exemplo, para colle-las *palabras que empecen por **ar** e que teñan outra palabra a continuación*, usariamo-lo seguinte patrón:
(*Ollo que a expresión non é completamente correcta xa que colle calquera fragmento de palabra que conteña "ar" no seu interior!*)

In [90]:
patron = 'ar\w+\s\w+'
re.findall(patron, texto) # devolve ['ares do', 'areas e', 'arreo ó']

['ares do', 'areas e', 'arreo ó']

Con todo, nós só queremos coñecer cal é a palabra que empeza por ***ar*** e non o resto dos elementos, é dicir, a palabra que vén a continuación. Para iso, agrupamos o patrón que define as palabras que empezan por ***ar*** usándose as parénteses:

In [94]:
pattern = '(ar\w+)\s\w+'
re.findall(pattern, texto) # devolve ['ares', 'areas', 'arreo']

['ares', 'areas', 'arreo']

Como se pode apreciar, isto permítenos capturar unicamente a parte que nos interesa do patrón, é dicir, as palabras que empezan por ***ar*** pero que, ademais, teñen outra palabra a continuación.

### Metacaracteres
Os metacaracteres son caracteres que teñen un significado especial dentro das expresións regulares. Estes metacaracteres permiten buscar repeticións de patróns, tipos de caracteres, etc

A lista completa de metacaracteres:

   . ^ $ * + ? { } [ ] \ | ( )
 
    

- |  permite separar distintas alternativas que estamos a buscar dentro dun texto. 

Por exemplo, se queremos substituír calquera aparición das palabras *é* ou *ser* por “\*\*->EIQUÍ<-\*\*”, usaremo-lo seguinte patrón:

In [67]:
patron = 'é|ó'
print(re.findall(patron, texto))
re.sub(patron, '**->EIQUÍ<-**', texto)

['é', 'é', 'é', 'ó', 'ó', 'é', 'ó', 'é', 'é']


'Eu son... BALBINO. Un rapaz da aldea. Coma quen dis, un ningu**->EIQUÍ<-**n. E ademáis, probe. Porque da aldea tam**->EIQUÍ<-**n **->EIQUÍ<-** Manolito, e non hai quen lle tusa, a pesares do que lle aconteceu por causa miña.\nNo vrao ando descalzo. O p**->EIQUÍ<-** quente dos camiños faime alancar. Mag**->EIQUÍ<-**anme as areas e nunca falta algunha brocha pra espetárseme nos p**->EIQUÍ<-**s. Érgome con noite pecha, ás dúas ou tres da mañán, pra ir co gando, restrevar ou xuntar monllos. Cando amañece xa me doi o lombo e as pernas. Pero o día comenza. Sede, sol, moxardos.\nNo inverno, frío. Ganas de estar arreo **->EIQUÍ<-** p**->EIQUÍ<-** do lume. Muíños apeados. Faladurías de neves e lobos. Os brazos son como espeteiras pra colgar farrapos. Murnas, fridas, dedos sin tentos.\n¡Qu**->EIQUÍ<-** saben desto os nenos da vila!'

- ^   indica que se trata do comezo das liñas.

Nota: O modificador de busca `re.MULTILINE` forza ó símbolo `^` a buscar ó comezo de cada liña de texto (e non só na primeira), e ó símbolo `$` a buscar o final de cada liña de texto (e non só na última).

In [87]:
patron = '^No|^Eu'
print(re.findall(patron, texto,re.MULTILINE)) # o modificador MULTILINE ten efecto na busca
re.sub(patron, '**->EIQUÍ<-**', texto, re.MULTILINE)  # sen embargo o mesmo modificador non ten efecto na substitución

['Eu', 'No', 'No']


'**->EIQUÍ<-** son... BALBINO. Un rapaz da aldea. Coma quen dis, un ninguén. E ademáis, probe. Porque da aldea tamén é Manolito, e non hai quen lle tusa, a pesares do que lle aconteceu por causa miña.\nNo vrao ando descalzo. O pó quente dos camiños faime alancar. Magóanme as areas e nunca falta algunha brocha pra espetárseme nos pés. Érgome con noite pecha, ás dúas ou tres da mañán, pra ir co gando, restrevar ou xuntar monllos. Cando amañece xa me doi o lombo e as pernas. Pero o día comenza. Sede, sol, moxardos.\nNo inverno, frío. Ganas de estar arreo ó pé do lume. Muíños apeados. Faladurías de neves e lobos. Os brazos son como espeteiras pra colgar farrapos. Murnas, fridas, dedos sin tentos.\n¡Qué saben desto os nenos da vila!'

- $   indica que se trata do final das liñas, definidas como o final da cadea ou calquera ubicación seguida dun carácter de nova liña.

In [88]:
patron = 'os.$|la!'
print(re.findall(patron, texto, re.MULTILINE)) # o modificador MULTILINE ten efecto na busca
re.sub(patron, '**->EIQUÍ<-**', texto, re.MULTILINE)  # sen embargo o mesmo modificador non ten efecto na substitución

['os.', 'os.', 'la!']


'Eu son... BALBINO. Un rapaz da aldea. Coma quen dis, un ninguén. E ademáis, probe. Porque da aldea tamén é Manolito, e non hai quen lle tusa, a pesares do que lle aconteceu por causa miña.\nNo vrao ando descalzo. O pó quente dos camiños faime alancar. Magóanme as areas e nunca falta algunha brocha pra espetárseme nos pés. Érgome con noite pecha, ás dúas ou tres da mañán, pra ir co gando, restrevar ou xuntar monllos. Cando amañece xa me doi o lombo e as pernas. Pero o día comenza. Sede, sol, moxardos.\nNo inverno, frío. Ganas de estar arreo ó pé do lume. Muíños apeados. Faladurías de neves e lobos. Os brazos son como espeteiras pra colgar farrapos. Murnas, fridas, dedos sin tentos.\n¡Qué saben desto os nenos da vi**->EIQUÍ<-**'

• ?: o elemento que lle precede aparece unha vez ou ningunha. Imaxinemos, no
seguinte exemplo, que buscamos calquera número que teña un díxito ou
ningún seguido dun espazo:
exemplo = '1 22 333 4444'
pattern = '\d?\s'
re.findall(pattern, exemplo) # Devolverá ['1 ', '2 ', '3 ']

• +: o elemento que lle precede aparece unha ou máis veces. Por exemplo, no
seguinte exemplo, imos buscar o número onde apareza o díxito 3 unha ou
máis veces:
exemplo = '1 22 333 4444'
pattern = '3+'
re.findall(pattern, exemplo) # Devolverá ['333']

• *: o elemento que lle precede aparece ningunha ou máis veces. Por exemplo, no
seguinte exemplo buscaremos que parte contén o díxito 1 ningunha ou máis
veces seguido do número 2:
exemplo = '122333114444'
pattern = '(12)'
re.findall(pattern, exemplo) # Devolverá ['12', '2']

• {n}: o elemento que lle precede aparece n veces. No seguinte exemplo
buscaremos que parte da cadea de caracteres ten exactamente 3 díxitos:
exemplo = '1 22 333 4444'
pattern = '\d{3}'
re.findall(pattern, exemplo) # Devolverá ['333', '444']

• {n,m} : o elemento anterior aparece entre n e m. Se n está baleiro significará que
o elemento aparece de 0 a m veces. Se, pola contra, m é baleiro significará
que o elemento aparece n ou máis veces. A continuación, buscaremos que parte
da cadea de texto ten 2 ou 3 díxitos seguidos:
exemplo = '1 22 333 4444'
pattern = '\d{2,3}'
re.findall(pattern, exemplo) # Devolverá ['22', '333', '444']

• [] : permítenos representar clases de caracteres, é dicir, buscará cadeas que
teñan algúns dos caracteres definidos dentro dos corchetes. Por exemplo,
a continuación, buscaremos que parte da cadea ten os díxitos 2
ou 3 repetidos entre 2 e 3 veces:
exemplo = '1 22 333 4444'
pattern = '[2,3]{2,3}'
re.findall(pattern, exemplo) # Devolverá ['22', '333']

• -: permítenos definir un rango de caracteres. No exemplo seguinte,
buscaremos que parte da cadea ten os valores entre 1 e 3 repetidos 2 ou
máis veces.
exemplo = '1 22 333 4444'
pattern = '[1-3]{2,}'
re.findall(pattern, exemplo) # Devolverá ['22', '333']