# Expressões regulares

As expressões regulares são usadas nas linguagens de programação e, em Linux, na generalidade das ferramentas que trabalham com ficheiros.

Nesta ficha vamos aprender coisas básicas de expressões regulares.

## Definição 

**Chama-se expressão regular a** uma sequência de carateres que define **um padrão**. O propósito é depois encontrar esse padrão num texto.

## Exemplo (no editor do Visual Studio Code)

Exemplo de uma expressão regular: `h[aeiou]+`

A expressão anterior define uo seguinte padrão. a letra `h` seguida de uma ou mais vogais.

Na imagem seguinte, usa-se este padrão no Visual Studio Code. Note-se que se escolhe procurar por expressão regular. Na imagem veem-se todas as ocorrências do padrão no texto.

![](imagens/expressaoregular-vsc.png)

## Exemplo em Python

In [38]:
genesis = """
In the beginning God created the heavens and the earth. 
Now the earth was formless and empty, darkness was over the surface of the deep, 
and the Spirit of God was hovering over the waters.

And God said, "Let there be light", and there was light. 
God saw that the light was good, and he separated the light from the darkness. 
God called the light "day", and the darkness he called "night". 
And there was evening, and there was morning - the first day.
"""
match = re.findall(r'h[aeiou]+', genesis)

print(match)



['he', 'he', 'hea', 'he', 'he', 'he', 'he', 'he', 'ho', 'he', 'he', 'he', 'ha', 'he', 'he', 'he', 'he', 'he', 'he', 'he', 'he', 'he', 'he']


### Escrita de expressões regulares em Python

As expressões regulares usam uma sintaxe especial para escrever os padrões. Como usam muitas vezes o `\`, que também é usado nas strings para representar carateres especiais, como o newline `\n`, as expressões regulares não devem ser tratadas como uma string normal. Por isso, usa-se o prefiro `r` (de raw) antes de se escrever uma expressão regular.

In [34]:
# exemplo de um string normal
print("O céu\nestá azul")
# forçar a escrita de um \
print("O céu\\nestá azul")
# usar o prefixo r, para raw
print(r"O céu\nestá azul")

O céu
está azul
O céu\nestá azul
O céu\nestá azul


Para se manter as expressões regulares legíveis, vamos escrevê-las sempre com o prefixo `r` de raw. Contudo, lembre-se que as seguintes expressões, por exemplo, são idênticas:
```
match = re.search(r'\d+', frase)
match = re.search('\\d+', frase)
```


In [4]:
import re
frase = "O João tem 18 anos e nasceu em 2004, 2 anos antes da Inês que agora tem 16"
match = re.search(r'\d+', frase)
# match = re.search('\\d+', frase)
match

<re.Match object; span=(11, 13), match='18'>

As duas funções mais simples são `search()` e `match()`.

A função `search()` procura o padrão em qualquer posição.

A função `match()` procura o padrão no início da frase.

Ambas retornam `None` se o padrão não for encontrado.

In [40]:
import re
frase = "O João tem 18 anos e nasceu em 2004, 2 anos antes da Inês que agora tem 16"
# match = re.search(r'(a|e|i|o|u)+', frase)
match = re.search(r'[0123456789]+', frase)
# if match:
#     inicio, fim = match.span()
#     print(frase[inicio:fim])
print(match)


<re.Match object; span=(11, 13), match='18'>


In [41]:
import re 

pal1 = "1975, ano de boa produção"
pal2 = "Viva o 1 de dezembro"
match1 = re.match(r'\d+', pal1)
print(match1)
print(match1[0])
match2 = re.match(r'\d+', pal2)
print(match2)

<re.Match object; span=(0, 4), match='1975'>
1975
None


Quando se quer encontrar mais do que uma ocorrência, usa-se a função `findall()`.

In [33]:
# match = re.findall(r'\d+', frase)
match = re.findall(r'\w+', frase)

print(match)

['O', 'João', 'tem', '18', 'anos', 'e', 'nasceu', 'em', '2004', '2', 'anos', 'antes', 'da', 'Inês', 'que', 'agora', 'tem', '16']


In [7]:
re.findall(r'\w+', frase)

['O',
 'João',
 'tem',
 '18',
 'anos',
 'e',
 'nasceu',
 'em',
 '2004',
 '2',
 'anos',
 'antes',
 'da',
 'Inês',
 'que',
 'agora',
 'tem',
 '16']

Se for importante saber a posição onde ocorre cada instância do padrão, pode-se usar a função `finditer()`

In [34]:
for m in re.finditer(r'\d+', frase):
    print('{}-{}: {}'.format(m.start(), m.end(), m.group(0)))


11-13: 18
31-35: 2004
37-38: 2
72-74: 16


Com a função `sub()` pode-se substituir cada match com o valor retornado pela função aplicada ao match.

In [42]:
frase = "O João tem 18 anos e nasceu em 2004, 2 anos antes da Inês que agora tem 16"

def tohex(match):
    return(hex(int(match[0])))

re.sub(r"\d+", tohex, frase)

'O João tem 0x12 anos e nasceu em 0x7d4, 0x2 anos antes da Inês que agora tem 0x10'

A função `re.split()` é muito útil. É muito mais flexível que o método `split()` das strings.

In [62]:
"Pires, João Paulo    Alves Cabrita".split(' ')

['Pires,', 'João', 'Paulo', '', '', '', 'Alves', 'Cabrita']

In [61]:
# e = re.compile(r'[^0-9a-zA-Z]+')
e = re.compile(r'[^\w-]+')
e.split("Pires,,,,João Paulo           Alves;Cabrita, Corte-Real") 

['Pires', 'João', 'Paulo', 'Alves', 'Cabrita', 'Corte-Real']

# Compilar expressões regulares

Em Python, quando se reutilizam expressões regulares, pode-se compilar a mesma, para agilizar o processo de interpretação da expressão regular. A não ser em programas que processem grandes volumes de dados, a diferença de performance é mínima na execução de expressões compiladas ou não.

É exatamente a mesma coisa:

```
match = re.search(r'\d+', frase)
```

ou

```
p = re.compile(r'\d+')
p.search(frase)
```
No segundo caso, usa-se uma expressão regular compilada.

**Exercício**

Escreva uma função Python que converte uma data, isto é, dada uma data numa string, transforma-a num valor do tipo data (e eventualmente diz se a data é válida ou não).

Ou seja, se o formato pedido for "dd/mm/aaaa" e a data for '25/07/1969' retorna esse valor (do tipo data).

In [4]:
# sem ter trabalho nenhum, mas para se perceber o uso do try .. except
from datetime import datetime

date_string = '25/07/1969'

try:
    datetime = datetime.strptime(date_string, '%d/%m/%Y')
except:
    print("A data não é válida")
else:
    print(datetime)


1969-07-25 00:00:00


In [51]:
import re
linha = "25-07-1969"
# linha = "25/07/1969"
resultado = re.match(r'(\d+)[/-](\d+)[/-](\d+)', linha)
dia, mes, ano = resultado.groups()
print(dia, mes, ano)

25 07 1969


In [4]:
# versão com expressões regulares
import re
import datetime

# linha = "25/07/1969"
# linha = "  25 12 1969    "
resultado = re.match( r'(\d+/+(\d+)/(\d+)', linha)
resultado = re.match( r' *(\d{1,2})[/\-:_ ](\d{1,2})[/\-:_ ](\d{4}) *', linha)
print( resultado )
if resultado and len(resultado.groups()) == 3:
    tudo = resultado.group(0)
    ano = resultado.group(3)
    mes = resultado.group(2)
    dia = resultado.group(1)
    try:
        sdate = datetime.date( int(ano), int(mes), int(dia) )
    except ValueError:
        print("A data não é válida")
    else:
        print(sdate)
# print(int(ano), int(mes), int(dia))

<re.Match object; span=(0, 16), match='  25 12 1969    '>
1969-12-25


In [22]:
# entrada = "768.60"
entrada = "768"

re.match(r"\d+(\.\d+)?", entrada)

<re.Match object; span=(0, 3), match='768'>

### Ficheiros

No exercício seguinte trabalha-se com dados em ficheiros. É um exercício simples, para demonstrar quão simples é trabalhar com ficheiros em Python.

#### Exercício

Leia o ficheiro `dados/pilotos.txt` e mostre o nome dos pilotos italianos. Melhore o código seguinte, pois está a apresentar todos os pilotos.

In [52]:
fonte = open("dados/pilotos.txt",'r')
for linha in fonte:
    print(linha)
fonte.close()

1,Italy,Francesco Bagnaia

2,France,Fabio Quartararo

3,Spain,Aleix Espargaro

4,Italy,Enea Bastianini

5,Australia,Jack Miller

6,South Africa,Brad Binder

7,France,Johann Zarco

8,Spain,Alex Rins

9,Portugal,Miguel Oliveira

10,Spain,Jorge Martin

11,Spain,Maverick Viñales

12,Spain,Marc Marquez

13,Italy,Luca Marini

14,Italy,Marco Bezzecchi

15,Spain,Joan Mir

16,Spain,Pol Espargaro

17,Spain,Alex Marquez

18,Japan,Takaaki Nakagami

19,Italy,Franco Morbidelli

20,Italy,Fabio Di Giannantonio

21,Italy,Andrea Dovizioso

22,South Africa,Darryn Binder

23,Australia,Remy Gardner

24,United Kingdom,Cal Crutchlow

25,Spain,Raul Fernandez

26,Germany,Stefan Bradl

27,Italy,Michele Pirro

28,Italy,Lorenzo Savadori

29,Japan,Tetsuta Nagashima

30,Italy,Danilo Petrucci

31,Japan,Kazuki Watanabe

32,Japan,Takuya Tsuda


In [53]:
fonte = open("dados/pilotos.txt",'r')
italianos = []
for linha in fonte:
    numero, pais, piloto = linha.strip().split(',')
    if pais == 'Italy':
        italianos.append(piloto)
fonte.close()
print(sorted(italianos))

['Andrea Dovizioso', 'Danilo Petrucci', 'Enea Bastianini', 'Fabio Di Giannantonio', 'Francesco Bagnaia', 'Franco Morbidelli', 'Lorenzo Savadori', 'Luca Marini', 'Marco Bezzecchi', 'Michele Pirro']


Na resolução do exercício anterior não foi preciso usar expressões regulares. Quando a entrada é muito padronizada, as funções normais de strings podem ser suficientes.

Repare que as linhas têm todas as mesma estrutura e que os nomes dos países estão escritos sempre da mesma maneira.

Como o mais comum é haver discrepâncias nos dados, é muito útil usar expressões regulares.

### Tabelas wiki para markdown

Os formatos Wiki e markdown são muito usados para escrever conteúdos web. Ambos suportam a escrita de tabelas. A vantagem destes formatos é poderem ser escritos num editor de texto muito simples.

Use, por facilidade, um [gerador de tabelas](https://www.tablesgenerator.com/mediawiki_tables) nesses formatos para ver as diferenças.

Exemplo de uma tabela no formato wiki:
```
{| class="wikitable" 
|-
! Fruta
! Cor
|-
| Banana
| Amarelo
|-
| Ananás
| Amarelo
|}
```

A mesma tabela no formato markdown:
```
| Fruta  | Cor     |
|--------|---------|
| Banana | Amarelo |
| Ananás | Amarelo |
```
A tabela renderizada nesta célula:

| Fruta  | Cor     |
|--------|---------|
| Banana | Amarelo |
| Ananás | Amarelo |

Escreva uma função Python `wiki2markdown` que transforme uma tabela wiki numa tabela markdown.

Exemplo de utilização:

```
entrada = """
{| class="wikitable" 
|-
! Fruta
! Cor
|-
| Banana
| Amarelo
|-
| Ananás
| Amarelo
|}
"""

print( wiki2markdown( entrada ) ) 
```



In [32]:
import re

entrada = """
{| class="wikitable" 
|-
! Fruta
! Cor
|-
| Banana
| Amarelo
|-
| Ananás
| Amarelo
|}
"""
def wiki2markdown( tabela ):
    cabeca = []
    for linha in tabela.split('\n'):
        if re.search(r'^!', linha):
            print(linha)
            cabeca.append(linha)
        if re.search(r'^\|-', linha):
            print(linha)
    return tabela

print( wiki2markdown( entrada ) ) 

|-
! Fruta
! Cor
|-
|-

{| class="wikitable" 
|-
! Fruta
! Cor
|-
| Banana
| Amarelo
|-
| Ananás
| Amarelo
|}



### Exercício

Leia o arquivo `dados/dissertation.bib` que está no formato BibTeX e produza uma lista com todos os autores, sem repetições.

In [18]:
import re
fonte = open("dados/dissertation.bib",'r')
for linha in fonte:
    if re.search(r'author', linha, re.IGNORECASE):
        print(linha)
fonte.close()


	Author = {Barros, Jacson Venâncio},

	Author = {Benson, Tim},

	Author = {Mustra, Mario and Delac, Kresimir and Grgic, Mislav},

	Author = {Wache, Holger and Vögele, Thomas and Visser, Ubbo and Stuckenschmidt, Heiner},

	Author = {Eanes, M. R.},

	Author = {Guarino, Nicola and Giaretta, Pierdaniele},

	Author = {Cardillo, Elena},

	Author = {Duarte, Júlio},

	Author = {Pereira, R. and Salazar, M. and Abelha, A. and Machado, J.},

	Author = {Sergey, A. B. and Alexandr, D.B. and Sergey, A.T.},

	Author = {Schmidt, B.},

  author    = {Ygal Bendavid and Samuel Fosso Wamba and Louis A. Lefebvre},

 author = {Suehring, S},

	Author = {Buntin, M. B. and Burke, M. F. and Hoaglin, M. C. and Blumenthal, D.},

	Author = {INE},

	Author = {ANACOM},

	Author = {Lenz, R. and Reichert, M.},

	Author = {Lee, J. and McCullough, J. S. and Town, R.},

	Author = {Murdoch, T. B. and Detsky, A. S.},

	Author = {Kuo, A. M. H.},

	Author = {Yang, J. J. and Li, J. and Mulder, J. and Wang, Y. and Chen, S. and