# Expressões regulares

As expressões regulares são usadas nas linguagens de programação e, em Linux, na generalidade das ferramentas que trabalham com ficheiros.

Nesta ficha vamos aprender coisas básicas de expressões regulares.

### Escrita de expressões regulares

As expressões regulares usam uma sintaxe especial para escrever os padrões. Como usam muitas vezes o `\`, que também é usado nas strings para representar carateres especiais, como o newline `\n`, as expressões regulares não devem ser tratadas como uma string normal. Por isso, usa-se o prefiro `r` (de raw) antes de se escrever uma expressão regular.

In [34]:
# exemplo de um string normal
print("O céu\nestá azul")
# forçar a escrita de um \
print("O céu\\nestá azul")
# usar o prefixo r, para raw
print(r"O céu\nestá azul")

O céu
está azul
O céu\nestá azul
O céu\nestá azul


Para se manter as expressões regulares legíveis, vamos escrevê-las sempre com o prefixo `r` de raw. Contudo, lembre-se que as seguintes expressões, por exemplo, são idênticas:
```
match = re.search(r'\d+', frase)
match = re.search('\\d+', frase)
```


In [17]:
import re
frase = "O João tem 18 anos e nasceu em 2004, 2 anos antes da Inês que agora tem 16"

As duas funções mais simples são `search()` e `match()`.

A função `search()` procura o padrão em qualquer posição.

A função `match()` procura o padrão no início da frase.

Ambas retornam `None` se o padrão não for encontrado.

In [27]:
# match = re.search(r'\d', frase)
match = re.search(r'(a|e|i|o|u)+', frase)
match = re.search(r'[0123456789]', frase)
# if match:
#     inicio, fim = match.span()
#     print(frase[inicio:fim])
print(match)


<re.Match object; span=(3, 4), match='o'>


Compilar versus não compilar

É exatamente a mesma coisa:

```
match = re.search(r'\d+', frase)
```

ou

```
p = re.compile(r'\d+')
p.search(frase)
```


In [19]:
p = re.compile(r'[0-9]+')
p.search(frase)

<re.Match object; span=(11, 13), match='18'>

In [15]:
match = re.match(r'\d+', frase)
print(match)

None


In [2]:
import re 

pal1 = "1975, ano de boa produção"
pal2 = "Viva o 1 de dezembro"
match1 = re.match(r'\d+', pal1)
print(match1)
print(match1[0])
match2 = re.match(r'\d+', pal2)
print(match2)

<re.Match object; span=(0, 4), match='1975'>
1975
None


Quando se quer encontrar mais do que uma ocorrência, usa-se a função `findall()`.

In [33]:
# match = re.findall(r'\d+', frase)
match = re.findall(r'\w+', frase)

print(match)

['O', 'João', 'tem', '18', 'anos', 'e', 'nasceu', 'em', '2004', '2', 'anos', 'antes', 'da', 'Inês', 'que', 'agora', 'tem', '16']


In [7]:
re.findall(r'\w+', frase)

['O',
 'João',
 'tem',
 '18',
 'anos',
 'e',
 'nasceu',
 'em',
 '2004',
 '2',
 'anos',
 'antes',
 'da',
 'Inês',
 'que',
 'agora',
 'tem',
 '16']

Se for importante saber a posição onde ocorre cada instância do padrão, pode-se usar a função `finditer()`

In [34]:
for m in re.finditer(r'\d+', frase):
    print('{}-{}: {}'.format(m.start(), m.end(), m.group(0)))


11-13: 18
31-35: 2004
37-38: 2
72-74: 16


Com a função `sub()` pode-se substituir cada match com o valor retornado pela função aplicada ao match.

In [56]:
def tohex(match):
    return(hex(int(match[0])))

re.sub(r"\d+", tohex, frase)

'O João tem 0x12 anos e nasceu em 0x7d4, 0x2 anos antes da Inês que agora tem 0x10'

A função `re.split()` é muito útil. É muito mais flexível que o método `split()` das strings.

In [62]:
"Pires, João Paulo    Alves Cabrita".split(' ')

['Pires,', 'João', 'Paulo', '', '', '', 'Alves', 'Cabrita']

In [61]:
# e = re.compile(r'[^0-9a-zA-Z]+')
e = re.compile(r'[^\w-]+')
e.split("Pires,,,,João Paulo           Alves;Cabrita, Corte-Real") 

['Pires', 'João', 'Paulo', 'Alves', 'Cabrita', 'Corte-Real']

**Exercício**

Escreva uma função Python que converte uma data, isto é, dada uma data numa string, transforma-a num valor do tipo data (e eventualmente diz se a data é válida ou não).

Ou seja, se o formato pedido for "dd/mm/aaaa" e a data for '25/07/1969' retorna esse valor (do tipo data).

In [4]:
# sem ter trabalho nenhum, mas para se perceber o uso do try .. except
from datetime import datetime

date_string = '25/07/1969'

try:
    datetime = datetime.strptime(date_string, '%d/%m/%Y')
except:
    print("A data não é válida")
else:
    print(datetime)


1969-07-25 00:00:00


In [4]:
# versão com expressões regulares
import re
import datetime

# linha = "25/07/1969"
linha = "  25 12 1969    "
resultado = re.match( r' *(\d{1,2})[/\-:_ ](\d{1,2})[/\-:_ ](\d{4}) *', linha)
print( resultado )
if resultado and len(resultado.groups()) == 3:
    tudo = resultado.group(0)
    ano = resultado.group(3)
    mes = resultado.group(2)
    dia = resultado.group(1)
    try:
        sdate = datetime.date( int(ano), int(mes), int(dia) )
    except ValueError:
        print("A data não é válida")
    else:
        print(sdate)
# print(int(ano), int(mes), int(dia))

<re.Match object; span=(0, 16), match='  25 12 1969    '>
1969-12-25


In [22]:
# entrada = "768.60"
entrada = "768"

re.match(r"\d+(\.\d+)?", entrada)

<re.Match object; span=(0, 3), match='768'>

### Tabelas wiki para markdown

Os formatos Wiki e markdown são muito usados para escrever conteúdos web. Ambos suportam a escrita de tabelas. A vantagem destes formatos é poderem ser escritos num editor de texto muito simples.

Use, por facilidade, um [gerador de tabelas](https://www.tablesgenerator.com/mediawiki_tables) nesses formatos para ver as diferenças.

Exemplo de uma tabela no formato wiki:
```
{| class="wikitable" 
|-
! Fruta
! Cor
|-
| Banana
| Amarelo
|-
| Ananás
| Amarelo
|}
```

A mesma tabela no formato markdown:
```
| Fruta  | Cor     |
|--------|---------|
| Banana | Amarelo |
| Ananás | Amarelo |
```
A tabela renderizada nesta célula:

| Fruta  | Cor     |
|--------|---------|
| Banana | Amarelo |
| Ananás | Amarelo |

Escreva uma função Python `wiki2markdown` que transforme uma tabela wiki numa tabela markdown.

Exemplo de utilização:

```
entrada = """
{| class="wikitable" 
|-
! Fruta
! Cor
|-
| Banana
| Amarelo
|-
| Ananás
| Amarelo
|}
"""

print( wiki2markdown( entrada ) ) 
```



### Exercício

Leia o arquivo `dissertation.bib` que está no formato BibTeX e produza uma lista com todos os autores, sem repetições.

In [3]:
import re 

frase = r"Ant{\'o}nio H{\"o}or"

def acentua(str):

    tabela = {
        r"{\'o}": "ó",
        r"{\"o}": "ö",
        r"{\'a}": "'a'"
    }

    def substitui(match):
        # print(match[0])
        return tabela.get( match[0], "xxx")

    return re.sub(r'{\\[~^"\'][aeiou]}', substitui, str)

acentua(frase)

{\'o}
{\"o}


'António Höor'