# Ficha de Expressões Regulares 2

### Conceitos mais avançados de expressões regulares

- `.` - corresponde a uma ocorrência de qualquer caracter (exceto '\n', geralmente).
- `\w` - corresponde a um caracter alfanumérico (a-z, A-Z, 0-9 ou _).
- `\W` - corresponde a um caracter **não** alfanumérico.
- `\s` - corresponde a um caracter de *whitespace* (' ', '\t', ou '\n', por exemplo).
- `\S` - corresponde a um caracter que não seja *whitespace*.
- `\d` - corresponde a um dígito.
- `\D` - corresponde a um caracter que não seja um dígito.
- `\btot\w+` - corresponde a uma palavra **começada** por "tot" (o token `\b` representa uma *word boundary*, ou seja, o limite entre um caracter alfanumérico e outro não alfanumérico). Por outras palavras, captura a palavra "totalidade" mas não a palavra "batota". O token `\b` também pode ser usado no fim de palavras.
- `a(?=b)` - corresponde a um caracter `a` que tenha à sua frente um caracter `b`, mas não captura o caracter `b`. (*positive lookahead*)
- `a(?!b)` - corresponde a um caracter `a` que **não** tenha à sua frente um caracter `b`, mas não captura o caracter seguinte. (*negative lookahead*)
- `a(?<=b)` - corresponde a um caracter `a` que tenha atrás de si um caracter `b`, mas não captura o caracter `b`. (*positive lookbehind*)
- `a(?<!b)` - corresponde a um caracter `a` que **não** tenha atrás de si um caracter `b`, mas não captura o caracter anterior. (*negative lookbehind*)


Podemos usar *grupos de captura* em expressões regulares para isolar segmentos da string capturada. Usamos parênteses para definir grupos de captura.

In [None]:
import re
m = re.search(r'(2[0-3]|[0-1][0-9]):([0-5][0-9])', "13:49")

print(m.groups()) # conjunto dos grupos de captura
print(m.group(0)) # toda a string capturada
print(m.group(1)) # o primeiro grupo de captura
print(m.group(2)) # o primeiro grupo de captura

('13', '49')
13:49
13
49


O módulo re possui ainda *flags* que podemos usar nas suas funções. As mais úteis são:

- `re.I` ou `re.IGNORECASE`: faz uma correspondência *case insensitive*.
- `re.M` ou `re.MULTILINE`: os tokens de âncora `^` e `$` passam a corresponder ao início/fim de cada linha, em vez do início/fim de uma string.
- `re.S` ou `re.DOTALL`: o token `.` passa a corresponder também a um caracter `\n`.

Podemos usar estas flags da seguinte forma: `re.search(r'trans.*mar', "TRANSF\nORMAR", re.I | re.S)`

## Exercício 1 - Conversão de datas ❎

Define a função `iso_8601` que converte as datas presentes numa string no formato DD/MM/AAAA para o formato ISO 8601 - AAAA-MM-DD, usando expressões regulares e grupos de captura.

In [58]:
import re
texto = """A 03/01/2022, Pedro viajou para a praia com a sua família.
Eles ficaram hospedados num hotel e aproveitaram o sol e o mar durante toda a semana.
Mais tarde, no dia 12/01/2022, Pedro voltou para casa e começou a trabalhar num novo projeto.
Ele passou muitas horas no escritório, mas finalmente terminou o projeto a 15/01/2022."""


def iso_8601(texto):
    texto_iso_8601 = re.sub(r'(\d{2})\/(\d{2})\/(\d{4})', r'\3-\2-\1', texto)
    return texto_iso_8601


print(iso_8601(texto))





A 2022-01-03, Pedro viajou para a praia com a sua família.
Eles ficaram hospedados num hotel e aproveitaram o sol e o mar durante toda a semana.
Mais tarde, no dia 2022-01-12, Pedro voltou para casa e começou a trabalhar num novo projeto.
Ele passou muitas horas no escritório, mas finalmente terminou o projeto a 2022-01-15.


## Exercício 2 - Validação de ficheiros ❎

Escreve um programa que lê uma lista de nomes de ficheiros e determina se cada nome é válido ou não. O nome de um ficheiro deve conter apenas caracteres alfanuméricos, hífens, underscores ou pontos, seguido de uma extensão (e.g., ".txt", ".png", etc.).

In [None]:
import re
file_names = [
  "document.txt", # válido
  "file name.docx", # inválido
  "image_001.jpg", # válido
  "script.sh.txt", # válido
  "test_file.txt", # válido
  "file_name.", # inválido
  "pasta2" #inválido
  "my_resume.docx", # válido
  ".hidden-file.txt", # válido
  "important-file.text file", # inválido
  "file%name.jpg" # inválido
  "pasta1" #inválido
]


def validate_file_names(file_names):
  for file_name in file_names:
    file = re.search(r'')


Valido document.txt com extensao .txt
Invalido
Valido image_001.jpg com extensao .jpg
Valido script.sh.txt com extensao .sh.txt
Valido test_file.txt com extensao .txt
Invalido
Valido my_resume.docx com extensao .docx
Valido .hidden-file.txt com extensao .hidden-file.txt
Invalido
Invalido


### Alínea 2.1

Modifica o programa anterior para colocar os nomes de ficheiro válidos num dicionário, no qual as chaves deverão ser as extensões dos mesmos. Por outras palavras, agrupa os ficheiros por extensão.

## Exercício 3 - Códigos postais 2

Define uma função `codigos_postais` que recebe uma lista de códigos postais e divide-os com base no hífen.

 - A função pode receber códigos postais inválidos.
 - A função deve devolver uma lista de pares e apenas processar cada linha uma vez.

In [None]:
lista = [
    "4700-000", # válido
    "9876543", # inválido
    "1234-567", # válido
    "8x41-5a3", # inválido
    "84234-12", # inválido
    "4583--321", # inválido
    "9481-025" # válido
]

# ...

## Exercício 4 - Expansão de abreviaturas ❎

Escreve um filtro de texto que expanda as abreviaturas que encontrar no texto fonte no formato "/abrev".

In [None]:
import re
abreviaturas = {
    "UM": "Universidade do Minho",
    "LEI": "Licenciatura em Engenharia Informática",
    "UC": "Unidade Curricular",
    "PL": "Processamento de Linguagens"
}

texto = "A /abrev{UC} de /abrev{PL} é muito fixe! É uma /abrev{UC} que acrescenta muito ao curso de /abrev{LEI} da /abrev{UM}."

A Unidade Curricular de Processamento de Linguagens é muito fixe! É uma Unidade Curricular que acrescenta muito ao curso de Licenciatura em Engenharia Informática da Universidade do Minho.


## Exercício 5 - Matrículas

Define uma função `matricula_valida` que recebe uma string de texto e determina se esta contém uma matrícula válida. Uma matrícula segue o formato AA-BB-CC, no qual dois dos três conjuntos devem ser compostos por números e o terceiro por letras maiúsculas (por exemplo, 01-AB-23), ou o novo formato no qual dois dos conjuntos são compostos por letras maiúsculas e o terceiro por números (por exemplo, 89-WX-YZ). Os conjuntos podem ser separados por um hífen ou um espaço.

Extra: Garante que o mesmo separador é usado para separar os três conjuntos.

In [None]:
matriculas = [
    "AA-AA-AA", # inválida
    "LR-RB-32", # válida
    "1234LX", # inválida
    "PL 22 23", # válida
    "ZZ-99-ZZ", # válida
    "54-tb-34", # inválida
    "12 34 56", # inválida
    "42-HA BQ" # válida, mas inválida com o requisito extra
]

## Exercício 6 - *Mad Libs* ❎

O jogo *Mad Libs*, bastante comum em países como os Estados Unidos, consiste em pegar num texto com espaços para algumas palavras e preencher esses espaços de acordo com o tipo de palavra que é pedida.

Escreve um programa que lê um texto no formato *Mad Libs* e pede ao utilizador para fornecer palavras que completem corretamente o texto.

In [None]:
texto = """Num lindo dia de [ESTAÇÃO DO ANO], [NOME DE PESSOA] foi passear com o seu [EXPRESSÃO DE PARENTESCO MASCULINA].
Quando chegaram à [NOME DE LOCAL FEMININO], encontraram um [OBJETO MASCULINO] muito [ADJETIVO MASCULINO].
Ficaram muito confusos, pois não conseguiam identificar a função daquilo.
Seria para [VERBO INFINITIVO]? Tentaram perguntar a [NOME DE PESSOA FAMOSA], que também não sabia.
Desanimados, pegaram no objeto e deixaram-no no [NOME DE LOCAL MASCULINO] mais próximo.
Talvez os [NOME PLURAL MASCULINO] de lá conseguissem encontrar alguma utilidade para aquilo."""

# ...

## Exercício 7 - Extração de informação de HTML ❎

A partir do ficheiro HTML contendo informações sobre produtos de uma loja online. Pretende-se extrair informações utilizando expressões regulares com o módulo re:

Informação a extrair:

- Títulos dos produtos
- Preços dos produtos
- Links das imagens dos produtos
- Links para as páginas dos produtos
- Lista de características do produto

Ficheiro html:
```
<!DOCTYPE html>
<html>
<head>
    <title>Loja de Eletrônicos</title>
</head>
<body>
    <div class="product">
        <h2>Smartphone X</h2>
        <span class="price">$799</span>
        <img src="images/smartphone.jpg" alt="Smartphone X">
        <a class="product-link" href="smartphone.html">Ver Detalhes</a>
        <ul class="features">
            <li>64GB Armazenamento</li>
            <li>Câmera 12MP</li>
            <li>Bateria 4000mAh</li>
        </ul>
    </div>
    
    <div class="product">
        <h2>Laptop Pro</h2>
        <span class="price">$1299</span>
        <img src="images/laptop.jpg" alt="Laptop Pro">
        <a class="product-link" href="laptop.html">Ver Detalhes</a>
        <ul class="features">
            <li>512GB SSD</li>
            <li>16GB RAM</li>
            <li>Processador i7</li>
        </ul>
    </div>

    <div class="product">
        <h2>HeadPhones</h2>
        <span class="price">$199</span>
        <img src="images/fones.jpg" alt="HeadPhones">
        <a class="product-link" href="fones.html">Ver Detalhes</a>
        <ul class="features">
            <li>Cancelamento de Ruído</li>
            <li>Bateria 20h</li>
            <li>Conexão Bluetooth</li>
        </ul>
    </div>
</body>
</html>

```
Output esperado no terminal:
```
=== 📦 Produtos Extraídos ===

🛒 Produto: Smartphone X
💲 Preço: $799
🖼️ Imagem: images/smartphone.jpg
🔗 Link: smartphone.html
📋 Características:
   - 64GB Armazenamento
   - Câmera 12MP
   - Bateria 4000mAh
--------------------------------------------------
🛒 Produto: Laptop Pro
💲 Preço: $1299
🖼️ Imagem: images/laptop.jpg
🔗 Link: laptop.html
📋 Características:
   - 512GB SSD
   - 16GB RAM
   - Processador i7
--------------------------------------------------
🛒 Produto: HeadPhones
💲 Preço: $199
🖼️ Imagem: images/fones.jpg
🔗 Link: fones.html
📋 Características:
   - Cancelamento de Ruído
   - Bateria 20h
   - Conexão Bluetooth
```

In [56]:
import re

ficheiro = open("ficheiro.html", "r")
ficheiro_html = ficheiro.read()

produtos = re.findall(r'<div class="product">(.*?)</div>', ficheiro_html, re.DOTALL)
print("=== 📦 Produtos Extraídos ===\n")
i = 0
for produto in produtos:
    if i != 0:
        print('--------------------------------------------------')
    i+=1
    titulo = re.search(r'<h2>(.*?)</h2>', produto)
    print('🛒 Produto: ' + titulo.group(1))
    price = re.search(r'<span class="price">(.*?)</span>', produto)
    print('💲 Preço: ' + price.group(1))
    img = re.search(r'<img src="(.*?)"', produto)
    print('🖼️ Imagem: ' + img.group(1))
    link = re.search(r'<a .* href="(.*?)"', produto)
    print('🔗 Link: ' + link.group(1))
    lista = re.search(r'<ul class="features">(.*?)</ul>', produto, re.DOTALL)
    #print(lista.group(1))
    features = re.split(r'<li>(.*?)</li>', lista.group(1))
    print("📋 Características: ")
    for feature in features:
        if '\n' not in feature:
            print('    - ' + feature)
    


=== 📦 Produtos Extraídos ===

🛒 Produto: Smartphone X
💲 Preço: $799
🖼️ Imagem: images/smartphone.jpg
🔗 Link: smartphone.html
📋 Características: 
    - 64GB Armazenamento
    - Câmera 12MP
    - Bateria 4000mAh
--------------------------------------------------
🛒 Produto: Laptop Pro
💲 Preço: $1299
🖼️ Imagem: images/laptop.jpg
🔗 Link: laptop.html
📋 Características: 
    - 512GB SSD
    - 16GB RAM
    - Processador i7
--------------------------------------------------
🛒 Produto: HeadPhones
💲 Preço: $199
🖼️ Imagem: images/fones.jpg
🔗 Link: fones.html
📋 Características: 
    - Cancelamento de Ruído
    - Bateria 20h
    - Conexão Bluetooth
