# Ficha de Expressões Regulares 2

### Conceitos mais avançados de expressões regulares

- `.` - corresponde a uma ocorrência de qualquer caracter (exceto '\n', geralmente).
- `\w` - corresponde a um caracter alfanumérico (a-z, A-Z, 0-9 ou _).
- `\W` - corresponde a um caracter **não** alfanumérico.
- `\s` - corresponde a um caracter de *whitespace* (' ', '\t', ou '\n', por exemplo).
- `\S` - corresponde a um caracter que não seja *whitespace*.
- `\d` - corresponde a um dígito.
- `\D` - corresponde a um caracter que não seja um dígito.
- `\btot\w+` - corresponde a uma palavra **começada** por "tot" (o token `\b` representa uma *word boundary*, ou seja, o limite entre um caracter alfanumérico e outro não alfanumérico). Por outras palavras, captura a palavra "totalidade" mas não a palavra "batota". O token `\b` também pode ser usado no fim de palavras.
- `a(?=b)` - corresponde a um caracter `a` que tenha à sua frente um caracter `b`, mas não captura o caracter `b`. (*positive lookahead*)
- `a(?!b)` - corresponde a um caracter `a` que **não** tenha à sua frente um caracter `b`, mas não captura o caracter seguinte. (*negative lookahead*)
- `a(?<=b)` - corresponde a um caracter `a` que tenha atrás de si um caracter `b`, mas não captura o caracter `b`. (*positive lookbehind*)
- `a(?<!b)` - corresponde a um caracter `a` que **não** tenha atrás de si um caracter `b`, mas não captura o caracter anterior. (*negative lookbehind*)


Podemos usar *grupos de captura* em expressões regulares para isolar segmentos da string capturada. Usamos parênteses para definir grupos de captura.

In [None]:
# Pequena intro sobre grupos de captura
import re
m = re.search(r'(2[0-3]|[0-1][0-9]):([0-5][0-9])', "13:49")

print(m.groups()) # conjunto dos grupos de captura
print(m.group(0)) # toda a string capturada
print(m.group(1)) # o primeiro grupo de captura
print(m.group(2)) # o primeiro grupo de captura=

texto="13:49"

resultSemNome = re.sub(r"(2[0-3]|[0-1][0-9]):([0-5][0-9])",r"\2:\1",texto)
print(resultSemNome)

resultNome = re.sub(r"(?P<primeiro>2[0-3]|[0-1][0-9]):([0-5][0-9])",r"\2:\g<primeiro>",texto)
print(resultNome)

('13', '49')
13:49
13
49
49:13
49:13


O módulo re possui ainda *flags* que podemos usar nas suas funções. As mais úteis são:

- `re.I` ou `re.IGNORECASE`: faz uma correspondência *case insensitive*.
- `re.M` ou `re.MULTILINE`: os tokens de âncora `^` e `$` passam a corresponder ao início/fim de cada linha, em vez do início/fim de uma string.
- `re.S` ou `re.DOTALL`: o token `.` passa a corresponder também a um caracter `\n`.

Podemos usar estas flags da seguinte forma: `re.search(r'trans.*mar', "TRANSF\nORMAR", re.I | re.S)`

## Exercício 1 - Conversão de datas

Define a função `iso_8601` que converte as datas presentes numa string no formato DD/MM/AAAA para o formato ISO 8601 - AAAA-MM-DD, usando expressões regulares e grupos de captura.

In [None]:
import re
texto = """A 03/01/2022, Pedro viajou para a praia com a sua família.
Eles ficaram hospedados num hotel e aproveitaram o sol e o mar durante toda a semana.
Mais tarde, no dia 12/01/2022, Pedro voltou para casa e começou a trabalhar num novo projeto.
Ele passou muitas horas no escritório, mas finalmente terminou o projeto a 15/01/2022."""

def iso_8601(m):
    return f"{m.group(3)}-{m.group(2)}-{m.group(1)}"

result = re.sub(r"(\d{2})/(\d{2})/(\d{4})", iso_8601, texto)
print(result)

## Exercício 2 - Validação de ficheiros

Escreve um programa que lê uma lista de nomes de ficheiros e determina se cada nome é válido ou não. O nome de um ficheiro deve conter apenas caracteres alfanuméricos, hífens, underscores ou pontos, seguido de uma extensão (e.g., ".txt", ".png", etc.).

In [None]:
import re
file_names = [
  "document.txt", # válido
  "file name.docx", # inválido
  "image_001.jpg", # válido
  "script.sh.txt", # válido
  "test_file.txt", # válido
  "file_name.", # inválido
  "my_resume.docx", # válido
  ".hidden-file.txt", # válido
  "important-file.text file", # inválido
  "file%name.jpg" # inválido
]

for file_name in file_names:
    if re.match(r"^^[a-zA-Z0-9\._-]+\.[a-zA-Z0-9\._-]+$", file_name):
        print(f"Válido {file_name} com a extensão {file_name.split('.')[-1]}")
    else:
        print(f"Inválido")

Valido document.txt com extensao .txt
Invalido
Valido image_001.jpg com extensao .jpg
Valido script.sh.txt com extensao .sh.txt
Valido test_file.txt com extensao .txt
Invalido
Valido my_resume.docx com extensao .docx
Valido .hidden-file.txt com extensao .hidden-file.txt
Invalido
Invalido


### Alínea 2.1

Modifica o programa anterior para colocar os nomes de ficheiro válidos num dicionário, no qual as chaves deverão ser as extensões dos mesmos. Por outras palavras, agrupa os ficheiros por extensão.

In [None]:
# criar um dicionario com os nomes validos em que as chaves sao as extensoes
valid_files = {}
for file_name in file_names:
    if re.match(r"^^[a-zA-Z0-9\._-]+\.[a-zA-Z0-9\._-]+$", file_name):
        extensao = file_name.split('.')[-1]
        if extensao in valid_files:
            valid_files[extensao].append(file_name)
        else:
            valid_files[extensao] = [file_name]
print(valid_files)

## Exercício 3 - Códigos postais 2

Define uma função `codigos_postais` que recebe uma lista de códigos postais e divide-os com base no hífen.

 - A função pode receber códigos postais inválidos.
 - A função deve devolver uma lista de pares e apenas processar cada linha uma vez.

In [None]:
lista = [
    "4700-000", # válido
    "9876543", # inválido
    "1234-567", # válido
    "8x41-5a3", # inválido
    "84234-12", # inválido
    "4583--321", # inválido
    "9481-025" # válido
]

def codigo_postais

## Exercício 4 - Expansão de abreviaturas

Escreve um filtro de texto que expanda as abreviaturas que encontrar no texto fonte no formato "/abrev".

In [None]:
import re
abreviaturas = {
    "UM": "Universidade do Minho",
    "LEI": "Licenciatura em Engenharia Informática",
    "UC": "Unidade Curricular",
    "PL": "Processamento de Linguagens"
}


texto = "A /abrev{UC} de /abrev{PL} é muito fixe! É uma /abrev{UC} que acrescenta muito ao curso de /abrev{LEI} da /abrev{UM}."


A /abrev{UC} de /abrev{PL} é muito fixe! É uma /abrev{UC} que acrescenta muito ao curso de /abrev{LEI} da Universidade do Minho.
A Unidade Curricular de Processamento de Linguagens é muito fixe! É uma Unidade Curricular que acrescenta muito ao curso de Licenciatura em Engenharia Informática da Universidade do Minho.


## Exercício 5 - Matrículas

Define uma função `matricula_valida` que recebe uma string de texto e determina se esta contém uma matrícula válida. Uma matrícula segue o formato AA-BB-CC, no qual dois dos três conjuntos devem ser compostos por números e o terceiro por letras maiúsculas (por exemplo, 01-AB-23), ou o novo formato no qual dois dos conjuntos são compostos por letras maiúsculas e o terceiro por números (por exemplo, 89-WX-YZ). Os conjuntos podem ser separados por um hífen ou um espaço.

Extra: Garante que o mesmo separador é usado para separar os três conjuntos.

In [None]:
matriculas = [
    "AA-AA-AA", # inválida
    "LR-RB-32", # válida
    "1234LX", # inválida
    "PL 22 23", # válida
    "ZZ-99-ZZ", # válida
    "54-tb-34", # inválida
    "12 34 56", # inválida
    "42-HA BQ" # válida, mas inválida com o requisito extra
]

def matricula_valida(matricula):
    ex5 = [
        r'([A-Z]{2}(-| )[A-Z]{2}\2[0-9]{2})', # AA-AA-00
        r'([A-Z]{2}(-| )[0-9]{2}\2[A-Z]{2})', # AA-00-AA
        r'([A-Z]{2}(-| )[0-9]{2}\2[0-9]{2})', # AA-00-00
        r'([0-9]{2}(-| )[A-Z]{2}\2[A-Z]{2})', # 00-AA-AA
        r'([0-9]{2}(-| )[0-9]{2}\2[A-Z]{2})', # 00-00-AA
        r'([0-9]{2}(-| )[A-Z]{2}\2[0-9]{2})', # 00-AA-00
    ]

    for e in ex5:
        if re.search(e, matricula) is not None:
            return True

    return False

def matricula_valida_aux(matricula):
    resp = []

    for e in matricula:
        resp.append(matricula_valida(e))
    
    return resp

print(matricula_valida_aux(matriculas))

## Exercício 6 - *Mad Libs*

O jogo *Mad Libs*, bastante comum em países como os Estados Unidos, consiste em pegar num texto com espaços para algumas palavras e preencher esses espaços de acordo com o tipo de palavra que é pedida.

Escreve um programa que lê um texto no formato *Mad Libs* e pede ao utilizador para fornecer palavras que completem corretamente o texto.

In [None]:
texto = """Num lindo dia de [ESTAÇÃO DO ANO], [NOME DE PESSOA] foi passear com o seu [EXPRESSÃO DE PARENTESCO MASCULINA].
Quando chegaram à [NOME DE LOCAL FEMININO], encontraram um [OBJETO MASCULINO] muito [ADJETIVO MASCULINO].
Ficaram muito confusos, pois não conseguiam identificar a função daquilo.
Seria para [VERBO INFINITIVO]? Tentaram perguntar a [NOME DE PESSOA FAMOSA], que também não sabia.
Desanimados, pegaram no objeto e deixaram-no no [NOME DE LOCAL MASCULINO] mais próximo.
Talvez os [NOME PLURAL MASCULINO] de lá conseguissem encontrar alguma utilidade para aquilo."""

def madLibs(texto):
    exp = re.findall(r'\[.*?\]', texto)

    for e in exp:
        texto = texto.replace(e, input(f"Insira um(a) {e[1:-1]}: "))

    return texto

print(madLibs(texto))

## Exercício 7 - Remoção de repetidos

Escreve um filtro de texto que sempre que encontrar no texto fonte uma palavra repetida elimina as repetições, ou seja, substitui a lista de palavras por 1 só palavra.

In [None]:
# ...