# Ficha de Expressões Regulares 2

### Conceitos mais avançados de expressões regulares

- `.` - corresponde a uma ocorrência de qualquer caracter (exceto '\n', geralmente).
- `\w` - corresponde a um caracter alfanumérico (a-z, A-Z, 0-9 ou _).
- `\W` - corresponde a um caracter **não** alfanumérico.
- `\s` - corresponde a um caracter de *whitespace* (' ', '\t', ou '\n', por exemplo).
- `\S` - corresponde a um caracter que não seja *whitespace*.
- `\d` - corresponde a um dígito.
- `\D` - corresponde a um caracter que não seja um dígito.
- `\btot\w+` - corresponde a uma palavra **começada** por "tot" (o token `\b` representa uma *word boundary*, ou seja, o limite entre um caracter alfanumérico e outro não alfanumérico). Por outras palavras, captura a palavra "totalidade" mas não a palavra "batota". O token `\b` também pode ser usado no fim de palavras.
- `a(?=b)` - corresponde a um caracter `a` que tenha à sua frente um caracter `b`, mas não captura o caracter `b`. (*positive lookahead*)
- `a(?!b)` - corresponde a um caracter `a` que **não** tenha à sua frente um caracter `b`, mas não captura o caracter seguinte. (*negative lookahead*)
- `(?<=b)a` - corresponde a um caracter `a` que tenha atrás de si um caracter `b`, mas não captura o caracter `b`. (*positive lookbehind*)
- `(?<!b)a` - corresponde a um caracter `a` que **não** tenha atrás de si um caracter `b`, mas não captura o caracter anterior. (*negative lookbehind*)


Podemos usar *grupos de captura* em expressões regulares para isolar segmentos da string capturada. Usamos parênteses para definir grupos de captura.

In [None]:
import re
m = re.search(r'(2[0-3]|[0-1][0-9]):([0-5][0-9])', "hora atual 2:30 24:00 13:49")

print(m.groups()) # conjunto dos grupos de captura
print(m.group(0)) # toda a string capturada
print(m.group(1)) # o primeiro grupo de captura
print(m.group(2)) # o segundo grupo de captura

('13', '49')
13:49
13
49


O módulo re possui ainda *flags* que podemos usar nas suas funções. As mais úteis são:

- `re.I` ou `re.IGNORECASE`: faz uma correspondência *case insensitive*.
- `re.M` ou `re.MULTILINE`: os tokens de âncora `^` e `$` passam a corresponder ao início/fim de cada linha, em vez do início/fim de uma string.
- `re.S` ou `re.DOTALL`: o token `.` passa a corresponder também a um caracter `\n`.

Podemos usar estas flags da seguinte forma: `re.search(r'trans.*mar', "TRANSF\nORMAR", re.I | re.S)`

##Exercício 0 - Calculo da Nota Média de um Aluno##

In [None]:
import re

print("Informação dum aluno no formato: NumAl; NomeCompl; N1; ...; Nn")
inputFromUser = input(">> ")
while inputFromUser != "":
  lista = re.split(r';', inputFromUser, maxsplit=2)
    ............
    print("O aluno com número ", XXX, " e nome ", XXX, " tem média: ", med)
  inputFromUser = input(">> ")




## Exercício 1 - Conversão de datas

Define a função `iso_8601` que converte as datas presentes numa string no formato DD/MM/AAAA para o formato ISO 8601 - AAAA-MM-DD, usando expressões regulares e grupos de captura.

In [None]:
import re

texto = """A 03/01/2022, Pedro viajou para a praia com a sua família.
Eles ficaram hospedados num hotel e aproveitaram o sol e o mar durante toda a semana.
Mais tarde, no dia 12/01/2022, Pedro voltou para casa e começou a trabalhar num novo projeto.
Ele passou muitas horas no escritório, mas finalmente terminou o projeto a 15/01/2022."""

# ...
res = ......
print(res)

## Exercício 2 - Validação de ficheiros

Escreve um programa que lê uma lista de nomes de ficheiros e determina se cada nome é válido ou não. O nome de um ficheiro deve conter apenas caracteres alfanuméricos, hífens, underscores ou pontos, seguido de uma extensão (e.g., ".txt", ".png", etc.).

In [None]:
file_names = [
  "document.txt", # válido
  "file name.docx", # inválido
  "image_001.jpg", # válido
  "script.sh.tt", # válido
  "test_file.txt", # válido
  "file_name.", # inválido
  "my_resume.docx", # válido
  ".hidden-file.txt", # válido
  "important-file.text file", # inválido
  "file%name.jpg" # inválido
]

import re
# ...
print(vale := re.match( r'[A-Za-z][A-Za-z\_\-.\d]*\.([a-z]{1,4})$', file_names[3] ))



None


### Alínea 2.1

Modifica o programa anterior para colocar os nomes de ficheiro válidos num dicionário, no qual as chaves deverão ser as extensões dos mesmos. Por outras palavras, agrupa os ficheiros por extensão.

In [None]:
file_names = [
  "document.txt", # válido
  "file name.docx", # inválido
  "image_001.jpg", # válido
  "image002.jpg", # válido
  "script.sh.txt", # válido
  "test_file.txt", # válido
  "file_name.", # inválido
  "my_resume.docx", # válido
  ".hidden-file.txt", # inválido
  "important-file.text file", # inválido
  "file%name.jpg" # inválido
]

import re
# ...
dic = {}
for file in file_names:
  ...........

for key in dic:
    print(key," -> ",dic[key])



## Exercício 3 - Conversão de nomes

Escreve um filtro de texto que converte cada nome completo de uma pessoa encontrada num texto fonte, no formato `PrimeiroNome SegundoNome [...] UltimoNome` para o formato `UltimoNome, PrimeiroNome`. Por exemplo, "Rui Vieira de Castro" passa a "Castro, Rui". Atenção aos conectores "de", "dos", etc.

In [None]:
import re

texto = """Este texto foi feito por Sofia Guilherme Rodrigues dos Santos, com
base no texto original de Pedro Rafael Paiva Moura, com a ajuda
dos professores Pedro Rangel Henriques e José João Antunes Guimarães Dias de Almeida.
Apesar de partilharem o mesmo apelido, a Sofia não é da mesma família do famoso
autor José Rodrigues  Santos."""

# ...
nome = r'[A-Z][a-zéêãàáâôõóíú]+'

#novo_texto = re.sub(rf'({nome})(\s+{nome})+', r'\2 \1', texto)
#print("Transformação 1: ", novo_texto)

def processa_nome(m):
    primeiro = m[1]
    ultimo = m[2].lstrip()
    return f"{ultimo}, {primeiro[0]}."

novo_texto = re.sub(rf'({nome})(\s+{nome})+', processa_nome, texto)
print("Transformação 2: ",novo_texto)

def nomes_completos2(fonte: str) -> str:
    primeiro_nome = r'([A-ZÁÀÂÃÉÈÊẼÍÌÓÒÔÕÚÙ])[a-záàâãéèêẽíìóòôõúù]*'
    nome = r'[A-ZÁÀÂÃÉÈÊẼÍÌÓÒÔÕÚÙ][a-záàâãéèêẽíìóòôõúù]*'
    exp = rf'\b{primeiro_nome}\s*(?:(?:{nome}|do|da|dos|das|de)\s*)*({nome})\b'
    return re.sub(exp, r'\2, \1.', fonte)

print("Transformação 3: ",nomes_completos2(texto))


Transformação 2:  Este texto foi feito por Rodrigues, S. dos Santos, com
base no texto original de Moura, P., com a ajuda
dos professores Henriques, P. e Dias, J. de Almeida.
Apesar de partilharem o mesmo apelido, a Sofia não é da mesma família do famoso
autor Santos, J..
Este texto foi feito por Santos, S., com
base no texto original de Moura, P., com a ajuda
dos professores Henriques, P. e Almeida, J..
Apesar de partilharem o mesmo apelido, a Sofia não é da mesma família do famoso
autor Santos, J..


import re
## Exercício 4 - Códigos postais 2

Define uma função `codigos_postais` que recebe uma lista de códigos postais e divide-os com base no hífen. Ao contrário do exercício da ficha anterior, esta função pode receber códigos postais inválidos. A função deve devolver uma lista de pares e apenas processar cada linha uma vez.

In [None]:
import re
lista = [
    "4700-000", # válido
    "4715-012", # válido
    "987-6543", # inválido
    "1234-567", # válido
    "8x41-5a3", # inválido
    "84234-12", # inválido
    "4583--321", # inválido
    "4583-321", # válido
    "9481-025" # válido
]

reCod = re.compile(r'(\d{4})-(\d{3])')
res = []
.......

## Exercício 5 - Expansão de abreviaturas

Escreve um filtro de texto que expanda as abreviaturas que encontrar no texto fonte no formato "/abrev".

In [None]:
abreviaturas = {
    "UM": "Universidade do Minho",
    "LEI": "Licenciatura em Engenharia Informática",
    "UC": "Unidade Curricular",
    "PL": "Processamento de Linguagens",
    "MV" : "Maria Vitória",
    "mt" : "muito",
    "tb" : "também",
    "mb" : "muito bem",
    "cqd" : "como queriamos demonstrar"
}

import re
texto1 = "A /UU de /PL é muito fixe! É uma /UC que acrescenta muito ao curso de /LEI da /UM."
texto2 = """
- Eu gosto /mt de manga.
- Fixe! Eu e /tu /tb!
Fim da história /MV.
   /cqd.
   /mb para terminar!
"""
texto = texto1+"\n"+texto2

# ...
def expande(pal):
  .......................
  return res

txtExpandido = ...........
print(txtExpandido)


## Exercício 6 - Matrículas

Define uma função `matricula_valida` que recebe uma string de texto e determina se esta contém uma matrícula válida. Uma matrícula segue o formato AA-BB-CC, no qual dois dos três conjuntos devem ser compostos por números e o terceiro por letras maiúsculas (por exemplo, 01-AB-23), ou o novo formato no qual dois dos conjuntos são compostos por letras maiúsculas e o terceiro por números (por exemplo, 89-WX-YZ). Os conjuntos podem ser separados por um hífen ou um espaço.

Extra: Garante que o mesmo separador é usado para separar os três conjuntos.

In [None]:
matriculas = [
    "AA-AA-AA", # inválida
    "LR-RB-32", # válida
    "1234LX", # inválida
    "PL 22 23", # válida
    "ZZ-99-ZZ", # válida
    "54-tb-34", # inválida
    "12 34 56", # inválida
    "42-HA BQ" # válida, mas inválida com o requisito extra
]

## Exercício 7 - *Mad Libs*

O jogo *Mad Libs*, bastante comum em países como os Estados Unidos, consiste em pegar num texto com espaços para algumas palavras e preencher esses espaços de acordo com o tipo de palavra que é pedida.

Escreve um programa que lê um texto no formato *Mad Libs* e pede ao utilizador para fornecer palavras que completem corretamente o texto.

In [None]:
texto = """Num lindo dia de [ESTAÇÃO DO ANO], [NOME DE PESSOA] foi passear com o seu [EXPRESSÃO DE PARENTESCO MASCULINA].
Quando chegaram à [NOME DE LOCAL FEMININO], encontraram um [OBJETO MASCULINO] muito [ADJETIVO MASCULINO].
Ficaram muito confusos, pois não conseguiam identificar a função daquilo.
Seria para [VERBO INFINITIVO]? Tentaram perguntar a [NOME DE PESSOA FAMOSA], que também não sabia.
Desanimados, pegaram no objeto e deixaram-no no [NOME DE LOCAL MASCULINO] mais próximo.
Talvez os [NOME PLURAL MASCULINO] de lá conseguissem encontrar alguma utilidade para aquilo."""

# ...
from re import *

def expande(pal):
  res = input(f"{pal.group(1)}?")
  return(res)

txtExpandido = sub( r'\[(.*?)\]', expande, texto)
print(txtExpandido)


## Exercício 8 - Remoção de repetidos

Escreve um filtro de texto que sempre que encontrar no texto fonte uma palavra repetida elimina as repetições, ou seja, substitui a lista de palavras por 1 só palavra.

In [None]:
# ...
import re

frase = input()
while frase != "":
  frase = re.sub( ......, frase)
  print(frase)
  frase = input()





## Exercício 9 - Processador de entrevistas (EU/ELE)

Escreve um filtro de texto ler um texto com entrevistas de rua em que a fala do entrevistador começaa por "EU:" e a fala do entrevistado começa por "ELE:".
Pretende-se que em cada fala os indicadores de personagem sejam substituidos pelos respetivos NOMES de acordo com a definição inicial começada, respetivamente, por "EU=" e por "ELE=".

Para testar o seu processador use o ficheiro 'entrevita.txt' abaixo:
«««

EU = Pedro Henriques.

ele = Beltrão Coelho.

Eu: Bom dia, como está? tudo bem consigo?
qual o seu nome?

ele:eu chamo-me Beltrão Coelho e estou muito bem.
e qual o seu nome?

EU:Pedro um seu criado! Ele é o Zezinho.

ELE: Ah ok muito bem. Prazer Zezinho, eu: não o conhecia.
eu: vamos então começar a entrevista que ele quer começar a filmar.

Eu =Nuno Fernandes.

Ele= Alberto Coelho.

Eu: Bom dia, como está? tudo bem consigo?
qual o seu nome?

ele: eu chamo-me Alberto Coelho e estou muito bem.
e qual o seu nome?

EU: Pedro um seu criado! Ele é o Zezinho.

ELE: Ah ok muito bem. Prazer Zezinho, eu não o conhecia.

eu: vamos então começar a entrevista que ele quer começar a filmar.

ELE = Ana Camacho.

Eu: Bom dia, como está? tudo bem consigo?
qual o seu nome?

ele: sim tudo otimo!

»»»

In [None]:
from re import *

eu = ''
ele = ''
lin = 0

f = open("/entrevista.txt", "r", encoding="utf-8")
for linha in f:
    lin +=1
    enc = match( r'(?i:eu):', linha)
    if (enc):
      print("Linha: ",lin)


f.close()


## Exercício 10 - Construção de um Analisador Léxico

Observe a função escrita numa determinada linguagem de programação em que as palavras em bold são palavras reservadas.

«««

**def** fun ( **int** x , **str** pal ) :

 **int** y

 y = x + conv ( pal )

**return** y

»»»

Identifique todos os **símbolos terminais** da linguagem, atribua a cada um desses símbolos um código inteiro.
Depois escreva uma analisador léxico que leia a função acima e a transforme numa sequência de códigos.






In [None]:
import re

txtfnt = """
def fun ( int x , str pal ) :
    int y
    y = x + conv ( pal )
    return y
fun ( 12 , "abc" )
"""
#1 0 5 2 0 10 4 0 6 7
#2 0 
#0 8 0 9 0 5 0 6
#3 0
#0 5 11 10 12 6

# tabela de símbolos
st = { 
      "def" : 1,
       "int" : 2,
       "return" : 3,
       "str" : 4,
       "(" : 5,
       ")" : 6,
       ":" : 7,
       "=" : 8,
       "+" : 9,
       "," : 10
    }

def codifica(txt):
  s = re.search(r'\d+',txt.group())
  if s:
    res = 11
  else:
    s = re.search(r'\"[^"]*\"', txt.group())
    if s:
      # string (qualquer caracter entre qualquer coisa (exemplo, aspas))
      res = 12
    else:
      res = st.get(txt[0],0)
      # caso não encontre txt[0] na simbol table, devolve 0 (identificador)
  return str(res)

simbolos = re.sub(r'[^\s]+', codifica, txtfnt)
# argumento da função codifica -> objeto match que faz match da exp reg no txtfnt
print(simbolos)



1 0 5 2 0 10 4 0 6 7
    2 0
    0 8 0 9 0 5 0 6
    3 0
0 5 11 10 12 6

