# Ficha de Expressões Regulares 1

Autor Sofia Santos, ano letivo 24/25 (versão PRH)

### Conceitos básicos de expressões regulares

- `a` - corresponde a uma ocorrência do caracter `a`.
- `a?` - corresponde a 0 ou 1 ocorrências do caracter `a`.
- `a+` - corresponde a 1 ou mais ocorrências do caracter `a`.
- `a*` - corresponde a 0 ou mais ocorrências do caracter `a`.
- `[abc]` - corresponde a uma ocorrência de um dos caracteres `a`, `b` ou `c`.
- `[a-z]` - corresponde a uma ocorrência de um caracter entre `a` e `z`.
- `^` - corresponde ao início da string.
- `$` - corresponde ao fim da string.
- `[^abc]` - corresponde a uma ocorrência de qualquer caracter que não seja `a`, `b` ou `c`.

Podemos usar o operador de união para unir várias expressões regulares. Por exemplo: `a|bbb|[^a-z]`, que corresponde a uma das várias (neste caso, 3) expressões regulares que fazem parte da união.

Podemos simplificar expressões regulares como `bbb` para `b{3}`, ou seja, 3 ocorrências consecutivas do caracter `b`, neste caso. Outras opções incluem `b{3,}` para 3 ou mais ocorrências ou `b{3,6}` para entre 3 a 6 ocorrências, por exemplo.

Para formar grupos de expressões regulares, usamos parênteses. Por exemplo: `((abc)*|[0-9]+)?`. Os operadores após um grupo atuam sobre o grupo.

Podemos ainda aplicar modificadores a grupos. Por exemplo, `(?i:teste)` corresponde à expressão "teste", escrita com qualquer combinação de maiúsculas e minúsculas (e.g., "TESTE", "tEsTe", "TEste", etc.).

## Exercício 1

### Alínea 1.1

Dada uma linha de texto, define um programa que determina se a palavra "hello" aparece no início da linha.

Conceitos importantes para este exercício:

- `re.match(pattern, string[, flags])` - analisa a `string` e tenta encontrar uma correspondência para a expressão regular `pattern` a partir do início da string. Devolve `None` se não encontrar nenhuma correspondência.
- `r""` - string correspondente a uma expressão regular.

In [None]:
from re import *

line1 = "hello world"
line2 = "goodbye world"
line3 = "hi, hello there"

res1 = match(r'(?i:hello)', line1)
print(res1)
print(res1.group(0))

res2 = match(r'(?i:hello)', line2)
if res2:
  print(res2)
else:
  print("Não encontrei nada!")

res3 = match(r'(?i:hello)', line3)
if res3:
  print(res3.group(0))
else:
  print("Não encontrei nada!")


<re.Match object; span=(0, 5), match='hello'>
hello
Não encontrei nada!
Não encontrei nada!


### Alínea 1.2

Dada uma linha de texto, define um programa que determina se a palavra "hello" aparece em qualquer posição da linha.

Conceitos importantes para este exercício:

- `re.search(pattern, string[, flags])` - analisa a `string` e tenta encontrar uma correspondência para a expressão regular `pattern` em qualquer posição da string. Devolve `None` se não encontrar nenhuma correspondência.

In [None]:
import re
line1 = "hello world"
line2 = "goodbye world"
line3 = "hi, hello there"
line4 = "HeLLo, Hello, HELLO, hello there! hello, girls!! hello, guys!!!"
line5 = ""

#res = re.search(r'(?i:hello)', line1)
#res = re.search(r'(?i:hello)', line2)
#res = re.search(r'(?i:hello)', line3)
res = re.search(r'(?i:hello)', line4)

#res = re.search(r'[a-zA-Z]+', line5)

if res:
  print(res.group(0))
else:
  print("Não encontrei nada!")





HeLLo


### Alínea 1.3

Dada uma linha de texto, define um programa que pesquisa por todas as ocorrências da palavra "hello" dentro da linha, admitindo que a palavra seja escrita com maiúsculas ou minúsculas.

Conceitos importantes para este exercício:

- `re.findall(pattern, string[, flags])` - encontra todas as correspondências que não se sobreponham da expressão regular `pattern` na `string`. Devolve uma lista.

In [None]:
from re import *
line = "Hello there! Uh, hi, hello, it's me... Heyyy, hello? HELLO!"

#res = findall(r'(?i:hello)', line)
testInput = input('>> ')
while testInput != '':
  res = findall(r'\d+', testInput)
  if res:
    print('Foram encontradas', len(res), 'ocorrências')
    for i in res:
      print(i)
  else:
    print("Nenhuma ocorrência")
  testInput = input('>> ')


>> ola 12 e depois 123 e enfim 45 acabou 999
Foram encontradas 4 ocorrências
12
123
45
999
>> 


### Alínea 1.4

Dada uma linha de texto, define um programa que pesquisa por todas as ocorrências da palavra "hello" (**Maiúsculas ou Minúsculas**
) dentro da linha, substituindo cada uma por "\*YEP\*".

Conceitos importantes para este exercício:

- `re.sub(pattern, replacement, string, count = 0)` - substitui todas as correspondências da expressão regular `pattern` na `string` por `replacement`. `replacement` pode ser uma string, uma expressão regular ou uma função que recebe uma correspondência e devolve uma string. O parâmetro opcional `count` determina o limite de substituições (por omissão é 0, ou seja, não há limite).

In [None]:
import re
line = "Hello there! Uh, hi, hello, it's me... Heyyy, hello? HELLO!"
line2 = "O meu telemóvel é 954324028 ou 9684122875 ou 931212411. O dele é 203604468. O do zé é 150305152"
# ...

def reF(pattern, replacement, string):
  res = re.sub(pattern, replacement, string)
  return res

print(reF(r"(?i:hello)","*YEP*", line))
print(reF(r"[0-9]{9}", "*", line2))
print(reF(r"[29][0-9]{8}", "*", line2))
print(reF(r"(2[1-9][0-9]{7})|(9[1236][0-9]{7})", "++", line2))

print(re.sub(r"(?i:[a-zA-Z]+[,?!])","####", line, 3))


*YEP* there! Uh, hi, *YEP*, it's me... Heyyy, *YEP*? *YEP*!
O meu telemóvel é * ou *5 ou *. O dele é *. O do zé é *
O meu telemóvel é * ou *5 ou *. O dele é *. O do zé é 150305152
O meu telemóvel é 954324028 ou *5 ou *. O dele é 203604468. O do zé é 150305152
Hello #### #### #### hello, it's me... Heyyy, hello? HELLO!


### Alínea 1.5

Dada uma linha de texto, define um programa que pesquisa por todas as ocorrências do caracter vírgula, separando cada parte da linha por esse caracter. O Programa deve ainda indicar quantas partes resultaram da separação.

Conceitos importantes para este exercício:

- `re.split(pattern, string, maxsplit = 0)` - divide a `string` com base nas correspondências da expressão regular `pattern`. O parâmetro opcional `maxsplit` pode ser usado para definir um limite de divisões (por omissão é 0, que corresponde a qualquer números de divisões).

In [None]:
import re
line = "bananas, 1 laranjas, 2 maçãs, 3 uvas, 4melancias, 555cerejas, 6 kiwis, etc."

res = re.split(r',', line)
#res = re.split(r',', line, 3)
##res = re.split(r'\d+',line,3)
if (res):
  print(res)
  print(type(line))
  print(type(res))
  n= len(res)
  print("Após o split, resultaram ", n, " cálulas")
#

['bananas', ' 1 laranjas', ' 2 maçãs', ' 3 uvas', ' 4melancias', ' 555cerejas', ' 6 kiwis', ' etc.']
<class 'str'>
<class 'list'>
Após o split, resultaram  8  cálulas


## Exercício 2

Define a função `palavra_magica` que recebe uma frase e determina se a mesma termina com a expressão "por favor", seguida de um sinal válido de pontuação.

In [None]:
import re

def palavra_magica(frase):
 res = re.search(r"por favor[?!.]$", frase)
 return "Válido" if res else "Inválido"



print(palavra_magica("Posso ir à casa de banho, por  favor? miguel"))
print(palavra_magica("Posso ir à casa de banho, por favor."))
print(palavra_magica("Preciso de um favor."))

Inválido
Válido
Inválido


## Exercício 3

Define a função `narcissismo` que calcula quantas vezes a palavra "eu" aparece numa string.

In [None]:
from re import *

texto = """EU, dignissimo Eustáquio, disse: Eu não sei se deu, mas eu quero continuar a ser eu, Eufrásia.
Por eutro lado, eu ser eu é uma parte importante de qeum EU sou, mas não sou Deus."""

def narcissismo(linha):
  y = re.findall(r"(^(?i:eu)|\s(?i:eu))[\s.,!?;:]", linha)
  return len(y)

print(narcissismo( texto ))


7


## Exercício 4

Define a função `troca_de_curso` que substitui todas as ocorrências de "LEI" numa linha pelo nome do curso dado à função.

In [None]:
import re

def troca_de_curso(linha, novo_curso):
  return re.sub(r'LEI', novo_curso, linha)

fonte = "LEI é o melhor curso! Adoro LEI! Gostar de LEI devia ser uma lei."
curso = input("Novo curso? ")
print(troca_de_curso(fonte, curso))


Novo curso? LCC
LCC é o melhor curso! Adoro LCC! Gostar de LCC devia ser uma lei.


## Exercício 5

Define a função `soma_string` que recebe uma string com vários números separados por uma vírgula (e.g., "1,2,3,4,5") e devolve a soma destes números.

In [None]:
import re

def soma_string(linha):
  soma = 0
  nums = re.split(r',', linha)
  for n in nums:
    soma += int(n)
  return  soma

print(soma_string("4,10,-6,1,-9,-5, 5, 10"))


10


## Exercício 6

Define a função `pronomes` que encontra e devolve todos os pronomes pessoais presentes numa frase, i.e., "eu", "tu", "ele", "ela", etc., com atenção para letras maiúsculas ou minúsculas.

Calcule e mostre também o conjunto dos pronomes encontrados (note que "eu" e "EU" são o mesmo elemento).

In [None]:
from re import *

frase = """Ola eu vou de certeza. Tu e ele, vêm?
        Eu não espero por vós.
        Eu estou com pressa, ele tem de vir, nós vamos andando!"""

pronomes = r'(?i:eu|tu|ele|nós|vós|eles)'

def tolower(lista):
  res = []
  for palavra in lista:
    res += [palavra.lower()]
  return res

def encPronomes(f):
  res = findall( pronomes, f )
  return res

pslist = encPronomes( frase )
l = sorted(pslist)
pslist.sort()
print('lista de todos os pronomes encontrados: ', l )
print('2 lista de todos os pronomes encontrados: ', pslist )

ps = set(tolower(pslist))
#ps = sorted(ps)
print('pronomes encontrados, sem repetições: ', ps )





lista de todos os pronomes encontrados:  ['Eu', 'Eu', 'Tu', 'ele', 'ele', 'eu', 'nós', 'vós']
2 lista de todos os pronomes encontrados:  ['Eu', 'Eu', 'Tu', 'ele', 'ele', 'eu', 'nós', 'vós']
pronomes encontrados, sem repetições:  {'vós', 'nós', 'eu', 'tu', 'ele'}


## Exercício 7

Define a função `variavel_valida` que recebe uma string e determina se a mesma é um nome válido para uma variável, ou seja, se começa por uma letra e apenas contém letras, números ou *underscores*.

In [24]:
import re

id0 = "Turma"
id1 = "_tot_"
id2 = "_tot_1.turma-2"
id3 = "tot_1.turma-2"
id4 = "tot_1_turma_2"
id5 = "tot1turma2"
id6 = "palavra/sapo"
id7 = "palavra_sapo"
id8 = "çã"
id9 = "maçã"
XXXX = [id0] + [id1] + [id2] + [id3] + [id4] + [id5] + [id6] + [id7] + [id8] + [id9]

def variavel_valida(pal):
   # return ("Válida" if re.match('[a-zA-Z]\w*$' , pal) else "Inválida")

   if(re.match('[a-zA-Z]\w*$', pal)):
    return("Válida")
   else:
    return("Inválida")

for id in XXXX :
  print(variavel_valida(id))

Válida
Inválida
Inválida
Inválida
Válida
Válida
Inválida
Válida
Inválida
Válida


## Exercício 8

Define a função `inteiros` que devolve todos os números inteiros (ou reais) presentes numa string. Um número  pode conter um ou mais dígitos, eventualmente com um ponto ou virgula, e pode ser positivo ou negativo.

In [2]:
import re

def numeros(frase): 
    return re.findall(r'-?\d+(?:[\.,]\d+)?', frase)

frase = "1.23dsds2,22-3-54ola+567.a120"

print(numeros(frase))

['1.23', '2,22', '-3', '-54', '567', '120']



## Exercício 9

Define a função `underscores` que substitui todos os espaços numa string por *underscores*. Se aparecerem vários espaços seguidos, devem ser substituídos por apenas um *underscore*.

In [4]:
import re

def underscores( frase ):
  return re.sub(r' +' , r'_', frase)


print(underscores("Aqui temos   um belo   exemplo   de frase    completamente  maluca  !"))


Aqui_temos_um_belo_exemplo_de_frase_completamente_maluca_!


## Exercício 10

Escreva um programa que recebe uma lista de códigos postais válidos e divide-os com base no hífen. O programa deve imprimir uma lista de pares.

In [6]:
from re import *

lista = [
    "4700-000",
    "1234-567",
    "8541-543",
    "4123-974",
    "9481-025"
]

pares=[]

for cod in lista:
  s = split( r'-', cod)
  pares += [(s[0],s[1])]


print(pares)



[('4700', '000'), ('1234', '567'), ('8541', '543'), ('4123', '974'), ('9481', '025')]
