# Ficha de Expressões Regulares 1

### Conceitos básicos de expressões regulares

- `a` - corresponde a uma ocorrência do caracter `a`.
- `a?` - corresponde a 0 ou 1 ocorrências do caracter `a`.
- `a+` - corresponde a 1 ou mais ocorrências do caracter `a`.
- `a*` - corresponde a 0 ou mais ocorrências do caracter `a`.
- `[abc]` - corresponde a uma ocorrência de um dos caracteres `a`, `b` ou `c`.
- `[a-z]` - corresponde a uma ocorrência de um caracter entre `a` e `z`.
- `^` - corresponde ao início da string.
- `$` - corresponde ao fim da string.
- `[^abc]` - corresponde a uma ocorrência de qualquer caracter que não seja `a`, `b` ou `c`.

Podemos usar o operador de união para unir várias expressões regulares. Por exemplo: `a|bbb|[^a-z]`, que corresponde a uma das várias (neste caso, 3) expressões regulares que fazem parte da união.

Podemos simplificar expressões regulares como `bbb` para `b{3}`, ou seja, 3 ocorrências consecutivas do caracter `b`, neste caso. Outras opções incluem `b{3,}` para 3 ou mais ocorrências ou `b{3,6}` para entre 3 a 6 ocorrências, por exemplo.

Para formar grupos de expressões regulares, usamos parênteses. Por exemplo: `((abc)*|[0-9]+)?`. Os operadores após um grupo atuam sobre o grupo.

Podemos ainda aplicar modificadores a grupos. Por exemplo, `(?i:teste)` corresponde à expressão "teste", escrita com qualquer combinação de maiúsculas e minúsculas (e.g., "TESTE", "tEsTe", "TEste", etc.).

## Exercício 1

### Alínea 1.1

Dada uma linha de texto, define um programa que determina se a palavra "hello" aparece no início da linha.

Conceitos importantes para este exercício:

- `re.match(pattern, string[, flags])` - analisa a `string` e tenta encontrar uma correspondência para a expressão regular `pattern` a partir do início da string. Devolve `None` se não encontrar nenhuma correspondência.
- `r""` - string correspondente a uma expressão regular.

In [2]:
import re

In [41]:
line1 = "hello world"
line2 = "goodbye world"
line3 = "hi, hello there"

print(re.match(r"hello",line1))
print(re.match(r"hello",line2))
print(re.match(r"hello",line3))


<re.Match object; span=(0, 5), match='hello'>
None
None


Verifica-se que na string "line2", a palavra "hello" está presente no início. Nas restantes, uma vez que não está presente, é devolvido None.

### Alínea 1.2

Dada uma linha de texto, define um programa que determina se a palavra "hello" aparece em qualquer posição da linha.

Conceitos importantes para este exercício:

- `re.search(pattern, string[, flags])` - analisa a `string` e tenta encontrar uma correspondência para a expressão regular `pattern` em qualquer posição da string. Devolve `None` se não encontrar nenhuma correspondência.

In [42]:
line1 = "hello world"
line2 = "goodbye world"
line3 = "hi, hello there"

print(re.search(r"hello",line1))
print(re.search(r"hello",line2))
print(re.search(r"hello",line3))


<re.Match object; span=(0, 5), match='hello'>
None
<re.Match object; span=(4, 9), match='hello'>


É possível verificar que a palavra "hello" está presente nas strings "line1" e "line3".

### Alínea 1.3

Dada uma linha de texto, define um programa que pesquisa por todas as ocorrências da palavra "hello" dentro da linha, admitindo que a palavra seja escrita com maiúsculas ou minúsculas.

Conceitos importantes para este exercício:

- `re.findall(pattern, string[, flags])` - encontra todas as correspondências que não se sobreponham da expressão regular `pattern` na `string`. Devolve uma lista.

In [43]:
line = "Hello there! Uh, hi, hello, it's me... Heyyy, hello? HELLO!"

re.findall(r"hello",line, flags= re.IGNORECASE)

['Hello', 'hello', 'hello', 'HELLO']

Para procurar todas as ocorrências da palavra "hello", independentemente de se encontrar em maiúsculas ou minúsculas, foi utilizada uma flag que ignora esta situação. Assim, na lista devolvida consta todas as ocorrências.

### Alínea 1.4

Dada uma linha de texto, define um programa que pesquisa por todas as ocorrências da palavra "hello" dentro da linha, substituindo cada uma por "\*YEP\*".

Conceitos importantes para este exercício:

- `re.sub(pattern, replacement, string, count = 0, flags = 0)` - substitui todas as correspondências da expressão regular `pattern` na `string` por `replacement`. `replacement` pode ser uma string, uma expressão regular ou uma função que recebe uma correspondência e devolve uma string. O parâmetro `count` determina o limite de substituições (por defeito é 0, ou seja, não há limite).

In [63]:
line = "Hello there! Uh, hi, hello, it's me... Heyyy, hello? HELLO!"
line2=line.lower()
re.sub(r"hello", r"*YEP*",line2, count=0,flags=0)

"*YEP* there! uh, hi, *YEP*, it's me... heyyy, *YEP*? *YEP*!"

De forma a substituir todas as ocorrências da palavra "hello" por "*YEP" foi utilizada o re.sub. Para serem detetadas todas as occorências, a string foi passada para escrita minúscula e depois feita a substituição.

### Alínea 1.5

Dada uma linha de texto, define um programa que pesquisa por todas as ocorrências do caracter vírgula, separando cada parte da linha por esse caracter.

Conceitos importantes para este exercício:

- `re.split(pattern, string, maxsplit = 0, flags = 0)` - divide a `string` com base nas correspondências da expressão regular `pattern`. O parâmetro `maxsplit` pode ser usado para definir um limite de divisões (por defeito é 0, que corresponde a divisões infinitas).

In [72]:
line = "bananas, laranjas, maçãs, uvas, melancias, cerejas, kiwis, etc."

re.split(r",",line)

['bananas',
 ' laranjas',
 ' maçãs',
 ' uvas',
 ' melancias',
 ' cerejas',
 ' kiwis',
 ' etc.']

Foi utilizado o método split() para a divisão da string por ",".

## Exercício 2

Define a função `palavra_magica` que recebe uma frase e determina se a mesma termina com a expressão "por favor", seguida de um sinal válido de pontuação.

In [55]:
import re
def palavra_magica(frase):
    padrao = r"por favor[\?\.\!\:\;]$|por favor\.{3}$"
    
    if re.search(padrao, frase):
        return True
    else:
        return False
    
print(palavra_magica("Posso ir à casa de banho, por favor...")) 
print(palavra_magica("Preciso de um favor."))
print(palavra_magica("por favor?, vou à casa de banho"))

True
False
False


A principal dificuldade deste exercício consistiu em colocar como possível escolha o sinal de reticências (...). Para tal, foi acrecentado " |por favor\.{3}$ " que inclui as reticências.

## Exercício 3

Define a função `narcissismo` que calcula quantas vezes a palavra "eu" aparece numa string.

In [62]:
def narcissismo(linha):
  padrao= r"\beu\b"
  soma = len(re.findall(padrao,linha,flags=re.IGNORECASE))
  return soma

print(narcissismo("Eu não sei se eu quero continuar a ser eu. Por outro lado, eu ser eu é uma parte importante de quem EU sou."))

6


Para identificar exclusivamente a palavra "eu", foi utilizado o padrão '\beu\b' para encontrar apenas ocorrências da palavra completa. O método "findall" retorna uma lista de todas as ocorrências encontradas. Para determinar quantas vezes a palavra aparece, basta contar o número de elementos nesta lista usando a função len(). Além disso, a flag 'IGNORE CASE' foi utilizada para garantir que a diferenciação entre maiúsculas e minúsculas seja ignorada durante a procura.

## Exercício 4

Define a função `troca_de_curso` que substitui todas as ocorrências de "LEI" numa linha pelo nome do curso dado à função.

In [71]:
def troca_de_curso(linha, novo_curso):
    replace=re.sub(r"LEI",str(novo_curso),linha)
    return replace
print(troca_de_curso("LEI é o melhor curso! Adoro LEI! Gostar de LEI devia ser uma lei.","BIOM"))

BIOM é o melhor curso! Adoro BIOM! Gostar de BIOM devia ser uma lei.


Foi utilizado o método sub para substituir a palavra "LEI" por outra.

## Exercício 5

Define a função `soma_string` que recebe uma string com vários números separados por uma vírgula (e.g., "1,2,3,4,5") e devolve a soma destes números.

In [77]:
def soma_string(linha):
  numeros=re.split(r",",linha)
  soma=0
  for num in numeros:
    soma+=int(num)
  return soma

print(soma_string("4,-6,2,3,8,-3,0,2,-5,1"))

6


Uma vez que o resultado de "re.split()" retorna uma lista com os números, basta apenas utilizar um ciclo "for" para correr a lista e definir a variável soma que vai somando os elementos da lista.

## Exercício 6

Define a função `pronomes` que encontra e devolve todos os pronomes pessoais presentes numa frase, i.e., "eu", "tu", "ele", "ela", etc., com atenção para letras maiúsculas ou minúsculas.

In [83]:
def pronomes(frase):
    padrao = r"\beu\b|\btu\b|\bel[ea]s*\b|\bn[oó]s\b|\bv[óo]s\b"
    oc=re.findall(padrao,frase,flags=re.IGNORECASE)
    return oc

print(pronomes("ELES nós vos ela eles ele simba oi julia"))


['ELES', 'nós', 'vos', 'ela', 'eles', 'ele']


O padrão de expressão regular r"\beu\b|\btu\b|\bel[ea]s*\b|\bn[oó]s\b|\bv[oó]s\b" foi utilizado para encontrar ocorrências dos pronomes "eu", "tu", "ele", "ela", "eles", "elas", "nós" e "vós", considerando que "ele" e "ela" podem ser representados pelo padrão el[ea]s*, que corresponde a "ele" ou "ela" seguido opcionalmente por "s" para indicar o plural.  Para o pronome "nós e vós" é ainda possível encontrar estas palavaras sem acentos.De seguida, usou-se a função findall() para encontrar todas as ocorrências desses pronomes na frase, ignorando diferenças entre maiúsculas e minúsculas devido à flag re.IGNORECASE. Em seguida, uma lista contendo todas as ocorrências encontradas é retornada pela função. 

## Exercício 7

Define a função `variavel_valida` que recebe uma string e determina se a mesma é um nome válido para uma variável, ou seja, se começa por uma letra e apenas contém letras, números ou *underscores*.

In [109]:
def variavel_valida(string):
    # Verifica se a string começa com uma letra
    if not re.match(r"^[a-zA-Z]", string):
        return False
    # Verifica se a string contém apenas letras, números ou underscores
    if not re.match(r"^\w*$", string):
        return False
    return True

print(variavel_valida("okojd_i"))
print(variavel_valida("9okojdi"))
print(variavel_valida("oko jdi"))
print(variavel_valida("oko!di"))

True
False
False
False


Inicialmente, utilizou-se a expressão regular ^[a-zA-Z] para garantir que a string comece com uma letra (maiúscula ou minúscula). Se a string não começar com uma letra, a função retorna False. De seguida, usou-se expressão regular ^\w*$ para garantir que a string contenha apenas letras, números ou underscores (_). Se a string conter qualquer outro caractere além desses, a função retorna False.

## Exercício 8

Define a função `inteiros` que devolve todos os números inteiros presentes numa string. Um número inteiro pode conter um ou mais dígitos e pode ser positivo ou negativo.

In [113]:
def inteiros(string):
    numeros= re.split(r",",string)
    lista_nova=[]
    for num in numeros:
        if not re.findall(r"\.",num):
            lista_nova.append(num)
    return lista_nova

print(inteiros("-2,4,12,32,32.4,-12,-0.03"))



['-2', '4', '12', '32', '-12']


Primeiramente,foi usado re.split(r",", string) para dividir a string em uma lista de números, utilizando a vírgula como delimitador.
De seguida, através do ciclo "for", é percorrido cada número na lista resultante e verifica-se se este contém um ponto decimal (representando um número real).Se o número contiver um ponto decimal,é ignorado e não é incluído na lista de inteiros.

## Exercício 9

Define a função `underscores` que substitui todos os espaços numa string por *underscores*. Se aparecerem vários espaços seguidos, devem ser substituídos por apenas um *underscore*.

In [120]:
def underscores(string):
    sub= re.sub(r"\s+",r"_",string)
    return sub
print(underscores("ana    maria ana "))

ana_maria_ana_


## Exercício 10

Define a função `codigos_postais` que recebe uma lista de códigos postais válidos e divide-os com base no hífen. A função deve devolver uma lista de pares.

In [126]:

lista = [
    "4700-000",
    "1234-567",
    "8541-543",
    "4123-974",
    "9481-025"
]

def codigos_postais(lista):
    nova_lista=[]
    for cod in lista:
        elem=re.split(r"-",cod)
        nova_lista.append((elem[0],elem[1]))
    return nova_lista

print(codigos_postais(lista))

[('4700', '000'), ('1234', '567'), ('8541', '543'), ('4123', '974'), ('9481', '025')]
