# Ficha de Expressões Regulares 1

### Conceitos básicos de expressões regulares

- `a` - corresponde a uma ocorrência do caracter `a`.
- `a?` - corresponde a 0 ou 1 ocorrências do caracter `a`.
- `a+` - corresponde a 1 ou mais ocorrências do caracter `a`.
- `a*` - corresponde a 0 ou mais ocorrências do caracter `a`.
- `[abc]` - corresponde a uma ocorrência de um dos caracteres `a`, `b` ou `c`.
- `[a-z]` - corresponde a uma ocorrência de um caracter entre `a` e `z`.
- `^` - corresponde ao início da string.
- `$` - corresponde ao fim da string.
- `[^abc]` - corresponde a uma ocorrência de qualquer caracter que não seja `a`, `b` ou `c`.

Podemos usar o operador de união para unir várias expressões regulares. Por exemplo: `a|bbb|[^a-z]`, que corresponde a uma das várias (neste caso, 3) expressões regulares que fazem parte da união.

Podemos simplificar expressões regulares como `bbb` para `b{3}`, ou seja, 3 ocorrências consecutivas do caracter `b`, neste caso. Outras opções incluem `b{3,}` para 3 ou mais ocorrências ou `b{3,6}` para entre 3 a 6 ocorrências, por exemplo.

Para formar grupos de expressões regulares, usamos parênteses. Por exemplo: `((abc)*|[0-9]+)?`. Os operadores após um grupo atuam sobre o grupo.

Podemos ainda aplicar modificadores a grupos. Por exemplo, `(?i:teste)` corresponde à expressão "teste", escrita com qualquer combinação de maiúsculas e minúsculas (e.g., "TESTE", "tEsTe", "TEste", etc.).

## Exercício 1

### Alínea 1.1

Dada uma linha de texto, define um programa que determina se a palavra "hello" aparece no início da linha.

Conceitos importantes para este exercício:

- `re.match(pattern, string[, flags])` - analisa a `string` e tenta encontrar uma correspondência para a expressão regular `pattern` a partir do início da string. Devolve `None` se não encontrar nenhuma correspondência.
- `r""` - string correspondente a uma expressão regular.

In [8]:
import re

line1 = "hello world"
line2 = "goodbye world"
line3 = "hi, hello there"
print(re.match("hello", line1))
print(re.match("hello", line2))
print(re.match("hello", line3))

hello world
<re.Match object; span=(0, 5), match='hello'>
None
None


Só encontra na line1 -> uma vez que a função match só procura o padrão no início da linha

### Alínea 1.2

Dada uma linha de texto, define um programa que determina se a palavra "hello" aparece em qualquer posição da linha.

Conceitos importantes para este exercício:

- `re.search(pattern, string[, flags])` - analisa a `string` e tenta encontrar uma correspondência para a expressão regular `pattern` em qualquer posição da string. Devolve `None` se não encontrar nenhuma correspondência.

In [2]:
import re
line1 = "hello world"
line2 = "goodbye world"
line3 = "hi, hellO there hellO"

print(re.search("hello", line1))
print(re.search("hello", line2))
print(re.search("hellO", line3))

<re.Match object; span=(0, 5), match='hello'>
None
<re.Match object; span=(4, 9), match='hellO'>


Encontra na line1 e line3 -> a função search encontra em várias posições da linha.

### Alínea 1.3

Dada uma linha de texto, define um programa que pesquisa por todas as ocorrências da palavra "hello" dentro da linha, admitindo que a palavra seja escrita com maiúsculas ou minúsculas.

Conceitos importantes para este exercício:

- `re.findall(pattern, string[, flags])` - encontra todas as correspondências que não se sobreponham da expressão regular `pattern` na `string`. Devolve uma lista.

In [11]:
line = "Hello there! Uh, hi, hello, it's me... Heyyy, hello? HELLO!"

print("Função findall", re.findall("hello", line))
print("Função search", re.match("hello", line))


Função findall ['hello', 'hello']
Função search None


A função findall encontra todas as ocorrências do padrão. Neste caso, o padrão é "hello" com minúscula, e, por isso, mesmo não encontra o "Hello" no início da linha.
A função match também não encontra o padrão apesar da palavra hello estar no início da frase devido à diferença maiúscula/minúscula.

### Alínea 1.4

Dada uma linha de texto, define um programa que pesquisa por todas as ocorrências da palavra "hello" dentro da linha, substituindo cada uma por "\*YEP\*".

Conceitos importantes para este exercício:

- `re.sub(pattern, replacement, string, count = 0, flags = 0)` - substitui todas as correspondências da expressão regular `pattern` na `string` por `replacement`. `replacement` pode ser uma string, uma expressão regular ou uma função que recebe uma correspondência e devolve uma string. O parâmetro `count` determina o limite de substituições (por defeito é 0, ou seja, não há limite).

In [17]:
line = "Hello there! Uh, hi, hello, it's me... Heyyy, hello? HELLO!"
line=re.sub("hello", "*YEP*", line)
line2=re.sub("hello", "*YEP*", line, flags=re.IGNORECASE)
print(line)
print("Utilizando a flag:    ", line)


Hello there! Uh, hi, *YEP*, it's me... Heyyy, *YEP*? HELLO!
Utilizando a flag:     Hello there! Uh, hi, *YEP*, it's me... Heyyy, *YEP*? HELLO!


Mais uma vez a utilização do padrão "hello" não apanha os casos com diferenças de maiúsculas ou minúsculas. No entanto, através da utilização da flag IGNORECASE, todos os casos de hello são encontrados e substituidos.

### Alínea 1.5

Dada uma linha de texto, define um programa que pesquisa por todas as ocorrências do caracter vírgula, separando cada parte da linha por esse caracter.

Conceitos importantes para este exercício:

- `re.split(pattern, string, maxsplit = 0, flags = 0)` - divide a `string` com base nas correspondências da expressão regular `pattern`. O parâmetro `maxsplit` pode ser usado para definir um limite de divisões (por defeito é 0, que corresponde a divisões infinitas).

In [2]:
import re
line = "bananas, laranjas, maçãs, uvas, melancias, cerejas, kiwis, etc."
re.split(",", line)

['bananas',
 ' laranjas',
 ' maçãs',
 ' uvas',
 ' melancias',
 ' cerejas',
 ' kiwis',
 ' etc.']

## Exercício 2

Define a função `palavra_magica` que recebe uma frase e determina se a mesma termina com a expressão "por favor", seguida de um sinal válido de pontuação.

In [3]:
import re


def palavra_magica(frase):
    padrao = r"por favor[.!?]$|por favor\.{3}$"
    if re.search(padrao, frase.lower()):
        return True
    else:
        return False 


print(palavra_magica("Posso ir à casa de banho, por favor?"))
print(palavra_magica("Preciso de um favor..."))


True
True


Utilizando o padrão \r"por favor[.!?]\$" e a função search é possível fazer a verificação pedida. A disjunção [.!?] permite verificar os vários tipos de pontuação. A âncora $ permite que a função procure o padrão apenas no fim de uma linha.

## Exercício 3

Define a função `narcissismo` que calcula quantas vezes a palavra "eu" aparece numa string.

In [3]:
def narcissismo(linha):
  return len(re.findall(r"eu", linha, flags=re.IGNORECASE)) # oureturn len(re.findall(r"[Ee][Uu]", linha)) 

print(narcissismo("Eu não sei se eu quero continuar a ser eu. Por outro lado, eu ser eu é uma parte importante de quem EU sou."))

6


## Exercício 4

Define a função `troca_de_curso` que substitui todas as ocorrências de "LEI" numa linha pelo nome do curso dado à função.

In [25]:
def troca_de_curso(linha, novo_curso):
  return re.sub("LEI", novo_curso, linha)
  

print(troca_de_curso("LEI é o melhor curso! Adoro LEI! Gostar de LEI devia ser uma lei.", "Biomédica"))

Biomédica é o melhor curso! Adoro Biomédica! Gostar de Biomédica devia ser uma lei.


## Exercício 5

Define a função `soma_string` que recebe uma string com vários números separados por uma vírgula (e.g., "1,2,3,4,5") e devolve a soma destes números.

In [53]:
def soma_string(linha):
  listanum=re.split(",", linha)
  soma=0
  for i in range (len(listanum)):
    soma=soma+int(listanum[i]) 
  return soma


print(soma_string("4,-6,2,3,8,-3,0,2,-5,1"))

6


## Exercício 6

Define a função `pronomes` que encontra e devolve todos os pronomes pessoais presentes numa frase, i.e., "eu", "tu", "ele", "ela", etc., com atenção para letras maiúsculas ou minúsculas.

In [5]:
import re
def pronomes(frase):
    return re.findall(r"([Ee]u|[tT]u|[eE]l[ea]s?|[nN]ós|[vV]ós)", frase)

print(pronomes("eu vou Tu vais ela vai eles ele Nós vamos"))

['eu', 'Tu', 'ela', 'eles', 'ele', 'Nós']


Aqui poderia também ser utilizada a flag IGNORECASE para não serem consideradas as diferenças ente maiúsculas e minúsculas.

## Exercício 7

Define a função `variavel_valida` que recebe uma string e determina se a mesma é um nome válido para uma variável, ou seja, se começa por uma letra e apenas contém letras, números ou *underscores*.

In [19]:
def variavel_valida(string):
    if re.search(r"^[a-zA-Z]\w+", string):
        return True
    else:
        return False
    
print(variavel_valida("1kk21n_222222"))



True


Aqui foi utilizado o padrão r"^[a-zA-Z]\w+" que verifica se a palavra inicia com uma letra através da disjunção [a-zA-Z] e da âncora ^ que representa o início da linha. Posteriormente, foi verificado se o resto da frase seria constituído por letras, dígitos ou underscores utilizando \w.

## Exercício 8

Define a função `inteiros` que devolve todos os números inteiros presentes numa string. Um número inteiro pode conter um ou mais dígitos e pode ser positivo ou negativo.

In [21]:
#Assumindo que a string vem no tipo: 2 3 4 45 -3 
def inteiros(string):
    return re.findall(r"-?\d+[^\.]", string)

print(inteiros("2 3 4 45 -3 5.3"))


['2 ', '3 ', '4 ', '45 ', '-3 ']


Para não ser necessário fazer split da string e percorrer uma lista, a expressão regular utilizada procura dígitos e, ainda, a possível existência do sinal negativo. Neste exercício foi ainda tido em conta a possível existência de números decimais na string no formato dd.dd que não devem aparecer no return para isso, utilizou-se [^\.]. 

## Exercício 9

Define a função `underscores` que substitui todos os espaços numa string por *underscores*. Se aparecerem vários espaços seguidos, devem ser substituídos por apenas um *underscore*.

In [15]:
def underscores(string):
    return re.sub(r"\s+", "_", string)
print(underscores("Olá   eu  sou a Mariana."))

Olá_eu_sou_a_Mariana.


## Exercício 10

Define a função `codigos_postais` que recebe uma lista de códigos postais válidos e divide-os com base no hífen. A função deve devolver uma lista de pares.

In [24]:
lista = [
    "4700-000",
    "1234-567",
    "8541-543",
    "4123-974",
    "9481-025"
]
def codigos_postais(lista):
    lista_tuplos=[]
    for codigo in lista:
        pares=re.split("-", codigo)
        lista_tuplos.append((pares[0], pares[1]))
    return lista_tuplos
print(codigos_postais(lista))
# ...

[('4700', '000'), ('1234', '567'), ('8541', '543'), ('4123', '974'), ('9481', '025')]
