# Ficha de Expressões Regulares 1

### Conceitos básicos de expressões regulares

- `a` - corresponde a uma ocorrência do caracter `a`.
- `a?` - corresponde a 0 ou 1 ocorrências do caracter `a`.
- `a+` - corresponde a 1 ou mais ocorrências do caracter `a`.
- `a*` - corresponde a 0 ou mais ocorrências do caracter `a`.
- `[abc]` - corresponde a uma ocorrência de um dos caracteres `a`, `b` ou `c`.
- `[a-z]` - corresponde a uma ocorrência de um caracter entre `a` e `z`.
- `^` - corresponde ao início da string.
- `$` - corresponde ao fim da string.
- `[^abc]` - corresponde a uma ocorrência de qualquer caracter que não seja `a`, `b` ou `c`.

Podemos usar o operador de união para unir várias expressões regulares. Por exemplo: `a|bbb|[^a-z]`, que corresponde a uma das várias (neste caso, 3) expressões regulares que fazem parte da união.

Podemos simplificar expressões regulares como `bbb` para `b{3}`, ou seja, 3 ocorrências consecutivas do caracter `b`, neste caso. Outras opções incluem `b{3,}` para 3 ou mais ocorrências ou `b{3,6}` para entre 3 a 6 ocorrências, por exemplo.

Para formar grupos de expressões regulares, usamos parênteses. Por exemplo: `((abc)*|[0-9]+)?`. Os operadores após um grupo atuam sobre o grupo.

Podemos ainda aplicar modificadores a grupos. Por exemplo, `(?i:teste)` corresponde à expressão "teste", escrita com qualquer combinação de maiúsculas e minúsculas (e.g., "TESTE", "tEsTe", "TEste", etc.).

## Exercício 1

### Alínea 1.1

Dada uma linha de texto, define um programa que determina se a palavra "hello" aparece no início da linha.

Conceitos importantes para este exercício:

- `re.match(pattern, string[, flags])` - analisa a `string` e tenta encontrar uma correspondência para a expressão regular `pattern` a partir do início da string. Devolve `None` se não encontrar nenhuma correspondência.
- `r""` - string correspondente a uma expressão regular.

In [2]:
import re

line1 = "hello world"
line2 = "goodbye world"
line3 = "hi, hello there"

def find_hello_start(string):
    if re.match("^hello", string):
        message = "'hello' was found at the start of the string!"
    else:
        message = "'hello' was NOT found at the start of the string!"
    return message
        
print(find_hello_start(line1))
print(find_hello_start(line2))
print(find_hello_start(line3))

'hello' was found at the start of the string!
'hello' was NOT found at the start of the string!
'hello' was NOT found at the start of the string!


### Alínea 1.2

Dada uma linha de texto, define um programa que determina se a palavra "hello" aparece em qualquer posição da linha.

Conceitos importantes para este exercício:

- `re.search(pattern, string[, flags])` - analisa a `string` e tenta encontrar uma correspondência para a expressão regular `pattern` em qualquer posição da string. Devolve `None` se não encontrar nenhuma correspondência.

In [3]:
line1 = "hello world"
line2 = "goodbye world"
line3 = "hi, hello there"

def find_hello(string):
    if re.search("hello", string):
        message = "'hello' was found in the string!"
    else:
        message = "'hello' was NOT found in the string!"
    return message
        
print(find_hello(line1))
print(find_hello(line2))
print(find_hello(line3))

'hello' was found in the string!
'hello' was NOT found in the string!
'hello' was found in the string!


### Alínea 1.3

Dada uma linha de texto, define um programa que pesquisa por todas as ocorrências da palavra "hello" dentro da linha, admitindo que a palavra seja escrita com maiúsculas ou minúsculas.

Conceitos importantes para este exercício:

- `re.findall(pattern, string[, flags])` - encontra todas as correspondências que não se sobreponham da expressão regular `pattern` na `string`. Devolve uma lista.

In [9]:
line = "Hello there! Uh, hi, hello, it's me... Heyyy, hello? HELLO!"

def find_all_hello(string):
    if len(re.findall("(?i:hello)", string)) > 0:
        message = "'hello' was found in the string %s times!" % str(len(re.findall("(?i:hello)", string)))
    else:
        message = "'hello' was NOT found in the string!"
    return message
        
print(find_all_hello(line))

'hello' was found in the string 2 times!


### Alínea 1.4

Dada uma linha de texto, define um programa que pesquisa por todas as ocorrências da palavra "hello" dentro da linha, substituindo cada uma por "\*YEP\*".

Conceitos importantes para este exercício:

- `re.sub(pattern, replacement, string, count = 0, flags = 0)` - substitui todas as correspondências da expressão regular `pattern` na `string` por `replacement`. `replacement` pode ser uma string, uma expressão regular ou uma função que recebe uma correspondência e devolve uma string. O parâmetro `count` determina o limite de substituições (por defeito é 0, ou seja, não há limite).

In [10]:
line = "Hello there! Uh, hi, hello, it's me... Heyyy, hello? HELLO!"

def hello_to_yep(string):
    if re.search("(?i:hello)", string):
        message = re.sub("(?i:hello)", "YEP", string)
    else:
        message = "'hello' was NOT found in the string!"
    return message

print(hello_to_yep(line))

YEP there! Uh, hi, YEP, it's me... Heyyy, YEP? YEP!


### Alínea 1.5

Dada uma linha de texto, define um programa que pesquisa por todas as ocorrências do caracter vírgula, separando cada parte da linha por esse caracter.

Conceitos importantes para este exercício:

- `re.split(pattern, string, maxsplit = 0, flags = 0)` - divide a `string` com base nas correspondências da expressão regular `pattern`. O parâmetro `maxsplit` pode ser usado para definir um limite de divisões (por defeito é 0, que corresponde a divisões infinitas).

In [13]:
line = "bananas, laranjas, maçãs, uvas, melancias, cerejas, kiwis, etc."

def split_comma(string):
    split_line = re.split(",", string)
    return split_line

print(split_comma(line))

['bananas', ' laranjas', ' maçãs', ' uvas', ' melancias', ' cerejas', ' kiwis', ' etc.']


## Exercício 2

Define a função `palavra_magica` que recebe uma frase e determina se a mesma termina com a expressão "por favor", seguida de um sinal válido de pontuação.

In [15]:
def palavra_magica(frase):
    if re.search("por favor[^\s\w\d]", frase):
        message = "Palavra mágica reconhecida!"
    else:
        message = "Qual é a palavra mágica?"
    return message

print(palavra_magica("Posso ir à casa de banho, por favor?"))
print(palavra_magica("Preciso de um favor."))

Palavra mágica reconhecida!
Qual é a palavra mágica?


## Exercício 3

Define a função `narcissismo` que calcula quantas vezes a palavra "eu" aparece numa string.

In [18]:
def narcissismo(linha):
    if len(re.findall("(?i:eu)", linha)) > 0:
        message = "Foi narcisista %s vezes!" % str(len(re.findall("(?i:eu)", linha)))
    else:
        message = "Parabéns! Não foi narcisista!"
    return message

print(narcissismo("Eu não sei se eu quero continuar a ser eu. Por outro lado, eu ser eu é uma parte importante de quem EU sou."))

Foi narcisista 6 vezes!


## Exercício 4

Define a função `troca_de_curso` que substitui todas as ocorrências de "LEI" numa linha pelo nome do curso dado à função.

In [21]:
def troca_de_curso(linha, novo_curso):
    if re.search("LEI", linha):
        message = re.sub("LEI", novo_curso, linha)
    else:
        message = "'LEI' não se encontra na frase!"
    return message

print(troca_de_curso("LEI é o melhor curso! Adoro LEI! Gostar de LEI devia ser uma lei.", "LEBiom"))

LEBiom é o melhor curso! Adoro LEBiom! Gostar de LEBiom devia ser uma lei.


## Exercício 5

Define a função `soma_string` que recebe uma string com vários números separados por uma vírgula (e.g., "1,2,3,4,5") e devolve a soma destes números.

In [23]:
def soma_string(linha):
    split_line = re.split(",", linha)
    soma = 0
    for i in split_line:
        soma = soma + int(i)
    message = "A soma dos números da linha é %s" % str(soma)
    return message

print(soma_string("4,-6,2,3,8,-3,0,2,-5,1"))

A soma dos números da linha é 6


## Exercício 6

Define a função `pronomes` que encontra e devolve todos os pronomes pessoais presentes numa frase, i.e., "eu", "tu", "ele", "ela", etc., com atenção para letras maiúsculas ou minúsculas.

In [27]:
linha = "Eu sou o Luís, estudo engenharia biomédica com os meus e as minhas colegas. Tanto eles como elas são muito fixes! E tu?"

def pronomes(string):
    eu_found = 0
    tu_found = 0
    ele_found = 0
    ela_found = 0
    nos_found = 0
    vos_found = 0
    eles_found = 0
    elas_found = 0
    
    if len(re.findall("(?i:eu)\s", string)) > 0 or len(re.findall("(?i:eu)[^\s\w\d]", string)) > 0:
        eu_found = len(re.findall("(?i:eu)\s", string)) + len(re.findall("(?i:eu)[^\s\w\d]", string))
        
    if len(re.findall("(?i:tu)\s", string)) > 0 or len(re.findall("(?i:tu)[^\s\w\d]", string)) > 0:
        tu_found = len(re.findall("(?i:tu)\s", string)) + len(re.findall("(?i:tu)[^\s\w\d]", string))
        
    if len(re.findall("(?i:ele)\s", string)) > 0 or len(re.findall("(?i:ele)[^\s\w\d]", string)) > 0:
        ele_found = len(re.findall("(?i:ele)\s", string)) + len(re.findall("(?i:ele)[^\s\w\d]", string))
        
    if len(re.findall("(?i:ela)\s", string)) > 0 or len(re.findall("(?i:ela)[^\s\w\d]", string)) > 0:
        ela_found = len(re.findall("(?i:ela)\s", string)) + len(re.findall("(?i:ela)[^\s\w\d]", string))
        
    if len(re.findall("(?i:nós)\s", string)) > 0 or len(re.findall("(?i:nós)[^\s\w\d]", string)) > 0:
        nos_found = len(re.findall("(?i:nós)\s", string)) + len(re.findall("(?i:nós)[^\s\w\d]", string))
        
    if len(re.findall("(?i:vós)\s", string)) > 0 or len(re.findall("(?i:vós)[^\s\w\d]", string)) > 0:
        vos_found = len(re.findall("(?i:vós)\s", string)) + len(re.findall("(?i:vós)[^\s\w\d]", string))
        
    if len(re.findall("(?i:eles)\s", string)) > 0 or len(re.findall("(?i:eles)[^\s\w\d]", string)) > 0:
        eles_found = len(re.findall("(?i:eles)\s", string)) + len(re.findall("(?i:eles)[^\s\w\d]", string))
        
    if len(re.findall("(?i:elas)\s", string)) > 0 or len(re.findall("(?i:elas)[^\s\w\d]", string)) > 0:
        elas_found = len(re.findall("(?i:elas)\s", string)) + len(re.findall("(?i:elas)[^\s\w\d]", string))
        
    message = f"""
    ~~~~~~Pronomes encontrados:~~~~~
    
    Eu: {eu_found}
    Tu: {tu_found}
    Ele: {ele_found}
    Ela: {ela_found}
    Nós: {nos_found}
    Vós: {vos_found}
    Eles: {eles_found}
    Elas: {elas_found}
    """
        
    return message

print(pronomes(linha))


    ~~~~~~Pronomes encontrados:~~~~~
    
    Eu: 1
    Tu: 1
    Ele: 0
    Ela: 0
    Nós: 0
    Vós: 0
    Eles: 1
    Elas: 1
    


## Exercício 7

Define a função `variavel_valida` que recebe uma string e determina se a mesma é um nome válido para uma variável, ou seja, se começa por uma letra e apenas contém letras, números ou *underscores*.

In [35]:
def variavel_valida(string):
    if re.search("^[a-z]", string) and re.search("^(?i:[a-z_])+$", string): #regex foi uma challenge
        message = "Nome de variável válido!"
    else:
        message = "Nome de variável inválido"
    return message
        
print(variavel_valida("alpha"))
print(variavel_valida("Alpha"))
print(variavel_valida("alpha_Beta"))
print(variavel_valida("aLPHA"))
print(variavel_valida("alpha_beta"))
print(variavel_valida("alpha beta"))
print(variavel_valida("alpha.beta"))
print(variavel_valida("alpha&beta"))

Nome de variável válido!
Nome de variável inválido
Nome de variável válido!
Nome de variável válido!
Nome de variável válido!
Nome de variável inválido
Nome de variável inválido
Nome de variável inválido


## Exercício 8

Define a função `inteiros` que devolve todos os números inteiros presentes numa string. Um número inteiro pode conter um ou mais dígitos e pode ser positivo ou negativo.

In [45]:
linha = "1 dia fui dormir mais cedo, faltavam 0.5h para as 22! 2 dias depois pensei que o melhor seria dormir sempre, o mais tardar, às 23."

def inteiros(string):
    if len(re.findall("\d+\s", string)) > 0 or len(re.findall("\d+[^\s\w\d][^\d]", string)) > 0 or len(re.findall("\d+[^\s\w\d]$", string)) > 0:
        allfinds = re.findall("\d+\s", string) + re.findall("\d+[^\s\w\d][^\d]", string) + re.findall("\d+[^\s\w\d]$", string)
        for i in allfinds:
            allfinds[allfinds.index(i)] = re.sub("[^\d\w]", "", i) 
    return allfinds

print(inteiros(linha))

#regex foi uma challenge
#HIGHLIGHT

['1', '2', '22', '23']


## Exercício 9

Define a função `underscores` que substitui todos os espaços numa string por *underscores*. Se aparecerem vários espaços seguidos, devem ser substituídos por apenas um *underscore*.

In [47]:
linha1 = "Este   texto tem muitos    espaços !  "
linha2 = "Olá!"

def underscores(string):
    if re.search("\s", string):
        message = re.sub("\s+", "_", string)
    else:
        message = "Esta string não tem espaços!"
    return message

print(underscores(linha1))
print(underscores(linha2))

Este_texto_tem_muitos_espaços_!_
Esta string não tem espaços!


## Exercício 10

Define a função `codigos_postais` que recebe uma lista de códigos postais válidos e divide-os com base no hífen. A função deve devolver uma lista de pares.

In [50]:
lista = [
    "4700-000",
    "1234-567",
    "8541-543",
    "4123-974",
    "9481-025",
    "678-8765",
    "Braga",
    "ola-vila"
]

def codigos_postais(my_list):
    zip_cd_divided_list = []
    invalid_zcd_list = []
    for i in my_list:
        if re.search("\d{4}-\d{3}", i):
            zip_cd_divided = re.split("-", i)
            zip_cd_divided_list.append(zip_cd_divided)
        else:
            invalid_zcd_list.append(i)
            
    message = f"Códigos postais dividídos: \n {zip_cd_divided_list} \n\nCódigos postais inválidos: \n {invalid_zcd_list}"
    return message

print(codigos_postais(lista))

Códigos postais dividídos: 
 [['4700', '000'], ['1234', '567'], ['8541', '543'], ['4123', '974'], ['9481', '025']] 

Códigos postais inválidos: 
 ['678-8765', 'Braga', 'ola-vila']
