In [33]:
import re

def verify_pattern(pattern: str, str_list: list) -> None:
    r'''
        Dado um padrão e uma lista de strings, encontra todas as vezes que o padrão é encontrado na string. 
        Se imprimir ---- é porque o padrão não foi encontrado.
        
        :param pattern (str): o padrão a ser procurado na string.
        :param str_list (list): uma lista contendo strings para checar o padrão.
    '''
    for idx, s in enumerate(str_list):
        r = re.findall(pattern, s)
        print(f'{idx + 1} = ', r if len(r) > 0 else '----')
    print('\n')


def verify_pattern_with_group(pattern: str, str_list: list, group_number: int = 1) -> None:
    r'''
        Verifica o padrão em uma lista de strings usando re.fullmatch (útil quando se quer usar groups).
        Se imprimir --- é porque o padrão não foi encontrado.

        :param pattern (str): o padrão a ser procurado na string.
        :param str_list (list): uma lista contendo strings para checar o padrão.
    '''
    for idx, s in enumerate(str_list):
        r = re.fullmatch(pattern, s)
        print(f'{idx + 1} = ', r.group(group_number) if r is not None else '----')

1. Escreva expressões regulares para os seguintes padrões

a) Todas as strings alfabéticas;

In [299]:
str_list = [
    'albatroz', 
    'big0rna',   # inválido: contém caracteres numéricos
    'Casaco', 
    'dom_quixote',  # inválido: contém um caracter não alfabético
    'EsPerTezA', 
    'pikachu123',  # inválido: contém caracteres numéricos
    '20'   # inválido: contém caracteres numéricos
]
# usei \b para separar as palavras de uma string. assim dá pra checar várias palavras na mesma string
pattern = r'\b[a-zA-Z]+\b'
verify_pattern(pattern, str_list)

1 =  ['albatroz']
2 =  ----
3 =  ['Casaco']
4 =  ----
5 =  ['EsPerTezA']
6 =  ----
7 =  ----




b) Todas as strings alfabéticas minúsculas terminando em a b;


In [322]:
str_list = [
    'ab', 
    'ba',  # inválido: não termina em ab
    'Bab', # inválido: possui uma letra maiúscula
    'ban', # inválido: não termina em ab
    'aba', # inválido: não termina em ab
    'caaaaab', 
    'aaaaaba', # inválido: não termina em ab
    'zaaab tab bab aba' # exemplo colocando várias palavras na mesma string
]

# usei \b para separar as palavras de uma string. assim dá pra checar várias palavras na mesma string
pattern = r'\b[a-z]*ab\b'
verify_pattern(pattern, str_list)

1 =  ['ab']
2 =  ----
3 =  ----
4 =  ----
5 =  ----
6 =  ['caaaaab']
7 =  ----
8 =  ['zaaab', 'tab', 'bab']




c) Todas as strings do alfabeto a; b de modo que cada a seja imediatamente precedido por e imediatamente seguido por a b;

In [333]:
str_list = [
    'abaab',
    'baaab',
]

pattern = r'^(?:ab)[ab]*(?:ab)$'
verify_pattern(pattern, str_list)

1 =  ['abaab']
2 =  ----




d) Corresponder à palavra "viagra" e a alguns dos disfarces que remetentes de spam usam, como: vi@gra ; v1agra; v1@gra; v!@gr@

In [337]:
str_list = [
    'viagra',
    'vi@gra',
    'v1agra',
    'V1@gra',
    'v!@gr@',
    'v1agr@',
]

pattern = r'[vV][!i1][a@A]gr[a@A]' 
verify_pattern(pattern, str_list)

1 =  ['viagra']
2 =  ['vi@gra']
3 =  ['v1agra']
4 =  ['V1@gra']
5 =  ['v!@gr@']
6 =  ['v1agr@']




e) Corresponder a qualquer endereço de e-mail dos domínios nca.ufma  e ufpi.edu.br

In [351]:
str_list = [
    'joao.mm@nca.ufma',
    'joao.mm@ufpi.edu.br',
    'joao.mm.m@nca.ufma',
    'joao_moreira@ufpi.edu.br',
    'joao..mm@nca.ufma', # invalido: possui ..
    '.joao@ufpi.edu.br',  # invalido: comeca com .
    'joaomarcello!@nca.ufma', #invalido: possui caracatere !
]
# tive que usar ?: no agrupamento final para não armazenar os resultados do grupo
# (?!.*\.\.) serve para impedir que .. seja reconhecido (não se pode criar e-mail com dois pontos seguidos!)
# |\. no agrupamento inicial serve para impedir que e-mails que comecem com . sejam reconhecidos
# ^ serve para impedir que reconheca a parte final do e-mail caso as as condições de lookahead sejam encontradas
pattern = r'^(?!.*\.\.|\.)[\w\.\-_]+\@(?:nca\.ufma|ufpi\.edu\.br)$' 
verify_pattern(pattern, str_list)

1 =  ['joao.mm@nca.ufma']
2 =  ['joao.mm@ufpi.edu.br']
3 =  ['joao.mm.m@nca.ufma']
4 =  ['joao_moreira@ufpi.edu.br']
5 =  ----
6 =  ----
7 =  ----




f) Corresponder a qualquer endereço IP com a variação de 192.168.1.0 a 192.168.1.255.

In [355]:
str_list = [
    '192.168.1.0',
    '192.168.1.255',
    '192.168.1.50',
    '192.168.1.1344', # inválido: termina com um número de 4 algarismos
    '200.168.1.100', # inválido: não corresponde ao IP na variação desejada
    '5192.168.1.200', # inválido: começa com 5192 em vez de 192
]
# [\d]{1,3} verifica se a última parte da string contém um número de 1 a 3 algarismos
# colocar $ no final garante a correspondência somente com strings que terminam com números de 1 a 3 algarismos
# colocar ^ no começo impede que strings começando com qualquer outro caractere seguido de 192 seja aceita
pattern = r'^192\.168\.1\.[\d]{1,3}$'
verify_pattern(pattern, str_list)

1 =  ['192.168.1.0']
2 =  ['192.168.1.255']
3 =  ['192.168.1.50']
4 =  ----
5 =  ----
6 =  ----




g) Corresponder aos números de ordem de compra (PO) de sua empresa. Esse número tem vários formatos possíveis, como: PO nn-nnnnn; PO-nn-nnnn; PO# nn nnnn; PO#nn-nnnn;  PO nnnnnn

In [358]:
str_list = [
    'PO 00-00000',
    'PO-00-0000',
    'PO# 00 0000',
    'PO#00-0000',
    'PO 000000',
]
# PO[ #-] verifica se contem PO seguido dos caracteres - ou # ou espaço em branco
# [ ]? verifica se possui um espaço em branco extra
# \d{2} verifica os dois primeiros dígitos (a primeira parte númerica)
# [ -]? verifica o conectivo entre a primeira e segunda parte numérica (espaço em branco ou hífen, se houver)
# \d{4,5} verifica a segunda parte numérica (precisa conter 4 ou 5 dígitos numéricos)
pattern = r'^PO[ #-][ ]?\d{2}[ -]?\d{4,5}$'
verify_pattern(pattern, str_list)

1 =  ['PO 00-00000']
2 =  ['PO-00-0000']
3 =  ['PO# 00 0000']
4 =  ['PO#00-0000']
5 =  ['PO 000000']




2. Escreva expressões regulares para os seguintes padrões. Por “palavra”, queremos dizer uma string alfabética separada de outras palavras por espaços em branco, qualquer pontuação relevante, quebras de linha e assim por diante

a) Todas as strings com duas palavras repetidas consecutivas (por exemplo, “Humbert Humbert” e “o o”);

In [31]:
str_list = [
    'Humbert Humbert',
    'o o',
    'joaojoao', # inválido: sem espaços em branco (conta como uma palavra só)
    'joao marcello', # inválido: as palavras não são as mesmas
    'Joao Joao',
    'Marcello marcello' # inválido: as palavras não são as mesmas
]

pattern = r'\b([a-zA-Z]+)\b\s+\b\1\b'
verify_pattern_with_group(pattern, str_list, 0)

1 =  Humbert Humbert
2 =  o o
3 =  ----
4 =  ----
5 =  Joao Joao
6 =  ----


b) Todas as strings que começam no início da linha com um inteiro e terminam no final da linha com uma palavra;

In [282]:
# assumi que pode haver mais de 2 palavras na string, desde que satisfaça as condições de:
#   - começar com número inteiro
#   - terminar com uma palavra

str_list = [
    '12 macacos',
    'tenho 5 canetas', # inválido: não começa com um número inteiro
    '6 vampiros e 4 lobisomens',
    '4 são as meninas e os meninos são 6', # inválido: não termina com uma palavra (6 não é palavra de acordo com a definição dada pelo exercício)
]

pattern = r'^[\d]+.*[a-zA-Z]+$'
verify_pattern(pattern, str_list)

1 =  ['12 macacos']
2 =  ----
3 =  ['6 vampiros e 4 lobisomens']
4 =  ----




c) Todas as strings que contêm a palavra gruta e a palavra raven (mas não, por exemplo, palavras como grutas que contêm apenas a palavra gruta);

In [29]:
str_list = [
    'achei a gruta, mas não o raven',
    'achei as grutas e o raven', # inválido: a palavra grutas possui s no final
    'fui a uma gruta chamada raven',
    'o raven e a gruta',
]

pattern = r'\bgruta\b.*\braven\b|\braven\b.*\bgruta\b'
verify_pattern(pattern, str_list)

1 =  ['gruta, mas não o raven']
2 =  ----
3 =  ['gruta chamada raven']
4 =  ['raven e a gruta']


