In [1]:
# biblioteca padrão python para uso de expressão regular
import re

In [9]:
# operação básica: verificar se uma string satisfaz uma expressão regular
# re.fullmatch

# esse método retorna um objeto do tipo Match (https://docs.python.org/3/library/re.html#match-objects), 
#    caso a string passada satisfaça a expressão regular; retorna None, caso contrário

# a assinatura é 
#   re.fullmatch( <expressão regular>, string, flags)
#   flags modificam como a expressão regular irá avaliar a string
#      por exemplo, há uma flag que indica que o case dos caracteres deve ser ignorado (por exemplo, 'a' e 'A' devem ser considerados equivalentes)

re.fullmatch?

In [14]:
# uma string qualquer é uma expressão regular que captura a si própria apenas
#    ! considerando que não contenha caracteres especiais, como '.'

expressao = 'abc'

# se diferente de None -> a expressão regular reconheceu a string
re.fullmatch(expressao, expressao) is not None

True

In [16]:
# o diferencial no uso de expressões regulares para identificação de padrões em textos
# está nos caracteres/expressões especiais que podemos utilizar para indicar padrões de textos
# por exemplo, o caractere '.' (ponto) pode ser utilizar para representar qualquer caractere
# isto é, a expressão regular '.' irá reconhecer as strings 'a', '1', 'x', '~' etc

# para simplificar os exemplos, vou usar a função abaixo, que recebe uma expressão regular e uma lista de strings
# e gera um relatório sobre a aplicação da expressão regular em cada string da lista
def testa_re(expressao, strings):
    
    print(f'Expressão regular: {expressao}')
    
    for s in strings:
        if re.fullmatch(expressao, s):
            print(f'{s} -> match')
        else:
            print(f'{s} -> não match')

In [23]:
lista_strings = ['a', '1', 'x', '~', '12', 'a1b']

testa_re('.', lista_strings)

Expressão regular: .
a -> match
1 -> match
x -> match
~ -> match
12 -> não match
a1b -> não match


In [24]:
# veja que a string '12' não foi reconhecida
# a expressão regular utilizada é '.', isto é, um e apenas um caractere
# '12' possui dois caracteres, portanto não satisfaz a expressão

# e se quisermos informar que a string pode ter 1 ou 2 caracteres?
# podemos quantificar a expressão regular usando a notação {min,max} após o padrão que queremos quantificar
# no exemplo, podemos usar a expressão '.{1,2}' para indicar que aceitamos 1 ou 2 caracteres quaisquer

testa_re('.{1,2}', lista_strings)

Expressão regular: .{1,2}
a -> match
1 -> match
x -> match
~ -> match
12 -> match
a1b -> não match


In [25]:
# há diversos caracteres especiais, que podem ser estudados em https://docs.python.org/3/library/re.html#regular-expression-syntax
# alguns exemplos

# \d -> reconhece um dígito
testa_re('\d{1,2}', lista_strings)

Expressão regular: \d{1,2}
a -> não match
1 -> match
x -> não match
~ -> não match
12 -> match
a1b -> não match


In [26]:
# \w -> reconhece caracteres que são parte de texto
testa_re('\w{1,2}', lista_strings)

Expressão regular: \w{1,2}
a -> match
1 -> match
x -> match
~ -> não match
12 -> match
a1b -> não match


In [30]:
# * -> quantificador que indica que deve haver 0 ou mais ocorrências do padrão
# mesmo que {0,}
#    ver que o max em {min,max} não foi especificado -> indica que não há limite máximo

testa_re('\d*', lista_strings)

Expressão regular: \d*
a -> não match
1 -> match
x -> não match
~ -> não match
12 -> match
a1b -> não match


In [31]:
# + -> quantificador que indica que deve haver 1 ou mais ocorrências do padrão
# mesmo que {1,}

testa_re('\d+', lista_strings)

Expressão regular: \d+
a -> não match
1 -> match
x -> não match
~ -> não match
12 -> match
a1b -> não match


In [32]:
# ? -> quantificador que indica que deve haver 0 ou 1 ocorrência do padrão
# mesmo que {0,1}

testa_re('\d?', lista_strings)

Expressão regular: \d?
a -> não match
1 -> match
x -> não match
~ -> não match
12 -> não match
a1b -> não match


In [33]:
# | -> operador que indica que pode ser reconhecido ou o padrão da esquerda ou o da direita
# ex: a|b -> reconhece o caractere 'a' ou o caractere 'b', mas apenas um

testa_re('\d|\w', lista_strings)

Expressão regular: \d|\w
a -> match
1 -> match
x -> match
~ -> não match
12 -> não match
a1b -> não match


In [37]:
# além da operação de match, expressões regulares podem ser utilizadas para outras operações, como

# busca de substrings

re.findall('\d{2,3}', 'aa1234b 12 908x8y889')

['123', '12', '908', '889']

In [40]:
# substituição de substring

re.sub('\d', '<NÚMERO>', 'Há 5 coelhos nas 2 cartolas')

'Há <NÚMERO> coelhos nas <NÚMERO> cartolas'

In [41]:
# separar texto

re.split('\d', 'Há 5 coelhos nas 2 cartolas')

['Há ', ' coelhos nas ', ' cartolas']

In [72]:
# as strings capturadas podem ser associadas a labels (exemplo mais complexo, só para exemplo)

expressao = r'^((?P<tipo_artigo>Art\.\ )|(?P<tipo_parágrafo>Parágrafo\ ))(?P<número>\d+).*'

lista = [
    'Art. 10 - A constituição etc',
    'Art. 3 - As leis devem etc',
    'Parágrafo 123 - '
]

for s in lista:
    m = re.match(expressao, s)
    
    groupdict = m.groupdict()
    
    tipo = [k for k,v in groupdict.items() if k.startswith('tipo_') and v]
    numero = groupdict['número']
    
    print(s)
    
    print(f'Tipo: {tipo}\nNúmero: {numero}\n')

Art. 10 - A constituição etc
Tipo: ['tipo_artigo']
Número: 10

Art. 3 - As leis devem etc
Tipo: ['tipo_artigo']
Número: 3

Parágrafo 123 - 
Tipo: ['tipo_parágrafo']
Número: 123



In [None]:
# o ideal para estudar regex é fazer muitos exercícios e consultar a documentação

# por exemplo: https://www.hackerrank.com/domains/regex