## Expressões Regulares

## Resumo de Expressões Regulares

**Disjunções ([ ]):**

* [cC] - c ou C
* [a-z] - Letras minúsculas
* [A-Z] - Letras maiúsculas
* [^A-Z] - Não é um caracactere maiúsculo
* [^sS] - Nem s nem S

**Operador OU ( | ):**

* [cC]apivara|[cC]arpincho - Duas palavras
* [eu]|[ele] - eu ou ele

**Operador de predecessor opcional (?):**

* pa?ra - para ou pra

**Caractere predecessor 0 ou mais vezes (*):**

* aa*h! - ah!, aah!, aaah!, etc

**Caractere predecessor 1 ou mais vezes (+):**

* a+h! - ah!, aah!, aaah!, etc

**Caractere predecessor de m a n vezes ({m,n}):**

* a{1,3}h! - ah!, aah!, aaah!

**Qualquer caractere (.):**

* ca.a - casa, caça, cara, etc

**Caractere âncora de início de linha (^):**

* ^[A-Z] - Linha começa com letra maiúscula

**Caractere âncora de final de final de linha ($):**

* a$ - Termina com letra a

**Ordem de precedência:**

1. Parênteses
2. Quantizadores
3. Âncoras
4. Disjunção

**Uso de \ para representar grupo ou caractere especial:**

* \w - qualquer caractere alfanumérico
* \W - Qualquer caractere não alfanumérico
* \d - Qualquer caractere que seja dígito
* \D - Qualquer caractere não dígito
* \s - Espaço em branco

**Grupo -** Cada sub-expressão entre parênteses em uma expressão regular é um grupo. 

**Obs.** Caso seja necessário representar um caractere especial na regex, como "(" ou "$", coloque um "\" antes do caractere. 


## Importando a biblioteca re

In [2]:
# Importando biblioteca de regex
import re

## Encontrando padrões

In [None]:
# Definindo um objeto regex para reconhecer números através de .compile

num_telefone_ex = re.compile(r'\d{3}-\d{3}-\d{4}')

# Usando o método search para procurar num texto a regex definida

num_telefone = num_telefone_ex.search("My number is 415-555-4242.")

# Imprimindo os valores encontrados

print(num_telefone.group())

415-555-4242


In [None]:
# Usando grupos através de  parênteses

num_telefone_ex = re.compile(r'(\d{3})-(\d{3})-(\d{4})')
num_telefone = num_telefone_ex.search("My number is 415-555-4242.")

# Mostrando os três grupos que temos

print(num_telefone.group(0))
print(num_telefone.group(1))
print(num_telefone.group(2))
print(num_telefone.group(3))

415-555-4242
415
555
4242


## Correspondência exata e variações

In [None]:
heroi_regex = re.compile(r'Batman|Robin|Superman|Mulher-Maravilha')
heroi = heroi_regex.search('A dupla dinâmica: Batman e Robin')

# Vai devolver o primeiro match encontrado
print(heroi.group())

# Caso quisermos ver todos os matches
heroi = heroi_regex.findall('A dupla dinâmica: Batman e Robin')
print(heroi)

Batman
['Batman', 'Robin']


In [None]:
# Encontrando variações e os valores de seus respectivos grupos
bat_regex = re.compile(r'Bat(man|mobile|belt)')
bat_ = bat_regex.search('O Batmobile perdeu uma roda!')

print(bat_.group())
print(bat_.group(0))
print(bat_.group(1))

Batmobile
Batmobile
mobile


## Correspondência opcional


In [None]:
# Uso de correspondência opcional
bat_regex = re.compile(r'[bB]at(wo)?man')

batman = bat_regex.search('Batman e Robin')
batwoman = bat_regex.search('As aventuras de batwoman')

print(batman.group())
print(batwoman.group())

Batman
batwoman


## Correspondência de zero ou mais ocorrências e de uma ou mais ocorrências

In [None]:
# Correspondência de zero ou mais ocorrências
bat_regex = re.compile(r'[Bb]at(man|woman)*')
bat = bat_regex.search('Estamos falando do batmobile')

# Correspondência de uma ou mais ocorrências
bat_regex = re.compile(r'[Bb]at(man|woman)+')
batman = bat_regex.search('Estamos falando do batmobile')

# Comparando resultados
print(bat.group())
print(batman)

bat
None


## Número limitado de repetições

In [4]:
# Especificando a quantidade de repetições
ha_regex = re.compile(r'(Ha){3}!')
print(ha_regex.search('HaHaHa!') != None)
print(ha_regex.search('HaHa!') != None)

True
False


## Correspondências greedy e nongreedy

In [9]:
# Por default, quando há uma correspondência ambígua o python pega a correspondência de maior tamanho
# A correspondência de maior tamanho é conhecida como correspondência greedy (gulosa)
guloso_ha_regex = re.compile(r'(Ha){3,5}')
ha_guloso = guloso_ha_regex.search('HaHaHaHaHa')
ha_guloso.group()

'HaHaHaHaHa'

In [10]:
# Agora, caso queiramos que se reconheça a correspondência não greedy, isso é, a menor, usamos o caractere ? no final da regex
guloso_ha_regex = re.compile(r'(Ha){3,5}?')
ha_guloso = guloso_ha_regex.search('HaHaHaHaHa')
ha_guloso.group()

'HaHaHa'

## Método findall()

In [11]:
# O método findall é muito útil quando queremos encontrar todas as correspondência de uma determinada regex
# Segue um exemplo onde queremos encontrar múltiplos números de telefone mas a regex não possui grupos
num_regex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
num_regex.findall('Cell: 415-555-9999 Work: 212-555-0000')

['415-555-9999', '212-555-0000']

In [12]:
# Agora, caso a regex possua grupos, ele ordena os grupos através de tuplas e coloca as correspondências em uma lista
num_regex = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)')
num_regex.findall('Cell: 415-555-9999 Work: 212-555-0000')

[('415', '555', '9999'), ('212', '555', '0000')]

## Classes de caracteres

In [13]:
# Classes de caracteres são úteis para reduzir expressões regulares
lista_regex = re.compile(r'\d+\s\w+')
lista_regex.findall("2 café, 3 açucar, 4 macarrão, 1 arroz, 1 feijão, 1 farofa")

['2 café', '3 açucar', '4 macarrão', '1 arroz', '1 feijão', '1 farofa']

## Criando classes de palavras

In [17]:
# Para criar classes de palavras próprias podemos usar o operador de disjunção
# Quando usamos o ^ dentro do operador de disjunção ele significa negação
regex_vogal = re.compile(r'[^aeiouAEIOU\s]')
consoantes = regex_vogal.findall('Vamos ver quantas letras sobram dessa frase quando eliminamos todas as suas vogais')
print(len(consoantes))
print(consoantes)

40
['V', 'm', 's', 'v', 'r', 'q', 'n', 't', 's', 'l', 't', 'r', 's', 's', 'b', 'r', 'm', 'd', 's', 's', 'f', 'r', 's', 'q', 'n', 'd', 'l', 'm', 'n', 'm', 's', 't', 'd', 's', 's', 's', 's', 'v', 'g', 's']


## Verificando o começo e o final dos textos

In [19]:
# Quando usamos ^ fora de um operador de disjunção e no começo de uma expressão ele possui significado de começa com
# Quando usamos $ no final de uma expressão ele possui significado de termina com
comeca_bom = re.compile(r'^bom')
termina_dia = re.compile(r'dia?')
print(comeca_bom.search('bom dia') != None)
print(termina_dia.search('bom dia') != None)

True
True


In [20]:
termina_numero = re.compile(r'\d?')
comeca_letra = re.compile(r'^\w')
print(termina_numero.search('Esse é o número 123') != None)
print(comeca_letra.search('Esse é o número 123') != None)

True
True


## Uso do caracter curinga

In [21]:
# Quando usamos . temos um caracter curinga que pose ser substituído por qualquer letra
regex_at = re.compile(r'.at')
regex_at.findall("The cat in the hat sat on the flat mat.")

['cat', 'hat', 'sat', 'lat', 'mat']

## Qualquer conjunto de caracteres


In [24]:
# Quando usamos . fazemos referência a apenas um caractere qualquer
# Qualquer queremos nos referir a uma sequência de caracteres qualquer usamos .*
regex_pontas_digitos = re.compile(r'\d.*\d')
print(regex_pontas_digitos.search("12asojfhndslçfjbdfbdfbhabnfksn32") != None)
print(regex_pontas_digitos.search("0 _=+b sn ^sda ? 8") != None)
print(regex_pontas_digitos.search("a ? 8") != None)
print(regex_pontas_digitos.search("nome") != None)

True
True
False
False


## Incluindo newline na regex

In [27]:
# Podemos ver que o caractere \n é reconhecido quando tentamos realizar um regex normalmente
newline_regex = re.compile('\n')
newline_regex.search('Esse seria\nO fim de sua vida').group()

'\n'

In [32]:
# Porém, \n não é reconhecido quando usamos .*
newline_regex = re.compile('.*')
newline_regex.search('Esse seria\nO fim de sua vida').group()

'Esse seria'

In [33]:
# Vamos fazer com que .* também considere \n
newline_regex = re.compile('.*', re.DOTALL)
newline_regex.search('Esse seria\nO fim de sua vida').group()

'Esse seria\nO fim de sua vida'

## Ignorar o sensitive case

In [34]:
# Para ignorar o sensitive case temos que passar um argumento dentro do método re.compile(), o re.I, IGNORECASE
batman_regex = re.compile(r'batman', re.I)
print(batman_regex.findall("Batman estava fazendo coisas de batman, afinal, ele é o BATMAN"))

['Batman', 'batman', 'BATMAN']


## Método sub para substituir uma regex por uma outra regex

In [44]:
# O método sub() pode ser usado para substituir correspondências por uma outra regex
# No caso a seguir, o \1 é usado para nos referirmos ao primeiro caractere do grupo
nome_agentes = re.compile(r'Agent (\w)\w*')
nome_agentes.sub(r'\1****', 'Agent Alice told Agent Carol that Agent Eve knew Agent Bob was a double agent.')

'A**** told C**** that E**** knew B**** was a double agent.'