In [1]:
# https://docs.python.org/3/library/re.html
# https://docs.python.org/3/howto/regex.html#regex-howto
import re

# Módulo re

O módulo regular expressions serve para verificar padrões em strings e manipular as strings a partir desses padrões.

### search e findall

In [2]:
string = 'Teste de expressões regulares.'

print(re.search(r'Teste', string)) # lembre sempre do r
# retorna a primeira ocorrẽncia da expressão regular dentro da string dentro desse objeto

<re.Match object; span=(0, 5), match='Teste'>


In [3]:
ns = 'teste, teste, estou fazendo um teste'

print(re.findall(r'teste', ns))

# retorna uma lista com a regular expression

['teste', 'teste', 'teste']


# sub
Substitui a expressão regular por outra expressão

In [4]:
ns = 'teste, teste, estou fazendo um teste'
print(re.sub(r'teste', r'substituí', ns))

# recebe três parâmatros. O primeiro é a regular expression, o segundo é a substituição e o terceiro é a string

substituí, substituí, estou fazendo um substituí


In [5]:
ns = 'teste, teste, estou fazendo um teste'

print(re.sub(r'teste', r'substituí', ns, count= 2))

# pode receber um quarto parâmetro com o número regex que você deseja substituir

substituí, substituí, estou fazendo um teste


### compiler
<p> Escrever e compilar as expressões regulares pode, muitas vezes, ser trabalhoso tanto para o programador quanto para a máquina. Por isso, podemos escrever uma expressão regular e registrá-la no compiler. A partir disso, usar as funções do módulo como métodos para a regex armazenada em uma varíavel, manipulando apenas a string como parâmetro.</p>

In [6]:
ns = 'teste, teste, estou fazendo um teste'

regex = re.compile(r'teste')

regex.search(ns)

<re.Match object; span=(0, 5), match='teste'>

In [7]:
regex.findall(ns)

['teste', 'teste', 'teste']

In [8]:
regex.sub('substituiu de novo', ns, count=1)

'substituiu de novo, teste, estou fazendo um teste'

## Metacarcteres:

In [9]:
texto = '''
João trouxe    flores para sua amada namorada em 10 de janeiro de 1970,
Maria era o nome dela.
Foi um ano excelente na vida de joão. Teve 5 filhos, todos adultos atualmente.
maria, hoje sua esposa, ainda faz aquele café com pão de queijo nas tardes de
domingo. Também né! Sendo a boa mineira que é, nunca esquece seu famoso
pão de queijo.
Não canso de ouvir a Maria:
"Joooooooooãooooooo, o café tá prontinho aqui. Veeemm"!
'''

In [10]:
# | : 'ou' equivalente ao 'or'

print(re.findall(r'João|Maria|adultos', texto)) # segue a sequência da string que entra na função

['João', 'Maria', 'adultos', 'Maria']


In [11]:
# . : 'qualquer caractere com exceção da quebra de linha'
frase = 'Bom dia, Tia!'

print(re.findall(r'.ia', frase))


['dia', 'Tia']


In [12]:
print(re.findall(r'ad.....', texto))

['ada nam', 'ada em ', 'adultos']


In [13]:
# [] : conjunto de caracteres
# Observe que no texto temos um 'João' e um 'joão' na variável texto

print(re.findall(r'[Jj]oão|[Mm]aria', texto))

['João', 'Maria', 'joão', 'maria', 'Maria']


In [14]:
# Também posso colocar um range nesse print:

print(re.findall(r'[a-z]oão|[a-z]aria', texto))

['joão', 'maria', 'ooão']


In [15]:
# Perceba que o range anterior cobria apenas as letras minúsculas (a-z)
# Para incluir maiúsculas e minúsculas:

print(re.findall(r'[a-zA-Z]oão|[a-zA-Z]aria', texto))

['João', 'Maria', 'joão', 'maria', 'Maria', 'ooão']


In [16]:
# Para achar todos os valores da string ignorando se estão maiúsculos ou minúsculos, podemos
# usar a flag I como parâmetro da função findall

print(re.findall(r'jOÃo|mARIa',texto, flags = re.I))         # o 'I' significa 'ignore_case'

['João', 'Maria', 'joão', 'maria', 'Maria']


### Metacaracteres quantificadores:

* \* : 0 ou n vezes;
* \+ : 1 ou n vezes;
* ? : 0 ou 1 vez;
* { } : {n} vezes ou {min, max} vezes

In [17]:
texto = '''
João trouxe    flores para sua amada namorada em 10 de janeiro de 1970,
Maria era o nome dela.
Foi um ano excelente na vida de joão. Teve 5 filhos, todos adultos atualmente.
maria, hoje sua esposa, ainda faz aquele café com pão de queijo nas tardes de
domingo. Também né! Sendo a boa mineira que é, nunca esquece seu famoso
pão de queijo.
Não canso de ouvir a Maria:
"Joooooooooãooooooo, o café tá prontinho aqui. Veeemm"!
'''

# Os quantificadores são aplicados à direita do caractere referenciado
# Para o primeiro caso, imaginemos querer pegar todas as referências a João na variável texto
# Inclusive o grito no final

In [18]:
print(re.findall(r'jo+ão', texto, flags= re.I))

['João', 'joão', 'Joooooooooão']


In [19]:
# Para pegar o grito completo:

print(re.findall(r'jo+ão+', texto, flags= re.I))

['João', 'joão', 'Joooooooooãooooooo']


In [20]:
print(re.sub(r'jo+ão+', r'Henrique', texto, flags= re.I))


Henrique trouxe    flores para sua amada namorada em 10 de janeiro de 1970,
Maria era o nome dela.
Foi um ano excelente na vida de Henrique. Teve 5 filhos, todos adultos atualmente.
maria, hoje sua esposa, ainda faz aquele café com pão de queijo nas tardes de
domingo. Também né! Sendo a boa mineira que é, nunca esquece seu famoso
pão de queijo.
Não canso de ouvir a Maria:
"Henrique, o café tá prontinho aqui. Veeemm"!



In [21]:
texto = re.sub(r'jo+ão+', r'Henrique', texto, flags= re.I)

print(texto)


Henrique trouxe    flores para sua amada namorada em 10 de janeiro de 1970,
Maria era o nome dela.
Foi um ano excelente na vida de Henrique. Teve 5 filhos, todos adultos atualmente.
maria, hoje sua esposa, ainda faz aquele café com pão de queijo nas tardes de
domingo. Também né! Sendo a boa mineira que é, nunca esquece seu famoso
pão de queijo.
Não canso de ouvir a Maria:
"Henrique, o café tá prontinho aqui. Veeemm"!



In [22]:
# Uso de outros metacaracteres:

v = 'Jã'

v = re.sub(r'jo*ão*', 'Virou outro negócio', v, flags=re.I)

print(v)

Virou outro negócio


In [23]:
a = 'Joooão'

print(re.sub(r'jo{1,}ão', 'O {1,} é equivalente ao +. Dá no mesmo.', a, flags= re.I))

O {1,} é equivalente ao +. Dá no mesmo.


<p>Outros exemplos de range:</p>

* { , 10} : de 0 a 10;
* {5, 10} : de 5 a 10
* {3} : especificamente 3 vezes

In [24]:
texto = '''
João trouxe    flores para sua amada namorada em 10 de janeiro de 1970,
Maria era o nome dela.
Foi um ano excelente na vida de joão. Teve 5 filhos, todos adultos atualmente.
maria, hoje sua esposa, ainda faz aquele café com pão de queijo nas tardes de
domingo. Também né! Sendo a boa mineira que é, nunca esquece seu famoso
pão de queijo.
Não canso de ouvir a Maria:
"Joooooooooãooooooo, o café tá prontinho aqui. Veeemm, veeem, vem"!
'''
print(re.findall(r've{3}m{1,2}', texto, flags=re.I))

['Veeemm', 'veeem']


In [25]:
frase = 'Fulano ama ser amado'

# Para achar 'ama' e 'amado'

print(re.findall(r'ama[a-z]*', frase, flags=re.I))

['ama', 'amado']


### Metacaracteres greedy vs lazy

* greedy : analisam a string inteira; <br>
* analisam a string de forma parcial

In [35]:
texto = '''
<p>Frase 1</p> <p>Eita</p> <p>Qualquer frase</p> <div></div> 
'''

In [36]:
# O objetivo agora é reservar em uma lista de conteúdos de tags HTML
# Digamos que o programador decida usar a seguinte linha de código:
tags = re.findall(r'<[pdiv]{1,3}>.+<\/[pdiv]{1,3}>', texto)

# ache de '<' com interior contendo o conjunto [pdiv] contendo de 1 a 3 caracteres
# o '.+' quer dizer qualquer conteúdo dentro da strings até a string /[pdiv] contendo 1 a 3 char
# até fechar no símbolo '>'.

print(tags)

['<p>Frase 1</p> <p>Eita</p> <p>Qualquer frase</p> <div></div>']


In [37]:
# A variável tags foi preenchida de forma incorreta uma vez que retornou apenas um item
# gigante contendo a string original inteira. Isso acontece porque o '+' ( assim como '*' e outros)
# é um metacaractere guloso (greedy) procura seu fechamento até o final da string. Para resolver isso:
# Usando o metacarctere '?' depois do '+' fazemos o interpretador se comportar de forma lazy, isto é
# procura o 

tags = re.findall(r'<[pdiv]{1,3}>.+?<\/[pdiv]{1,3}>', texto)
print(tags)

['<p>Frase 1</p>', '<p>Eita</p>', '<p>Qualquer frase</p>']


In [38]:
# Observe que, por ter escolhido o '+', a string que estava vazia não foi para a variável
# Caso queira resolver isso:

ept_n_tgs = re.findall(r'<[pdiv]{1,3}>.*?<\/[pdiv]{1,3}>', texto)

print(ept_n_tgs)

['<p>Frase 1</p>', '<p>Eita</p>', '<p>Qualquer frase</p>', '<div></div>']
