In [9]:
import re

### Grupos e retrovisores


In [17]:
# Grupos () funcionam de forma similar aos conjuntos []
# Mas os grupos são específicos. Enquanto nos conjuntos quando está escrito [abc]
# o interpretador procura as strings 'a', 'b' e 'c' e qualquer combinação entre elas
# 'cba', 'ab' etc.

# Nos grupos, a entrada [abc] só retorna algo se na string tiver um 'abc' nessa ordem
# É possível pedir mais de um conjunto nos grupos. Ex:

texto = '''
<p>Frase 1</p> <p>Eita</p> <p>Qualquer frase</p> <div></div> 
'''

tags = re.findall(r'<(p|div){1,3}>.*?<\/\1>', texto)

print(tags)

# OBS: Os grupos ficam salvos na memória o primeiro grupo será o grupo \1
# Esse \1 na nomenclatura de expressão regular é chamado de RETROVISOR

# Quando criamos o primeiro grupo (p|div) esse será o retrovisor \1, se criarmos um segundo grupo
# (exemplo) ele será referenciado como \2 e assim sucessivamente.


# Quando criamos um grupo dentro do outro:
# (()) O de fora é \1 e o de dentro é \2

['p', 'p', 'p', 'div']


<p>Observe que quando usamos grupos com o findall ele retorna apenas o conteúdo do grupo <div> Para resolver isso:</div></p>

In [20]:
tags = re.findall(r'(<[pdiv]{1,3}>.*?<\/[pdiv]{1,3}>)', texto)
tags

['<p>Frase 1</p>', '<p>Eita</p>', '<p>Qualquer frase</p>', '<div></div>']

In [21]:
# Para resolver isso e obter os índices de cada grupo:

tags = re.findall(r'(<([pdiv]{1,3})>.*?<\/\2>)', texto)
tags

[('<p>Frase 1</p>', 'p'),
 ('<p>Eita</p>', 'p'),
 ('<p>Qualquer frase</p>', 'p'),
 ('<div></div>', 'div')]

In [22]:
# Forma mais bonitinha de printar:
from pprint import pprint
pprint(tags)

[('<p>Frase 1</p>', 'p'),
 ('<p>Eita</p>', 'p'),
 ('<p>Qualquer frase</p>', 'p'),
 ('<div></div>', 'div')]


In [23]:
# Para ter acesso apenas aos conteúdos das tags HTML:

tags = re.findall(r'(<([pdiv]{1,3})>(.*?)<\/\2>)', texto)
tags

[('<p>Frase 1</p>', 'p', 'Frase 1'),
 ('<p>Eita</p>', 'p', 'Eita'),
 ('<p>Qualquer frase</p>', 'p', 'Qualquer frase'),
 ('<div></div>', 'div', '')]

In [24]:
for tag in tags:
    completa_tag, tg , conteudo = tag
    print(conteudo)

Frase 1
Eita
Qualquer frase



In [25]:
# Se quisermos apenas as tags e os conteúdos organizados nas tuplas:

tags = re.findall(r'<([pdiv]{1,3})>(.*?)<\/\1>', texto)
tags

[('p', 'Frase 1'), ('p', 'Eita'), ('p', 'Qualquer frase'), ('div', '')]

In [26]:
# Se quisermos excluir o conteúdo da tag do grupo mas manter o segundo grupo na expressão regular
# basta usar o ?: antes do grupo
tags = re.findall(r'<([pdiv]{1,3})>(?:.*?)<\/\1>', texto)
tags

['p', 'p', 'p', 'div']

In [31]:
# Exemplo de porque isso existe:

cpf = '147.852.963-12'

st_cpf = re.findall(r'([0-9]{3}\.){2}[0-9]{3}-[0-9]{2}', cpf)
st_cpf

['852.']

In [33]:
# Ao criar o grupo anterior, o findall retornou apenas o grupo.
# E retornou apenas o último grupo lido.
# Para resolver esse problema, devemos envolver toda a expressão regular em um grupo:
st_cpf = re.findall(r'(([0-9]{3}\.){2}[0-9]{3}-[0-9]{2})', cpf)
st_cpf

[('147.852.963-12', '852.')]

In [34]:
# Perceba que essa '852.' na tupla não interessa.
# Para se livrar dele:

st_cpf = re.findall(r'((?:[0-9]{3}\.){2}[0-9]{3}-[0-9]{2})', cpf)
st_cpf

['147.852.963-12']

In [40]:
# Para nomear um grupo:
# Nomeia ao lado da abertura de parentesis (?P<exemplo>
# Referencia como (?P=exemplo)
tags = re.findall(r'<(?P<tag>[pdiv]{1,3})>(.*?)<\/(?P=tag)>', texto)
tags

[('p', 'Frase 1'), ('p', 'Eita'), ('p', 'Qualquer frase'), ('div', '')]

In [48]:
# Para fazer alterações em uma variável com sub usando grupos:
# A substituição foi adicionar espaços nas tags e colocar o conteúdo entre aspas ""
texto = '''
<p>Frase 1</p> <p>Eita</p> <p>Qualquer frase</p> <div></div> 
'''

novo = re.sub(r'(<(.*?)>)(.*?)(<\/\2>)', r'\1 "\3" \4', texto)

print(novo)


<p> "Frase 1" </p> <p> "Eita" </p> <p> "Qualquer frase" </p> <div> "" </div> 

