# Grupos

Até agora falamos de regex como um único padrão, no qual é correspondido, mas você pode realmente combinar padrões diferentes, chamados de grupos ao mesmo tempo, e depois se referir a esses grupos mais tarde, conforme desejar. <br>
Para agrupar padrões, basta usar parênteses. Vamos fazer o que fizemos em Quantificadores usando grupos agora. 

In [3]:
import re

In [4]:
# Lendo o arquivo de texto da Wiki
with open('datasets/ferpa.txt', 'r') as arquivo:
    wiki = arquivo.read()

print(wiki)

Overview[edit]
FERPA gives parents access to their child's education records, an opportunity to seek to have the records amended, and some control over the disclosure of information from the records. With several exceptions, schools must have a student's consent prior to the disclosure of education records after that student is 18 years old. The law applies only to educational agencies and institutions that receive funds under a program administered by the U.S. Department of Education.

Other regulations under this act, effective starting January 3, 2012, allow for greater disclosures of personal and directory student identifying information and regulate student IDs and e-mail addresses.[2] For example, schools may provide external companies with a student's personally identifiable information without the student's consent.[2]

Examples of situations affected by FERPA include school employees divulging information to anyone other than the student about the student's grades or behavior,

In [5]:
# Vamos utilizar grupos
re.findall('([\w ]*)(\[edit\])', wiki)

# O que fizemos aqui foi: Queremos um conjunto de palavras que tenham espaço e seguida por [edit]. Quando colocamos os '()', estamos falando para que esse conjunto seja um grupo e o [edit] seja outro grupo. 

[('Overview', '[edit]'),
 ('Access to public records', '[edit]'),
 ('Student medical records', '[edit]')]

In [6]:
# O módulo RE divide o resultado grupo por grupo. Além disso, também podemos nos referir aos grupos por número com os objetos de correspondência. 
# Mas o que fazemos se quisermos uma lista de objetos correspondente? Vamos utilizar a função findinter(), pois ao invés de uma lista normal, temos uma lista de objetos.
for item in re.finditer('([\w ]*)(\[edit\])', wiki):
    print(item.groups())

('Overview', '[edit]')
('Access to public records', '[edit]')
('Student medical records', '[edit]')


In [7]:
# Podemos obter um grupo individual usando o sub número do grupo em que o grupo abaixo de zero é a parte inteira e o outro número é a parte da parte em que estávamos interessados.
# Nesse caso, queremos o grupo sub um, então não queremos a parte inteira (seria 'group(1)').

for item in re.finditer('([\w ]*)(\[edit\])', wiki):
    print(item.group()) # Grupo inteiro

print()

for item in re.finditer('([\w ]*)(\[edit\])', wiki):
    print(item.group(1)) # Apenas a primeira parte do grupo

Overview[edit]
Access to public records[edit]
Student medical records[edit]

Overview
Access to public records
Student medical records


In [8]:
# Uma outra forma seria nomear ou rotular os grupos. No exemplo anterior, foi mostrado como pode usar a posição do grupo, porém dar a eles um rótulo e ver os resultados como um dicionário é mais útil.
# Para isso, vamos usar a sintaxe (?P<name>). 
# O "?P" indicia que essa é uma extensão dos regexes básicos. E o nome nos colchetes angulares (<nome>) é a chave do dicionário que usamos.

for item in re.finditer('(?P<titulo>[\w ]*)(?P<edit>\[edit\])', wiki):
    # Podemos obter o retorno do dicionário para o item usando o .groupdict()
    print(item.groupdict()['titulo'])

# Também funciona com o group()
print()

for item in re.finditer('(?P<titulo>[\w ]*)(?P<edit>\[edit\])', wiki):
    print(item.group('titulo'))

Overview
Access to public records
Student medical records

Overview
Access to public records
Student medical records


In [9]:
# Também poderíamos imprimir o dicionário inteiro
print(item.groupdict())

{'titulo': 'Student medical records', 'edit': '[edit]'}
