# Repetições

Expressões regulares também suportam repetições

## Quantidades específicas

In [31]:
from re import match, findall

In [2]:
match(r'\d{4}', '1234')

<re.Match object; span=(0, 4), match='1234'>

In [3]:
match(r'\d{4}', '123')

In [4]:
match(r'\d{4}', '12345')

<re.Match object; span=(0, 4), match='1234'>

## Quantidade mínima

In [5]:
match(r'\d{2,}', '12')

<re.Match object; span=(0, 2), match='12'>

In [6]:
match(r'\d{2,}', '1234567')

<re.Match object; span=(0, 7), match='1234567'>

In [7]:
match(r'\d{2,}', '1')

### Caracter ? 

O Caracter `?` é um modificador da repetição que transforma a repetição gananciosa, em preguiçosa

In [8]:
match(r'\d{2,}?', '1234567')

<re.Match object; span=(0, 2), match='12'>

## Min e Max

In [11]:
match(r'\d{2,4}', '12345')

<re.Match object; span=(0, 4), match='1234'>

In [12]:
match(r'\d{2,4}', '1234')

<re.Match object; span=(0, 4), match='1234'>

In [13]:
match(r'\d{2,4}', '123')

<re.Match object; span=(0, 3), match='123'>

In [14]:
match(r'\d{2,4}', '12')

<re.Match object; span=(0, 2), match='12'>

In [15]:
match(r'\d{2,4}', '12')

<re.Match object; span=(0, 2), match='12'>

In [16]:
match(r'\d{2,4}?', '12345')

<re.Match object; span=(0, 2), match='12'>

## 0 ou 1 ocorrência

In [17]:
match(r'\d{0,1}', '12345')

<re.Match object; span=(0, 1), match='1'>

In [18]:
match(r'\d{,1}?', '12345')

<re.Match object; span=(0, 0), match=''>

Nesse caso, a interrogação é utilizada para fazer a valiação "0 ou 1"

In [19]:
match(r'\d?', '12345')

<re.Match object; span=(0, 1), match='1'>

Para pegar o mínimo possível, utiliza-se 2 interrogações

In [20]:
match(r'\d??', '12345')

<re.Match object; span=(0, 0), match=''>

## 0 ou mais vezes

O `*` indica que o padrão procura pelo valor anterior, ocorrendo 0 ou mais vezes

In [21]:
match(r'\d{0,}', '12345')

<re.Match object; span=(0, 5), match='12345'>

In [22]:
match(r'\d{,}', '12345')

<re.Match object; span=(0, 5), match='12345'>

In [23]:
match(r'\d*', '12345')

<re.Match object; span=(0, 5), match='12345'>

In [24]:
match(r'\d*?', '12345')

<re.Match object; span=(0, 0), match=''>

## 1 ou mais vezes

O `+` é um "atalho" para procurar 1 ou mais ocorrências do pattern anterior

In [25]:
match(r'\d{1,}','12345')

<re.Match object; span=(0, 5), match='12345'>

In [27]:
match(r'\d+','12345')

<re.Match object; span=(0, 5), match='12345'>

In [28]:
match(r'\d+','abc')

In [29]:
match(r'\d+?','123456')

<re.Match object; span=(0, 1), match='1'>

## Importância das expressões preguiçosas

In [30]:
text = 'attr1="value1" attr2="value2"'

In [33]:
findall(r'".+"', text)

['"value1" attr2="value2"']

In [34]:
findall(r'".+?"', text)

['"value1"', '"value2"']

In [35]:
text = 'attr1="" attr2=""'

In [36]:
findall(r'".+?"', text)

['"" attr2="']

In [37]:
findall(r'".*?"', text)

['""', '""']

# Match Object

Quando o match não encontra nenhuma correspondência, retorna `None`

In [38]:
m = match(r'\d+', '12345')

In [39]:
type(m)

re.Match

In [41]:
m.group()

'12345'

In [42]:
m.start()

0

In [43]:
m.end()

5

In [44]:
m.span()

(0, 5)

In [45]:
print(match(r'\s+', '1234'))

None


# Grupos de Captura

In [46]:
html = '<input type="text" id="id_cpf" name="cpf">'

In [47]:
pattern = r'<(.+?) type="(.+?)" id="(.+?)" name="(.+?)"'

In [48]:
m = match(pattern, html)

In [49]:
m

<re.Match object; span=(0, 41), match='<input type="text" id="id_cpf" name="cpf"'>

In [50]:
m.groups()

('input', 'text', 'id_cpf', 'cpf')

In [51]:
m.group(0)

'<input type="text" id="id_cpf" name="cpf"'

In [52]:
m.group(1)

'input'

In [53]:
m.group(2,1,3)

('text', 'input', 'id_cpf')

In [55]:
html1 = '<input type="text" id="id_cpf" name="cpf">'
html2 = '<input id="id_cpf" name="cpf" type="text">'

## Grupo de não-captura

Abertura de um grupo de não captura: `(?:)`

In [61]:
pattern = r'<(.+?) (?:(?:type="(.+?)"|id="(.+?)"|name="(.+?)") ?)*'

In [63]:
m = match(pattern, html1)

In [64]:
m

<re.Match object; span=(0, 41), match='<input type="text" id="id_cpf" name="cpf"'>

In [65]:
m.groups()

('input', 'text', 'id_cpf', 'cpf')

In [66]:
m = match(pattern, html2)

In [67]:
m.groups()

('input', 'text', 'id_cpf', 'cpf')