# Expressões Regulares

Expressões regulares ou simplesmente *regex* são formas concisas e flexíveis de identificar strings de interesse, como caracteres particulares, palavras ou padrões.

Apesar de parecer bem confuso (e é!), *regex* é praticamente inevitável em diversos tipos de aplicação, como validação de dados e extração de conteúdo.

Referência: https://docs.python.org/3/library/re.html

Testes: https://www.regexpal.com/ e https://regex101.com/

In [1]:
import re

Por convenção, expressões regulares são expressas com o caractere `r` antes da definição da string.

In [2]:
print('\w+\n\d+') # padrão representado por uma palavra, quebra de linha, número inteiro

\w+
\d+


In [3]:
print(r'\w+\n\d+') # padrão representado por uma palavra, quebra de linha, número inteiro

\w+\n\d+


## Funções de validação

Funções de validação servem para validar se a string-alvo possui um determinado padrão.

### `match`

Valida se o começo da string começa com o padrão informado.

In [4]:
texto = 'galinha pintadinha'

In [5]:
pattern = r'galinha' # palavra "galinha"
m = re.match(pattern, texto)
if m:
    print(m)
else:
    print('Não encontrado')

<re.Match object; span=(0, 7), match='galinha'>


In [6]:
pattern = r'pintadinha' # palavra "pintadinha"
m = re.match(pattern, texto)
if m:
    print(m)
else:
    print('Não encontrado')

Não encontrado


### `fullmatch`

Valida se a string-alvo inteira possui o padrão informado.

In [7]:
texto = 'galinha pintadinha'

In [8]:
pattern = r'galinha' # palavra "galinha"
m = re.fullmatch(pattern, texto)
if m:
    print(m)
else:
    print('Não encontrado')

Não encontrado


In [9]:
pattern = r'g.*a' # "g" seguido de qualquer coisa seguido de "a"
m = re.fullmatch(pattern, texto)
if m:
    print(m)
else:
    print('Não encontrado')

<re.Match object; span=(0, 18), match='galinha pintadinha'>


## Funções de busca

Em muitos momentos vamos precisar saber se a string-alvo contém ou não um padrão específico. E sabendo que possui, podemos querer saber quais strings possuem o padrão definido.

### `search`

A função `search` verifica se um padrão é encontrado dentro de uma string-alvo. O retorno dela será um objeto do tipo `Match`, que possui alguns métodos úteis.

Quando nenhum padrão é encontrado, `None` será retornado.

In [10]:
texto = 'O rato roeu a roupa vermelha do rei de Roma'

In [11]:
pattern = r'\br\w+\b' # palavras com "r"
match = re.search(pattern, texto)

if match: # padrão encontrado
    print(f'Padrão encontrado: {match.group()} (começando em {match.start()} e terminando em {match.end()})')
else:
    print('Padrão não encontrado')

Padrão encontrado: rato (começando em 2 e terminando em 6)


In [12]:
pattern = r'\bx\w+\b' # palavras com "x"
match = re.search(pattern, texto)

if match: # padrão encontrado
    print(f'Padrão encontrado: {match.group()} (começando em {match.start()} e terminando em {match.end()})')
else:
    print('Padrão não encontrado')

Padrão não encontrado


### `findall`

A função `findall` retorna uma lista de ocorrências. Dependendo do padrão, a lista pode conter apenas strings ou tuplas.

In [13]:
texto = 'O rato roeu a roupa vermelha do rei de Roma'

In [14]:
pattern = r'\br\w+\b' # palavras com "r"
re.findall(pattern, texto)

['rato', 'roeu', 'roupa', 'rei']

E `Roma`?

Por padrão, o *regex* é *case sensitive*, ou seja, maiúsculas diferenciam de minúsculas. 

Podemos alterar o comportamento do *regex* modificando os `flags`. Neste caso, podemos usar a flag `IGNORECASE` ou simplesmente `I`.

In [15]:
re.findall(pattern, texto, flags=re.IGNORECASE)

['rato', 'roeu', 'roupa', 'rei', 'Roma']

In [16]:
re.findall(pattern, texto, flags=re.I)

['rato', 'roeu', 'roupa', 'rei', 'Roma']

### `finditer`

A função `finditer` retorna um iterator onde cada elemento é do tipo `Match`.

In [17]:
texto = 'O rato roeu a roupa vermelha do rei de Roma'

In [18]:
pattern = r'\br\w+\b' # palavras com "r"
for match in re.finditer(pattern, texto, flags=re.I):
    print(match.group(), match.span())

rato (2, 6)
roeu (7, 11)
roupa (14, 19)
rei (32, 35)
Roma (39, 43)


## Caracteres especiais

*Regex* possui diversos caracteres especiais. 

`. ^ $ * + ? { } [ ] \ | ( )`

In [19]:
from ansimarkup import ansiprint

def show_finditer(pattern, string, flags=0):
    output = list(string)
    
    matches = reversed(list(re.finditer(pattern, string, flags)))
    for match in matches:
        output.insert(match.end(), '</bg #ffff5f>')
        output.insert(match.start(), '<bg #ffff5f>')
        
    ansiprint(''.join(output))

### Caractere especial `.`

Representa um caractere, qualquer que seja.

In [20]:
texto = 'Rui é rei de Roma'

Vamos supor que queremos procurar todas as ocorrências de strings cujo padrão seja possuir um `r`, um caractere qualquer e em seguida um `i`.

In [21]:
show_finditer(r'r.i', texto, flags=re.I)

[48;2;255;255;95mRui[0m é [48;2;255;255;95mrei[0m de Roma


### Caractere especial `^`

Indica que a validação do padrão validará no início da string.

In [22]:
texto = 'Star Wars e Star Trek são classícos!'

Vamos supor que queremos buscar pela palavra `star` apenas se ela estiver no começo da string.

In [23]:
show_finditer(r'star', texto, flags=re.I)

[48;2;255;255;95mStar[0m Wars e [48;2;255;255;95mStar[0m Trek são classícos!


Nesse caso, trouxe duas ocorrências, pois não indicamos que queríamos buscar apenas no começo.

In [24]:
show_finditer(r'^star', texto, flags=re.I)

[48;2;255;255;95mStar[0m Wars e Star Trek são classícos!


Note que usamos o caractere especial `^`. Ele indica que o padrão precisa começar com `star`.

#### Múltiplas linhas

Vamos ver agora como funciona o *regex* quando a string contém mais de uma linha.

In [25]:
texto = """\
Star Wars
Star Trek
Superstars
"""

In [26]:
show_finditer(r'^star', texto, flags=re.I)

[48;2;255;255;95mStar[0m Wars
Star Trek
Superstars



Note que apenas a primeira ocorrência foi retornada. Podemos indicar que o padrão deverá ser executado linha a linha usando a flag `MULTILINE` ou simplesmente `M`.

In [27]:
show_finditer('^star', texto, flags=re.I | re.M)

[48;2;255;255;95mStar[0m Wars
[48;2;255;255;95mStar[0m Trek
Superstars



Agora, 2 ocorrências foram retornadas, pois a string foi validada linha a linha.

### Caractere especial `$`

Indica que a validação do padrão validará no fim da string.

In [28]:
texto = """\
Star Wars
Star Trek
Superstar
"""

In [29]:
show_finditer(r'r$', texto, flags=re.I | re.M)

Star Wars
Star Trek
Supersta[48;2;255;255;95mr[0m



### Caractere especial `*`

Caractere especial que valida se o caractere anterior se repete zero ou mais vezes. 

In [31]:
texto = """\
Ouch
Ah No
Ahh
Nooo
Ahhhhhhh No
A No
A
"""

In [32]:
show_finditer(r'Ah* No', texto, flags=re.I | re.M)

Ouch
[48;2;255;255;95mAh No[0m
Ahh
Nooo
[48;2;255;255;95mAhhhhhhh No[0m
[48;2;255;255;95mA No[0m
A



In [33]:
show_finditer(r'Ah*', texto, flags=re.I | re.M)

Ouch
[48;2;255;255;95mAh[0m No
[48;2;255;255;95mAhh[0m
Nooo
[48;2;255;255;95mAhhhhhhh[0m No
[48;2;255;255;95mA[0m No
[48;2;255;255;95mA[0m



### Caractere especial `+`

Similar ao caractere `*`, porém valida se o caractere anterior se repete uma ou mais vezes. 

In [34]:
texto = """\
Ouch
Ah No
Ahh
Nooo
Ahhhhhhh No
A No
A
"""

In [35]:
show_finditer(r'Ah+ No', texto, flags=re.I | re.M)

Ouch
[48;2;255;255;95mAh No[0m
Ahh
Nooo
[48;2;255;255;95mAhhhhhhh No[0m
A No
A



### Caractere especial `?`

Similar aos caracteres `*` e `+`, porém valida se o caractere anterior se repete zero ou uma vez. Na prática, torna o caractere anterior opcional.

In [36]:
texto = """\
Ouch
Ah No
Ahh
Nooo
Ahhhhhhh No
A No
A
"""

In [37]:
show_finditer(r'Ah? No', texto, flags=re.I | re.M)

Ouch
[48;2;255;255;95mAh No[0m
Ahh
Nooo
Ahhhhhhh No
[48;2;255;255;95mA No[0m
A



### Caracteres especiais `{` e `}`

Também estão relacionados a repetição, mas são mais flexíveis, pois podemos indicar quantas vezes o caractere anterior pode se repetir, tanto na quantidade mínima como máxima.

Existem 4 formas de uso:
* `a{3}`: valida se o caractere `a` se repete exatamente 3 vezes.
* `a{3,}`: valida se o caractere `a` se repete 3 ou mais vezes.
* `a{,3}`: valida se o caractere `a` se repete zero até 3 vezes.
* `a{3,5}`: valida se o caractere `a` se repete de 3 a 5 vezes.

In [38]:
texto = """\
Ouch
Ahhh No
Ahh No
Nooo
Ahhhhhhh No
A No
A
Ahhh
"""

In [39]:
show_finditer(r'Ah{2,5} No', texto, flags=re.I | re.M)

Ouch
[48;2;255;255;95mAhhh No[0m
[48;2;255;255;95mAhh No[0m
Nooo
Ahhhhhhh No
A No
A
Ahhh



### Caractere especial `|`

O caractere especial `|` é equivalente à condição **ou**. Valida a string completa antes e depois da barra vertical.

In [40]:
texto = 'o rato roeu a roupa do rei de roma'

In [41]:
show_finditer(r'rato|rei', texto)

o [48;2;255;255;95mrato[0m roeu a roupa do [48;2;255;255;95mrei[0m de roma


Obviamente que podemos ter expressões separadas por `|`.

In [42]:
# palavras começando com "r" de 4 letras ou palavras começando com "d" de 2 letras
show_finditer(r'\br\w{3}\b|\bd\w\b', texto)

o [48;2;255;255;95mrato[0m [48;2;255;255;95mroeu[0m a roupa [48;2;255;255;95mdo[0m rei [48;2;255;255;95mde[0m [48;2;255;255;95mroma[0m


### Caracteres especiais `[` e `]`

Caractere especial que permite validar um em um range de caracteres em uma única posição. `[xyz]`, por exemplo, valida se a string possui `x`, `y` ou `z`. Já `T[aeiou]d` valida se começa com `T`, termina com `d` e possui um único caractere no meio que seja ou `a` ou `e` ou `i` ou `o` ou `u`.

In [43]:
texto = 'o rato roeu a roupa do rei de roma'

In [30]:
# palavras começando com "r" e o restante da palavra composta apenas com vogais
show_finditer(r'\br[aeiou]+\b', texto)

Star Wars
Star Trek
Superstar



Você pode indicar um range de caracteres com `-`. Assim facilita a validação de letras do alfabeto ou dígitos, por exemplo.

* `'[0-9]'` representa todos os dígitos entre 0 e 9
* `'[a-z]'` representa todas as letras minúsculas
* `'[A-Z]'` representa todas as letras maiúsculas
* `'[a-zA-Z]'` representa todas as letras minúsculas e maiúsculas

In [31]:
texto = 'os 3 porquinhos e os 7 patinhos'

In [32]:
show_finditer(r'[0-9]', texto)

os [48;2;255;255;95m3[0m porquinhos e os [48;2;255;255;95m7[0m patinhos


Caracteres especiais perdem seu significado quando estão entre `[ ]`.

In [33]:
texto = 'minha senha é ******'

In [34]:
show_finditer(r'[*]+', texto)

minha senha é [48;2;255;255;95m******[0m


É possível indicar a exclusão de um range de caracteres com `^`. No exemplo abaixo o regex procurará por strings que tenham `Z` e que o próximo caractere não é uma vogal.

In [35]:
texto = """\
Zabumba
Zuleide
Zhivago
"""

In [36]:
show_finditer(r'Z[^aeiou]', texto)

Zabumba
Zuleide
[48;2;255;255;95mZh[0mivago



### Caractere especial `\`

É um caractere especial que está vinculado ao próximo caractere para ter seu significado. 

* `\d` - todos os dígitos, equivalente a `[0-9]`
* `\D` - qualquer não-dígito
* `\s` - qualquer quantidade de espaços incuindo espaços e tabs
* `\S` - qualquer não-espaço
* `\w` - qualquer palavra, equivalente a `[A-Za-z0-9_]`
* `\W` - qualquer caractere que não-palavra
* `\b` - [limite de palavras][1]
* `\B` - não-limite de palavras

[1]: https://www.regular-expressions.info/wordboundaries.html

In [37]:
texto = 'sem máscaras, 300 pessoas saíram de suas casas no sábado.'

In [38]:
show_finditer(r'\d+', texto)

sem máscaras, [48;2;255;255;95m300[0m pessoas saíram de suas casas no sábado.


In [39]:
show_finditer(r'\D+', texto)

[48;2;255;255;95msem máscaras, [0m300[48;2;255;255;95m pessoas saíram de suas casas no sábado.[0m


In [40]:
show_finditer(r'\s+', texto)

sem[48;2;255;255;95m [0mmáscaras,[48;2;255;255;95m [0m300[48;2;255;255;95m [0mpessoas[48;2;255;255;95m [0msaíram[48;2;255;255;95m [0mde[48;2;255;255;95m [0msuas[48;2;255;255;95m [0mcasas[48;2;255;255;95m [0mno[48;2;255;255;95m [0msábado.


In [41]:
show_finditer(r'\S+', texto)

[48;2;255;255;95msem[0m [48;2;255;255;95mmáscaras,[0m [48;2;255;255;95m300[0m [48;2;255;255;95mpessoas[0m [48;2;255;255;95msaíram[0m [48;2;255;255;95mde[0m [48;2;255;255;95msuas[0m [48;2;255;255;95mcasas[0m [48;2;255;255;95mno[0m [48;2;255;255;95msábado.[0m


In [42]:
show_finditer(r'\w+', texto)

[48;2;255;255;95msem[0m [48;2;255;255;95mmáscaras[0m, [48;2;255;255;95m300[0m [48;2;255;255;95mpessoas[0m [48;2;255;255;95msaíram[0m [48;2;255;255;95mde[0m [48;2;255;255;95msuas[0m [48;2;255;255;95mcasas[0m [48;2;255;255;95mno[0m [48;2;255;255;95msábado[0m.


In [43]:
show_finditer(r'\W+', texto)

sem[48;2;255;255;95m [0mmáscaras[48;2;255;255;95m, [0m300[48;2;255;255;95m [0mpessoas[48;2;255;255;95m [0msaíram[48;2;255;255;95m [0mde[48;2;255;255;95m [0msuas[48;2;255;255;95m [0mcasas[48;2;255;255;95m [0mno[48;2;255;255;95m [0msábado[48;2;255;255;95m.[0m


Para entender `\b`, melhor na prática. Vamos supor que gostaríamos de identificar todas as palavras que comecem com `s`.

Se fizermos `s\w+`, estaremos buscando um `s` seguido de pelo menos 1 caractere que representa palavra.

In [44]:
show_finditer(r's\w+', texto)

[48;2;255;255;95msem[0m má[48;2;255;255;95mscaras[0m, 300 pe[48;2;255;255;95mssoas[0m [48;2;255;255;95msaíram[0m de [48;2;255;255;95msuas[0m ca[48;2;255;255;95msas[0m no [48;2;255;255;95msábado[0m.


Note que isso trouxe a palavra `pessoas`, pois não validou se a palavra começou com `s`.

Podemos delimitar com espaços usando `\s`.

In [45]:
show_finditer(r'\ss\w+\s', texto)

sem máscaras, 300 pessoas[48;2;255;255;95m saíram [0mde[48;2;255;255;95m suas [0mcasas no sábado.


Note que os espaços vieram das palavras que estavam no meio do texto, mas as palavras `sem` e `sábado` não vieram.

É nisso que podemos usar `\b`, pois facilita demais esse tipo de uso.

In [46]:
show_finditer(r'\bs\w+\b', texto)

[48;2;255;255;95msem[0m máscaras, 300 pessoas [48;2;255;255;95msaíram[0m de [48;2;255;255;95msuas[0m casas no [48;2;255;255;95msábado[0m.


O caractere `\` também faz caracteres especiais perderem seu sentido.

In [47]:
show_finditer(r'.', texto)

[48;2;255;255;95ms[0m[48;2;255;255;95me[0m[48;2;255;255;95mm[0m[48;2;255;255;95m [0m[48;2;255;255;95mm[0m[48;2;255;255;95má[0m[48;2;255;255;95ms[0m[48;2;255;255;95mc[0m[48;2;255;255;95ma[0m[48;2;255;255;95mr[0m[48;2;255;255;95ma[0m[48;2;255;255;95ms[0m[48;2;255;255;95m,[0m[48;2;255;255;95m [0m[48;2;255;255;95m3[0m[48;2;255;255;95m0[0m[48;2;255;255;95m0[0m[48;2;255;255;95m [0m[48;2;255;255;95mp[0m[48;2;255;255;95me[0m[48;2;255;255;95ms[0m[48;2;255;255;95ms[0m[48;2;255;255;95mo[0m[48;2;255;255;95ma[0m[48;2;255;255;95ms[0m[48;2;255;255;95m [0m[48;2;255;255;95ms[0m[48;2;255;255;95ma[0m[48;2;255;255;95mí[0m[48;2;255;255;95mr[0m[48;2;255;255;95ma[0m[48;2;255;255;95mm[0m[48;2;255;255;95m [0m[48;2;255;255;95md[0m[48;2;255;255;95me[0m[48;2;255;255;95m [0m[48;2;255;255;95ms[0m[48;2;255;255;95mu[0m[48;2;255;255;95ma[0m[48;2;255;255;95ms[0m[48;2;255;255;95m [0m[48;2;255;255;95mc[0m[48;2;255;255;95ma[0m[48;2;255;

In [48]:
show_finditer(r'\.', texto)

sem máscaras, 300 pessoas saíram de suas casas no sábado[48;2;255;255;95m.[0m


### Caracteres especiais `(` e `)`

São usados para agrupar partes de um *regex*.

In [49]:
texto = """\
Minha vida
Meu amigo
Amigo meu
Vida minha
"""

Vamos supor que queremos identificar palavras `meu` e `minha` que estejam presentes no começo de cada linha.

In [50]:
show_finditer(r'^meu|minha', texto, flags=re.I | re.M)

[48;2;255;255;95mMinha[0m vida
[48;2;255;255;95mMeu[0m amigo
Amigo meu
Vida [48;2;255;255;95mminha[0m



Nesse caso, ele procurou por `meu` no começo e `minha` em qualquer lugar. Ainda não conseguimos o que queríamos.

Podemos fazer da seguinte forma, mas não fica tão elegante ou fácil de dar manutenção.

In [51]:
show_finditer(r'^meu|^minha', texto, flags=re.I | re.M)

[48;2;255;255;95mMinha[0m vida
[48;2;255;255;95mMeu[0m amigo
Amigo meu
Vida minha



Uma outra forma, seria através de grupos.

In [52]:
show_finditer(r'^(meu|minha)', texto, flags=re.I | re.M)

[48;2;255;255;95mMinha[0m vida
[48;2;255;255;95mMeu[0m amigo
Amigo meu
Vida minha



## Grupos de captura

Grupos de captura ou somente grupos são padrões que podemos identificar na hora de extrairmos informações de textos.

Imagine que temos um texto que possui registros com nomes e CPF's. Queremos extrair todas as informações, linha a linha.

In [53]:
texto = """\
nome: Fulano de Tal, cpf: 000.111.222-33
nome: Ciclano de Tal, cpf: 12345678900
cpf: 333222111-00, nome: Bandida
"""

Vamos supor que temos este texto e queremos extrair dados estruturados de cada uma das linhas, neste caso, queremos extrair nome e CPF.

Neste caso, precisamos saber que um padrão tem que ser identificado como `nome` e outro como `cpf`. Note também que há registros cuja ordem dessas informações estão trocadas.

Como a expressão é grande e confusa, podemos comentar todos os passos dela. Não esqueça de usar a flag `re.X` para aceitar os comentários.

In [54]:
pattern = """(?=         # positive look ahead
             .*nome:\s*  # possui o texto nome: seguido de espaços independente do que veio antes
             (?P<nome>   # grupo de captura nome
             [\w ]+))    # palavras
             (?=         # positive look ahead
             .*cpf:\s*   # possui o texto cpf: seguido de espaços independente do que veio antes
             (?P<cpf>    # grupo de captura cpf
             \d{3}\.?    # 3 dígitos seguido de ponto opcional
             \d{3}\.?    # 3 dígitos seguido de ponto opcional
             \d{3}\-?    # 3 dígitos seguido de traço opcional
             \d{2}))     # 2 dígitos
"""

Ou como uma expressão em uma única linha.

In [55]:
pattern = r'(?=.*nome:\s*(?P<nome>[\w ]+))(?=.*cpf:\s*(?P<cpf>\d{3}\.?\d{3}\.?\d{3}\-?\d{2}))'

Agora podemos acessar cada informação através do método `groupdict` do objeto `Match`.

In [56]:
for match in re.finditer(pattern, texto, flags=re.I | re.M | re.X):
    print(match.groupdict())

{'nome': 'Fulano de Tal', 'cpf': '000.111.222-33'}
{'nome': 'Ciclano de Tal', 'cpf': '12345678900'}
{'nome': 'Bandida', 'cpf': '333222111-00'}


<re.Match object; span=(80, 80), match=''>


Bem, agora vamos às explicações.

* `(?=...)`: É chamado de *positive lookahead* que nada mais é do que validar positivamente se o padrão indicado nela está mais para frente no texto.
* `(?P<grupo>...)`: Cria grupo de captura com o nome indicado em `grupo`.

Não usamos aqui, mas temos também:

* `(?:...)`: Indica que a expressão dentro dela não será capturada ou que estamos usando parêntesis, mas que não é de um grupo de captura.
* `(?!...)`: É chamado de *negative lookahead* que é o inverso do *positive lookahead*. Na prática, se mais para frente tiver o padrão indicado, invalida o padrão.

### Exemplo: validação de senha

Vamos supor que estamos criando um sistema e no controle de acesso queremos desenvolver um validador de senha.

As regras definidas são:

* Deve conter entre 8 e 15 caracteres
* Precisa conter ao menos uma letra maiúscula
* Precisa conter ao menos uma letra minúscula
* Precisa conter ao menos um dígito
* Precisa conter ao menos um símbolo ou caractere especial

Nesse caso, poderíamos escrever nosso *regex* da seguinte forma:

```
^(?=.{8,15}$)(?=.*[A-Z])(?=.*[a-z])(?=.*[0-9])(?=.*[!@#$%^&*]).*$
 \__________/\_________/\_________/\_________/\______________/
   tamanho    maiúscula  minúscula   dígito       símbolo
```

## Função `split`

A função `split` possui o mesmo conceito do `split` da string, mas com algumas diferenças.

In [None]:
texto = 'o rato roeu a roupa do rei de roma!'

Podemos quebrar o texto por qualquer trecho não composto por caracteres alfanuméricos.

In [None]:
re.split(r'\W+', texto)

Podemos quebrar o texto por palavras que comecem com `r` e que possuam 5 ou mais caracteres.

In [None]:
re.split(r'r\w{4,}', texto)

Note que a palavra `roupa` não apareceu, pois foi ela quem quebrou o texto.

Caso haja o interesse de saber do termo que foi usado para separar, podemos colocar em um grupo de captura.

In [None]:
re.split(r'(r\w{4,})', texto)

Um exemplo mais prático seria quebrar um texto de um livro por páginas.

In [None]:
texto = """\
Era uma vez
Página 1
3 porquinhos
Página 2
Cícero, Heitor e Prático
Página 3
Cada um tinha uma casa...
"""

In [None]:
re.split(r'\nPágina (\d+)\n', texto)

## Função `sub`

A função `sub` tem como objetivo substituir termos dentro do texto seguindo um padrão definido por *regex*.

In [None]:
texto = 'o rato roeu a roupa do rei de roma'

Vamos supor que queremos substituir todas as palavras que comecem com `r` pela palavra `uva`.

In [None]:
re.sub(r'r\w+', 'uva', texto)

### Back reference

Existe um conceito em expressões regulares que se chama *back reference*. Ele serve para você se referir ao que foi identificado em algum grupo de captura.

Para melhor entendimento, vamos supor que gostaríamos de colocar `<` e `>` em volta das palavras que comecem com `r`.

In [None]:
re.sub(r'(r\w+)', r'<\1>', texto)

*Back references* é tão poderoso, que podemos criar coisas bem complexas.

O exemplo abaixo mostra a criação de uma função para multi-replace.

https://stackoverflow.com/questions/45128959/python-replace-multiple-strings-while-supporting-backreferences/45132893#45132893

In [None]:
import re
from collections import OrderedDict
from functools import partial

def build_replacer(cases):
    ordered_cases = OrderedDict(cases.items())
    replacements = {}

    leading_groups = 0
    for pattern, replacement in ordered_cases.items():
        leading_groups += 1

        # leading_groups is now the absolute position of the root group (back-references should be relative to this)
        group_index = leading_groups
        replacement = absolute_backreference(replacement, group_index)
        replacements[group_index] = replacement

        # This pattern contains N subgroups (determine by compiling pattern)
        subgroups = re.compile(pattern).groups
        leading_groups += subgroups

    catch_all = '|'.join('({})'.format(p) for p in ordered_cases)
    pattern = re.compile(catch_all)

    def replacer(match):
        replacement_pattern = replacements[match.lastindex]
        return match.expand(replacement_pattern)

    return partial(pattern.sub, replacer)

def absolute_backreference(text, n):
    ref_pat = re.compile(r'\\([0-99])')

    def replacer(match):
        return '\\{}'.format(int(match.group(1)) + n)

    return ref_pat.sub(replacer, text)

patterns = {
    r'(\d{3})\.?(\d{3})\.?(\d{3})\-?(\d{2})\b': r'\1.\2.\3-\4',
    r'(\d{2})\.?(\d{3})\.?(\d{3})\/?(\d{4})\-?(\d{2})\b': r'\1.\2.\3/\4-\5'
}

replacer = build_replacer(patterns)

antes = 'cpf 12345678900 e cpnj 11222333000155 são números inválidos'
depois = replacer('cpf 12345678900 e cpnj 11222333000155 são números inválidos')

print('antes:', antes)
print('depois:', depois)

# Exercícios

Alguns exercícios podem ser feitos sem expressões regulares, mas a ideia aqui é treinar o que acabamos de aprender.

**1)** Implemente a função `eh_binario(s)` para validar se uma string é binária ou não.

Parâmetros:
* `s`: string a ser validada.

Retorno: `True` quando a string `s` for um número binário.

In [None]:
def eh_binario(s):
    # seu código vem aqui
    return # seu retorno vem aqui

# resultado esperado: True
eh_binario('111000')

In [None]:
assert eh_binario('111000'), 'Você errroooouuuuu!'
assert eh_binario('000111'), 'Você errroooouuuuu!'
assert not eh_binario('1 0 1 0'), 'Você errroooouuuuu!'

print('Show de bola!')

**2)** Implemente a função `conta_numeros(s)` para contar quantos números estão presentes na string `s`.

Parâmetros:
* `s`: string de entrada

Retorno: quantidade de números (não dígitos) isolados nós temos no texto.

**Observação:** A função deve contar tanto números inteiros como flutuantes (com separador decimal `.`)

In [None]:
def conta_numeros(s):
    # seu código vem aqui
    return # seu retorno vem aqui

# resultado esperado: 6
conta_numeros('200 300 500 12.5 viajante no tempo 123milhas 4 0.7')

In [None]:
assert conta_numeros('200 300 500 12.5 viajante no tempo 123milhas 4 0.7') == 6, 'Você errroooouuuuu!'
assert conta_numeros('12. 50 4b3lh4') == 2, 'Você errroooouuuuu!'
assert conta_numeros('um dois três') == 0, 'Você errroooouuuuu!'

print('Show de bola!')

**3)** Implemente a função `extrair_telefones(s)` para retornar uma lista com todos os telefones identificados na string `s`.

Parâmetros:
* `s`: string de entrada

Retorno: lista contendo todos os telefones identificados no texto.

**Observação:** Não há a necessidade de normalizar a informação.

In [None]:
def extrair_telefones(s):
    # seu código vem aqui
    return # seu retorno vem aqui

# resultado esperado: ['5502-2204', '(11) 5502-2422']
extrair_telefones('o telefone da moça é 5502-2204, já do seu amigo é (11) 5502-2422')

In [None]:
assert extrair_telefones('1234') == [], 'Você errroooouuuuu!'
assert extrair_telefones('999991234, 123 456, (11) 1234 5678') == ['999991234', '(11) 1234 5678'], 'Você errroooouuuuu!'

print('Show de bola!')