# Criando Objetos Regex

Todas as funções _regex_ em Python estão no módulo `re`. Entre os seguintes código para importar este módulo

In [2]:
import re

Passar um valor de string representando uma expressão regular para `re.compile()` retorna um objeto padrão de _regex_ (ou simplismente, um objeto _regex_).

In [14]:
phoneNumRegex = re.compile(r'\d\d \d\d\d\d-\d\d\d\d')

Desde que expressões regulares frequentemente usam contra-barra, é muito conveniente passar uma string bruta para a função `re.compile()` ao invés de escrever contra-barras extras.

# Combinando Objetos Regex

In [15]:
mo = phoneNumRegex.search('Meu número de telefone é 13 8804-7676.')
print(f'Número de telefone encontrado: {mo.group()}')

Número de telefone encontrado: 13 8804-7676


# Agrupamento com Parenteses

Adicionando parentes na _regex_ criará grupos. Então vocPe pode usar o método `group()` do objeto _macth_ para pegar os textos compatives com apenas um grupo.

In [18]:
phoneNumRegex = re.compile(r'(\d\d) (\d\d\d\d-\d\d\d\d)')
mo = phoneNumRegex.search('Meu número de telefone é 13 8804-7676.')
print(mo.group(1))
print(mo.group(2))
print(mo.group(0))
print(mo.group())

13
8804-7676
13 8804-7676
13 8804-7676


Se você quiser recuperar todos os grupos de uma vez, use o método `groups()` - note a forma plural para o nome.

In [19]:
mo.groups()

('13', '8804-7676')

In [20]:
codigoArea, numeroPrincipal = mo.groups()
print(codigoArea)
print(numeroPrincipal)

13
8804-7676


Parenteses tem um significado especial em expressões regulares, mas o que você faz se você precisa encontrar a correspondência de um parenteses em seu texto? Por exemplo, pode ser que os telefones que você está tentando encontrar tenham o código de área entre parenteses. Nesse caso vocPe pode escabar o ( e ) com uma contra-barra.

In [21]:
phoneNumRegex = re.compile(r'\((\d\d)\) (\d\d\d\d-\d\d\d\d)')
mo = phoneNumRegex.search('Meu número de telefone é (13) 8804-7676.')
print(mo.group(1))
print(mo.group(2))

13
8804-7676


# Correspondendo multiplos grupos com o Pipe

O caracter | é chamado de _pipe_. Voce pode usa-lo em qualquer lugar que você quer encontrar a correspondência de uma ou mais expressões. Por exemplo, a expressão regular r'Batman|Tinha Frey' correspoderá a ambos 'Batman' ou 'Tina Frey'.

In [22]:
heroRegex = re.compile(r'Batman|Tina Frey')
mo1 = heroRegex.search('Batman e Tina Frey')
mo1.group()

'Batman'

In [23]:
mo2 = heroRegex.search('Tina Frey e Batman')
mo2.group()

'Tina Frey'

## Nota

Você pode encontrar todas as correspodências com o método `findall()`

In [24]:
heroRegex.findall('Batman e Tina Frey')

['Batman', 'Tina Frey']

# Correspondência Opcional com Pontos de Interrogação

Algumas vezes há um padrão que você quer corresponder apenas opicionalmente.

In [27]:
batRegex = re.compile(r'Bat(wo)?man')
mo1 = batRegex.search('As Aventuras de Batman')
mo1.group()

'Batman'

In [29]:
mo2 = batRegex.search('As Aventuras de Batwoman.')
mo2.group()

'Batwoman'

Usando o exemplo anterior, você pode fazer um _regex_ procurar por números de telefone que têm ou não um código de área.

In [31]:
phoneRegex = re.compile(r'(\((\d\d)\) )?\d\d\d\d-\d\d\d\d')
mo1 = phoneRegex.search('Meu número de telefone é 8804-7676.')
mo1.group()

'8804-7676'

In [32]:
mo2 = phoneRegex.search('Meu número de telefone é (13) 8804-7676.')
mo2.group()

'(13) 8804-7676'

# Correspondêndo Zero ou Mais vezes com o Asterísco.

In [34]:
batRegex = re.compile(r'Bat(wo)*man')
mo1 = batRegex.search('As Aventuras de Batman')
mo1.group()

'Batman'

In [35]:
mo2 = batRegex.search('As Aventuras de Batwoman')
mo2.group()

'Batwoman'

In [36]:
mo3 = batRegex.search('As Aventuras de Batwowowoman')
mo3.group()

'Batwowowoman'

# Correspondendo Uma ou Mais vezes com o Sinal de Mais

In [38]:
batRegex = re.compile(r'Bat(wo)+man')
mo1 = batRegex.search('As Aventuras de Batwoman')
mo1.group()

'Batwoman'

In [39]:
mo2 = batRegex.search('As Aventuras de Batwowowowowoman')
mo2.group()

'Batwowowowowoman'

In [41]:
mo3 = batRegex.search('As Aventuras de Batman')
mo3 == None

True

# Correspondendo Repetições Específicas com Chaves

In [42]:
haRegex = re.compile(r'(Ha){3}')
mo1 = haRegex.search('HaHaHa')
mo1.group()

'HaHaHa'

In [43]:
mo2 = haRegex.search('Ha')
mo2 == None

True

# Correspondência Gulosa e Não-Gulosa

In [46]:
greedyHaRegex = re.compile(r'(Ha){3,5}')
mo1 = greedyHaRegex.search('HaHaHaHaHaHa')
mo1.group()

'HaHaHaHaHa'

In [47]:
nongreedyHaRegex = re.compile(r'(Ha){3,5}?')
mo2 = nongreedyHaRegex.search('HaHaHaHaHaHa')
mo2.group()

'HaHaHa'

# Método `findall()`

In [51]:
phoneNumRegex = re.compile(r'\(\d\d\) \d\d\d\d-\d\d\d\d')
phoneNumRegex.findall('Cell: (13) 8804-7676  Escritório: (11) 3471-7471')

['(13) 8804-7676', '(11) 3471-7471']

In [52]:
phoneNumRegex = re.compile(r'\((\d\d)\) (\d\d\d\d)-(\d\d\d\d)')
phoneNumRegex.findall('Cell: (13) 8804-7676  Escritório: (11) 3471-7471')

[('13', '8804', '7676'), ('11', '3471', '7471')]

# Fazendo Sua Própria Classe de Caractéres

In [54]:
vowelRegex = re.compile(r'[aâáàeêéèiîíìoôóòuûúùAÂÁÀEÊÉÈIÎÍÌOÔÓÒUÛÙÚ]')
vowelRegex.findall('Robocop come comida de bebê. COMIDA DE BEBÊ.')

['o',
 'o',
 'o',
 'o',
 'e',
 'o',
 'i',
 'a',
 'e',
 'e',
 'ê',
 'O',
 'I',
 'A',
 'E',
 'E',
 'Ê']

In [55]:
vowelRegex = re.compile(r'[^aâáàeêéèiîíìoôóòuûúùAÂÁÀEÊÉÈIÎÍÌOÔÓÒUÛÙÚ]')
vowelRegex.findall('Robocop come comida de bebê. COMIDA DE BEBÊ.')

['R',
 'b',
 'c',
 'p',
 ' ',
 'c',
 'm',
 ' ',
 'c',
 'm',
 'd',
 ' ',
 'd',
 ' ',
 'b',
 'b',
 '.',
 ' ',
 'C',
 'M',
 'D',
 ' ',
 'D',
 ' ',
 'B',
 'B',
 '.']

# Classes de Caracteres

+----------------------------------+-----------------------------------------------------------------------------------------+
| Abreviação de classe de Caracter | Representa                                                                              |
+----------------------------------+-----------------------------------------------------------------------------------------+
| \d                               | Qualquer dígito de 0 a 9                                                                |
+----------------------------------+-----------------------------------------------------------------------------------------+
| \D                               | Qualquer caracter que não é um dígito de 0 a 9                                          |
+----------------------------------+-----------------------------------------------------------------------------------------+
| \w                               | Qualquer letra, dígito numérico, ou o caracter de underline                             |
+----------------------------------+-----------------------------------------------------------------------------------------+
| \W                               | Qualquer caracter que não é uma letra, um dígito numérico, ou um caracter de underline. |
+----------------------------------+-----------------------------------------------------------------------------------------+
| \s                               | Qualquer espaço, tabulação ou caracter de nova linha.                                   |
+----------------------------------+-----------------------------------------------------------------------------------------+
| \S                               | Qualquer caracter que não é um espaço, uma tabulação ou uma nova linha.                 |
+----------------------------------+-----------------------------------------------------------------------------------------+

In [1]:
text = '''
"Não é nepotismo", diz Bolsonaro sobre filho ser embaixador
Lisandra Paraguassu
12 JUL	2019	12h43 atualizado às 13h03
O presidente Jair Bolsonaro disse nesta sexta-feira que a indicação de seu filho, o deputado Eduardo Bolsonaro (PSL-SP), para a embaixada em Washington não se enquadraria como nepotismo, e que não faria a indicação se fosse.

SAIBA MAIS
Governo espera ter filho de Trump como embaixador no Brasil

'Aceito a missão dada por meu pai', diz Eduardo Bolsonaro sobre embaixada nos EUA

“Excelente nome”, diz chanceler sobre Eduardo em Washington

Bolsonaro nomear filho é "tiro no pé", diz ministro do STF

 Deputado Eduardo Bolsonaro
12/03/2019
REUTERS/Ueslei Marcelino
Deputado Eduardo Bolsonaro 12/03/2019 REUTERS/Ueslei Marcelino
Foto: Ueslei Marcelino / Reuters
"Alguns falam que é nepotismo. Essa função, tem decisão do Supremo, não é nepotismo, eu jamais faria isso. Ou vocês acham que devo aconselhar o Eduardo a renunciar o mandato e voltar a ser agente da Polícia Federal?", disse o presidente em uma live na manhã desta quinta.

Uma análise jurídica interna feita pelo Planalto sobre a possibilidade apontou, em um primeiro momento, que as nomeações de primeiro escalão, como para embaixador, não se enquadram como nepotismo. Mas não foi feita ainda uma análise oficial a pedido do presidente.

A questão foi levantada na quinta-feira, depois que Bolsonaro confirmou que estava analisando a indicação do filho e Eduardo admitiu que se for indicado, irá aceitar. Uma súmula do Supremo Tribunal Federal (STF) de 2008 proibiu o nepotismo. No entanto, uma decisão de 2018 da 2ª turma do STF diz que a súmula não se aplica a indicação para cargos de natureza política.

Bolsonaro reafirmou que, se depender dele, só falta o filho aceitar a indicação e o Senado aprovar. Na noite de quinta, o deputado afirmou que, se for realmente indicado, aceita e renuncia ao mandato.

"Não depende de mim, depende do meu filho aceitar e do Senado que vai sabatiná-lo. Agora, vocês querem que eu coloque quem? Celso Amorim nos EUA, que é do Itamaraty?", disse o presidente. Amorim foi chanceler durante o governo do ex-presidente Luiz Inácio Lula da Silva.

Bolsonaro ainda lembra que o último ministro de Relações Exteriores, o ex-senador Aloysio Nunes Ferreira, não era diplomata e nem tinha formação na área, mas "ninguém falava nada".

"Eu tenho certeza absoluta que o Eduardo Bolsonaro é muito melhor do que eu. A sua vivência, a sua educação, a sua formação", disse. "Logicamente eu tenho muito mais experiência do que ele, em muitos momentos quem tem a razão sou eu... filho para mim vai ser sempre subordinado meu."

Em um café da manhã com jornalistas, o ministro da Secretaria de Governo, Luiz Eduardo Ramos, admitiu que a indicação "deu polêmica", mas lembrou que é um processo que ainda precisa passar pelo Senado.

"O presidente tem seus momentos de pronunciamento", disse o ministro, lembrando do anúncio de que a embaixada brasileira em Israel seria transferida para Jerusalém e a polêmica causada pelo anúncio. "E onde a embaixada está hoje? Em Tel Aviv", lembrou o ministro, ressaltando que não estava comparando os dois anúncios.

Ramos admitiu que o momento do anúncio pode não ter sido o melhor, em meio à reforma da Previdência, já que vários deputados, na noite de quinta, criticaram o caso na tribuna da Câmara.

"Poderia anunciar semana que vem, no recesso? Talvez. Acabou sendo usado na votação. Deu margem para o pessoal falar", disse, o ministro, que destacou no entanto que Eduardo é um "jovem preparado".
'''

In [3]:
digitsRegex = re.compile(r'\d')
nondigitsRegex = re.compile(r'\D')
wordcharsRegex = re.compile(r'\w')
nonwordcharsRegex = re.compile(r'\W')
spacecharsRegex = re.compile(r'\s')
nonspacecharsRegex = re.compile(r'\S')

In [4]:
print('Digitos no texto:')
print(digitsRegex.findall(text))

Digitos no texto
['1', '2', '2', '0', '1', '9', '1', '2', '4', '3', '1', '3', '0', '3', '1', '2', '0', '3', '2', '0', '1', '9', '1', '2', '0', '3', '2', '0', '1', '9', '2', '0', '0', '8', '2', '0', '1', '8', '2']


In [5]:
print('Não-digitos no texto:')
print(nondigitsRegex.findall(text))

Não-digitos no texto:
['\n', '"', 'N', 'ã', 'o', ' ', 'é', ' ', 'n', 'e', 'p', 'o', 't', 'i', 's', 'm', 'o', '"', ',', ' ', 'd', 'i', 'z', ' ', 'B', 'o', 'l', 's', 'o', 'n', 'a', 'r', 'o', ' ', 's', 'o', 'b', 'r', 'e', ' ', 'f', 'i', 'l', 'h', 'o', ' ', 's', 'e', 'r', ' ', 'e', 'm', 'b', 'a', 'i', 'x', 'a', 'd', 'o', 'r', '\n', 'L', 'i', 's', 'a', 'n', 'd', 'r', 'a', ' ', 'P', 'a', 'r', 'a', 'g', 'u', 'a', 's', 's', 'u', '\n', ' ', 'J', 'U', 'L', '\t', '\t', 'h', ' ', 'a', 't', 'u', 'a', 'l', 'i', 'z', 'a', 'd', 'o', ' ', 'à', 's', ' ', 'h', '\n', 'O', ' ', 'p', 'r', 'e', 's', 'i', 'd', 'e', 'n', 't', 'e', ' ', 'J', 'a', 'i', 'r', ' ', 'B', 'o', 'l', 's', 'o', 'n', 'a', 'r', 'o', ' ', 'd', 'i', 's', 's', 'e', ' ', 'n', 'e', 's', 't', 'a', ' ', 's', 'e', 'x', 't', 'a', '-', 'f', 'e', 'i', 'r', 'a', ' ', 'q', 'u', 'e', ' ', 'a', ' ', 'i', 'n', 'd', 'i', 'c', 'a', 'ç', 'ã', 'o', ' ', 'd', 'e', ' ', 's', 'e', 'u', ' ', 'f', 'i', 'l', 'h', 'o', ',', ' ', 'o', ' ', 'd', 'e', 'p', 'u', 't', '

In [6]:
print('Caracteres de palavra no texto:')
print(wordcharsRegex.findall(text))
print('-'*80)
print('Caracteres de não-palavra no texto:')
nonwordcharsRegex.findall(text)
print('-'*80)
print('Caracteres de espaço no texto:')
print(spacecharsRegex.findall(text))
print('-'*80)
print('Caracteres de não-espaço no texto:')
print(nonspacecharsRegex.findall(text))

Caracteres de palavra no texto:
['N', 'ã', 'o', 'é', 'n', 'e', 'p', 'o', 't', 'i', 's', 'm', 'o', 'd', 'i', 'z', 'B', 'o', 'l', 's', 'o', 'n', 'a', 'r', 'o', 's', 'o', 'b', 'r', 'e', 'f', 'i', 'l', 'h', 'o', 's', 'e', 'r', 'e', 'm', 'b', 'a', 'i', 'x', 'a', 'd', 'o', 'r', 'L', 'i', 's', 'a', 'n', 'd', 'r', 'a', 'P', 'a', 'r', 'a', 'g', 'u', 'a', 's', 's', 'u', '1', '2', 'J', 'U', 'L', '2', '0', '1', '9', '1', '2', 'h', '4', '3', 'a', 't', 'u', 'a', 'l', 'i', 'z', 'a', 'd', 'o', 'à', 's', '1', '3', 'h', '0', '3', 'O', 'p', 'r', 'e', 's', 'i', 'd', 'e', 'n', 't', 'e', 'J', 'a', 'i', 'r', 'B', 'o', 'l', 's', 'o', 'n', 'a', 'r', 'o', 'd', 'i', 's', 's', 'e', 'n', 'e', 's', 't', 'a', 's', 'e', 'x', 't', 'a', 'f', 'e', 'i', 'r', 'a', 'q', 'u', 'e', 'a', 'i', 'n', 'd', 'i', 'c', 'a', 'ç', 'ã', 'o', 'd', 'e', 's', 'e', 'u', 'f', 'i', 'l', 'h', 'o', 'o', 'd', 'e', 'p', 'u', 't', 'a', 'd', 'o', 'E', 'd', 'u', 'a', 'r', 'd', 'o', 'B', 'o', 'l', 's', 'o', 'n', 'a', 'r', 'o', 'P', 'S', 'L', 'S', 'P

# O caracter Coringa

O caracter . (ou ponto) em uma expressão regular é chamando caracter coringa e corresponde a qualquer caracter, exceto nova linha.

In [7]:
atRegex = re.compile('.at')
print(atRegex.findall('The cat in the hat sat on the flat mat'))

['cat', 'hat', 'sat', 'lat', 'mat']


# Correspondendo Tudo com um Ponto-asterisco

In [8]:
nameRegex = re.compile(r'Primeiro Nome: (.*) Sobrenome: (.*)')
mo = nameRegex.search('Primeiro Nome: Myke Sobrenome: Albuquerque Pinto de Oliveira')
print(mo.group(1))
print(mo.group(2))

Myke
Albuquerque Pinto de Oliveira


# Corrêspondência Insensível à Caixa

In [9]:
robocopRegex = re.compile(r'robocop', re.I)
robocopRegex.search('RoboCop é metade homem, metade máquina, todo policial.').group()

'RoboCop'

In [10]:
robocopRegex.search('ROBOCOP protege os inocentes.').group()

'ROBOCOP'

In [12]:
robocopRegex.search('Myke, por que esse notebook fala sobre o robocop tanto?').group()

'robocop'

# Substituindo Strings com o método `sub()`

In [13]:
namesRegex = re.compile(r'Agente \w+')
namesRegex.sub('CENSURADO', 'Agente Alice deu os documentos secretos ao Agente Bob.')

'CENSORED deu os documentos secretos ao CENSORED.'

In [14]:
agentNameRegex = re.compile(r'Agente (\w)\w*')
agentNameRegex.sub(r'\1****', 'Agente Alice contou para a Agente Carol que a Agente Eve soube que o Agente Bob era um agente duplo.')

'A**** contou para a C**** que a E**** soube que o B**** era um agente duplo.'

# Gerenciando Regexes Complexas

In [20]:
phoneRegex = re.compile(r'(\(\d\d\))? ?\d{4,5}-?\d{4}', re.VERBOSE)

error: multiple repeat at position 12