# Expressões regulares

**Metacaracteres**

- . Qualquer caractere (exceto linha nova)
- \w Qualquer caractere alfanumérico
- \W Qualquer caractere não alfanumérico
- \d Qualquer caractere que seja um dígito (0 - 9)
- \D Qualquer caractere não dígito
- \s Espaço em branco
- ^ Começa com
- $ termina em
- \\ Usado antes de metacaracteres para especificar seu significado literal

**Quantificadores**

- [] opcional entre os que estão dentro dos colchetes
- () caracteriza grupo de caracteres
- \* de zero a mais vezes
- ? zero ou uma vez
- \+ uma ou mais vezes
- {m,n} de m a n vezes
- | ou

## Função search

Procura uma ocorrência


In [None]:
import re

In [None]:
frase = 'Olá, meu número de telefone é (42)00010-0000'
# procura o padrão: ( dois digitos ) quatro a cinco digitos, trço e mais 4 digitos
re.search('\(\d{2}\)\d{4,5}-\d{4}', frase)

<re.Match object; span=(30, 44), match='(42)00010-0000'>

In [None]:
frase = 'A placa de carro que eu anotei durante o acidente foi FrT-1998'
# procura o padrão: 3 caracteres de A a Z (maiusculo e minusculo), traço e mais 4 digitos
re.search('[A-Za-z]{3}-\d{4}', frase)

<re.Match object; span=(54, 62), match='FrT-1998'>

In [None]:
email = 'Entre em contato, meu email é teste@teste.com'
# procura o padrão: um ou mais caracteres alfanumericos, o simbol @, um ou mais caracteres alfanumericos e .com
re.search('\w+@\w+\.com', email)

<re.Match object; span=(30, 45), match='teste@teste.com'>

## Função match

Procura se esta no começo da string

In [None]:
# nesse caso nao esta no começo
frase = 'A placa de carro que eu anotei durante o acidente foi FrT-1998'
print(re.match('[A-Za-z]{3}-\d{4}', frase))

None


In [None]:
# nesse caso esta no começo
frase2 = 'FRT-1998 é a placa do carro'
print(re.match('[A-Za-z]{3}-\d{4}', frase2))

<re.Match object; span=(0, 8), match='FRT-1998'>


## Função findall

Procura todos as ocorrencias do padrão

In [None]:
frase3 = 'Meu número de telefone atual é (42)0000-0000. O número (56)1111-1111 é o antigo'
re.findall('\(\d{2}\)\d{4,5}-\d{4}', frase3)

['(42)0000-0000', '(56)1111-1111']

In [None]:
emails = '''Nome: Teste 1
email: teste1@teste.com
Nome: Teste 2
email: teste2@teste.com
Nome: Teste 3
email: teste3@teste.com.br
'''
re.findall('\w+@\w+\.\w+.?\w+', emails)

['teste1@teste.com', 'teste2@teste.com', 'teste3@teste.com.br']

# Exercícios

Crie expressões regulares para extrair as seguintes informações do texto abaixo (use a função findall):

Números

CEPs

URLs

In [None]:
texto = "Minha casa fica na rua Carneiro, 78. O CEP é 88388-000 e 11111-111 meu site é https://www.iaexpert.academy http://iaexpert.com.br"

In [None]:
#numeros
re.findall('\d', texto)

['7',
 '8',
 '8',
 '8',
 '3',
 '8',
 '8',
 '0',
 '0',
 '0',
 '1',
 '1',
 '1',
 '1',
 '1',
 '1',
 '1',
 '1']

In [None]:
#CEPs
re.findall('\d{5}-\d{3}', texto)

['88388-000', '11111-111']

In [None]:
#URLs
re.findall('http.+\..+\..+', texto)

['https://www.iaexpert.academy http://iaexpert.com.br']

In [None]:
# outra opção
# padrão 'http' s? significa zero ou uma vez
# os colchetes indicam opcional entre A a Z maiusculo ou minusculo, 0 a 9 ou o caractere .
# o mais significa que pode acontecer uma ou mais vezes
re.findall('https?://[A-Za-z0-9./]+', texto)

['https://www.iaexpert.academy', 'http://iaexpert.com.br']