### Operadores

    [] – conjunto de  caracteres;
    \ – sequência especial de caracteres;
    ^ – buscar elementos no início da string;
    $ – buscar elementos no final da string;
    * – buscar zero ou mais repetições de uma substring;
    + – uma ou mais aparições de uma substring;
    ? – zero ou uma aparição;
    | – busca um caractere ou outro.
    {} - quantidade específica de caracteres
    [^] - diferente de um caractere especificado logo após o ^
    () - apenas para agrupar regras e definir ordem de aplicação (igual matemática)

### Especificando caracteres:
    . - qualquer caractere
    \d - qualquer dígito
    \D - não é dígito
    \w - qualquer alfanumérico
    \W - não é alfanumérico
    \s - espaço em branco
    \S - não é espaço em branco

#### obs: lembre de usar a string como raw string

### Funções
#### Lembre sempre de importar a biblioteca re

- re.compile('padrao_regex') -> compilar um padrão regex
- re.search(padrao_compilado, texto) -> procura uma ocorrência do padrão no texto (re.match só procura na 1ª linha do texto)
- re.findall(padrao_compilado, texto) -> encontra todas as ocorrencias do padrão em um texto - armazena em uma lista
- re.finditer(padrao_compilado, texto) -> encontra todas as ocorrencias e armazena em um iterador

In [None]:
texto = """
Bom dia,

Seguem os orçamentos solicitados:


Cerveja importada (330 ml) - R$12,30598615178 - bebida
Cerveja nacional (0,5 litros) - R$6,10 - bebida
Garrafa de vinho (750ml) - R$39,90 - bebida
Água (garrafa de 1,5 litros) - R$3,30 - bebida
Alface (1 unidade) - R$3,50 - comida
Cebolas (1kg) - R$5,10 - comida
Batatas (1 kg) - R$5,20 - comida
Tomates (1 kg) - R$7,90 - comida
Laranjas (1 kg) - R$4,70 - comida
Bananas (1kg) - R$5,50 - comida
Maçãs (1 kg) - R$8,30 - comida
Queijo fresco (1 kg) - R$42,90 - comida
Uma dúzia de ovos(12) - R$9,80 - comida
Arroz (1 kg) - R$5,70 - comida
Um quilo de pão (1 kg) - R$7,20 - comida
Leite (1 litro) - R$5,20 - bebida
Azeite (1 unidade) - R$20 - tempero
Pimenta Reino (20g) - R$5 - tempero


Favor informar as quantidades desejadas
para emissão da Nota Fiscal.

Att.,"""

#### Ex: Quantos itens

In [None]:
import re

# quantas comidas
padrao = re.compile('comida')

contagem_comida = len(re.findall(padrao, texto))
print(contagem_comida)

# quantas bebidas
padrao = re.compile('bebida')

contagem_bebida = len(re.findall(padrao, texto))
print(contagem_bebida)

11
5


In [None]:
# quantos itens
padrao = re.compile('\$')
contagem_items = len(re.findall(padrao, texto))

print(contagem_items)

18


#### Ex: Extrair números

In [None]:
padrao = re.compile(r'\d+,?\d*')
resultado = re.findall(padrao, texto)

print(resultado)

['330', '12,30598615178', '0,5', '6,10', '750', '39,90', '1,5', '3,30', '1', '3,50', '1', '5,10', '1', '5,20', '1', '7,90', '1', '4,70', '1', '5,50', '1', '8,30', '1', '42,90', '12', '9,80', '1', '5,70', '1', '7,20', '1', '5,20', '1', '20', '20', '5']


#### Ex: Extrair quantos ml (do 1º item)

In [None]:
padrao = re.compile(r'\((\d+\s?\w+)\)')
resultado = re.search(padrao, texto).group(1)

print(resultado)

330 ml


#### Ex: Preço do 1º item

In [None]:
padrao = re.compile(r'R\$\d+,?\d*')
resultado = re.search(padrao, texto).group(0)

print(resultado)

R$12,30598615178


#### Ex: Todos os preços

In [None]:
padrao = re.compile(r'R\$(\d+,?\d{0,2})')
resultado = re.findall(padrao, texto)

resultado

['12,30',
 '6,10',
 '39,90',
 '3,30',
 '3,50',
 '5,10',
 '5,20',
 '7,90',
 '4,70',
 '5,50',
 '8,30',
 '42,90',
 '9,80',
 '5,70',
 '7,20',
 '5,20',
 '20',
 '5']

#### Ex: Quantidades dos itens

In [None]:
padrao = re.compile(r'\((.+)\)')
resultado = re.findall(padrao, texto)

resultado

['330 ml',
 '0,5 litros',
 '750ml',
 'garrafa de 1,5 litros',
 '1 unidade',
 '1kg',
 '1 kg',
 '1 kg',
 '1 kg',
 '1kg',
 '1 kg',
 '1 kg',
 '12',
 '1 kg',
 '1 kg',
 '1 litro',
 '1 unidade',
 '20g']

#### Ex: Links

In [None]:
texto2 = """
Olá

Segue o relatório de SEO para os seguintes sites:
https://portalhashtag.com
http://hashtagtreinamentos.com
https://www.wikipedia.org/
www.bcb.gov.br/

Qualquer dúvida estamos à disposição"""

In [None]:
padrao_link = re.compile(r'(https?://)?(www\.)?\w+\.(com\.br|com|gov\.br|org)/?')

links = re.finditer(padrao_link, texto2)

for link in links:
    print(link.group(0))

https://portalhashtag.com
http://hashtagtreinamentos.com
https://www.wikipedia.org/
www.bcb.gov.br/


In [None]:
cadastro = 'Alex Cardoso, CPF 123.456.789-10, RG 01.234.567, residente na rua tal, bairro qualquer, cidade Belo Horizonte - MG, CEP 35.790-000'

padrao_cpf = re.compile(r'\d+\.\d{3}\.\d{3}-\d{2}')
cpf = re.findall(padrao_cpf, cadastro)

padrao_cep = re.compile(r'\d+\.\d{3}-\d{3}')
cep = re.findall(padrao_cep, cadastro)

print('CPF:', cpf[0])
print('CEP:', cep[0])

CPF: 123.456.789-10
CEP: 35.790-000
