# Expressões Regulares

- Regex é uma sequência de caracteres que define um padrão de busca.
- Utilizado para localizar, validar e manipular texto.
- Python possui um módulo integrado para expressões regulares: `re`.
- Usamos para encontrar padrões em strings.

----------------------


- `re.compile()` -> Compila uma expressão regular em um padrão.
- `re.search()` -> Procura por um padrão em uma string.
- `re.findall()` -> Encontra todas as ocorrências de um padrão em uma string.
- `re.split()` -> Divide uma string em uma lista, usando um padrão como delimitador.
- `re.sub()` -> Substitui todas as ocorrências de um padrão em uma string.




### Operadores

    [] – conjunto de  caracteres;
    \ – sequência especial de caracteres;
    ^ – buscar elementos no início da string;
    $ – buscar elementos no final da string;
    * – buscar zero ou mais repetições de uma substring;
    + – uma ou mais aparições de uma substring;
    ? – zero ou uma aparição;
    | – busca um caractere ou outro.
    {} - quantidade específica de caracteres
    [^] - diferente de um caractere especificado logo após o ^
    () - apenas para agrupar regras e definir ordem de aplicação (igual matemática)

### Especificando caracteres:
    . - qualquer caractere
    \d - qualquer dígito
    \D - não é dígito
    \w - qualquer alfanumérico
    \W - não é alfanumérico
    \s - espaço em branco
    \S - não é espaço em branco

#### obs: lembre de usar a string como raw string

### Funções
#### Lembre sempre de importar a biblioteca re

- re.compile('padrao_regex') -> compilar um padrão regex
- re.search(padrao_compilado, texto) -> procura uma ocorrência do padrão no texto (re.match só procura na 1ª linha do texto)
- re.findall(padrao_compilado, texto) -> encontra todas as ocorrencias do padrão em um texto - armazena em uma lista
- re.finditer(padrao_compilado, texto) -> encontra todas as ocorrencias e armazena em um iterador

In [209]:
texto = """
Bom dia,

Seguem os orçamentos solicitados:


Cerveja importada (330ml) - R$12,30598615178 - bebida
Cerveja nacional (0,5 litros) - R$6,10 - bebida
Garrafa de vinho (750ml) - R$39,90 - bebida
Água (garrafa de 1,5 litros) - R$300,30 - bebida
Alface (1 unidade) - R$3,50 - comida
Cebolas (1kg) - R$5,10 - comida
Batatas (1 kg) - R$5,20 - comida
Tomates (1 kg) - R$7,90 - comida
Laranjas (1 kg) - R$4,70 - comida
Bananas (1kg) - R$5,50 - comida
Maçãs (1 kg) - R$8,30 - comida
Queijo fresco (1 kg) - R$42,90 - comida
Uma dúzia de ovos(12) - R$9,80 - comida
Arroz (1 kg) - R$5,70 - comida
Um quilo de pão (1 kg) - R$7,20 - comida
Leite (1 litro) - R$5,20 - bebida
Azeite (1 unidade) - R$20 - tempero
Pimenta Reino (20g) - R$5 - tempero


Favor informar as quantidades desejadas 
para emissão da Nota Fiscal.

Att.,"""

### re.findall

In [17]:
import re
# ache o padrão de 3 dígitos seguidos de 2 letras
padrao = re.compile(r'\d{3} [a-zA-Z]{2}')
resultado = padrao.findall(texto)
print(resultado)


# quantas bebidas
padrao = re.compile('bebida')
print(padrao.findall(texto))

['330 ml']
['bebida', 'bebida', 'bebida', 'bebida', 'bebida']


### re.search

In [23]:
padrao = re.compile('bebida')
resultado = padrao.search(texto)
print(resultado)
print(resultado.group()) # -> retorna apenas a substring que corresponde ao padrão


#<re.Match object; span=(95, 101), match='bebida'>
# span é a posição onde a substring começa e termina
# match é a substring que corresponde ao padrão


<re.Match object; span=(95, 101), match='bebida'>
bebida


### re.finditer

In [26]:
padrao = re.compile('bebida')
resultado = padrao.finditer(texto)
print(resultado)

# Nos da como resposta um iterador, então podemos iterar sobre ele
for match in resultado:
    print(match)

<callable_iterator object at 0x10c921ff0>
<re.Match object; span=(95, 101), match='bebida'>
<re.Match object; span=(143, 149), match='bebida'>
<re.Match object; span=(187, 193), match='bebida'>
<re.Match object; span=(234, 240), match='bebida'>
<re.Match object; span=(652, 658), match='bebida'>


### 1 - Exercicíos

##### 1.1 - Extrair todo os preços

In [234]:
padrao = re.compile(r"R\$\d{0,6}.\d{0,2}")
resultado = padrao.findall(texto)
print(resultado)


print('\n- Usando + e ?:')
padrao = re.compile(r"R\$\d+.\d?\d?")
resultado = padrao.findall(texto)
print(resultado)


print('\n- usando ():')
padrao = re.compile(r"\w\$(\d+,?\d*)") # colocando o () para capturar apenas o valor que esta dentro dele, estamos usando o $ como regra, mas não estamos usando ele no resultado
resultado = padrao.findall(texto)
print(resultado)

['R$12,30', 'R$6,10', 'R$39,90', 'R$300,30', 'R$3,50', 'R$5,10', 'R$5,20', 'R$7,90', 'R$4,70', 'R$5,50', 'R$8,30', 'R$42,90', 'R$9,80', 'R$5,70', 'R$7,20', 'R$5,20', 'R$20 ', 'R$5 ']

- Usando + e ?:
['R$12,30', 'R$6,10', 'R$39,90', 'R$300,30', 'R$3,50', 'R$5,10', 'R$5,20', 'R$7,90', 'R$4,70', 'R$5,50', 'R$8,30', 'R$42,90', 'R$9,80', 'R$5,70', 'R$7,20', 'R$5,20', 'R$20 ', 'R$5 ']

- usando ():
['12,30598615178', '6,10', '39,90', '300,30', '3,50', '5,10', '5,20', '7,90', '4,70', '5,50', '8,30', '42,90', '9,80', '5,70', '7,20', '5,20', '20', '5']


#### 1.2 - Extrair todos os nomes dos produtos

#### 1.3 - Extrair a qtd de ml(do 1º item)

#### 1.4 - Extrair tudo que esta entre parênteses

In [221]:
#1.2
padrao = re.compile(r"\D\n(\w[a-zA-Zà-úÀ-ÚçÇ ]*\w) ") #pega todas as palavras que tem espaço depos da quebra de linha
resultado = padrao.findall(texto)
print(resultado[1:-1])

['Cerveja importada', 'Cerveja nacional', 'Garrafa de vinho', 'Água', 'Alface', 'Cebolas', 'Batatas', 'Tomates', 'Laranjas', 'Bananas', 'Maçãs', 'Queijo fresco', 'Uma dúzia de', 'Arroz', 'Um quilo de pão', 'Leite', 'Azeite', 'Pimenta Reino']


In [233]:
#1.3
padrao = re.compile(r"\d+\wml")
resultado = padrao.findall(texto)
print(resultado[0])
#1.4

330ml


In [276]:
#1.4
padrao = re.compile(r"\(.+\)")
resultado = padrao.findall(texto)
print(resultado)

['(330ml)', '(0,5 litros)', '(750ml)', '(garrafa de 1,5 litros)', '(1 unidade)', '(1kg)', '(1 kg)', '(1 kg)', '(1 kg)', '(1kg)', '(1 kg)', '(1 kg)', '(12)', '(1 kg)', '(1 kg)', '(1 litro)', '(1 unidade)', '(20g)']


In [236]:
texto2 = """
Olá

Segue o relatório de SEO para os seguintes sites:
https://portalhashtag.com
http://hashtagtreinamentos.com
https://www.wikipedia.org/
www.bcb.gov.br/

Qualquer dúvida estamos à disposição"""

In [279]:
# Pegar links
padrao = re.compile(r"https?.*.")
resultado = padrao.findall(texto2)
print(resultado)


['https://portalhashtag.com', 'http://hashtagtreinamentos.com', 'https://www.wikipedia.org/']
