# Regex - Expressões Regulares

Expressões Regulares (ou Regex) são uma ferramenta poderosa para realizar buscas e manipulações em strings com base em padrões textuais. Em Python, o módulo `re` fornece as funcionalidades para trabalhar com Regex.

## Introdução às Expressões Regulares

Regex é uma sequência de caracteres que define um padrão de busca. Esse padrão pode ser usado para identificar partes de uma string, validar formatos de dados, substituir conteúdo, entre outras operações.

Importando o Módulo `re`
Antes de utilizar Regex, você precisa importar o módulo `re`:

    import re

### Componentes Básicos de Regex
Aqui estão alguns dos elementos mais comuns usados em expressões regulares:

#### Metacaracteres:

* `.` : Corresponde a qualquer caractere, exceto uma nova linha (\n).
* `^` : Inicia com o padrão.
* `$` : Termina com o padrão.
* `[]` : Indica uma classe de caracteres.
* `\` : Usado para escapar metacaracteres.
* `|` : Ou (or).
* `()` : Agrupamento.
* `*` : Zero ou mais repetições.
* `+` : Uma ou mais repetições.
* `?` : Zero ou uma repetição.
* `{n}` : Exatamente n repetições.
* `{n,m}` : Entre n e m repetições.

#### Classes de Caracteres:

* `\d` : Qualquer dígito (equivalente a [0-9]).
* `\D` : Qualquer caractere que não seja um dígito.
* `\w` : Qualquer caractere alfanumérico (equivalente a [a-zA-Z0-9_]).
* `\W` : Qualquer caractere que não seja alfanumérico.
* `\s` : Qualquer espaço em branco (espaço, tab, nova linha).
* `\S` : Qualquer caractere que não seja espaço em branco.

## Operações Básicas com Regex

### 1. Buscar Padrões:
* `re.search()`: Procura pelo padrão em qualquer lugar da string.

In [1]:
import re

pattern = r'\d{4}'
text = "The year is 2024."

match = re.search(pattern, text)
if match:
    print(f"Found: {match.group()}")  # Output: Found: 2024


Found: 2024


* `re.match()`: Procura pelo padrão apenas no início da string.

In [2]:
pattern = r'The'
text = "The year is 2024."

match = re.match(pattern, text)
if match:
    print(f"Match at start: {match.group()}")  # Output: Match at start: The

Match at start: The


* `re.findall()`: Retorna todas as ocorrências do padrão na string.

In [3]:

pattern = r'\d+'
text = "The years are 2022, 2023, and 2024."

matches = re.findall(pattern, text)
print(matches)  # Output: ['2022', '2023', '2024']

['2022', '2023', '2024']


### 2. Substituir Texto:
* `re.sub()`: Substitui todas as ocorrências de um padrão por outro texto.

In [4]:
pattern = r'\d{4}'
text = "The year is 2024."

new_text = re.sub(pattern, 'XXXX', text)
print(new_text)  # Output: The year is XXXX.

The year is XXXX.


### 3. Dividir Strings:
* `re.split()`: Divide uma string com base no padrão especificado.

In [5]:

pattern = r'\s+'
text = "This is a test."

split_text = re.split(pattern, text)
print(split_text)  # Output: ['This', 'is', 'a', 'test.']

['This', 'is', 'a', 'test.']


## Avançando com Regex


### 1. Grupos e Referências
Grupos permitem capturar partes específicas de uma correspondência. Isso é útil quando você deseja extrair ou reutilizar partes da string.

In [6]:

pattern = r'(\d{3})-(\d{3})-(\d{4})'
text = "Phone number: 123-456-7890"

match = re.search(pattern, text)
if match:
    area_code = match.group(1)
    print(f"Area Code: {area_code}")  # Output: Area Code: 123

Area Code: 123


Você pode também referenciar grupos durante a substituição:

In [7]:
pattern = r'(\d{3})-(\d{3})-(\d{4})'
text = "Phone number: 123-456-7890"

new_text = re.sub(pattern, r'\1-\2-####', text)
print(new_text)  # Output: Phone number: 123-456-####

Phone number: 123-456-####


### 2. Lookahead e Lookbehind
Lookahead e Lookbehind permitem que você procure padrões que são precedidos ou seguidos por outro padrão sem incluir esses padrões na correspondência.

* Lookahead (`(?=...)`): Verifica se o padrão seguinte corresponde.

In [8]:
pattern = r'\d+(?= dollars)'
text = "He paid 100 dollars and 200 euros."

match = re.search(pattern, text)
if match:
    print(f"Matched value: {match.group()}")  # Output: Matched value: 100

Matched value: 100



* Lookbehind (`(?<=...)`): Verifica se o padrão anterior corresponde.

In [9]:
pattern = r'(?<=\$)\d+'
text = "He paid $100."

match = re.search(pattern, text)
if match:
    print(f"Matched value: {match.group()}")  # Output: Matched value: 100

Matched value: 100



## Dicas e Boas Práticas
**Use `r''` (raw strings) para definir suas expressões regulares**: Isso evita que o Python interprete caracteres de escape dentro da string.

**Teste suas Regex online**: Ferramentas como [regex101.com](https://regex101.com/) são ótimas para visualizar como suas expressões regulares estão funcionando.

**Comente Regex Complexas**: Expressões regulares podem ser difíceis de ler. Utilize comentários quando possível.

In [10]:
import re

pattern = re.compile(r"""
    (\d{2})    # Captura os primeiros 3 dígitos
    -          # Hífen
    (\d{1})    # Captura os próximos 2 dígitos
    -          # Outro hífen
    (\d{4})
    -          # Outro hífen
    (\d{4})    # Captura os últimos 4 dígitos
    """, re.VERBOSE)

text = "55-9-9999-9999"
match = pattern.search(text)
if match:
    print(match.groups())  # Output: ('123', '45', '6789')


('55', '9', '9999', '9999')


## Conclusão
Expressões Regulares são ferramentas extremamente poderosas e flexíveis para manipulação de strings em Python. Com elas, é possível realizar desde tarefas simples, como validação de emails, até tarefas complexas, como extração de dados de logs e textos. A prática constante é a melhor forma de dominar Regex, além de fazer uso de recursos e ferramentas que facilitam sua criação e compreensão.

# REGEX

### Operadores:
* `[]` - Conjunto de caracteres;
* `\` - Sequência especial de caracteres;
* `^` - Buscar elementos no início da String;
* `$` - Buscar elementos no final da String;
* `*` Buscar zero ou mais repetições de uma String;
* `+` - Uma ou mais aparições de uma String;
* `?` - Zero ou uma aparição;
* `|` - Busca um caractere ou outro;
* `{}` - Quantidade específica de caracteres;
* `[^]` - Diferente de um caractere especificado logo após o `^`
* `()` - Apenas para agrupar regras e definir ordem de aplicação (igual matemática)

### Especificando Caracteres:
* `.`: Qualquer caractere
* `\d` : Qualquer dígito (equivalente a [0-9]).
* `\D` : Qualquer caractere que não seja um dígito.
* `\w` : Qualquer caractere alfanumérico (equivalente a [a-zA-Z0-9_]).
* `\W` : Qualquer caractere que não seja alfanumérico.
* `\s` : Qualquer espaço em branco (espaço, tab, nova linha).
* `\S` : Qualquer caractere que não seja espaço em branco.

**OBS: Lembre de usar a string como ra string (`r'string aqui dentro'`)**

## Funções
### Lembre de importar a biblioteca `re`
* `re.compile('padrão_regex')` -> Compilar uma padrão Regex
* `re.search(padrão_compilado, texto)` -> procura uma ocorrência do padrão no texto (re.match só procura na 1ª linha do texto)
* `re.findall(padrão_compilado, texto)` -> encontra todas as ocorrências do padrão em um texto - armazena em uma lista
* `re.finditer(padrão_compilado, texto)` -> encontra todas as ocorrências e armazena em um iterador

In [11]:
texto = """
Bom dia,

Seguem os orçamentos solicitados:


Cerveja importada (330 ml) - R$12,30598615178 - bebida
Cerveja nacional (0,5 litros) - R$6,10 - bebida
Garrafa de vinho (750ml) - R$39,90 - bebida
Água (garrafa de 1,5 litros) - R$3,30 - bebida
Alface (1 unidade) - R$3,50 - comida
Cebolas (1kg) - R$5,10 - comida
Batatas (1 kg) - R$5,20 - comida
Tomates (1 kg) - R$7,90 - comida
Laranjas (1 kg) - R$4,70 - comida
Bananas (1kg) - R$5,50 - comida
Maçãs (1 kg) - R$8,30 - comida
Queijo fresco (1 kg) - R$42,90 - comida
Uma dúzia de ovos(12) - R$9,80 - comida
Arroz (1 kg) - R$5,70 - comida
Um quilo de pão (1 kg) - R$7,20 - comida
Leite (1 litro) - R$5,20 - bebida
Azeite (1 unidade) - R$20 - tempero
Pimenta Reino (20g) - R$5 - tempero


Favor informar as quantidades desejadas
para emissão da Nota Fiscal.

Att.,"""

### Método Compile
O método `compile()` serve para passar para o Python qual o padrão estamos procurando. Qual será o padrão desejado. 

In [12]:
padrao = re.compile("comida")

### Método Findall
O método `findall()` serve para percorrer a string passada a procurar todas as ocorrências do padrão passado nela e retornar uma lista com essas ocorrêcias. 

In [13]:
padrao_comida = re.compile("comida")
#Buscando comiga
resultado_comida = re.findall(padrao_comida,texto)
print(len(resultado_comida))

11


### Método Search
O método `search()` serve para identificar em quail posição o elemento foi encontrado a primeira vez, bem como identificar o tipo (que normalmente será retornado como um objeto) e qual o padrão usado para pesquisar.

In [14]:
padrao = re.compile("comida")
resultado = re.search(padrao,texto)
print(resultado)

<re.Match object; span=(271, 277), match='comida'>


### Método Finditer
O método `finditer()` serve para retornar um objeto iterável que permite percorrê-los em um loop for, onde nos será retornado o objeto com as mesmas informações do `search()`. Como uma junção do `findall()` + `search()`.


In [15]:
padrao_comida = re.compile("comida")
#Buscando comiga
resultado_comida = re.finditer(padrao_comida,texto)
print(resultado_comida)

for item in resultado_comida:
    print(item)

<callable_iterator object at 0x000002433C2A08B0>
<re.Match object; span=(271, 277), match='comida'>
<re.Match object; span=(303, 309), match='comida'>
<re.Match object; span=(336, 342), match='comida'>
<re.Match object; span=(369, 375), match='comida'>
<re.Match object; span=(403, 409), match='comida'>
<re.Match object; span=(435, 441), match='comida'>
<re.Match object; span=(466, 472), match='comida'>
<re.Match object; span=(506, 512), match='comida'>
<re.Match object; span=(546, 552), match='comida'>
<re.Match object; span=(577, 583), match='comida'>
<re.Match object; span=(618, 624), match='comida'>


### Ex: Quantos itens

In [16]:
import re


padrao_comida = re.compile("comida")
#Buscando comiga
resultado_comida = re.findall(padrao_comida,texto)
print(len(resultado_comida))

# Definindo o padrão Regex sobre as bebidas
padrao_bebida = re.compile("comida")
# Bucando bebida
resultado_bebida = re.findall(padrao_bebida,texto)
print(len(resultado_bebida))

11
11


**Obs: Sempre que for procurar algum caractere que está nas listas acima, deve-se usar uma "Contra-barra" antes do caractere (e se possível, usar a raw string).**

In [17]:
padrao = re.compile(r"\$")
resultado = re.findall(padrao, texto)
print(resultado)
print(len(resultado))

['$', '$', '$', '$', '$', '$', '$', '$', '$', '$', '$', '$', '$', '$', '$', '$', '$', '$']
18


#### Ex: Extrair números

In [18]:
pattern = re.compile(r"\d+,?\d*")
resultado = re.findall(pattern,texto)
print(resultado)

['330', '12,30598615178', '0,5', '6,10', '750', '39,90', '1,5', '3,30', '1', '3,50', '1', '5,10', '1', '5,20', '1', '7,90', '1', '4,70', '1', '5,50', '1', '8,30', '1', '42,90', '12', '9,80', '1', '5,70', '1', '7,20', '1', '5,20', '1', '20', '20', '5']


In [19]:
texto2 = "Nome: Albino Idade: 27 Salario: 1500"
padrao = re.compile(r"(\w+):")
padrao2 = re.compile(r"[a-zA-Z]+")
resultado = re.findall(padrao, texto2)
resultado2 = re.findall(padrao2, texto2)
print(resultado)
print(resultado2)

['Nome', 'Idade', 'Salario']
['Nome', 'Albino', 'Idade', 'Salario']


#### Ex: Extrair quantos ml (do 1º item)

In [20]:
# padrao = re.compile(r"(\d+,?\d*)\s?ml") ## Para filstrar todos os itens que tem ml
# padrao = re.compile(r"(\d+,?\d*)\s?ml")
# padrao = re.compile(r'\(.+\)')
padrao = re.compile(r'\(\d+\s?\w+\)')
resultado = re.search(padrao, texto)
print(resultado)

<re.Match object; span=(65, 73), match='(330 ml)'>


#### Ex: Preço do 1º item

In [21]:
padrao = re.compile(r'R\$\d+,?\d*')
resultado = re.search(padrao, texto)
print(resultado.group(0))  # type: ignore

R$12,30598615178


#### Ex: Todos os preços

In [22]:
padrao = re.compile(r'R\$\s?\d+,?\d{0,2}')
resultado = re.findall(padrao, texto)
print(resultado)

['R$12,30', 'R$6,10', 'R$39,90', 'R$3,30', 'R$3,50', 'R$5,10', 'R$5,20', 'R$7,90', 'R$4,70', 'R$5,50', 'R$8,30', 'R$42,90', 'R$9,80', 'R$5,70', 'R$7,20', 'R$5,20', 'R$20', 'R$5']


In [23]:
texto = """
Bom dia,

Seguem os orçamentos solicitados:


Cerveja importada (330 ml) - R$12,30598615178 - bebida
Cerveja nacional (0,5 litros) - R$6,10 - bebida
Garrafa de vinho (750ml) - R$39,90 - bebida
Água (garrafa de 1,5 litros) - R$3,30 - bebida
Alface (1 unidade) - R$3,50 - comida
Cebolas (1kg) - R$5,10 - comida
Batatas (1 kg) - R$5,20 - comida
Tomates (1 kg) - R$7,90 - comida
Laranjas (1 kg) - R$4,70 - comida
Bananas (1kg) - R$5,50 - comida
Maçãs (1 kg) - R$8,30 - comida
Queijo fresco (1 kg) - R$42,90 - comida
Uma dúzia de ovos(12) - R$9,80 - comida
Arroz (1 kg) - R$5,70 - comida
Um quilo de pão (1 kg) - R$7,20 - comida
Leite (1 litro) - R$5,20 - bebida
Azeite (1 unidade) - R$20 - tempero
Pimenta Reino (20g) - R$5 - tempero


Favor informar as quantidades desejadas
para emissão da Nota Fiscal.

Att.,"""

#### Ex: Quantidades dos itens

In [24]:
padrao = re.compile(r"""\([a-zA-Z ]*(.+)\)""")
resultado = re.findall(padrao, texto)
print(resultado)

['330 ml', '0,5 litros', '750ml', '1,5 litros', '1 unidade', '1kg', '1 kg', '1 kg', '1 kg', '1kg', '1 kg', '1 kg', '12', '1 kg', '1 kg', '1 litro', '1 unidade', '20g']


#### Ex: Links

In [25]:
texto2 = """
Olá

Segue o relatório de SEO para os seguintes sites:
https://portalhashtag.com
http://hashtagtreinamentos.com
https://www.wikipedia.org/
www.bcb.gov.br/
gmail.co

Qualquer dúvida estamos à disposição"""

In [26]:
padrao = re.compile(r"((https?://)?(www\.)?\w+\.(com\.br|com|org|gov\.br))")
resultado1 = re.findall(padrao, texto2)
resultado2 = re.finditer(padrao, texto2)
print(f'{resultado1} \n')
for item in resultado2:
    print(item.group(0))

[('https://portalhashtag.com', 'https://', '', 'com'), ('http://hashtagtreinamentos.com', 'http://', '', 'com'), ('https://www.wikipedia.org', 'https://', 'www.', 'org'), ('www.bcb.gov.br', '', 'www.', 'gov.br')] 

https://portalhashtag.com
http://hashtagtreinamentos.com
https://www.wikipedia.org
www.bcb.gov.br


In [27]:
informacoes = [
    "http://hashtagtreinamentos.com", 
    "https://vimeo.com/",
    "https://youtube.com/",
    "Pesquisar no Google: http://google.com",
    "http://wikipedia.org",
    "http://google.com",
    "http://bcb.gov.br/",
    "Pesquisar no Bing",
]

- ^ – buscar elementos no início da string;

In [28]:
padrao = re.compile(r"^http")
resultado = [re.findall(padrao, item) for item in informacoes]

print(resultado)


[['http'], ['http'], ['http'], [], ['http'], ['http'], ['http'], []]


- $ – buscar elementos no final da string;

In [29]:
padrao = re.compile(r".com/?$")
resultado = [re.findall(padrao, item) for item in informacoes]

print(resultado)

[['.com'], ['.com/'], ['.com/'], ['.com'], [], ['.com'], [], []]


- [^] - diferente de um caractere especificado logo após o ^

In [30]:
padrao = re.compile(r"http[a-z:/]+\.[^g].+")
resultado = [re.findall(padrao, item) for item in informacoes]

print(resultado)

[['http://hashtagtreinamentos.com'], ['https://vimeo.com/'], ['https://youtube.com/'], ['http://google.com'], ['http://wikipedia.org'], ['http://google.com'], [], []]
