# **EXPRESS√ïES REGULARES(REGEX)**

- **O que √©:** *Uma linguagem compactada e poderosa usada para identificar padr√µes em strings.*
- **Prop√≥sito:** *Em vez de procurar por textos fixos, o Regex permite buscar "formas" (ex: "um IP", "uma data", "um e-mail"). No contexto de Engenharia de Dados, √© vital para transformar logs desestruturados em tabelas organizadas.*

#### **Importando a biblioteca REGEX**

In [2]:
import re

#### üõ†Ô∏è**Funcionalidades Principais**üõ†Ô∏è

`re.search()`

In [20]:
random_text = r"Carlos likes playing some games."

re.search("Carlos", random_text)

<re.Match object; span=(0, 6), match='Carlos'>

**Deu match! Ou seja, ele achou o padr√£o "C" "a" "r" "l" "o" "s". O span representa a localiza√ß√£o desse padr√£o, logo, come√ßa-se na posi√ß√£o "0" e termina na "5". Lembre-se que o python "come" um**

`re.split()`

In [21]:
random_text = r"Carlos likes playing some games."

re.split("Carlos", random_text)

['', ' likes playing some games.']

**Retorna-se uma lista o qual exclui a frase "Carlos" deixando um espa√ßo vazio "".**

`re.findall()`

In [22]:
random_text = r"Carlos likes playing some games. Carlos likes eats some foods. Carlos likes study Data Science."

re.findall("Carlos", random_text)

['Carlos', 'Carlos', 'Carlos']

**Retorna-se uma lista de todas as ocorr√™ncias da frase "Carlos".**

`re.finditer()`

In [35]:
import re

random_emails = """carlos123@gmail.com,
maria222@yahoo.com.br,
pedro.araujo@hotmail.com.br,
ana_de_santos@gmail.com"""

pattern = r"""
(?P<username>\w+(?:\.[\w]+)*)
@
(?P<domain>\w+(?:\.[\w]+)*)
\.
(?P<extension>[a-z]*(?:\.[\w]+)*)"""

for email in re.finditer(pattern, random_emails, re.VERBOSE):

    data = email.groupdict()

    print(f"The complete email address is: {email.group(0)}")
    print(f"The Username of Email: {data['username']}")
    print(f"The Domain of Email: {data['domain']}")
    print(f"The Extension of Email: {data['extension']}")
    print("=" * 60)

The complete email address is: carlos123@gmail.com
The Username of Email: carlos123
The Domain of Email: gmail
The Extension of Email: com
The complete email address is: maria222@yahoo.com.br
The Username of Email: maria222
The Domain of Email: yahoo.com
The Extension of Email: br
The complete email address is: pedro.araujo@hotmail.com.br
The Username of Email: pedro.araujo
The Domain of Email: hotmail.com
The Extension of Email: br
The complete email address is: ana_de_santos@gmail.com
The Username of Email: ana_de_santos
The Domain of Email: gmail
The Extension of Email: com


**Utilizei o re.finditer() por ser a abordagem mais profissional para extra√ß√£o de dados estruturados. Ele permite que cada componente do e-mail seja acessado por seu nome l√≥gico, transformando texto bruto em dicion√°rios prontos para serem convertidos em tabelas (DataFrames) ou arquivos JSON.**

**O uso do prefixo r""" aliado √† flag re.VERBOSE permite documentar a express√£o regular enquanto ela √© escrita. Em Regex complexos, isso transforma um c√≥digo 'ileg√≠vel' em uma estrutura modular de f√°cil manuten√ß√£o, permitindo o uso de espa√ßos e quebras de linha que s√£o ignorados pelo motor de busca.**

#### **üö© Flags (Sinalizadores)**

- **Conceito:** Flags s√£o par√¢metros opcionais que modificam o comportamento das fun√ß√µes de regex. Elas permitem alterar como o padr√£o √© interpretado.

##### **1. `re.IGNORECASE` (ou `re.I`)**
- **Prop√≥sito:** Torna a busca insens√≠vel a mai√∫sculas e min√∫sculas. "Python", "python" e "PYTHON" ser√£o considerados iguais.

In [49]:
text = "Python is amazing. I love python."

# Sem a flag, encontraria apenas "Python"
print(f"Without flag: {re.findall('Python', text)}")

# Com a flag, encontra "Python" e "python"
print(f"With re.IGNORECASE: {re.findall('Python', text, re.IGNORECASE)}")

Without flag: ['Python']
With re.IGNORECASE: ['Python', 'python']


##### **2. `re.VERBOSE` (ou `re.X`)**
- **Prop√≥sito:** Permite escrever express√µes regulares mais leg√≠veis, ignorando espa√ßos em branco e permitindo coment√°rios dentro do padr√£o. √â essencial para regex complexos.
- **Nota:** Quando essa flag est√° ativa, espa√ßos literais devem ser escapados (ex: `\ `) ou colocados em um grupo `[ ]`.

In [50]:
text = "user@example.com"

# Regex complexo escrito de forma leg√≠vel
pattern = r"""
    ^                   # Come√ßo da string
    [\w\.-]+            # Nome do usu√°rio (letras, n√∫meros, pontos, tra√ßos)
    @                   # O s√≠mbolo @
    [\w\.-]+            # Dom√≠nio
    $                   # Fim da string
"""

match = re.search(pattern, text, re.VERBOSE)
print(f"Match with re.VERBOSE: {match.group()}")

Match with re.VERBOSE: user@example.com


#### **üöÄ Shortcut Metacharacters (Metacaracteres de Atalho)**

- **Conceito:** S√£o atalhos para conjuntos comuns de caracteres. Eles tornam o regex mais curto e leg√≠vel.
- **`\w` (Word Character):** Corresponde a qualquer caractere alfanum√©rico (letras, n√∫meros e sublinhado `_`). Equivalente a `[a-zA-Z0-9_]`.
- **`\d` (Digit):** Corresponde a qualquer d√≠gito decimal. Equivalente a `[0-9]`.
- **`\s` (Whitespace):** Corresponde a qualquer caractere de espa√ßo em branco (espa√ßo, tabula√ß√£o, quebra de linha). Equivalente a `[ \t\n\r\f\v]`.
- **Nota:** As vers√µes mai√∫sculas (`\W`, `\D`, `\S`) s√£o a **nega√ß√£o** (tudo que N√ÉO √© word, digit ou whitespace).

In [51]:
text = "ID: user_01 | Year: 2023"

# Example with \w (Word Character)
# Exemplo com \w (Caractere de Palavra)
# Matches 'user_01', 'Year', etc.
print(f"Word characters: {re.findall(r'\w+', text)}")

# Example with \d (Digit)
# Exemplo com \d (D√≠gito)
# Matches '01', '2023'
print(f"Digits found: {re.findall(r'\d+', text)}")

# Example with \s (Whitespace)
# Exemplo com \s (Espa√ßo em Branco)
# Splitting by whitespace
# Dividindo por espa√ßo em branco
print(f"Split by whitespace: {re.split(r'\s+', text)}")

Word characters: ['ID', 'user_01', 'Year', '2023']
Digits found: ['01', '2023']
Split by whitespace: ['ID:', 'user_01', '|', 'Year:', '2023']


#### **üì¶ Sets (Conjuntos) `[]`**

- **O que s√£o:** Os colchetes `[]` definem um **conjunto de caracteres**. O motor de busca tentar√° encontrar **um** caractere que esteja dentro desse conjunto.
- **Exemplos:**
    - `[abc]`: Procura por "a", "b" OU "c".
    - `[0-9]`: Procura por qualquer d√≠gito de 0 a 9 (intervalo).
    - `[a-z]`: Procura por qualquer letra min√∫scula.
    - `[^0-9]`: O acento circunflexo `^` dentro do set significa **NEGA√á√ÉO**. Procura qualquer coisa que **N√ÉO** seja um d√≠gito.
- **Nota Importante:** Dentro de um conjunto, a maioria dos metacaracteres (como `.` , `+`, `?`, `*`) **perdem seu poder** e s√£o tratados como caracteres literais. Voc√™ n√£o precisa escap√°-los com `\`.

In [52]:
text = "The password is 1234."

# Procurando qualquer d√≠gito
print(f"Digits founded: {re.findall(r'[0-9]', text)}")

# Procurando qualquer coisa que N√ÉO seja d√≠gito (espa√ßos, letras, pontos)
print(f"No digits: {re.findall(r'[^0-9]', text)}")

# Exemplo com metacaracteres em um set
text_with_metachars = "Find the characters: . + ?"
# O padr√£o procura pelos caracteres literais '.', '+' ou '?'
print(f"Literal metachars found: {re.findall(r'[.?+]', text_with_metachars)}")

Digits founded: ['1', '2', '3', '4']
No digits: ['T', 'h', 'e', ' ', 'p', 'a', 's', 's', 'w', 'o', 'r', 'd', ' ', 'i', 's', ' ', '.']
Literal metachars found: ['.', '+', '?']


#### **üî¢ Quantifiers & Wildcards (Quantificadores e Coringas)**

- **Conceito:** Definem quantas vezes um caractere ou grupo deve aparecer.
- **`.` (Ponto):** O "Coringa". Corresponde a **qualquer caractere** (exceto quebra de linha).
- **`+` (Mais):** Corresponde a **1 ou mais** ocorr√™ncias.
- **`?` (Interroga√ß√£o):** Corresponde a **0 ou 1** ocorr√™ncia (opcional).

In [53]:
# Exemplo com "." (Ponto) - O Coringa
text = "cat, cut, c@t, c9t"

# c.t corresponde a 'c', qualquer caractere, 't'
print(f"Wildcard matches: {re.findall(r'c.t', text)}")

# Exemplo com + (Mais) - Um ou mais
text_numbers = "abc 12345 def"

# \d+ corresponde a um ou mais d√≠gitos
print(f"Sequence of digits: {re.findall(r'\d+', text_numbers)}")

# Exemplo com "?" (Interroga√ß√£o) - Opcional
text_color = "color, colour"

# colou?r corresponde a 'colo', 'u' opcional, 'r'
print(f"Optional character: {re.findall(r'colou?r', text_color)}")

Wildcard matches: ['cat', 'cut', 'c@t', 'c9t']
Sequence of digits: ['12345']
Optional character: ['color', 'colour']


#### **‚öì Anchors (√Çncoras)**

- **Conceito:** √Çncoras n√£o correspondem a caracteres, mas sim a **posi√ß√µes**. Elas garantem que o padr√£o seja encontrado no in√≠cio ou no fim da string.
- **`^` (Circunflexo):** Corresponde ao **in√≠cio** da string.
- **`$` (Cifr√£o):** Corresponde ao **fim** da string.

In [54]:
text_1 = "Python is amazing"
text_2 = "I love Python"

# Verificando se come√ßa com "Python"
print(f"Starts with Python? {re.search(r'^Python', text_1)}")
print(f"Starts with Python? {re.search(r'^Python', text_2)}")

# Verificando se termina com "Python"
print(f"Ends with Python? {re.search(r'Python$', text_1)}")
print(f"Ends with Python? {re.search(r'Python$', text_2)}")

Starts with Python? <re.Match object; span=(0, 6), match='Python'>
Starts with Python? None
Ends with Python? None
Ends with Python? <re.Match object; span=(7, 13), match='Python'>


#### **üë• Grupos `()` e suas Varia√ß√µes**

- **O que s√£o:** Os par√™nteses `()` servem para **agrupar** partes da sua express√£o regular. Isso permite aplicar quantificadores a uma sequ√™ncia inteira de caracteres ou extrair partes espec√≠ficas do texto encontrado.

##### **1. Look-Ahead `(?=...)` (Olhar para frente)**
- **Conceito:** Verifica se o padr√£o existe logo √† frente, mas **n√£o o consome** (n√£o faz parte do match retornado). √â como dizer: "Encontre X, mas apenas se X for seguido de Y".

In [55]:
text = "Carlos likes games. Maria likes food."

# Encontrar nomes (palavras) que s√£o seguidos por "likes"
# O padr√£o procura uma palavra (\w+) APENAS SE ela for seguida de "likes"
matches = re.findall(r"\w+(?= likes)", text)
print(f"Names Founded (Look-Ahead): {matches}")
# Note que "likes" n√£o aparece no resultado, serviu apenas de condi√ß√£o.

Names Founded (Look-Ahead): ['Carlos', 'Maria']


##### **2. Look-Behind `(?<=...)` (Olhar para tr√°s)**
- **Conceito:** Verifica se o padr√£o existe logo atr√°s, mas **n√£o o consome**. √â como dizer: "Encontre X, mas apenas se X for precedido por Y".
- *Nota: O Python exige que o padr√£o dentro do look-behind tenha tamanho fixo.*

In [37]:
text = "USD 100, BRL 500, EUR 20"

# Encontrar n√∫meros precedidos por "USD"
matches = re.findall(r"(?<=USD )\d+", text)
print(f"Dollar Values (Look-Behind): {matches}")

Dollar Values (Look-Behind): ['100']


##### **3. Grupo de N√£o Captura `(?:...)`**
- **Conceito:** Agrupa os elementos para aplicar l√≥gica (como um `ou` `|` ou repeti√ß√£o), mas **n√£o salva** esse grupo na mem√≥ria. Isso economiza recursos e limpa os resultados quando voc√™ usa `findall` ou `groups`, pois evita retornar subgrupos indesejados.

In [36]:
text = "banana, bananana"

# Queremos encontrar "bana" seguido de "na" uma ou mais vezes.
# Se us√°ssemos (\w+), o findall retornaria apenas o conte√∫do do grupo interno.
# Com (?:...), ele agrupa para o quantificador '+', mas o resultado √© a string toda.

matches = re.findall(r"ba(?:na)+", text)
print(f"Groups of no capture: {matches}")

Groups of no capture: ['banana', 'bananana']


##### **4. Grupos Nomeados `(?P<nome>...)`**
- **Conceito:** Em vez de acessar os grupos por √≠ndices (1, 2, 3...), voc√™ d√° um nome a eles. Isso torna o c√≥digo muito mais leg√≠vel e f√°cil de manter, especialmente em regex complexos.
- *J√° vimos um exemplo complexo acima com e-mails, mas aqui vai um exemplo simplificado:*

In [3]:
text = "Client: Carlos, Idade: 25"

pattern = r"Client: (?P<cliente>\w+), Idade: (?P<idade>\d+)"
match = re.search(pattern, text)

if match:
    print(f"Clients Founded: {match.group('cliente')}")
    print(f"Age Founded: {match.group('idade')}")

Clients Founded: Carlos
Age Founded: 25


#### **üîÑ Substitui√ß√£o com `re.sub()`**

- **Conceito:** A fun√ß√£o `re.sub(pattern, replacement, string)` √© usada para substituir todas as ocorr√™ncias de um padr√£o por um novo texto. √â extremamente √∫til para limpeza de dados.

In [4]:
text = "The red car and the red bike."

# Substituindo "red" por "blue"
new_text = re.sub(r"red", "blue", text)
print(f"Simple substitution: {new_text}")

Simple substitution: The blue car and the blue bike.


##### **Substitui√ß√£o usando Grupos (Backreferences)**
- **Conceito:** Voc√™ pode reutilizar partes do texto original na substitui√ß√£o usando refer√™ncias aos grupos capturados (`\1`, `\2`, etc.).

In [5]:
date_text = "2023-10-25"

# Mudando o formato de YYYY-MM-DD para DD/MM/YYYY
# Group 1: Year, Group 2: Month, Group 3: Day
formatted_date = re.sub(r"(\d{4})-(\d{2})-(\d{2})", r"\3/\2/\1", date_text)

print(f"Original Date: {date_text}")
print(f"Formatted Date: {formatted_date}")

Original Date: 2023-10-25
Formatted Date: 25/10/2023


#### **üåê Ferramenta Recomendada: Regex101**
- **O que √©:** Uma ferramenta online interativa para construir, testar e depurar express√µes regulares.
- **Por que usar?**
    - **Explica√ß√£o em Tempo Real:** Mostra o que cada parte do seu regex est√° fazendo.
    - **Testes R√°pidos:** Permite colar seu texto e ver os *matches* instantaneamente.
    - **Suporte a Python:** Certifique-se de selecionar o "Flavor" (sabor) de Python no menu √† esquerda.
- **Link:** [https://regex101.com/](https://regex101.com/)

---
**Nota:** *Grande parte do conte√∫do deste material foi gerado por Intelig√™ncia Artificial, por√©m a idealiza√ß√£o, estrutura e organiza√ß√£o dos t√≥picos foram desenvolvidas pelo autor.*
