# Aula 04 - Expressões Regulares

## O que são Expressões Regulares?
Expressões regulares são padrões usados para buscar, combinar ou manipular textos com base em regras predefinidas. São muito úteis para:

- Validar dados (e-mails, CPF, datas, etc.)
- Buscar palavras ou padrões em textos
- Substituir partes de uma string
- Extrair informações

## Módulo re do Python

O Python usa o módulo re para trabalhar com expressões regulares. Para usá-lo:

```cmd
import re
```

## Principais Funções do re

- **re.match()** - Verifica se o padrão casa no início da string
- **re.search()** - Procura o padrão em qualquer parte da string
- **re.findall()** - Retorna todas as ocorrências do padrão na string
- **re.finditer()** - Retorna um iterador com Match Objects para cada ocorrência
- **re.sub()** - Substitui todas as ocorrências do padrão
- **re.split()** - Divide a string com base no padrão
- **re.compile()** - Compila o padrão para reutilização

## Componentes de uma Expressão Regular

1. **Literais** - Buscam exatamente o que está escrito.

In [4]:
import re

In [5]:
re.search("casa", "A casa é azul.")  # Match encontrado

<re.Match object; span=(2, 6), match='casa'>

## Metacaracteres (com significado especial)

| Símbolo | Significado                             |
| ------- | --------------------------------------- | 
| `.`     | Qualquer caractere (exceto `\n`)        |
| `^`     | Início da string                        |
| `$`     | Fim da string                           |
| `*`     | 0 ou mais ocorrências                   |
| `+`     | 1 ou mais ocorrências                   |
| `?`     | 0 ou 1 ocorrência                       |
| `{n}`   | Exatamente n ocorrências                |
| `{n,m}` | Entre n e m ocorrências                 |
| `[]`    | Qualquer caractere dentro dos colchetes |
| \`      | \`                                      |
| `()`    | Agrupamento (captura de grupos)         |

## Classes Predefinidas
| Classe | Descrição                     |
| ------ | ----------------------------- |
| `\d`   | Dígito (equivale a `[0-9]`)   |
| `\D`   | Não dígito                    |
| `\w`   | Palavra (letras, números, \_) |
| `\W`   | Não palavra                   |
| `\s`   | Espaço (espaço, tab, newline) |
| `\S`   | Não espaço                    |
| `\\`   | Escape de caractere           |

**Exemplos Práticos**

**Buscar CEP (formato 00000-000)**

In [6]:
texto = "Meu CEP é 12345-678"
padrao = r'\d{5}-\d{3}'

resultado = re.search(padrao, texto)
print(resultado.group())  # 12345-678

12345-678


- Criamos uma **expressão regular** para encontrar o CEP.
- O prefixo `r` cria uma **raw string**, evitando problemas com caracteres de escape (ex: `\n`, `\t`, etc.).
- Vamos quebrar o padrão:
  - `\d` → representa **qualquer dígito numérico (0–9)**.
  - `\d{5}` → significa **exatamente 5 dígitos seguidos**.
  - `-` → representa o **hífen literal** entre os blocos do CEP.
  - `\d{3}` → significa **exatamente 3 dígitos seguidos**.
- Ou seja, o padrão `\d{5}-\d{3}` casa com **CEPs no formato 00000-000**.


**Validar e-mail**

In [7]:
email = "teste@email.com"
padrao = r'^[\w\.-]+@[\w\.-]+\.\w{2,}$'

if re.match(padrao, email):
    print("E-mail válido!")
else:
    print("E-mail inválido.")


E-mail válido!


**padrao = r'^[\w\.-]+@[\w\.-]+\.\w{2,}$'**

Essa é a expressão regular. Vamos quebrá-la e entender:**

| Padrão     | Significado                                                                                                         |
| ---------- | ------------------------------------------------------------------------------------------------------------------- |
| `^`        | Início da string                                                                                                    |
| `[\w\.-]+` | Um ou mais caracteres alfanuméricos (`\w`), ponto (`.`) ou hífen (`-`) – isso cobre o **nome do usuário** do e-mail |
| `@`        | O símbolo arroba obrigatório                                                                                        |
| `[\w\.-]+` | Um ou mais caracteres alfanuméricos, ponto ou hífen – representa o **domínio**                                      |
| `\.`       | Um ponto literal                                                                                                    |
| `\w{2,}`   | Pelo menos 2 caracteres alfanuméricos – representa o **TLD** (como `com`, `org`, `br`)                              |
| `$`        | Fim da string                                                                                                       |

**Essa regex valida e-mails no formato básico:** nome@dominio.extensao

**if re.match(padrao, email):**
- Usa re.match() para verificar se o início da string bate com o padrão.
- Se sim, é retornado um Match object (verdadeiro).

**print("E-mail válido!")**
- Se a correspondência foi encontrada, exibe mensagem de sucesso.

**else: print("E-mail inválido.")**
- Se não houve correspondência, imprime que o e-mail não é válido.

## Substituir números por #

In [8]:
texto = "O valor é 45 e o código é 982"
resultado = re.sub(r'\d+', '#', texto)
print(resultado)  # O valor é # e o código é #

O valor é # e o código é #


**resultado = re.sub(r'\d+', '#', texto)**

Essa é a linha que faz a substituição. Vamos entender:

**re.sub(padrão, substituto, texto)**
- Substitui todas as ocorrências do padrão dentro do texto pelo valor indicado.
- Aqui:
    - padrão = r'\d+'
        - \d → representa qualquer dígito de 0 a 9
        - + → significa um ou mais dígitos seguidos 
        - Ou seja: encontra números inteiros de qualquer tamanho.
    - substituto = '#'
        - Cada número encontrado será trocado por #
    - texto é a string onde a substituição será feita

**Resultado:**
   - Encontra 45 → substitui por #
   -  Encontra 982 → substitui por #

# Extrair todas as palavras com mais de 4 letras 

In [9]:
texto = "Python é uma linguagem poderosa e divertida"
resultado = re.findall(r'\b\w{5,}\b', texto)
print(resultado)  # ['Python', 'linguagem', 'poderosa', 'divertida']


['Python', 'linguagem', 'poderosa', 'divertida']


**texto = "Python é uma linguagem poderosa e divertida"**

Define uma string com várias palavras. Vamos analisar as palavras:

- "Python" → 6 letras ✅
- "é" → 1 letra ❌
- "uma" → 3 letras ❌
- "linguagem" → 9 letras ✅
- "poderosa" → 8 letras ✅
- "e" → 1 letra ❌
- "divertida" → 9 letras ✅

**resultado = re.findall(r'\b\w{5,}\b', texto)**
- Aqui está o "coração" do código. Vamos quebrar a expressão regular r'\b\w{5,}\b':

| Padrão   | Significado                                                                          |
| -------- | ------------------------------------------------------------------------------------ |
| `r''`    | Raw string – impede que o Python interprete `\` como caractere de escape.            |
| `\b`     | Delimita uma **fronteira de palavra** (início ou fim).                               |
| `\w{5,}` | Captura uma **palavra** com **5 ou mais caracteres**. `\w` equivale a `[a-zA-Z0-9_]` |
| `\b`     | Final da palavra (outra fronteira).                                                  |

**Ou seja, essa expressão encontra palavras completas com 5 ou mais caracteres.**

**Revisando:**

| Palavra   | Tem 5 ou mais letras? | É capturada? |
| --------- | --------------------- | ------------ |
| Python    | ✅ Sim (6 letras)      | ✅ Sim        |
| é         | ❌ Não (1 letra)       | ❌ Não        |
| uma       | ❌ Não (3 letras)      | ❌ Não        |
| linguagem | ✅ Sim (9 letras)      | ✅ Sim        |
| poderosa  | ✅ Sim (8 letras)      | ✅ Sim        |
| e         | ❌ Não (1 letra)       | ❌ Não        |
| divertida | ✅ Sim (9 letras)      | ✅ Sim        |

Você pode alterar a regex para buscar palavras de outro tamanho:
- **\w{3,}** → 3 ou mais letras
- **\w{7,10}** → entre 7 e 10 letras

## Desafios

**1** - Crie um script que leia uma lista de CPFs e valide quais são válidos no formato 000.000.000-00.

In [11]:
cpfs = ["123.456.789-00", "12345678900", "999.999.999-99"]
padrao = r'^\d{3}\.\d{3}\.\d{3}-\d{2}$'

for cpf in cpfs:
    if re.match(padrao, cpf):
        print(f"{cpf} é válido.")
    else:
        print(f"{cpf} é inválido.")


123.456.789-00 é válido.
12345678900 é inválido.
999.999.999-99 é válido.


**2** - Extraia todos os números de um texto.

```python
texto = "O produto A custa 45 reais, o B custa 120 e o C está por 7."
# Saída esperada: ['45', '120', '7']
```

In [12]:
import re

texto = "O produto A custa 45 reais, o B custa 120 e o C está por 7."
resultado = re.findall(r'\d+', texto)
print("Números encontrados:", resultado)

Números encontrados: ['45', '120', '7']


**3** - Verifique se o texto contém um CEP válido.

```python
texto = "Entregas para 04567-123 ou 99999-000 estão disponíveis."
# Saída esperada: ['04567-123', '99999-000']
```

In [13]:
import re

texto = "Entregas para 04567-123 ou 99999-000 estão disponíveis."
resultado = re.findall(r'\d{5}-\d{3}', texto)
print("CEPs encontrados:", resultado)

CEPs encontrados: ['04567-123', '99999-000']


**4** - Oculte palavras ofensivas.

```python
texto = "Esse produto é horrível e péssimo!"
# Saída esperada: "Esse produto é *** e ***!"
```

In [15]:
import re

texto = "Esse produto é horrível e péssimo!"
resultado = re.sub(r'horrível|péssimo', '***', texto, flags=re.IGNORECASE)
print("Texto filtrado:", resultado)

Texto filtrado: Esse produto é *** e ***!


**5** - Verifique se a string está no formato correto de CPF.

```python
cpf = "123.456.789-09"
# Saída esperada: válido
```

In [16]:
import re

cpf = "123.456.789-09"
padrao = r'^\d{3}\.\d{3}\.\d{3}-\d{2}$'

if re.match(padrao, cpf):
    print("CPF válido.")
else:
    print("CPF inválido.")

CPF válido.


**6** - Reduza múltiplos espaços para apenas um.

```python
texto = "Python    é     incrível!"
# Saída esperada: "Python é incrível!"
```

In [17]:
import re

texto = "Python    é     incrível!"
resultado = re.sub(r'\s+', ' ', texto)
print("Texto ajustado:", resultado.strip())

Texto ajustado: Python é incrível!


**7** - Encontre todas as hashtags e as remova.

```python
texto = "Post sobre #Python, #regex e #automação"
# Saída esperada: ['#Python', '#regex', '#automação']
```

In [18]:
import re

texto = "Post sobre #Python, #regex e #automação"
resultado = re.findall(r'#\w+', texto)
print("Hashtags encontradas:", resultado)

Hashtags encontradas: ['#Python', '#regex', '#automação']


**8** - Encontre todos os links em um texto.

```python
texto = "Acesse https://google.com ou http://meusite.com.br"
# Saída esperada: ['https://google.com', 'http://meusite.com.br']
```

In [19]:
import re

texto = "Acesse https://google.com ou http://meusite.com.br para mais informações."
resultado = re.findall(r'https?://[^\s]+', texto)
print("URLs encontradas:", resultado)

URLs encontradas: ['https://google.com', 'http://meusite.com.br']


**9** - Encontrar todas as datas em uma string.

```python
texto = "Datas importantes: 25/12/2023, 01-01-2024"
# Saída esperada: ['25/12/2023', '01-01-2024']
```

In [20]:
import re

texto = "Datas importantes: 25/12/2023, 01-01-2024, e 14/07/2022."
resultado = re.findall(r'\d{2}[-/]\d{2}[-/]\d{4}', texto)
print("Datas encontradas:", resultado)

Datas encontradas: ['25/12/2023', '01-01-2024', '14/07/2022']
