<a href="https://colab.research.google.com/github/filipecalegario/intro-programacao-python/blob/main/10_Regex/Regex_preenchido_24_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Expressões Regulares em Python

Este notebook demonstra como utilizar expressões regulares (regex) em Python utilizando o módulo `re`.

## O que são expressões regulares?
Expressões regulares são padrões utilizados para **buscar, extrair e manipular** strings de maneira eficiente.


In [1]:
import re

## Métodos Principais do Módulo `re`

| Método       | Descrição |
|-------------|-----------|
| `re.search()` | Procura pelo padrão dentro da string e retorna a **primeira ocorrência**. |
| `re.findall()` | Retorna **todas as ocorrências** do padrão dentro da string. |
| `re.match()` | Verifica se a string **começa** com o padrão. |
| `re.sub()` | Substitui partes da string que correspondem ao padrão. |

Vamos explorar cada um deles com exemplos práticos! 🚀

In [5]:
# Exemplo 1: Usando `re.search()` para encontrar um e-mail em um texto
txt = '''Meu e-mail é exemplo@email.com, entre em contato!
         Caso queira entrar em contato com o suporte, envie um e-mail para suporte@email.com'''
padrao = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"

corres = re.findall(padrao, txt)
if corres:
    print("E-mail encontrado:", corres)
else:
    print("Nenhum e-mail encontrado.")

E-mail encontrado: ['exemplo@email.com', 'suporte@email.com']


In [17]:
txt = '10.0 11.0 11.2 vários outros caracteres 7.8'

padrao = r"[0-9]+(\.[0-9]+)"

corres = re.findall(padrao, txt)
print(corres)

['.0', '.0', '.2', '.8']


## Encontrando todas as ocorrências com `re.findall()`

Vamos buscar **todas** as palavras que começam com letra maiúscula.

In [22]:
texto = "Maria foi à feira com João e Pedro."
padrao = r"\b[A-Z][a-zãáâ]+\b"

nomes = re.findall(padrao, texto)
print("Nomes encontrados:", nomes)

Nomes encontrados: ['Maria', 'João', 'Pedro']


## Verificando correspondências no início da string com `re.match()`

Aqui, verificamos se um texto **começa com uma data no formato DD/MM/AAAA**.

In [None]:
texto = "12/05/2023 é a data do evento."
padrao = r"\d{2}/\d{2}/\d{4}"

if re.match(padrao, texto):
    print("O texto começa com uma data!")
else:
    print("O texto NÃO começa com uma data!")

## Substituindo textos com `re.sub()`

Aqui, substituímos números de telefone por `***-****` para ocultá-los.

In [None]:
texto = "Meu número é 1234-5678, me ligue!"
padrao = r"\\d{4}-\\d{4}"
novo_texto = re.sub(padrao, "****-****", texto)

print("Texto anonimizado:", novo_texto)

## Caracteres Especiais e suas Funções

Aqui estão alguns **caracteres especiais** comuns em expressões regulares e suas funções:

| Símbolo  | Função |
|----------|--------|
| `.` | Representa **qualquer caractere**, exceto nova linha. |
| `^` | Indica **início da string**. |
| `$` | Indica **final da string**. |
| `\d` | Representa **qualquer dígito** (0-9). |
| `\D` | Representa **qualquer caractere que não seja um dígito**. |
| `\w` | Representa **qualquer caractere alfanumérico** (letras, números e `_`). |
| `\W` | Representa **qualquer caractere não alfanumérico**. |
| `\s` | Representa **qualquer espaço em branco** (espaço, tabulação, nova linha). |
| `\S` | Representa **qualquer caractere que não seja um espaço em branco**. |
| `*` | Casa **zero ou mais** ocorrências do padrão anterior. |
| `+` | Casa **uma ou mais** ocorrências do padrão anterior. |
| `?` | Casa **zero ou uma** ocorrência do padrão anterior. |
| `{n,m}` | Casa **entre `n` e `m`** ocorrências do padrão anterior. |

# Exemplos

## Exemplo: Encontrando palavras com pelo menos 5 letras

In [None]:
texto = "O carro é veloz e eficiente."
padrao = r"\b\w{5,}\b"

palavras = re.findall(padrao, texto)
print("Palavras com 5 ou mais letras:", palavras)

## Exemplo: Extração de URLs

In [None]:
texto = "Acesse nosso site em https://www.exemplo.com ou veja https://docs.python.org."
padrao = r"https?://[a-zA-Z0-9./-]+"
urls = re.findall(padrao, texto)
print("URLs encontradas:", urls)

## Exemplo: Divisão de texto por múltiplos separadores

In [None]:
texto = "banana, maçã; laranja - morango"
padrao = r"[,; -]+"
frutas = re.split(padrao, texto)
print("Lista de frutas:", frutas)

## Exemplo: Validação de E-mails

In [None]:
def validar_email(email):
    padrao = r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$"
    return bool(re.match(padrao, email))

emails = ["usuario@email.com", "email.invalido@", "outro.email@dominio.net"]
for email in emails:
    print(f"{email}: {'Válido' if validar_email(email) else 'Inválido'}")

## Exemplo: Extração de Telefones

In [None]:
texto = "Me ligue no número (11) 98765-4321 ou (21) 91234-5678."
padrao = r"\(\d{2}\) \d{4,5}-\d{4}"
telefones = re.findall(padrao, texto)
print("Telefones encontrados:", telefones)

## Exemplo: Anonimização de CPF

In [None]:

texto = "O CPF do cliente é 123.456.789-00."
padrao = r"\d{3}\.\d{3}\.\d{3}-\d{2}"
texto_anonimizado = re.sub(padrao, "XXX.XXX.XXX-XX", texto)
print("Texto anonimizado:", texto_anonimizado)

# Conclusão 📌

Expressões regulares são ferramentas poderosas para manipulação de strings! Com `re.search()`, `re.findall()`, `re.match()` e `re.sub()`, conseguimos:
- ✅ Encontrar padrões;
- ✅ Extrair informações;
- ✅ Substituir textos de maneira eficiente.