## Importando bibliotecas necessárias

In [2]:
import re

### Utilizando o módulo re

In [8]:
padrao = "Esta"
texto = "Esta é uma aula de expressões regulares. Expressões são muito legais."

resultado = re.search(padrao, texto)
if resultado:
    print(resultado.group())
else:
    print("Padrão não encontrado")

Esta


## Principais caracteres especiais (Meta caracteres)

In [19]:
# O ponto (.) corresponde a qualquer caractere, exceto uma nova linha.
# Para que o ponto corresponda a qualquer caractere, incluindo novas linhas, usamos a flag re.DOTALL.
padrao = "."
texto = "\nEsta é uma aula de expressões regulares. Expressões são muito legais."

resultado = re.search(padrao, texto, re.DOTALL)
if resultado:
    print(f"*{resultado.group()}*")
else:
    print("Padrão não encontrado")

*
*


In [22]:
# O circunflexo (^) corresponde ao início de uma string.
padrao = "^Esta"
texto = "Esta é uma aula de expressões regulares. Expressões são muito legais."

resultado = re.search(padrao, texto, re.DOTALL)
if resultado:
    print(f"*{resultado.group()}*")
else:
    print("Padrão não encontrado")

*Esta*


In [29]:
# O cifrão ($) corresponde ao final de uma string.
padrao = "legais.$"
texto = "Esta é uma aula de expressões regulares. Expressões são muito legais."

resultado = re.search(padrao, texto, re.DOTALL)
if resultado:
    print(f"*{resultado.group()}*")
else:
    print("Padrão não encontrado")

*legais.*


In [35]:
# A barra invertida (\) é usada para escapar caracteres especiais.
# Por exemplo, para procurar um ponto literal, usamos \.
padrao = "\."
texto = "Esta é uma aula de expressões regulares.Expressões são muito legais."

resultado = re.search(padrao, texto)
if resultado:
    print(f"resultado.group()")
else:
    print("Padrão não encontrado")

resultado.group()


  padrao = "\."


In [44]:
# Os colchetes ([]) são usados para definir um conjunto de caracteres.
# Por exemplo, [ae] corresponde a 'a' ou 'e'.
padrao = "[a-z]"
texto = "Olá, esta é uma aula de expressões regulares. Expressões são muito legais."

resultado = re.search(padrao, texto)
if resultado:
    print(resultado.group())
else:
    print("Padrão não encontrado")

resultado = re.findall(padrao, texto)

print(resultado)

1
['1', '0', '0', '9', '7', '5', '7']


In [46]:
# O asterisco (*) corresponde a zero ou mais ocorrências do padrão anterior.
padrao = "a*"
texto = "Olá, esta é uma aula de expressões regulares. Expressões são muito legais."

resultado = re.findall(padrao, texto)

print(resultado)

['', '', '', '', '', '', '', '', 'a', '', '', '', '', '', 'a', '', 'a', '', '', 'a', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', 'a', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', 'a', '', '', '', '']


In [47]:
# O mais (+) corresponde a uma ou mais ocorrências do padrão anterior.
padrao = "a+"
texto = "Olá, esta é uma aula de expressões regulares. Expressões são muito legais."

resultado = re.findall(padrao, texto)

print(resultado)

['a', 'a', 'a', 'a', 'a', 'a']


In [None]:
# O interrogação (?) corresponde a zero ou uma ocorrência do padrão anterior.
padrao = "a+"
texto = "Olá, esta é uma aula de expressões regulares. Expressões são muito legais."

resultado = re.findall(padrao, texto)

print(resultado)

In [48]:
# O \d corresponde a qualquer dígito, equivalente a [0-9].
# O \D corresponde a qualquer caractere que não seja um dígito, equivalente a [^0-9].
# O \s corresponde a qualquer caractere de espaço em branco, como espaço, tabulação ou nova linha.
# O \S corresponde a qualquer caractere que não seja um espaço em branco.
# O \w corresponde a qualquer caractere alfanumérico, equivalente a [a-z A-Z 0-9_].
# O \W corresponde a qualquer caractere que não seja alfanumérico.
# As {n} correspondem exatamente a n ocorrências do padrão anterior, exemplo: \d{2}.
# A | (barra vertical) é usada como um operador "ou" para combinar múltiplos padrões. Exemplo: "cat|dog" corresponde a "cat" ou "dog".
# Os parênteses () são usados para agrupar padrões. Exemplo: (abc)+ corresponde a uma ou mais ocorrências de "abc".

In [50]:
# O re.compile() é usado para compilar um padrão de expressão regular em um objeto de padrão, que pode ser reutilizado.
# A flag re.IGNORECASE torna a busca case-insensitive (não diferencia maiúsculas de minúsculas).
texto = "Olá, esta é uma aula de expressões regulares. Expressões são muito legais."

padrao = re.compile("e", re.IGNORECASE)

resultado = re.findall(padrao, texto)

print(resultado)

['e', 'e', 'e', 'e', 'e', 'e', 'e', 'e', 'e', 'e']


In [61]:
# Como localizar CPF e CNPJ em um texto

texto = "Os CPFs são 123.456.789-00 e 987.654.321-99. Os CNPJs são 12.345.678/0001-00 e 98.765.432/0001-99."

padrao = re.compile("([0-9]{2}[\.]?[0-9]{3}[\.]?[0-9]{3}[/]?[0-9]{4}[-]?[0-9]{2})|([0-9]{3}[\.]?[0-9]{3}[\.]?[0-9]{3}[-]?[0-9]{2})")

resultado = re.findall(padrao, texto)
print("CPF/CNPJ localizados: ", resultado)

CPF/CNPJ localizados:  [('', '123.456.789-00'), ('', '987.654.321-99'), ('12.345.678/0001-00', ''), ('98.765.432/0001-99', '')]


  padrao = re.compile("([0-9]{2}[\.]?[0-9]{3}[\.]?[0-9]{3}[/]?[0-9]{4}[-]?[0-9]{2})|([0-9]{3}[\.]?[0-9]{3}[\.]?[0-9]{3}[-]?[0-9]{2})")


In [62]:
# Como localizar emails em um texto

texto = "Os emails são: joao.silva@gmail.com, maria_123@empresa.com.br, contato@site.org, teste@exemplo.net, usuario+extra@dominio.co"

padrao = re.compile("[\w.-]+@[\w.-]+")

resultado = re.findall(padrao, texto)
print("Emails localizados: ", resultado)

Emails localizados:  ['joao.silva@gmail.com', 'maria_123@empresa.com.br', 'contato@site.org', 'teste@exemplo.net', 'extra@dominio.co']


  padrao = re.compile("[\w.-]+@[\w.-]+")


In [65]:
# Localizando datas em um texto

texto = "As datas importantes são: 01/01/2020, 15/08/1947, 31/12/1999."

padrao = re.compile("\d{2}/\d{2}/\d{4}")

resultado = re.findall(padrao, texto)
print("Datas localizadas: ", resultado)

Datas localizadas:  ['01/01/2020', '15/08/1947', '31/12/1999']


  padrao = re.compile("\d{2}/\d{2}/\d{4}")


In [66]:
# Usando re.split

texto = "João|Maria|Pedro|Ana"

print(re.split("\|", texto))

['João', 'Maria', 'Pedro', 'Ana']


  print(re.split("\|", texto))
