### Expressões Regulares
Expressões regulares são padrões usados para combinar ou encontrar ocorrências de sequências de caracteres em uma string. Em Python, expressões regulares são geralmente usadas para manipular strings e realizar tarefas como validação de entrada de dados, extração de informações de strings e substituição de texto.

In [1]:
import re

In [2]:
texto = 'Meu e-mail é exemplo@gmail.com e você pode me contatar em outro_email@yahoo.com.'

# Expressão regular para contar quantas vezes o caracter arrobar aparece no texto
resultado = len(re.findall('@', texto))

print(f'O caractere "@" apareceu {resultado} vezes no texto.')

O caractere "@" apareceu 2 vezes no texto.


In [3]:
# Expressão regular para extrair a palavra que aparece após a palavra "você" em um texto
resultado = re.findall(r'você (\w+)', texto)
print(f'A palavra após "você" é: {resultado[0]}')

A palavra após "você" é: pode


### Nota
O r antes da string que representa a expressão regular em Python é usado para indicar que a string é uma string literal raw. Isso significa que as barras invertidas () não são interpretadas como caracteres de escape, mas são incluídas na expressão regular como parte do padrão.

In [4]:
# Expressão regular para extrair endereços de e-mail de uma string
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', texto)

print(emails)

['exemplo@gmail.com', 'outro_email@yahoo.com']


In [5]:
text = "O aluno estava incrivelmente perdido, mas encontrou a DSA e rapidamente começou a aprender."

In [6]:
for m in re.finditer(r"\w+mente\b", text):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

15-28: incrivelmente
60-71: rapidamente


## REGEX com ChatGPT

Música: Tempo Perdido

Legião Urbana

In [7]:
musica = """
Todos os dias quando acordo
Não tenho mais
O tempo que passou
Mas tenho muito tempo
Temos todo o tempo do mundo
Todos os dias
Antes de dormir
Lembro e esqueço
Como foi o dia
Sempre em frente
Não temos tempo a perder
Nosso suor sagrado
É bem mais belo
Que esse sangue amargo
E tão sério
E selvagem! Selvagem!
Selvagem!
Veja o sol
Dessa manhã tão cinza
A tempestade que chega
É da cor dos teus olhos
Castanhos
Então me abraça forte
E diz mais uma vez
Que já estamos
Distantes de tudo
Temos nosso próprio tempo
Temos nosso próprio tempo
Temos nosso próprio tempo
Não tenho medo do escuro
Mas deixe as luzes
Acesas agora
O que foi escondido
É o que se escondeu
E o que foi prometido
Ninguém prometeu
Nem foi tempo perdido
Somos tão jovens
Tão jovens! Tão jovens!
"""

In [8]:
# 1- Crie um REGEX para contar quantas vezes o caracter "a" aparece em todo o texto da música.
# 2- Crie um REGEX em Python para contar quantas vezes a palavra tempo aparece na música.
# 3- Crie um REGEX em Python para extrair as palavras seguidas por exclamação.
# 4- Crie um REGEX que extrai qualquer palavra cujo antecessor seja a palavra "esse" e o sucessor seja a palavra "amargo" em um texto.
# 5- Crie um REGEX que retorne as palavras com acento, mas somente os caracteres na palavra que são anteriores ao caracter com acento.

In [9]:
# 1- Crie um REGEX para contar quantas vezes o caracter "a" aparece em todo o texto da música.

match = re.findall("a", musica)
count = len(match)
print(f'O caractere "a" aparece {count} vezes no texto.')

O caractere "a" aparece 39 vezes no texto.


In [10]:
# 2- Crie um REGEX em Python para contar quantas vezes a palavra tempo aparece na música.

match = re.findall(r"\btempo\b", musica)
count = len(match)
print(f'A palavra "tempo" aparece {count} vezes no texto.')

A palavra "tempo" aparece 8 vezes no texto.


In [11]:
# 3- Crie um REGEX em Python para extrair as palavras seguidas por exclamação.

resultado3 = re.findall(r'\b\w+!', musica)
print(f'Estas são as palavras seguidas por exclamação: {resultado3}')

Estas são as palavras seguidas por exclamação: ['selvagem!', 'Selvagem!', 'Selvagem!', 'jovens!', 'jovens!']


In [12]:
"""
4- Crie um REGEX que extrai qualquer palavra cujo antecessor seja a palavra "esse" e 
o sucessor seja a palavra "amargo" em um texto.
"""

resultado4 = re.findall(r'\besse\s(\w+)\samargo\b', musica)
print(f'Palavra(s) encontrada(s): {resultado4}')

Palavra(s) encontrada(s): ['sangue']


In [13]:
"""
5- Crie um REGEX que retorne as palavras com acento, mas somente os caracteres na palavra que 
são anteriores ao caracter com acento.
"""

resultado5 = re.findall(r'\b[\wÀ-ÿ]+[áéíóúãõç]', musica)
print("As palavras acentuadas são:", resultado5)

As palavras acentuadas são: ['Nã', 'esqueç', 'Nã', 'tã', 'sé', 'manhã', 'tã', 'Entã', 'abraç', 'já', 'pró', 'pró', 'pró', 'Nã', 'Ningué', 'tã', 'Tã', 'Tã']


## FIM