# Expressões Regulares

São padrões usados para combinar ou encontrar ocorrências de sequências de caracteres em uma string. Em Python, expressões regulares são geralmente usadas para manipular strings e realizar tarefas como validaçãao de entrada de dados, extração de informações de strings e substituição de texto.

In [1]:
import re

In [2]:
texto = "Meu e-mail é exemplo@gmail.com e você pode me contatar em outro_email@yahoo.com"

In [3]:
#Expressão regular para contar quantas vezes o caracter arroba aparece no texto
resultado = len(re.findall("@", texto))

In [4]:
print("O caracter '@' apareceu", resultado, "vezes no texto.")

O caracter '@' apareceu 2 vezes no texto.


In [13]:
#Expressão regular para extrair a palavra que aparece após a palavra 'você' em um texto
resultado = re.findall(r'você (\w+)', texto)
# \w = procura palavra, é bom lera documentação

In [14]:
print("A palavra após 'você' é: ", resultado[0])

A palavra após 'você' é:  pode


Nota: O 'r' do (r'você (\w+) antes da string que representa a expressão regular em Python é usado p indicar que a string é uma string literal raw. Isso ssignifica que as barras invertidas () não são interpretadas como caracteres de escape, mas são incluidas na expressão regular como parte do padrão. 

In [16]:
#expressão regular para extrair endereços de e-mail de uma string
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[-z|a-z]{2,}\b', texto)

In [17]:
print(emails)

['exemplo@gmail.com', 'outro_email@yahoo.com']


In [18]:
text = "O aluno estava incrivelmente perdido, mas encontrou a DSA e rapidamente começõu a aprender"

In [22]:
#Extraindo os adverbios da frase
for m in re.finditer(r"\w+mente\b", text):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

15-28: incrivelmente
60-71: rapidamente


# REGEX com ChatGPT

In [24]:
#Variável do tipo string
musica = '''
Todos os dias quando acordo
Não tenho mais
O tempo que passou
Mas tenho muito tempo
Temos todo o tempo do mundo
Todos os dias
Antes de dormir
Lembro e esqueço
Como foi o dia
Sempre em frente
Não temos tempo a perder
Nosso suor sagrado
É bem mais belo
Que esse sangue amargo
E tão sério
E selvagem! Selvagem!
Selvagem!
Veja o sol
Dessa manhã tão cinza
A tempestade que chega
É da cor dos teus olhos
Castanhos
Então me abraça forte
E diz mais uma vez
Que já estamos
Distantes de tudo
Temos nosso próprio tempo
Temos nosso próprio tempo
Temos nosso próprio tempo
Não tenho medo do escuro
Mas deixe as luzes
Acesas agora
O que foi escondido
É o que se escondeu
E o que foi prometido
Ninguém prometeu
Nem foi tempo perdido
Somos tão jovens
Tão jovens! Tão jovens!
'''

In [25]:
print(musica)


Todos os dias quando acordo
Não tenho mais
O tempo que passou
Mas tenho muito tempo
Temos todo o tempo do mundo
Todos os dias
Antes de dormir
Lembro e esqueço
Como foi o dia
Sempre em frente
Não temos tempo a perder
Nosso suor sagrado
É bem mais belo
Que esse sangue amargo
E tão sério
E selvagem! Selvagem!
Selvagem!
Veja o sol
Dessa manhã tão cinza
A tempestade que chega
É da cor dos teus olhos
Castanhos
Então me abraça forte
E diz mais uma vez
Que já estamos
Distantes de tudo
Temos nosso próprio tempo
Temos nosso próprio tempo
Temos nosso próprio tempo
Não tenho medo do escuro
Mas deixe as luzes
Acesas agora
O que foi escondido
É o que se escondeu
E o que foi prometido
Ninguém prometeu
Nem foi tempo perdido
Somos tão jovens
Tão jovens! Tão jovens!



In [26]:
# 1- Crie um REGEX para contar quantas vezes o caracter "a" aparece em todo o texto da música
# 2- Crie um REGEX para contar quantas vezes a palavra "tempo" aparece em todo o texto da música
# 3- Crie um REGEX para extrair as palavras seguidas por exclamação 
# 4- Crie um REGEX que extrai qualquer palavra cujo antecessor seja a palavra "esse" e o sucesssor seja a palavra "amargo"
# 5- Crie um REGEX que retorne as palavras com acentos, mas somente os caracteres na palavra que são anteriores ao caracter com acento

Aqui está a solução

In [27]:
# 1- Crie um REGEX para contar quantas vezes o caracter "a" aparece em todo o texto da música

In [28]:
 ocorrencias = len(re.findall("a", musica))

print("O caractere 'a' aparece {} vezes no texto.".format(ocorrencias))

O caractere 'a' aparece 39 vezes no texto.


In [29]:
# 2- Crie um REGEX para contar quantas vezes a palavra "tempo" aparece em todo o texto da música

In [30]:
ocorrencia = len(re.findall(r'\btempo\b', musica))

print(f"A palavra 'tempo' aparece {ocorrencia} vezes no texto.")

A palavra 'tempo' aparece 8 vezes no texto.


In [31]:
# 3- Crie um REGEX para extrair as palavras seguidas por exclamação 

In [34]:
palavras_exclamacao = re.findall(r'\b\w+!\b', musica)

print(palavras_exclamacao)

[]


In [35]:
palavras_exclamacao = re.findall(r'\b\w+!', musica)

print(palavras_exclamacao)

['selvagem!', 'Selvagem!', 'Selvagem!', 'jovens!', 'jovens!']


In [36]:
# 4- Crie um REGEX que extrai qualquer palavra cujo antecessor seja a palavra "esse" e o sucesssor seja a palavra "amargo"

In [37]:
padrao = r"(?<=esse\s)\w+(?=\samargo)"

palavras = re.findall(padrao, musica, flags=re.IGNORECASE)

print(palavras)

['sangue']


In [38]:
# 5- Crie um REGEX que retorne as palavras com acentos, mas somente os caracteres na palavra que são anteriores ao caracter com acento

In [39]:
padrao = r'\b([a-zA-Z]*)[áéíóúÁÉÍÓÚ]'

palavras_com_acento = re.findall(padrao, musica)

print(palavras_com_acento)

['', 's', '', 'j', 'pr', 'pr', 'pr', '', 'Ningu']


# Fim