# Expressões regulares
Expressões regulares são padrões usados para combinar ou encontrar ocorrências de sequência de caracteres em uma string. Normalmente, são usadas para manipular strings e relaizar tarefas como validação de dados, extração de informações de strings e substituição de texto.
https://docs.python.org/3/library/re.html

In [1]:
import re

In [None]:
texto = 'Meu e-mail é exemplo@gmail.com e você pode me contatar em outro_email@yahoo.com.'

# Expressão regular para contar quantas vezes o caracter arroba aparece no texto
resultado = len(re.findall('@', texto))

print("O caracter '@' apareceu ", resultado, "vezes no texto.")

In [None]:
# Expressão regular para extrais a palavra que aparece após a palavra 'você' em um texto
resultado = re.findall(r'você (\w+)', texto)
print("A palavra após 'você' é:" , resultado[0])

Obs.: O 'r' antes da string é usado para indicar que é uma string literal 'raw'. Isso significa que as barras invertidas não são interpretadas como caracteres de escape, mas são incluídas na expressão regular como parte do padrão.

In [None]:
# Expressão regular para extrair endereços de e-mail de uma string
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', texto)
print(emails)

In [None]:
# Extraindo advérbios da frase
text = 'o aluno estava incrivelmente perdido, mas encontrou a DSA e rapidamente começçou a aprender.'

for m in re.finditer(r'\w+mente\b', text):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

# REGEX com ChatGPT

In [2]:
musica = '''Todos os dias quando acordo
Não tenho mais
O tempo que passou
Mas tenho muito tempo
Temos todo o tempo do mundo
Todos os dias
Antes de dormir
Lembro e esqueço
Como foi o dia
Sempre em frente
Não temos tempo a perder
Nosso suor sagrado
É bem mais belo
Que esse sangue amargo
E tão sério
E selvagem! Selvagem!
Selvagem!
Veja o sol
Dessa manhã tão cinza
A tempestade que chega
É da cor dos teus olhos
Castanhos
Então me abraça forte
E diz mais uma vez
Que já estamos
Distantes de tudo
Temos nosso próprio tempo
Temos nosso próprio tempo
Temos nosso próprio tempo
Não tenho medo do escuro
Mas deixe as luzes
Acesas agora
O que foi escondido
É o que se escondeu
E o que foi prometido
Ninguém prometeu
Nem foi tempo perdido
Somos tão jovens
Tão jovens! Tão jovens!'''

In [3]:
# 1 - Crie um REGEX para contar quantas vezes o caracter 'a' aparece em todo o texto da música.
ocorrencias = len(re.findall("a", musica))
print("O caractere 'a' aparece", ocorrencias, "vezes no texto.")

O caractere 'a' aparece 39 vezes no texto.


Nota: Observe que a função findall retorna uma lista com todas as ocorrências encontradas na string. O len é usado para contar o número de ocorrências retornadas pela lista.

In [4]:
# 2 - Crie um REGEX em Python para contar quantas vezes a palavra tempo aparece na música.
ocorrencias = len(re.findall(r"\btempo\b", musica))
print("A palavra 'tempo' aparece", ocorrencias, "vezes no texto.")

A palavra 'tempo' aparece 8 vezes no texto.


Nota: Observe que usamos \b para indicar que estamos procurando pela palavra "tempo" completa e não apenas por parte dela (por exemplo, "temporada" não seria contabilizado).

In [5]:
# 3 - Crie um REGEX em Python para extrair as palavras seguidas por exclamação.
palavras = re.findall(r"\w+!", musica)
print("Palavras encontradas:", palavras)

Palavras encontradas: ['selvagem!', 'Selvagem!', 'Selvagem!', 'jovens!', 'jovens!']


Nota: Essa expressão regular irá procurar por uma ou mais letras, números ou underscore seguidos pelo caractere de exclamação. 

In [6]:
# 4 - Crie um REGEX que extrai qualquer palavra cujo antecessor seja palavra "esse" e o sucessor seja a palavra "amargo"
palavras = re.findall(r"(?<=esse )\w+(?= amargo)", musica)
print("Palavras encontradas:", palavras)

Palavras encontradas: ['sangue']


Nota: Essa expressão regular usa "lookbehind" e "lookahead" para procurar uma palavra que começa imediatamente após "esse " (com um espaço em branco depois de "esse") e termina imediatamente antes de " amargo" (com um espaço em branco antes de "amargo").

In [8]:
# 5 - Crie um REGEX que retorne as palavras com acento, mas somente os caracteres na palavra que são anteriores 
# ao caracter com acento.
resultado = re.findall(r"\b[\wÀ-ÿ]+[áéíóúãõç]", musica)
print('As palavras acentuadas são: ', resultado)

As palavras acentuadas são:  ['Nã', 'esqueç', 'Nã', 'tã', 'sé', 'manhã', 'tã', 'Entã', 'abraç', 'já', 'pró', 'pró', 'pró', 'Nã', 'Ningué', 'tã', 'Tã', 'Tã']
