# Capítulo 03 - Expressões Regulares

São padrões usados para combinar ou encontrar ocorrências de sequências de caracteres em uma string.

In [1]:
# Importando a biblioteca (Regular expression)
import re

In [2]:
# texto para exemplo
texto = "Meu e-mail é exemplo@gmail.com e você pode me contatar em outro_email@yahoo.com"

In [3]:
# Expressão Regular para contar quantas vezes o caracter "@" aparece no texto
resultado = len(re.findall("@", texto))

In [4]:
print(f"O caractere '@' aparaceu {resultado} vezes no texto.")

O caractere '@' aparaceu 2 vezes no texto.


In [5]:
# Extraindo a palavra que aparece após a palavra "você".
resultado = re.findall(r'você (\w+)', texto)

In [6]:
print(f"A palavra que aparece após a palavra 'você' é: {resultado[0]}")

A palavra que aparece após a palavra 'você' é: pode


OBS: O **r** antes da string que representa a expressão regular é usado para indicar que a string é uma string **literal raw**. Isso significa que as barras invertidas entre parenteses não são interpretadas como caracteres de escape, mas são incluídas na expressão como parte do padrão.

In [7]:
# Criando um texto de exemplo
texto = "No começo da programação estamos completamente perdidos, mas conforme vamos avançando, começamos a aprender mais rapidamente"

In [8]:
# pegando sufixo "mente" dos advérbios do texto
sufixo_mente = re.finditer(r"\w+mente\b", texto)

# Extraindo os advérbios da frase
for adv in sufixo_mente:
    print(f"Do caractere {adv.start()} até {adv.end()} = {adv.group(0)}")

Do caractere 33 até 46 = completamente
Do caractere 113 até 124 = rapidamente


In [9]:
# Música do Legião urbana - Tempo Perdido
musica = '''
Todos os dias quando acordo
Não tenho mais
O tempo que passou
Mas tenho muito tempo
Temos todo o tempo do mundo
Todos os dias
Antes de dormir
Lembro e esqueço
Como foi o dia
Sempre em frente
Não temos tempo a perder
Nosso suor sagrado
É bem mais belo
Que esse sangue amargo
E tão sério
E selvagem! Selvagem!
Selvagem!
Veja o sol
Dessa manhã tão cinza
A tempestade que chega
É da cor dos teus olhos
Castanhos
Então me abraça forte
E diz mais uma vez
Que já estamos
Distantes de tudo
Temos nosso próprio tempo
Temos nosso próprio tempo
Temos nosso próprio tempo
Não tenho medo do escuro
Mas deixe as luzes
Acesas agora
O que foi escondido
É o que se escondeu
E o que foi prometido
Ninguém prometeu
Nem foi tempo perdido
Somos tão jovens
Tão jovens! Tão jovens!
'''

In [10]:
# REGEX para contar quantas vezes o caractere "a" aparece em todo o texto.
letra_a = len(re.findall("a", musica))

# Imprimindo o resultado
print(f"A letra 'a' apareceu {letra_a} vezes na música.")

A letra 'a' apareceu 39 vezes na música.


In [11]:
# REGEX para contar quantas vezes a palavra tempo aparece na música.
tempo = len(re.findall("tempo", musica))

print(f"A palavra 'tempo' apareceu {tempo} vezes ma músicda.")

A palavra 'tempo' apareceu 8 vezes ma músicda.


In [12]:
# REGEX para extrair as palavras seguidas por exclamação.
exclamacao = re.findall(r"\b\w+!", musica)

print(f"A lista de palavras seguidas por exclamação são: {exclamacao}")

A lista de palavras seguidas por exclamação são: ['selvagem!', 'Selvagem!', 'Selvagem!', 'jovens!', 'jovens!']


In [13]:
# REGEX que extrai qualquer palavra cujo antecessor seja a palavra "esse" e o sucessor seja a palavra "amargo" da letra da música
resultado = re.findall(r"\besse\s(\w+)\samargo\b", musica)

print("Palavra(s) encontrada(s):", resultado)

Palavra(s) encontrada(s): ['sangue']


In [14]:
# 5- Crie um REGEX que retorne as palavras com acento, mas somente os caracteres na palavra que são anteriores ao caractere com acento.
resultado = re.findall(r'\b[\wÀ-ÿ]+[áéíóúãõç]', musica)

print("As palavras acentuadas são:", resultado)

As palavras acentuadas são: ['Nã', 'esqueç', 'Nã', 'tã', 'sé', 'manhã', 'tã', 'Entã', 'abraç', 'já', 'pró', 'pró', 'pró', 'Nã', 'Ningué', 'tã', 'Tã', 'Tã']
