EXPRESSÕES REGULARES
- São padrões usados para combinar ou encontrar ocorrências de sequências de caracteres em uma string
- São geralmente usadas para manipular strings e realizar tarefas como validação de entrada de dados, extração de informações de strings e substituição de texto

In [1]:
import re

In [2]:
texto = "Meu e-mail é exemplo@gmail.com e você pode me contatar em outro_email@yahoo.com"

In [3]:
#Expressão regular para contar quantas vezes o caracter arroba aparece no texto
resultado = len(re.findall("@", texto))

In [4]:
print("O caracter '@' foi encontrado", resultado, "vezes no texto")

O caracter '@' foi encontrado 2 vezes no texto


In [5]:
#Expressão regular para extrair a palavra que aparece após a palavra "você" em um texto
resultado = re.findall(r'você (\w+)', texto)

In [6]:
print("A palavra após 'você' é:", resultado[0])

A palavra após 'você' é: pode


- O 'r' antes da string que representa a expressão regular em python é usado para indicar que a string é uma string literal raw
- Significa que as barras invertidas '\' não são interpretadas como caracteres de escape, mas são incluídas na expressão regular como parte do padrão 

In [7]:
#Expressão regular para extrair endereços de e-mail de uma string
#Consultar documentação
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', texto)

In [8]:
print(emails)

['exemplo@gmail.com', 'outro_email@yahoo.com']


In [9]:
text = "O aluno estava incrivelmente perdido, mas encontrou a DSA e rapidamente começou a aprender" 

In [11]:
#Extraindo os advérbios da frase
for m in re.finditer(r"\w+mente\b", text):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

15-28: incrivelmente
60-71: rapidamente


REGEX

In [12]:
musica = '''
Todos os dias quando acordo
Não tenho mais
O tempo que passou
Mas tenho muito tempo
Temos todo o tempo do mundo
Todos os dias
Antes de dormir
Lembro e esqueço
Como foi o dia
Sempre em frente
Não temos tempo a perder
Nosso suor sagrado
É bem mais belo
Que esse sangue amargo
E tão sério
E selvagem! Selvagem!
Selvagem!
Veja o sol
Dessa manhã tão cinza
A tempestade que chega
É da cor dos teus olhos
Castanhos
Então me abraça forte
E diz mais uma vez
Que já estamos
Distantes de tudo
Temos nosso próprio tempo
Temos nosso próprio tempo
Temos nosso próprio tempo
Não tenho medo do escuro
Mas deixe as luzes
Acesas agora
O que foi escondido
É o que se escondeu
E o que foi prometido
Ninguém prometeu
Nem foi tempo perdido
Somos tão jovens
Tão jovens! Tão jovens!
'''

In [13]:
print(musica)


Todos os dias quando acordo
Não tenho mais
O tempo que passou
Mas tenho muito tempo
Temos todo o tempo do mundo
Todos os dias
Antes de dormir
Lembro e esqueço
Como foi o dia
Sempre em frente
Não temos tempo a perder
Nosso suor sagrado
É bem mais belo
Que esse sangue amargo
E tão sério
E selvagem! Selvagem!
Selvagem!
Veja o sol
Dessa manhã tão cinza
A tempestade que chega
É da cor dos teus olhos
Castanhos
Então me abraça forte
E diz mais uma vez
Que já estamos
Distantes de tudo
Temos nosso próprio tempo
Temos nosso próprio tempo
Temos nosso próprio tempo
Não tenho medo do escuro
Mas deixe as luzes
Acesas agora
O que foi escondido
É o que se escondeu
E o que foi prometido
Ninguém prometeu
Nem foi tempo perdido
Somos tão jovens
Tão jovens! Tão jovens!


In [21]:
#REGEX para contar quantas vezes o caracter 'a' aparece no texto da música
match = re.findall("a", musica)
count = len(match)
print("O caractere 'a' aparece", count, "vezes")

#Outra forma de fazer
resultado1 = len(re.findall("a", musica))
print("O caractere 'a' aparece", resultado1, "vezes!!")

O caractere 'a' aparece 39 vezes
O caractere 'a' aparece 39 vezes!!


In [23]:
#REGEX para contar quantas vezes a palavra tempo aparece na música
match = re.findall(r"\btempo\b", musica)
count = len(match)
print("A palavra 'tempo' aparece", count, "vezes")

#Outra forma de fazer
resultado2 = len(re.findall("tempo", musica))
print("A palavra 'tempo' aparece", resultado2, "vezes!!")

A palavra 'tempo' aparece 8 vezes
A palavra 'tempo' aparece 8 vezes!!


In [25]:
#REGEX para extrair as palavras seguidas por exclamação
match = re.findall(r"\b\w+!", musica)
print("As palavras seguidas por exclamação são:", match)

As palavras seguidas por exclamação são: ['selvagem!', 'Selvagem!', 'Selvagem!', 'jovens!', 'jovens!']


In [28]:
#REGEX que extrai qualquer palavra cujo antecessor seja a palavra 'esse' e o sucessor seja a palavra 'amargo'
resultado3 = re.findall(r"esse\s(\w+)\samargo", musica)
print("Palavras entre 'esse' e 'amargo':", resultado3)

#Outra forma de fazer
resultado4 = re.findall(r'\besse\s(\w+)\samargo\b', musica)
print("Palavras entre 'esse' e 'amargo':", resultado4, "!!")

Palavras entre 'esse' e 'amargo': ['sangue']
Palavras entre 'esse' e 'amargo': ['sangue'] !!


In [30]:
#REGEX que retorne as palavras com acento, mas somente os caracteres na palavra que são anteriores ao caracter com acento
resultado5 = re.findall(r'\b[\wÀ-ÿ]+[áéíóúãõç]', musica)
print("Palavras com acento:", resultado5)

Palavras com acento: ['Nã', 'esqueç', 'Nã', 'tã', 'sé', 'manhã', 'tã', 'Entã', 'abraç', 'já', 'pró', 'pró', 'pró', 'Nã', 'Ningué', 'tã', 'Tã', 'Tã']
