# Expressões Regulares

Expressões Regulares são uma sequência de caracteres que definem uma busca PADRÃO em strings. Em Python, as Expressões Regulares são suportadas pelo pacote re. Ele fornece uma série de funções para pesquisar e substituir padrões em strings. 

Exemplo: pode  usar  uma  expressão  regular  para  verificar  se  uma  string representa um endereço de e-mail válido, ou para encontrar todas as ocorrências de um padrão em uma string

In [4]:
import re

In [5]:
texto = "Meu e-mail é exemplo@gmail.com e você pode me contatar em outro@outlook.com.br"

In [6]:
# Expressão regular para contar quantas vezes o caracter arroba aparece
resultado = len(re.findall("@", texto))

In [7]:
print("O caractere '@' apareceu", resultado, "vezes no texto.")

O caractere '@' apareceu 2 vezes no texto.


In [9]:
# Expressão regular para extrair a palavra que aparece após a palavra "você" em um texto
resultado = re.findall(r'você (\w+)', texto)

In [16]:
print("A palavra após 'você' é:", resultado[0])

A palavra após 'você' é: pode


Nota: o r antes da string é usado para indicar que a string é literal raw. Isso significa que barras invertidas () não são interpretadas como caracteres de escape, mas são incluídas na expressão regular como parte do padrão.

In [19]:
# Expressão regular para extrair endereços de e-mail de uma string
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', texto)

In [20]:
print(emails)

['exemplo@gmail.com', 'outro@outlook.com.br']


Visite a DOCUMENTAÇÃO: https://docs.python.org/3.9/library/re.html

In [21]:
text = "O aluno estava incrivelmente perdido, mas começou a estudar e rapidamente começou a aprender."

In [23]:
# Extraindo os advérbios da frase
for m in re.finditer(r'\w+mente\b', text):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

15-28: incrivelmente
62-73: rapidamente


# Exercício: Usando o RE em uma letra de música

In [6]:
musica = '''
Palavras não bastam, não dá pra entender
E esse medo que cresce não para
É uma história que se complicou
Eu sei bem o porquê
Qual é o peso da culpa que eu carrego nos braços
Me entorta as costas e dá um cansaço
A maldade do tempo fez eu me afastar de você
E quando chega a noite e eu não consigo dormir
Meu coração acelera e eu sozinha aqui
Eu mudo o lado da cama, eu ligo a televisão
Olhos nos olhos no espelho e o telefone na mão
Pro tanto que eu te queria o perto nunca bastava
E essa proximidade não dava
Me perdi no que era real e no que eu inventei
Reescrevi as memórias, deixei o cabelo crescer
E te dedico uma linda história confessa
Nem a maldade do tempo consegue me afastar de você
Te contei tantos segredos que já não eram só meus
Rimas de um velho diário que nunca me pertenceu
Entre palavras não ditas, tantas palavras de amor
Essa paixão é antiga e o tempo nunca passou
E quando chega a noite e eu não consigo dormir
Meu coração acelera e eu sozinha aqui
Eu mudo o lado da cama, eu ligo a televisão
Olhos nos olhos no espelho e o telefone na minha mão
E quando chega a noite e eu não consigo dormir
Meu coração acelera e eu sozinha aqui
Eu mudo o lado da cama, eu ligo a televisão
Olhos nos olhos no espelho e o telefone na minha mão
Na minha mão, na minha mão
'''

In [38]:
# 1 - Crie um REGEX para contar quantas vezes o caracter 'a' aparece na música
resultado = len(re.findall(r'a', musica))

print("O caracter 'a' aparece:", resultado, "vezes.")

O caracter 'a' aparece: 118 vezes.


In [34]:
# 2 - Crie um REGEX para contar quantas vezes a palavra 'tempo' aparece na música
resposta = len(re.findall(r'\btempo\b', musica))

print("A palavra 'tempo' aparece:", resposta, "vezes.")

A palavra 'tempo' aparece: 3 vezes.


In [39]:
# 3 - Crie um REGEX para extrair as palavras seguidas por vírgulas
resultado = len(re.findall(r'\b\w+,', musica))

print("Palavras seguidas por vírgula:", resultado)

Palavras seguidas por vírgula: 7


In [9]:
# 4 - Crie um REGEX para extrair qualquer palavra cujo antecessor seja a palavra 'Meu' e o sucessor 'acelera'
resultado2 = re.findall(r'\bMeu\s(\w+)\sacelera\b', musica)

print("Palavras cujo antecessor seja a palavra 'Meu' e o sucessor 'acelera':", resultado2)

Palavras cujo antecessor seja a palavra 'meu' e o sucessor 'acelera': ['coração', 'coração', 'coração']


In [10]:
# 5 - Crie um REGEX que retorne as palavras com acento, mas somente os caracteres na palavra que são anteriores ao caracteres com acento
resultado3 = re.findall(r'\b([^\sáéíóúãẽĩõũâêîôûàèìòùç]*)(?=[áéíóúãẽĩõũâêîôûàèìòùç])', musica)

print("Palavras com acento, caracteres na palavra que são anteriores ao caracteres com acento:", resultado3)

Palavras com acento, caracteres na palavra que são anteriores ao caracteres com acento: ['n', 'n', 'd', 'n', 'hist', 'porqu', '', 'bra', 'd', 'cansa', 'voc', 'n', 'cora', 'televis', 'm', 'n', 'mem', 'hist', 'voc', 'j', 'n', 's', 'di', 'n', 'paix', '', 'n', 'cora', 'televis', 'm', 'n', 'cora', 'televis', 'm', 'm', 'm']


In [12]:
# 5 - outra forma
resultado3 = re.findall(r'(\w+)[\u00C0-\u017F]+', musica)

print("Palavras com acento, caracteres na palavra que são anteriores ao caracteres com acento:", resultado3)

Palavras com acento, caracteres na palavra que são anteriores ao caracteres com acento: ['n', 'n', 'd', 'n', 'hist', 'porqu', 'bra', 'd', 'cansa', 'voc', 'n', 'coraç', 'televis', 'm', 'n', 'mem', 'hist', 'voc', 'j', 'n', 's', 'di', 'n', 'paix', 'n', 'coraç', 'televis', 'm', 'n', 'coraç', 'televis', 'm', 'm', 'm']


In [14]:
# 5 - mostrando com acento
resultado3 = re.findall(r'\b[\wÀ-Ÿ]+[áéíóúãõç]', musica)

print("Palavras com acento, caracteres na palavra que são anteriores ao caracteres com acento:", resultado3)

Palavras com acento, caracteres na palavra que são anteriores ao caracteres com acento: ['nã', 'nã', 'dá', 'nã', 'histó', 'braç', 'dá', 'cansaç', 'nã', 'coraçã', 'televisã', 'mã', 'nã', 'memó', 'histó', 'já', 'nã', 'só', 'diá', 'nã', 'paixã', 'nã', 'coraçã', 'televisã', 'mã', 'nã', 'coraçã', 'televisã', 'mã', 'mã', 'mã']
