### Expressões Regulares

Expressões regulares são padrões usados para combinar ou encontrar ocorrências de sequências de caracteres em uma string. Em Python, expressões regulares são geralmente usadas para manipular strings e realizar tarefas como validação de entrada de dados, extração de informações de strings e substituição de texto.

In [1]:
import re

In [2]:
texto = "Meu e-mail é exemplo@gmail.com e você pode me contactar em outro_email@yahoo.com "

In [3]:
# Expressão regular para contar quantas vezes o caracter arroba "@" aparece no texto
resultado = len(re.findall("@", texto))

In [4]:
print("O caracter @ aparece " + str(resultado) + " vezes")

O caracter @ aparece 2 vezes


In [5]:
print("O caracter @ aparece", resultado,"vezes")

O caracter @ aparece 2 vezes


As expressões regulares usam o caractere de barra invertida ("\\") para indicar formas especiais ou para permitir que caracteres especiais sejam usados ​​sem invocar seu significado especial.

Nota: O r indica que a string é bruta, é assim mesmo e não considera caracteres especiais. Sem o r no literal a barra invertida (backslash) faria o que vem a seguir ser considerado um caractere especial.

In [6]:
# Expressão regular para extrair a palavra que aparece após a palavra "você" em um texto
resultado = re.findall(r'você (\w+)', texto)

In [7]:
print("A palavra após 'você' é:", resultado[0])

A palavra após 'você' é: pode


A expressão regular r'você (\w+)' utilizada no código resultado = re.findall(r'você (\w+)', texto) busca por uma palavra que começa com um espaço em branco após a palavra "você" no texto 'texto' e captura essa palavra. O método findall da biblioteca re encontra todas as ocorrências da expressão regular no texto e retorna uma lista com todas as palavras capturadas.

Neste exemplo, a expressão regular r'você (\w+)' busca por uma palavra que começa com um espaço em branco após a palavra "você" no texto 'texto' e captura essa palavra. A palavra capturada é a string "pode", que está na lista resultado e é impressa na tela.

In [8]:
# Expressão regular para extrair endereços de email de uma string
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-za-z0-9.-]+\.[A-Z|a-z]{2,}\b', texto)

In [9]:
print(emails)

['exemplo@gmail.com', 'outro_email@yahoo.com']


(Observe que \b é usado para representar limites de palavras e significa fazer “backspace” apenas dentro das classes de caracteres.) Corresponde à string vazia, mas apenas no início ou no final de uma palavra.

In [10]:
text = "O aluno estava incrivelmente perdido, mas encontrou a DSA e rapidamente começou a aprender."

In [11]:
# Forma 1 - Extraindo os advérbios da frase
for m in re.finditer(r"\w+mente\b", text):
    print('%s' % (m.group()))

incrivelmente
rapidamente


In [12]:
# Forma 2 - Extraindo os advérbios da frase 
for m in re.finditer(r"\w+mente\b", text):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

15-28: incrivelmente
60-71: rapidamente


### REGEX com ChatGPT
#### Música: Tempo Perdido

#### Legião Urbana

In [13]:
# Variável do tipo string
musica = '''
Todos os dias quando acordo
Não tenho mais
O tempo que passou
Mas tenho muito tempo
Temos todo o tempo do mundo
Todos os dias
Antes de dormir
Lembro e esqueço
Como foi o dia
Sempre em frente
Não temos tempo a perder
Nosso suor sagrado
É bem mais belo
Que esse sangue amargo
E tão sério
E selvagem! Selvagem!
Selvagem!
Veja o sol
Dessa manhã tão cinza
A tempestade que chega
É da cor dos teus olhos
Castanhos
Então me abraça forte
E diz mais uma vez
Que já estamos
Distantes de tudo
Temos nosso próprio tempo
Temos nosso próprio tempo
Temos nosso próprio tempo
Não tenho medo do escuro
Mas deixe as luzes
Acesas agora
O que foi escondido
É o que se escondeu
E o que foi prometido
Ninguém prometeu
Nem foi tempo perdido
Somos tão jovens
Tão jovens! Tão jovens!
'''

In [14]:
print(musica)


Todos os dias quando acordo
Não tenho mais
O tempo que passou
Mas tenho muito tempo
Temos todo o tempo do mundo
Todos os dias
Antes de dormir
Lembro e esqueço
Como foi o dia
Sempre em frente
Não temos tempo a perder
Nosso suor sagrado
É bem mais belo
Que esse sangue amargo
E tão sério
E selvagem! Selvagem!
Selvagem!
Veja o sol
Dessa manhã tão cinza
A tempestade que chega
É da cor dos teus olhos
Castanhos
Então me abraça forte
E diz mais uma vez
Que já estamos
Distantes de tudo
Temos nosso próprio tempo
Temos nosso próprio tempo
Temos nosso próprio tempo
Não tenho medo do escuro
Mas deixe as luzes
Acesas agora
O que foi escondido
É o que se escondeu
E o que foi prometido
Ninguém prometeu
Nem foi tempo perdido
Somos tão jovens
Tão jovens! Tão jovens!



In [15]:
# 1- Crie um REGEX para contar quantas vezes o caracter "a" aparece em todo o texto da música.
# 2- Crie um REGEX em Python para contar quantas vezes a palavra tempo aparece na música.
# 3- Crie um REGEX em Python para extrair as palavras seguidas por exclamação.
# 4- Crie um REGEX que extrai qualquer palavra cujo antecessor seja a palavra "esse" e o sucessor seja a palavra "amargo" em um texto.
# 5- Crie um REGEX que retorne as palavras com acento, mas somente os caracteres na palavra que são anteriores ao caracter com acento.


In [16]:
# 1- Crie um REGEX para contar quantas vezes o caracter "a" aparece em todo o texto da música.
procuraA = len(re.findall('a', musica))
print("O caracter 'a' aparece:", procuraA, "vezes na música")

O caracter 'a' aparece: 39 vezes na música


In [17]:
# 2- Crie um REGEX em Python para contar quantas vezes a palavra tempo aparece na música.
procuraTempo = len(re.findall(r'\btempo\b', musica)) # palavra tempo com espaço em branco antes e depois
print("A palavra 'tempo' aparece:", procuraTempo, "vezes na música")

A palavra 'tempo' aparece: 8 vezes na música


In [18]:
# 3- Crie um REGEX em Python para extrair as palavras seguidas por exclamação.

for palavraExc in re.finditer(r'(\w+!)', musica): # imprime todas as palavras seguidas do ponto de exclamação
    print("%s" % (palavraExc.group()))


selvagem!
Selvagem!
Selvagem!
jovens!
jovens!


In [19]:
# 4- Crie um REGEX que extrai qualquer palavra cujo antecessor seja a palavra "esse" e o sucessor seja a palavra "amargo" 
# em um texto.

for palavra in re.finditer(r'esse (\w+) amargo', musica):
    print("%s" % (palavra.group()))

esse sangue amargo


In [20]:
# Forma 1
# 5- Crie um REGEX que retorne as palavras com acento, mas somente os caracteres na palavra que são anteriores ao caracter com
# acento.

resultado = re.findall(r"(\w+)[\u00C0-\u017F]+", musica)
print("Palavras com acento, sem o acento:", resultado)


Palavras com acento, sem o acento: ['N', 'esque', 'N', 't', 's', 'manh', 't', 'Ent', 'abra', 'j', 'pr', 'pr', 'pr', 'N', 'Ningu', 't', 'T', 'T']


 re.findall() é usada para encontrar todas as ocorrências do padrão especificado.
 
 (\w+), corresponde a uma ou mais ocorrências de caracteres alfanuméricos. O uso de parênteses ao redor de \w+ cria um grupo de captura, que permite que a parte correspondente da string seja recuperada separadamente.
 
  [\u00C0-\u017F] corresponde a um ou mais caracteres acentuados, representados por uma faixa de códigos Unicode (que inclui as letras acentuadas usadas em várias línguas, incluindo português e espanhol).

In [21]:
# Forma 2
# 5- Crie um REGEX que retorne as palavras com acento, mas somente até os caracteres da palavra que possuem o acento.
#  \w* representa zero ou mais caracteres alfanuméricos, seguido por [áéíóúâêôãõç], que representa um único caractere acentuado.

resultado = re.findall(r'\b\w*[áéíóúâêôãõç]', musica) 
print("As palavras são:", resultado)

As palavras são: ['Nã', 'esqueç', 'Nã', 'tã', 'sé', 'manhã', 'tã', 'Entã', 'abraç', 'já', 'pró', 'pró', 'pró', 'Nã', 'Ningué', 'tã', 'Tã', 'Tã']


In [22]:
# Forma 3
# 5- Crie um REGEX que retorne todas as palavras com acento.

resultado = re.findall(r'\b\w*[\u00C0-\u017F]\w*\b', musica) 
print("As palavras são:", resultado)

As palavras são: ['Não', 'esqueço', 'Não', 'É', 'tão', 'sério', 'manhã', 'tão', 'É', 'Então', 'abraça', 'já', 'próprio', 'próprio', 'próprio', 'Não', 'É', 'Ninguém', 'tão', 'Tão', 'Tão']
