# Expressões Regulares (REGEX)

Expressões Regulares são uma **sequência de caracteres que definem uma busca padrão em strings**. Em Python, as Expressões Regulares são suportadas pelo pacote 're'. Ele fornece uma série de funções para pesquisar e substituir padrões em strings. Algumas das tarefas mais comuns que podem ser realizadas com Expressões Regulares incluem verificar se uma string corresponde a um determinado padrão, extrair informações de uma string combase em um padrão específico e substituir trechos de uma string com base em um padrão.

Por  exemplo,  você  pode  usar  uma  expressão  regular  para  verificar  se  uma  string representa um endereço de e-mail válido, ou para encontrar todas as ocorrências de um padrão em uma string.

Expressões regulares são padrões usados para combinar ou encontrar ocorrências de sequências de caracteres em uma string. Em Python, expressões regulares são geralmente usadas para manipular strings e realizar tarefas como validação de entrada de dados, extração de informações de strings e substituição de texto.

In [2]:
import re

In [5]:
texto = 'Este é um texto de exemplo para expressões regulares em Python com e-mail teste@expreg.com'

In [3]:
# expressão regular para contar quantas vezes o caracter 's' aparece no texto
# função findall = encontre tudo
res = len(re.findall('s', texto))

In [4]:
print("O caractere 's' apareceu", res, "vezes no texto.")

O caractere 's' apareceu 5 vezes no texto.


In [6]:
# expressão regular para extrair a palavra que aparece após a palavra 'exemplo' em um texto
# o espaço após o 'exemplo' é importante para achar a próxima palavra nessa mesma posição, ex: exemplo para
res = re.findall(r'exemplo (\w+)', texto)

In [7]:
# [0] mostra apenas o elemento, sem mostrar ele dentro de uma lista, ex: sem [0] ficaria ['pode']
print("A palavra após 'exemplo' é:", res[0])

A palavra após 'exemplo' é: para


Nota: O r antes da string que representa a expressão regular em Python é usado para indicar que é uma string literal raw. Isso significa que as barras invertidas () não são interpretadas como caracteres de escape, mas são incluídas na expressão regular como parte do padrão.

In [8]:
# expressão regular para extrair endereços de e-mail de uma string
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', texto)

In [9]:
print(emails)

['teste@expreg.com']


Visite sua amiga, a documentação:
https://docs.python.org/3.9/library/re.html

https://docs.python.org/pt-br/3/howto/regex.html

In [12]:
text = 'Estou aprendendo sobre expressões regulares que são incrivelmente legais e somente após a introdução ficou mais fácil'

In [14]:
# extraindo advérbios da frase
# finditer passa por cada iteração
# \w+ sufixo \b = qualquer palavra que tenha o sufixo 'mente' no final da palavra
for m in re.finditer(r'\w+mente\b', text):
  # m.start e m.end busca o índice de início e fim da palavra
  print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

52-65: incrivelmente
75-82: somente


#REGEX com ChatGPT

Música: Saúde

Rita Lee

3 aspas simples no início/fim é o conceito de docstring que permite colocar uma string em várias linhas

In [9]:
# variável do tipo string
musica = '''
Me cansei de lero-lero
Dá licença, mas eu vou sair do sério
Quero mais saúde
Me cansei de escutar opiniões
De como ter um mundo melhor

Mas ninguém sai de cima, nesse chove não molha
Eu sei que agora eu vou é cuidar mais de mim

Como vai? Tudo bem
Apesar, contudo, todavia, mas, porém
As águas vão rolar, não vou chorar
Se por acaso morrer do coração
É sinal que amei demais

Mas enquanto estou viva e cheia de graça
Talvez ainda faça um monte de gente feliz

Como vai? Tudo bem
Apesar, contudo, todavia, mas, porém
As águas vão rolar, não vou chorar, não
Se por acaso morrer do coração
É sinal que amei demais

Mas enquanto estou viva e cheia de graça
Talvez ainda faça um monte de gente feliz
'''

In [10]:
musica

'\nMe cansei de lero-lero\nDá licença, mas eu vou sair do sério\nQuero mais saúde\nMe cansei de escutar opiniões\nDe como ter um mundo melhor\n\nMas ninguém sai de cima, nesse chove não molha\nEu sei que agora eu vou é cuidar mais de mim\n\nComo vai? Tudo bem\nApesar, contudo, todavia, mas, porém\nAs águas vão rolar, não vou chorar\nSe por acaso morrer do coração\nÉ sinal que amei demais\n\nMas enquanto estou viva e cheia de graça\nTalvez ainda faça um monte de gente feliz\n\nComo vai? Tudo bem\nApesar, contudo, todavia, mas, porém\nAs águas vão rolar, não vou chorar, não\nSe por acaso morrer do coração\nÉ sinal que amei demais\n\nMas enquanto estou viva e cheia de graça\nTalvez ainda faça um monte de gente feliz\n'

In [None]:
# 1- Crie um REGEX para contar quantas vezes o caracter 'a' aparece em todo o texto da música.
# 2- Crie um REGEX em Python para contar quantas vezes a palavra 'feliz' aparece na música.
# 3- Crie um REGEX em Python para extrair as palavras seguidas por vírgula.
# 4- Crie um REGEX que extrai qualquer palavra cujo antecessor seja a palavra 'como' e o sucessor seja a palavra 'vai' em um texto.
# 5- Crie um REGEX que retorne as palavras com acento, mas somente os caracteres na palavra que são anteriores ao caractere com acento.

Soluções:

In [11]:
#1
a = len(re.findall('a', musica))
print(a)

66


In [12]:
#2
feliz = len(re.findall('feliz', musica))
print(feliz)

2


In [13]:
#3
for m in re.finditer(r'\w+,', musica):
  print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

27-35: licença,
156-161: cima,
249-256: Apesar,
257-265: contudo,
266-274: todavia,
275-279: mas,
299-305: rolar,
480-487: Apesar,
488-496: contudo,
497-505: todavia,
506-510: mas,
530-536: rolar,
545-552: chorar,


In [54]:
#4
padrao = r"\bchove\s+(\S+[\.,]?\s+)molha\b"
words = re.findall(padrao, musica, re.IGNORECASE)

print(words)

['não ']


In [52]:
#5
resultado = re.findall(r'[a-z]+[àáâãèéêìíîòóôõùúüçñ]', musica)

print(resultado)

['licenç', 'sé', 'saú', 'opiniõ', 'ningué', 'nã', 'poré', 'vã', 'nã', 'coraç', 'graç', 'faç', 'poré', 'vã', 'nã', 'nã', 'coraç', 'graç', 'faç']
