# Expressões Regulares


In [16]:
import re

Expressões regulares em Python são sequências de caracteres que formam um padrão de busca. Esses padrões são usados para encontrar correspondências em strings. As expressões regulares são poderosas ferramentas de busca e manipulação de texto, permitindo que você encontre padrões complexos em dados de texto.

https://docs.python.org/pt-br/3/library/re.html

Se você planeja usar a mesma expressão regular várias vezes, pode ser útil compilar a expressão regular usando re.compile(). Isso cria um objeto de padrão de expressão regular que pode ser reutilizado posteriormente:


In [17]:
pattern = re.compile(r'seu padrão regex aqui')


Existem várias funções no módulo re que você pode usar para trabalhar com expressões regulares. Alguns dos mais comuns são:

`re.search()`: Procura pela primeira ocorrência de um padrão em uma string.

`re.match()`: Procura pelo padrão no início de uma string.

`re.findall()`: Encontra todas as ocorrências de um padrão em uma string e retorna como uma lista.

`re.finditer()`: Encontra todas as ocorrências de um padrão em uma string e retorna como um iterador de correspondências.

`re.sub()`: Substitui todas as ocorrências de um padrão por outra string.
E muitas outras.

In [18]:
# Defina a string de entrada
texto = "Esta é uma frase de exemplo contendo a palavra 'exemplo'."

# Compile o padrão regex
padrao = re.compile(r'exemplo')

# Procure pelo padrão na string
correspondencia = padrao.search(texto)

# Se houver correspondência, imprima a correspondência
if correspondencia:
    print("Encontrado:", correspondencia.group())
else:
    print("Padrão não encontrado.")

Encontrado: exemplo


In [19]:
resultado = len(re.findall("@", text))
re.findall("@", text)

NameError: name 'text' is not defined

In [None]:
text = "Meu e-mail é prisciladalepiane@gmail.com e vc pode me contatar em prisciladalepiane@outlook.com"

In [None]:
print("O caracter @ apareceu", resultado, "vezes no texto")

O caracter @ apareceu 2 vezes no texto


In [None]:
# encontrar uma palavra que precede outra
palavra = re.findall(r'é (\w+)', text)
palavra

['prisciladalepiane']

In [None]:
palavra[0]

'prisciladalepiane'

In [None]:
# encontrar uma palavra que precede outra sem espaço
re.findall(r'@(\w+)', text)

['gmail', 'outlook']

In [None]:
re.findall(r'@(\w)', text)

['g', 'o']

Nota: O **r** antes da string que apresenta a expressão regular em Python é usada para indicar que a string é uma literal raw. Isso significa que as barras invertidas () não são interpretadas como caracteres de escape, mas são incluídas na expressão regular como parte do padrão.

In [None]:
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Z|a-z]{2,}\b', text)
emails

['prisciladalepiane@gmail', 'prisciladalepiane@outlook']

In [20]:
texto = 'Vagarosa e elegantemente caminhava aquela garota'
re.finditer("a", texto)

<callable_iterator at 0x14db1532850>

In [21]:
posicoes = [match.start() for match in re.finditer("a", texto)]
posicoes

[1, 3, 7, 15, 26, 31, 33, 35, 40, 43, 47]

In [22]:
len(posicoes)

11

In [None]:
for m in re.finditer(r'\w+mente\b', texto):
    print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))

11-24: elegantemente


In [None]:
musica = '''29
            Petal on the vine
            Too young to drink wine
            Just five years a bleeder
            Student and a teacher
            Far from innocent
            What the fuck's consent?
            Numbers told you not to
            But that didn't stop you

            Finally 29
            Funny just like you were at the time
            Thought it was a teenage dream
            Just a fantasy
            But was it yours or was it mine?
            17
            29

            Had me in your grip
            Went beautifully with
            All my daddy issues
            And this shit continues

            I see yothisu're quite the collector
            Yeah you're twelve years her elder
            Maybe now it doesn't matter
            But I know fucking better!
            Now I know fucking better!
            'Cause I'm
            Finally 29
    
            ''' 

In [None]:
# Quantas vezes aparece a letra a 
len(re.findall("a", musica))

29

In [None]:
# Quantas vezes aparece a letra 29
len(re.findall("a", musica))
len(re.findall("29", musica))

4

In [None]:
#Consultar palavras que terminam com interrogação "?"
match = re.findall(r"\b\w+\?", musica)

match

['consent?', 'mine?']

In [None]:
#Consultar palavras que terminam com "!"
match = re.findall(r"\b\w+!", musica)

match

['better!', 'better!']

In [None]:
# Criando um regex que acha uma palavra no meio de duas 
re.findall(r"(?<=know\s)(\w+)(?=\sbetter)", musica)

['fucking', 'fucking', 'fucking']

In [None]:
re.findall(r"know\s(\w+)\sbetter", musica)
re.findall(r"this\s(\w+)\scontinue", musica)

['shit']

In [None]:
re.findall(r"\sknow\s(\w+)\sbetter", musica)

['fucking', 'fucking']

In [None]:
texto = "constantemente mente mentes mente"

len(re.findall("\smente\d", texto))


0