## **Expressões Regulares**

> Expressões regulares são padrões usados para combianr ou encontrar ocorrências de sequências de caracteres em uma string; Em Python, são geralmente usadas para manipular strings e realizar tarefas como validação de entrada de dados, extração de informações de strings e substituição de texto.

In [1]:
import re

In [2]:
texto = "Meu e-mail é exemplo@gmail.com e você pode me contatar em outro_email@yahoo.com"

In [3]:
#Expressão regular para contar quantas vezes o caracter arroba aparece no texto
resultado = len(re.findall("@", texto))

In [4]:
print("O caractere '@' apareceu", resultado, "vezes no texto.")

O caractere '@' apareceu 2 vezes no texto.


In [8]:
#Expressão regular para extrair a palavra que aparece após a palavra você em um texto
resultado = re.findall(r'você (\w+)', texto)

In [9]:
print("A palavra após 'você' é:", resultado[0])

A palavra após 'você' é: pode


> O r antes da string que representa a expressão regular em Python é usado para indicar que a string é uma string literal raw. Isso significa que as barras invertidas () não são interpretadas como caracteres de escape, mas são incluídas na expressão regular como parte do padrão

In [10]:
#Expressão regular para extrair endereços de e-mail de uma string
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9._%+-]+\.[A-Z|a-z]{2,}\b', texto)

In [11]:
print(emails)

['exemplo@gmail.com', 'outro_email@yahoo.com']


In [12]:
text = "O aluno estava incrivelmente perdido, mas encontrou a DSA e rapidamente começou a aprender"

In [13]:
#Extraindo os advérbios da frase
for m in re.finditer(r"\w+mente\b", text):
    print("%02d-%02d: %s" % (m.start(), m.end(), m.group()))

15-28: incrivelmente
60-71: rapidamente


## **Sequências especiais**
<ol type="I"><h3>Carácteres</h3>
<li> "\A" -> Retorna se o caracter está no começo da string
<li> "\b" -> Retorna onde o caracter está no começo ou final de uma palavra
<li> "\B" -> Retorna onde o caracter está, mas não no começo ou final de uma palavra
<li> "\d" -> Retorna onde a string contém digitos (0-9)
<li> "\D" -> Retorna onde a string não contém digitos
<li> "\s" -> Retorna onde a string contém um espaço em branco
<li> "\S" -> Retorna onde a string não contém um espaço em branco 
<li> "\w" -> Retorna onde a string contém qualquer palavra (caracteres de a até Z, digitos de 0-9 e o caracter _)
<li> "\W" -> Retorna onde a string não contém qualquer palavra
<li> "\Z" -> Retorna se o caracter está no final da string

>Uso do **\A**

In [65]:
#Uso do \A
import re
txt = "The rain in Spain"
x = re.findall(r"\AThe", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")


['The']
Possui o valor


>Uso do **\b**

In [64]:
#Uso do \b
#Checa se "ain" está presente no começo de uma palavra
txt = "The rain in Spain"
x = re.findall(r"\bain", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")


[]
Não possui o valor


In [63]:
#Checa se "ain" está no final de uma palavra
x = re.findall(r"ain\b", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")

['ain', 'ain']
Possui o valor


>Uso do **\B**

In [66]:
#Uso do \B
txt = "The rain in Spain"
#Checa se "ain" está presente, mas não no começo de uma palavra:
x = re.findall(r"\Bain", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")


['ain', 'ain']
Possui o valor


In [69]:
#Checa se "ain" está presente, mas não no final de uma palavra:
x = re.findall(r"ain\B", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")

[]
Não possui o valor


>Uso do **\d**

In [89]:
#Uso do \d
txt = "The rain in Spain"
#Checa se a string possui algum digito (Numeros entre 0 e 9):
x = re.findall(r"\d", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")

[]
Não possui o valor


In [76]:
txt = "The 5-day rain in 3 countries, including Spain"
#Checa se a string possui algum digito (Numeros entre 0 e 9):
x = re.findall(r"\d", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")

['5', '3']
Possui o valor


>Uso do **\D**

In [78]:
#Uso do \D
txt = "The rain in Spain"
#Retorna se a string não possui algum digito:
x = re.findall(r"\D", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")

['T', 'h', 'e', ' ', 'r', 'a', 'i', 'n', ' ', 'i', 'n', ' ', 'S', 'p', 'a', 'i', 'n']
Possui o valor


In [79]:
txt = "123456789"
#Retorna se a string não possui algum digito:
x = re.findall(r"\D", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")

[]
Não possui o valor


>Uso do **\s**

In [90]:
#Uso do \s
txt = "The rain in Spain"
#Retorna onde possui uma string vazia:
x = re.findall(r"\s", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")


[' ', ' ', ' ']
Possui o valor


In [82]:
txt = "The_rain_in_Spain"
#Retorna onde possui uma string vazia:
x = re.findall(r"\s", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")


[]
Não possui o valor


>Uso do **\S**

In [91]:
#Uso do \S
txt = "The rain in Spain"
#Retorna onde não possui uma string vazia:
x = re.findall(r"\S", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")

['T', 'h', 'e', 'r', 'a', 'i', 'n', 'i', 'n', 'S', 'p', 'a', 'i', 'n']
Possui o valor


In [85]:
txt = "   "
#Retorna onde não possui uma string vazia:
x = re.findall(r"\S", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")

[]
Não possui o valor


>Uso do **\w**

In [92]:
#Uso do \w
txt = "The rain in Spain"
#Retorna onde possui uma palavra
x = re.findall(r"\w", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")

['T', 'h', 'e', 'r', 'a', 'i', 'n', 'i', 'n', 'S', 'p', 'a', 'i', 'n']
Possui o valor


In [88]:
txt = "   "
#Retorna onde possui uma palavra
x = re.findall(r"\w", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")

[]
Não possui o valor


>Uso do **\W**

In [94]:
#Uso do \W
txt = "The rain in Spain"
#Retorna onde possui uma palavra
x = re.findall(r"\W", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")

[' ', ' ', ' ']
Possui o valor


In [99]:
#Uso do \W
txt = "The_rain_in_Spain"
#Retorna onde possui uma palavra
x = re.findall(r"\W", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")

[]
Não possui o valor


>Uso do **\Z**

In [101]:
#Uso do \Z
txt = "The rain in Spain"
#Checando se a string termina com "Spain":
x = re.findall(r"Spain\Z", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")

['Spain']
Possui o valor


In [102]:
txt = "The rain in Spain"
#Checando se a string termina com "Spain":
x = re.findall(r"Brazil\Z", txt)
print(x)
if x:
  print("Possui o valor")
else:
  print("Não possui o valor")

[]
Não possui o valor


## **REGEX com ChatGPT**

>Música: All Too Well
<br>Taylor Swift

In [14]:
#Variável do tipo string
musica = '''
I walked through the door with you, the air was cold
But something 'bout it felt like home somehow
And I, left my scarf there, at your sister's house
And you've still got it in your drawer, even now

Oh, your sweet disposition and my wide-eyed gaze
We're singing in the car, getting lost upstate
Autumn leaves falling down like pieces into place
And I can picture it after all these days

And I know it's long gone
And that magic's not here no more
And I might be okay
But I'm not fine at all

'Cause there we are again on that little town street
You almost ran the red 'cause you were lookin' over at me
Wind in my hair, I was there
I remember it all too well

Photo album on the counter, your cheeks were turning red
You used to be a little kid with glasses in a twin sized bed
And your mother's telling stories 'bout you on the Tee-ball team
You taught me 'bout your past, thinking your future was me

And I know it's long gone
And there was nothing else I could do
And I forget about you long enough
To forget why I needed to

'Cause there we are again, in the middle of the night
We're dancing 'round the kitchen in the refrigerator light
Down the stairs, I was there
I remember it all too well

And maybe we got lost in translation
Maybe I asked for too much
But maybe this thing was a masterpiece 'til you tore it all up
Running scared, I was there
I remember it all too well

And you call me up again just to break me like a promise
So casually cruel in the name of being honest
I'm a crumpled up piece of paper lying here
'Cause I remember it all, all, all
Too well

Time won't fly, it's like I'm paralysed by it
I'd like to be my old self again
But I'm still trying to find it
After plaid shirt days and nights when you made me your own
Now you mail back my things and I walk home alone

But you keep my old scarf from that very first week
'Cause it reminds you of innocence and it smells like me
You can't get rid of it
'Cause you remember it all too well

'Cause there we are again, when I loved you so
Back before you lost the one real thing you've ever known
It was rare, I was there
I remember it all too well

Wind in my hair, you were there
You remember it all
Down the stairs, you were there
You remember it all
It was rare, I was there
I remember it all too well
'''

In [15]:
print(musica)


I walked through the door with you, the air was cold
But something 'bout it felt like home somehow
And I, left my scarf there, at your sister's house
And you've still got it in your drawer, even now

Oh, your sweet disposition and my wide-eyed gaze
We're singing in the car, getting lost upstate
Autumn leaves falling down like pieces into place
And I can picture it after all these days

And I know it's long gone
And that magic's not here no more
And I might be okay
But I'm not fine at all

'Cause there we are again on that little town street
You almost ran the red 'cause you were lookin' over at me
Wind in my hair, I was there
I remember it all too well

Photo album on the counter, your cheeks were turning red
You used to be a little kid with glasses in a twin sized bed
And your mother's telling stories 'bout you on the Tee-ball team
You taught me 'bout your past, thinking your future was me

And I know it's long gone
And there was nothing else I could do
And I forget about you long en

>1- Crie um REGEX para contar quantas vezes o caracter "a" aparece em todo o texto da música
<br>2- Crie um REGEX em Python para contar quantas vezes a palavra "well" aparece na música
<br>3- Crie um REGEX em Python para extrair as palavras seguidas por vírgula
<br>4- Crie um REGEX que extrai qualquer palavra cujo antecessor seja a palavra "all" e o sucessor seja a palavra "well" em um texto
<br>5- Crie um REGEX que retorne as palavras com apóstrofo, mas somente os caracteres na palavra que são anteriores ao apóstrofo

<li>Solução para 1

In [16]:
import re

def count_a(text):
    # Cria um padrão regex para encontrar todas as ocorrências de "a"
    pattern = r'a'
    # Usa findall para encontrar todas as ocorrências e retorna o comprimento da lista resultante
    return len(re.findall(pattern, text))
quantidade_a = count_a(musica)
print(f'O caractere "a" aparece {quantidade_a} vezes no texto.')


O caractere "a" aparece 119 vezes no texto.


Também pode ser solucionado da seguinte forma (lembre-se que sempre vão haver muitas soluções para o mesmo problema)

In [18]:
match = re.findall("a", musica)
count = len(match)
print(f'O caractere "a" aparece {count} vezes no texto.')

O caractere "a" aparece 119 vezes no texto.


In [20]:
print("O caractere 'a' apareceu", len(re.findall("a", musica)), "vezes na musica")

O caractere 'a' apareceu 119 vezes na musica


<li> Solução para 2

In [22]:
import re
def count_well(text):
    #Cria um padrão regex para encontrar a palavra "well"
    pattern = r'\bwell\b'
    #Usa findall para encontrar todas as ocorrências e retorna o comprimento da lista resultante
    #Usa IGNORECASE para garantir que a busca seja case-insensitive
    return len(re.findall(pattern, text, re.IGNORECASE))
quantidade_well = count_well(musica)
print(f'A palavra "well" aparece {quantidade_well} vezes no texto.')



A palavra "well" aparece 7 vezes no texto.


In [29]:
match = re.findall(r"\bwell\b", musica, re.IGNORECASE)
count = len(match)
print(f'A palavra "well" aparece {count} vezes no texto.')

A palavra "well" aparece 7 vezes no texto.


In [28]:
print("A palavra 'well' aparece", len(re.findall("well", musica, re.IGNORECASE)), "na musica")

A palavra 'well' aparece 7 na musica


<li> Solução para 3

In [30]:
import re

def extract_words_followed_by_comma(text):
    # Cria um padrão regex para encontrar palavras seguidas por uma vírgula
    pattern = r'\b(\w+),'
    # Usa findall para encontrar todas as ocorrências
    return re.findall(pattern, text)
palavras_seguidas_por_virgula = extract_words_followed_by_comma(musica)
print(f'Palavras seguidas por vírgula: {palavras_seguidas_por_virgula}')


Palavras seguidas por vírgula: ['you', 'I', 'there', 'drawer', 'Oh', 'car', 'hair', 'counter', 'past', 'again', 'stairs', 'scared', 'all', 'all', 'fly', 'again', 'rare', 'hair', 'stairs', 'rare']


In [34]:
match = re.findall(r"\b(\w+),", musica)
print(f'Palavras seguidas por vírgula: {match}')


Palavras seguidas por vírgula: ['you', 'I', 'there', 'drawer', 'Oh', 'car', 'hair', 'counter', 'past', 'again', 'stairs', 'scared', 'all', 'all', 'fly', 'again', 'rare', 'hair', 'stairs', 'rare']


In [49]:
print("Palavras seguidas por vírgula: ", re.findall(r"\b(\w+),", musica))

Palavras seguidas por vírgula:  ['you', 'I', 'there', 'drawer', 'Oh', 'car', 'hair', 'counter', 'past', 'again', 'stairs', 'scared', 'all', 'all', 'fly', 'again', 'rare', 'hair', 'stairs', 'rare']


<li>Solução para 4

In [42]:
import re

def extract_word_between_all_and_well(text):
    # Cria um padrão regex para encontrar uma palavra entre "all" e "well"
    pattern = r'(?<=\ball\s)(\w+)(?=\swell\b)'
    # Usa findall para encontrar todas as ocorrências
    return re.findall(pattern, text)
match = extract_word_between_all_and_well(musica)
print(f'Palavras entre "all" e "well": {match}')


Palavras entre "all" e "well": ['too', 'too', 'too', 'Too', 'too', 'too', 'too']


In [43]:
match = re.findall(r"(?<=\ball\s)(\w+)(?=\swell\b)", musica)
print(f'Palavras entre "all" e "well": {match}')


Palavras entre "all" e "well": ['too', 'too', 'too', 'Too', 'too', 'too', 'too']


In [44]:
print("Palavras seguidas por vírgula: ", re.findall(r"(?<=\ball\s)(\w+)(?=\swell\b)", musica))

Palavras seguidas por vírgula:  ['too', 'too', 'too', 'Too', 'too', 'too', 'too']


In [47]:
import re

def extract_words_before_apostrophe(text):
    # Cria um padrão regex para encontrar palavras com apóstrofo e capturar apenas os caracteres antes do apóstrofo
    pattern = r"\b(\w+)'"
    # Usa findall para encontrar todas as ocorrências
    return re.findall(pattern, text)
match = extract_words_before_apostrophe(musica)
print(f'Palavras antes do apóstrofo: {match}')


Palavras antes do apóstrofo: ['sister', 'you', 'We', 'it', 'magic', 'I', 'lookin', 'mother', 'it', 'We', 'I', 'won', 'it', 'I', 'I', 'I', 'can', 'you']


In [51]:
match = re.findall(r"\b(\w+)'", musica)
print(f'Palavras antes do apóstrofo: {match}')

Palavras antes do apóstrofo: ['sister', 'you', 'We', 'it', 'magic', 'I', 'lookin', 'mother', 'it', 'We', 'I', 'won', 'it', 'I', 'I', 'I', 'can', 'you']


In [52]:
print("Palavras antes do apóstrofo: ", re.findall(r"\b(\w+)'", musica))

Palavras antes do apóstrofo:  ['sister', 'you', 'We', 'it', 'magic', 'I', 'lookin', 'mother', 'it', 'We', 'I', 'won', 'it', 'I', 'I', 'I', 'can', 'you']
