<a href="https://colab.research.google.com/github/gomesluiz/pln-na-pratica/blob/main/02-expressoes-regulares.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Expressões Regulares

Para trabalhar com expressões regulares em Python, utilizamos o módulo **re**, que oferece uma ampla gama de funcionalidades para processamento de texto. Este módulo inclui métodos poderosos para a busca e manipulação de padrões em strings, facilitando tarefas complexas de análise de texto de maneira eficiente e eficaz. Vamos aprender como essas tarefas podem ser aplicadas em diferentes contextos de programação.

## Métodos de pesquisa

|   Método   |                                      Descrição                                     |
|:----------:|:----------------------------------------------------------------------------------:|
| match()    | Determina se a RE combina com o início da string.                                  |
| search()   | Varre toda a string, procurando qualquer local onde esta RE tem correspondência.   |
| findall()  | Encontra todas as substrings onde a RE corresponde, e as retorna como uma lista.   |
| finditer() | Encontra todas as substrings onde a RE corresponde, e as retorna como um iterador. |

## Métodos para modificar strings

| Método  | Descrição                                                                                            |
|---------|------------------------------------------------------------------------------------------------------|
| split() | Divide a string em uma lista, dividindo-a onde quer que haja correspondência com a RE                |
| sub()   | Encontra todas as substrings que correspondem com a RE e faz a substituição por uma string diferente |
| subn()  |  É o mesmo que o método sub(), mas retorna a nova string e o número de substituições                 |

<br/>
Para explorar todas as funcionalidades da biblioteca re, acesse a documentação oficial pelo link: [Documentação da biblioteca re - Python 3.10](https://docs.python.org/pt-br/3.10/howto/regex.html). Em seguida, vamos demonstrar o uso prático dos principais métodos fornecidos por esta biblioteca, proporcionando exemplos claros e úteis que podem ser aplicados em diversos contextos de programação, para que você possa integrar eficientemente expressões regulares em seus projetos.



In [9]:
# Declara define funções utilitárias utilizadas no notebook.
import datetime
import sys
def formata_msg(nivel, msg):
    """
    Formata uma mensagem de log incluindo o nível de severidade, timestamp
    e a mensagem.

    Parâmetros:
    - nivel (str): Nível de severidade da mensagem (ex: 'INFO', 'ERROR', 'WARNING').
    - msg (str): A mensagem de log propriamente dita.

    Retorna:
    - str: A mensagem de log formatada.
    """
    timestamp = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')

    return f"[{nivel}] {timestamp} - {msg}"

print(formata_msg("INFO", "Funções utilitárias prontas para utilização."))
print(formata_msg("INFO", f"Versão do Python: {sys.version} "))

[INFO] 2024-02-17 18:12:16 - Funções utilitárias prontas para utilização.
[INFO] 2024-02-17 18:12:16 - Versão do Python: 3.10.12 (main, Nov 20 2023, 15:14:05) [GCC 11.4.0] 


In [5]:
# Importa módulos essenciais para funcionalidades do notebook.
import re
import datetime

In [None]:
texto = "Vamos encontrar Padrões nesta string!! \nAgora é a nossa primeira prática de NLP!! Vamos aprender a procurar padrões!! \nBelo Horizonte, "+ str(datetime.datetime.now().date())+"."

In [104]:
texto = """Transferência recebida de JOAO SILVA, conta 1234-5. Valor: R$1.500,00 em 2024-02-15.
Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor: R$800,00 em 2024-02-16.
Depósito recebido, conta 5432-1. Valor: R$3.200,00 em 2024-02-17."""

In [105]:
print(texto)

Transferência recebida de JOAO SILVA, conta 1234-5. Valor: R$1.500,00 em 2024-02-15.
Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor: R$800,00 em 2024-02-16.
Depósito recebido, conta 5432-1. Valor: R$3.200,00 em 2024-02-17.


## Match
Determina se a RE combina com o início da string

In [63]:
padrao = r"transferência recebida"
resultado = re.match(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[ERRO] 2024-02-17 18:57:16 - Padrão 'transferência recebida', não encontrado.


In [64]:
padrao = r"[Tt]ransferência recebida"
resultado = re.match(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-02-17 18:57:19 - Padrão '[Tt]ransferência recebida', encontrado: Transferência recebida


In [65]:
padrao = r"(Transferência|transferência)"
resultado = re.match(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-02-17 18:58:45 - Padrão '(Transferência|transferência)', encontrado: Transferência


In [69]:
padrao = r"transferência recebida"
compilado = re.compile(padrao, re.IGNORECASE)
resultado = compilado.match(texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-02-17 19:04:37 - Padrão 'transferência recebida', encontrado: Transferência recebida


## Search
Varre toda a string, procurando qualquer local onde esta RE tem correspondência

In [77]:
padrao = r"pagamento CONFIRMADO"
compilado = re.compile(padrao, re.IGNORECASE)
resultado = compilado.search(texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-02-17 19:10:46 - Padrão 'pagamento CONFIRMADO', encontrado: Pagamento confirmado


## Findall
Encontra todas as substrings onde a RE corresponde, e as retorna como uma lista

In [81]:
padrao = r"conta"
resultado = re.findall(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-02-17 19:13:10 - Padrão 'conta', encontrado: ['conta', 'conta']


In [82]:
padrao = r"conta"
resultado = re.findall(padrao, texto, re.I)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-02-17 19:13:33 - Padrão 'conta', encontrado: ['conta', 'Conta', 'conta']


In [87]:
#quando uso o + o padrão é 1 ou mais. Assim todas string que tem a no meio de outras letras  são retornadas
padrao = r"\w+A\w+"
resultado = re.findall(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-02-17 19:17:34 - Padrão '\w+A\w+', encontrado: ['JOAO']


In [90]:
#quando uso o + o padrão é 1 ou mais. Assim todas string que tem a no meio de outras letras  são retornadas
padrao = r"\w+a\w+"
resultado = re.findall(padrao, texto, re.I)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-02-17 19:19:17 - Padrão '\w+a\w+', encontrado: ['Transferência', 'JOAO', 'Valor', 'Pagamento', 'confirmado', 'para', 'Valor', 'Valor']


In [91]:
#quando uso o * o padrão é 0 ou mais. Assim todas string que tem a no meio, ou no início ou no fim são retornadas
padrao = r"\w*a\w*"
resultado = re.findall(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-02-17 19:19:23 - Padrão '\w*a\w*', encontrado: ['Transferência', 'recebida', 'conta', 'Valor', 'Pagamento', 'confirmado', 'para', 'Conta', 'Valor', 'conta', 'Valor']


## Finditer
Encontra todas as substrings onde a RE corresponde, e as retorna como um iterador.

In [101]:
padrao = r"\w+m\w+"
resultado = re.finditer(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado:\n"))
    for token in resultado:
      print(f"{token.group()}")
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-02-17 19:24:56 - Padrão '\w+m\w+', encontrado:

Pagamento
confirmado


## Split

In [125]:
separado = "\n"
resultado = re.split('\n',texto)
print(formata_msg("INFO", f"Lista de tokens:"))
for ii, token in enumerate(resultado):
      print(f"{ii+1} - {token}")

[INFO] 2024-02-17 19:37:20 - Lista de tokens:
1 - Transferência recebida de JOAO SILVA, conta 1234-5. Valor: R$1.500,00 em 2024-02-15.
2 - Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor: R$800,00 em 2024-02-16.
3 - Depósito recebido, conta 5432-1. Valor: R$3.200,00 em 2024-02-17.


In [126]:
separador = "\s+"
resultado = texto.split(separador)
print(formata_msg("INFO", f"Lista de tokens:"))
for ii, token in enumerate(resultado):
      print(f"{ii+1} - {token}")

[INFO] 2024-02-17 19:37:23 - Lista de tokens:
1 - Transferência recebida de JOAO SILVA, conta 1234-5. Valor: R$1.500,00 em 2024-02-15.
Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor: R$800,00 em 2024-02-16.
Depósito recebido, conta 5432-1. Valor: R$3.200,00 em 2024-02-17.


In [128]:
separador = "\s+"
resultado = re.split(separador, texto)
print(formata_msg("INFO", f"Lista de tokens:"))
for ii, token in enumerate(resultado):
      print(f"{ii+1} - {token}")

[INFO] 2024-02-17 19:38:20 - Lista de tokens:
1 - Transferência
2 - recebida
3 - de
4 - JOAO
5 - SILVA,
6 - conta
7 - 1234-5.
8 - Valor:
9 - R$1.500,00
10 - em
11 - 2024-02-15.
12 - Pagamento
13 - confirmado
14 - para
15 - ALUGUEL,
16 - Conta
17 - 6789-0.
18 - Valor:
19 - R$800,00
20 - em
21 - 2024-02-16.
22 - Depósito
23 - recebido,
24 - conta
25 - 5432-1.
26 - Valor:
27 - R$3.200,00
28 - em
29 - 2024-02-17.


## Sub

In [134]:
re.sub(r'R\$', '(BRL)', texto)

'Transferência recebida de JOAO SILVA, conta 1234-5. Valor: (BRL)1.500,00 em 2024-02-15.\nPagamento confirmado para ALUGUEL, Conta 6789-0. Valor: (BRL)800,00 em 2024-02-16.\nDepósito recebido, conta 5432-1. Valor: (BRL)3.200,00 em 2024-02-17.'

## Subn

In [139]:
resultado, num_substituicoes = re.subn('R\$', '(BRL)', texto)
print(f"Texto modificado:\n{resultado}")
print(f"\nNúmero de substituições: {num_substituicoes}")

Texto modificado:
Transferência recebida de JOAO SILVA, conta 1234-5. Valor: (BRL)1.500,00 em 2024-02-15.
Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor: (BRL)800,00 em 2024-02-16.
Depósito recebido, conta 5432-1. Valor: (BRL)3.200,00 em 2024-02-17.

Número de substituições: 3


# Exercícios

1. Escreva uma expressão regular para verificar se uma string contém apenas um determinado conjunto de caracteres (neste caso, a-z, A-Z e 0-9).

In [140]:
# A expressão regular para verificar o conjunto de caracteres
padrao = r'^[a-zA-Z0-9]+$'

# Duas strings de teste
string1 = "ABCDEFabcdef123450"
string2 = "*&%@#!}{"

# Testando a primeira string
if re.match(padrao, string1):
    print(f"'{string1}' contém apenas caracteres permitidos.")
else:
    print(f"'{string1}' contém caracteres não permitidos.")

# Testando a segunda string
if re.match(padrao, string2):
    print(f"'{string2}' contém apenas caracteres permitidos.")
else:
    print(f"'{string2}' contém caracteres não permitidos.")

'ABCDEFabcdef123450' contém apenas caracteres permitidos.
'*&%@#!}{' contém caracteres não permitidos.


2. Escreva uma expressão regular que corresponda a uma sequência que tenha um a seguido por zero ou mais b's.

In [144]:
# As strings de teste
string1 = "abc"
string2 = "aacb"
string3 = "abbc"
string4 = "bb"

strings = [string1, string2, string3, string4]

# A expressão regular para corresponder a um 'a' seguido por zero ou mais 'b's
padrao = r"ab*"

# Testando cada string com o padrão
for string in strings:
    if re.search(padrao, string):
        print(f"'{string}' corresponde ao '{padrao}'.")
    else:
        print(f"'{string}' NÃO corresponde ao '{padrao}'.")

'abc' corresponde ao 'ab*'.
'aacb' corresponde ao 'ab*'.
'abbc' corresponde ao 'ab*'.
'bb' NÃO corresponde ao 'ab*'.


3. Escreva um expressão regular que corresponda a uma sequência que tenha um a seguido por um ou mais b's.

In [145]:
# A expressão regular para corresponder a um 'a' seguido por zero ou mais 'b's
padrao = r"ab+"

# Testando cada string com o padrão
for string in strings:
    if re.search(padrao, string):
        print(f"'{string}' corresponde ao '{padrao}'.")
    else:
        print(f"'{string}' NÃO corresponde ao '{padrao}'.")

'abc' corresponde ao 'ab+'.
'aacb' NÃO corresponde ao 'ab+'.
'abbc' corresponde ao 'ab+'.
'bb' NÃO corresponde ao 'ab+'.


4. Escreva uma expressão regular para converter uma data do formato aaaa-mm-dd para o formato dd-mm-aaaa.

In [146]:
# A expressão regular para capturar os componentes da data
padrao = r'(\d{4})-(\d{2})-(\d{2})'

# Função para converter o formato da data
def converter_formato_data(data):
    # Substituindo e reorganizando os grupos capturados
    return re.sub(padrao, r'\3-\2-\1', data)

# Datas de teste
data1 = "2026-01-02"
data2 = "26-01-02"  # Esta data não está no formato aaaa-mm-dd, então o padrão não se aplica

# Convertendo as datas
data1_convertida = converter_formato_data(data1)
data2_convertida = converter_formato_data(data2)

# Imprimindo os resultados
print(f"Data original: {data1}, Data convertida: {data1_convertida}")
print(f"Data original: {data2}, Data convertida: {data2_convertida}")

Data original: 2026-01-02, Data convertida: 02-01-2026
Data original: 26-01-02, Data convertida: 26-01-02


5. Escreva uma expressão para dividir uma string em letras maiúsculas

In [151]:
import re

# A string de teste
string = "PagamentoConfirmadoNaDataDeVencimentoNoCcred"

# Dividindo a string em letras maiúsculas
# (?<!^): asserção de lookbehind negativa que garante que a posição para divisão
#         não seja no início da string.
# (?=[A-Z]): asserção de lookahead positiva que procura uma posição onde o próximo
#            caractere seja uma letra maiúscula de 'A' a 'Z'.
partes = re.split(r'(?<!^)(?=[A-Z])', string)

# Imprimindo o resultado
print(partes)

['Pagamento', 'Confirmado', 'Na', 'Data', 'De', 'Vencimento', 'No', 'Ccred']


6. Escreva uma expressão regular para remover a área de parênteses em uma string


- Amostra de Entrada:
> * ["example (.br)", "w3resource", "github (.com)", "stackoverflow (.com)"] </br>
* Saída Esperada:
> * example
> * w3resource
> * github
> * stackoverflow

In [152]:
# Lista de strings de entrada
entradas = ["example (.br)", "w3resource", "github (.com)", "stackoverflow (.com)"]

# Expressão regular para remover o conteúdo e os parênteses
padrao = r'\s*\([^)]*\)'

# Removendo as áreas de parênteses e imprimindo a saída
saidas = [re.sub(padrao, '', entrada) for entrada in entradas]
print(saidas)


['example', 'w3resource', 'github', 'stackoverflow']


7. Escreva um programa para quebrar um texto em sentenças

In [153]:
# A string de entrada
texto = "Vamos encontrar Padrões nesta string!! Agora é a nossa primeira prática de NLP!! Vamos aprender a procurar padrões!! Belo Horizonte 2020."

# Expressão regular para dividir o texto em sentenças baseando-se apenas em pontos, exclamações e interrogações
padrao = r'[.!?]\s+'

# Dividindo o texto em sentenças
sentencas = re.split(padrao, texto)

# Imprimindo as sentenças
for sentenca in sentencas:
    print(sentenca)

Vamos encontrar Padrões nesta string!
Agora é a nossa primeira prática de NLP!
Vamos aprender a procurar padrões!
Belo Horizonte 2020.


8. Escreva um código para remover os zeros iniciais do IP 216.08.094.196

In [None]:
ip = "216.08.094.196"

In [156]:
ip = "216.08.094.196"

# Dividindo o IP em seus componentes
partes = ip.split('.')

# Removendo os zeros iniciais de cada parte e garantindo que partes vazias sejam '0'
partes_sem_zeros = [parte.lstrip('0') or '0' for parte in partes]

# Juntando as partes de volta em um IP
ip_sem_zeros = '.'.join(partes_sem_zeros)

print(ip_sem_zeros)




216.8.94.196


9. Recupere todos os "Twitter" da string abaixo

In [None]:
texto_exemplo_twitter = """This is a @test of some cool features that @mi_asd be @use-ful but @don't. look at this email@address.com. @bla! I like #nylas but I don't like to go to this apple.com?a#url. I also don't like the ### comment blocks. But #msft is cool."""
texto_exemplo_twitter

"This is a @test of some cool features that @mi_asd be @use-ful but @don't. look at this email@address.com. @bla! I like #nylas but I don't like to go to this apple.com?a#url. I also don't like the ### comment blocks. But #msft is cool."

In [None]:
import re

# O texto de exemplo
texto_exemplo_twitter = """This is a @test of some cool features that @mi_asd be @use-ful but @don't. look at this email@address.com. @bla! I like #nylas but I don't like to go to this apple.com?a#url. I also don't like the ### comment blocks. But #msft is cool."""

# A expressão regular para encontrar menções do Twitter
padrao_twitter = r'\B@\w+'

# Encontrando todas as menções do Twitter no texto
mensoes_twitter = re.findall(padrao_twitter, texto_exemplo_twitter)

print(mensoes_twitter)


10. Escreva uma expressão regular para remover as urls do texto:

- Para realizar pesquisas de artigos acadêmicos use o Google Scholar: https://scholar.google.com.br/
- Sempre mantenha seu linkedin atualizado: https://www.linkedin.com/

In [158]:
import re

# O texto fornecido
texto = """Para realizar pesquisas de artigos acadêmicos use o Google Scholar: https://scholar.google.com.br/
Sempre mantenha seu linkedin atualizado: https://www.linkedin.com/"""

# A expressão regular para encontrar URLs
padrao_url = r'https?://\S+'

# Encontrando todas as URLs no texto
urls = re.findall(padrao_url, texto)

# Imprimindo as URLs encontradas
for url in urls:
    print(url)


https://scholar.google.com.br/
https://www.linkedin.com/
