<a href="https://colab.research.google.com/github/gomesluiz/pln-na-pratica/blob/main/02-expressoes-regulares.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Expressões Regulares

No Python, o módulo re é a ferramenta essencial para quem deseja explorar as expressões regulares, um recurso potente para o processamento e análise de textos. Com funcionalidades diversificadas, esse módulo permite identificar, buscar e alterar padrões específicos dentro de strings, simplificando análises textuais que, de outra forma, seriam complexas e demoradas. Neste guia, exploraremos como essas capacidades se traduzem em soluções práticas para desafios comuns no universo da programação.

## Métodos de pesquisa

|   Método   |                                      Descrição                                     |
|:----------|:----------------------------------------------------------------------------------|
| match()    | Verifica se a expressão regular (RE) corresponde ao início da string.                                  |
| search()   | Varre toda a string, procurando qualquer local onde esta expressão regular corresponda.   |
| findall()  |Encontra todas as substrings onde a expressão regular corresponde e retorna-as em uma lista.  |
| finditer() | Encontra todas as substrings em que a expressão regular corresponde e as retorna como um iterador. |

## Métodos para modificar strings

| Método  | Descrição                                                                                            |
|---------|------------------------------------------------------------------------------------------------------|
| split() | Divide a string em uma lista, separando-a nos pontos onde ocorre uma correspondência com a expressão regular.                |
| sub()   | Encontra todas as substrings que correspondem à expressão regular e as substitui por uma string diferente. |
| subn()  |  Funciona de forma semelhante ao método sub(), mas retorna a nova string e o número de substituições feitas.                 |

In [30]:
# Declara define funções utilitárias utilizadas no notebook.
import datetime
import sys
def formata_msg(nivel, msg):
    """
    Formata uma mensagem de log incluindo o nível de severidade, timestamp
    e a mensagem.

    Parâmetros:
    - nivel (str): Nível de severidade da mensagem (ex: 'INFO', 'ERROR', 'WARNING').
    - msg (str): A mensagem de log propriamente dita.

    Retorna:
    - str: A mensagem de log formatada.
    """
    timestamp = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')

    return f"[{nivel}] {timestamp} - {msg}"

print(formata_msg("INFO", "Funções utilitárias prontas para utilização."))
print(formata_msg("INFO", f"Versão do Python: {sys.version} "))

[INFO] 2024-03-11 03:16:16 - Funções utilitárias prontas para utilização.
[INFO] 2024-03-11 03:16:16 - Versão do Python: 3.10.12 (main, Nov 20 2023, 15:14:05) [GCC 11.4.0] 


In [31]:
# Importa módulos essenciais para funcionalidades do notebook.
import re

In [32]:
texto = """Transferência recebida de JOAO SILVA, conta 1234-5. Valor: R$1.500,00 em 2024-02-15.
Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor: R$800,00 em 2024-02-16.
Depósito recebido, conta 5432-1. Valor: R$3.200,00 em 2024-02-17."""

In [34]:
print(formata_msg("INFO",f"\n{texto}"))

[INFO] 2024-03-11 03:16:32 - 
Transferência recebida de JOAO SILVA, conta 1234-5. Valor: R$1.500,00 em 2024-02-15.
Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor: R$800,00 em 2024-02-16.
Depósito recebido, conta 5432-1. Valor: R$3.200,00 em 2024-02-17.


## Método **match()**
O método **match()** é utilizado para verificar se uma expressão regular (RE) se alinha ao começo de uma determinada string. Esse recurso é especialmente útil em situações onde a correspondência no início do texto é esseencial para a validação ou análise dos dados em questão.

In [35]:
# A letra 'r' antes da string indica uma "raw string", tratando caracteres de
# escape como caracteres comuns, útil em expressões regulares.
padrao = r"transferência recebida"
resultado = re.match(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[ERRO] 2024-03-11 03:23:52 - Padrão 'transferência recebida', não encontrado.


In [36]:
padrao = r"[Tt]ransferência recebida"
resultado = re.match(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-03-11 03:23:56 - Padrão '[Tt]ransferência recebida', encontrado: Transferência recebida


In [37]:
padrao = r"(Transferência|transferência)"
resultado = re.match(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-03-11 03:24:11 - Padrão '(Transferência|transferência)', encontrado: Transferência


In [38]:
padrao = r"transferência recebida"
compilado = re.compile(padrao, re.IGNORECASE)
resultado = compilado.match(texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-03-11 03:24:20 - Padrão 'transferência recebida', encontrado: Transferência recebida


## Método **search()**
O método **search()** examina minuciosamente cada segmento da string para identificar pontos onde a expressão regular fornecida encontra correspondência. Diferente de match(), que se limita ao início da string, search() abrange a totalidade do texto, aumentando as chances de detecção de correspondências relevantes.

In [39]:
padrao = r"pagamento CONFIRMADO"
compilado = re.compile(padrao, re.IGNORECASE)
resultado = compilado.search(texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-03-11 03:26:56 - Padrão 'pagamento CONFIRMADO', encontrado: Pagamento confirmado


## Método **findall()**
O método **findall()** realiza uma busca completa na string, identificando todas as substrings que se alinham com a expressão regular especificada. Cada correspondência encontrada é então agregada e apresentada em uma lista, facilitando a análise e o manuseio subsequente desses trechos de texto.

In [40]:
padrao = r"conta"
resultado = re.findall(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-03-11 03:31:41 - Padrão 'conta', encontrado: ['conta', 'conta']


In [41]:
padrao = r"conta"
resultado = re.findall(padrao, texto, re.I)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-03-11 03:31:43 - Padrão 'conta', encontrado: ['conta', 'Conta', 'conta']


In [42]:
# A expressão regular \w+A\w+ busca por strings que tenham pelo menos um caractere
# alfanumérico seguido pela letra 'A' maiúscula e, em seguida, por pelo menos mais
# um caractere alfanumérico.
padrao = r"\w+A\w+"
resultado = re.findall(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-03-11 03:36:54 - Padrão '\w+A\w+', encontrado: ['JOAO']


In [43]:
# A expressão regular \w+a\w+ busca por strings que tenham pelo menos um caractere
# alfanumérico seguido pela letra 'a' maiúscula e, em seguida, por pelo menos mais
# um caractere alfanumérico.
padrao = r"\w+a\w+"
resultado = re.findall(padrao, texto, re.I)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-03-11 03:36:57 - Padrão '\w+a\w+', encontrado: ['Transferência', 'JOAO', 'Valor', 'Pagamento', 'confirmado', 'para', 'Valor', 'Valor']


In [44]:
# A expressão regular \w*a\w* procura por strings que contêm a letra 'a' minúscula,
# precedida e/ou seguida por qualquer número (incluindo zero) de caracteres alfanuméricos.
# Isso significa que a expressão pode corresponder a uma string que contém apenas 'a',
# ou 'a' com letras, dígitos, ou underscores em qualquer lado, como "ba", "1a3", ou
# simplesmente "a".
padrao = r"\w*a\w*"
resultado = re.findall(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-03-11 03:39:50 - Padrão '\w*a\w*', encontrado: ['Transferência', 'recebida', 'conta', 'Valor', 'Pagamento', 'confirmado', 'para', 'Conta', 'Valor', 'conta', 'Valor']


## Método **finditer()**
O método **finditer()** vasculha a string em busca de todas as ocorrências que se ajustam à expressão regular fornecida, disponibilizando os resultados através de um iterador. Essa abordagem otimiza o uso de recursos, pois permite o acesso sequencial às correspondências sem a necessidade de armazená-las todas simultaneamente na memória.

In [45]:
# A expressão regular \w*m\w+ corresponda a strings que contenham a letra 'm' minúscula,
# precedida por uma sequência de caracteres alfanuméricos de qualquer comprimento
# (incluindo nenhum) e seguida por pelo menos um caractere alfanumérico.
padrao = r"\w+m\w+"
resultado = re.finditer(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado:\n"))
    for token in resultado:
      print(f"{token.group()}")
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-03-11 03:43:46 - Padrão '\w+m\w+', encontrado:

Pagamento
confirmado


## Método **split()**
O método **split()** segmenta a string em várias partes, utilizando os pontos de correspondência com a expressão regular como divisores. O resultado é uma lista contendo as substrings resultantes dessa divisão, proporcionando uma maneira eficiente de desmembrar e analisar o texto com base em padrões específicos.

In [47]:
separador = r"\n"
resultado = re.split(separador,texto)
print(formata_msg("INFO", f"Resultado:"))
for ii, token in enumerate(resultado):
      print(f"{ii+1} - {token}")

[INFO] 2024-03-11 03:46:55 - Resultado:
1 - Transferência recebida de JOAO SILVA, conta 1234-5. Valor: R$1.500,00 em 2024-02-15.
2 - Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor: R$800,00 em 2024-02-16.
3 - Depósito recebido, conta 5432-1. Valor: R$3.200,00 em 2024-02-17.


In [26]:
separador = r"\s+"

# split() da biblioteca padrão do Python.
resultado = texto.split(separador)
print(formata_msg("INFO", f"Resultado:"))
for ii, token in enumerate(resultado):
      print(f"{ii+1} - {token}")

[INFO] 2024-03-11 02:39:05 - Lista de tokens:
1 - Transferência recebida de JOAO SILVA, conta 1234-5. Valor: R$1.500,00 em 2024-02-15.
Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor: R$800,00 em 2024-02-16.
Depósito recebido, conta 5432-1. Valor: R$3.200,00 em 2024-02-17.


In [48]:
# Define a expressão regular para um ou mais espaços em branco.
separador = "\s+"
resultado = re.split(separador, texto)
print(formata_msg("INFO", f"Resultado:"))
for ii, token in enumerate(resultado):
      print(f"{ii+1} - {token}")

[INFO] 2024-03-11 03:48:55 - Resultado:
1 - Transferência
2 - recebida
3 - de
4 - JOAO
5 - SILVA,
6 - conta
7 - 1234-5.
8 - Valor:
9 - R$1.500,00
10 - em
11 - 2024-02-15.
12 - Pagamento
13 - confirmado
14 - para
15 - ALUGUEL,
16 - Conta
17 - 6789-0.
18 - Valor:
19 - R$800,00
20 - em
21 - 2024-02-16.
22 - Depósito
23 - recebido,
24 - conta
25 - 5432-1.
26 - Valor:
27 - R$3.200,00
28 - em
29 - 2024-02-17.


## Método **sub()**
O método **sub()** busca por todas as instâncias dentro de uma string que se alinham com uma expressão regular e realiza a substituição dessas por uma nova string definida pelo usuário. Esse processo permite a alteração dinâmica de partes específicas do texto, facilitando correções, formatações ou adaptações de conteúdo de forma ágil e precisa.

In [50]:
re.sub(r"R\$", "(BRL)", texto)

'Transferência recebida de JOAO SILVA, conta 1234-5. Valor: (BRL)1.500,00 em 2024-02-15.\nPagamento confirmado para ALUGUEL, Conta 6789-0. Valor: (BRL)800,00 em 2024-02-16.\nDepósito recebido, conta 5432-1. Valor: (BRL)3.200,00 em 2024-02-17.'

## Método **subn()**
O método **subn()** oferece a mesma funcionalidade de substituição de substrings que correspondem a uma expressão regular, assim como sub(). A diferença reside no seu retorno, que inclui tanto a string resultante quanto a contagem exata das substituições efetuadas. Essa característica adicional proporciona uma visão quantitativa do impacto das alterações, permitindo um controle mais preciso sobre o processo de manipulação de texto.

In [58]:
resultado, num_substituicoes = re.subn('R\$', '(BRL)', texto)
print(formata_msg("INFO", f"Texto modificado:\n{resultado} \n\nNúmero de substituições: {num_substituicoes}"))

[INFO] 2024-03-11 03:59:14 - Texto modificado:
Transferência recebida de JOAO SILVA, conta 1234-5. Valor: (BRL)1.500,00 em 2024-02-15.
Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor: (BRL)800,00 em 2024-02-16.
Depósito recebido, conta 5432-1. Valor: (BRL)3.200,00 em 2024-02-17. 

Número de substituições: 3


# Aplicações de funções expressões regulares

####1. Escreva uma expressão regular para verificar se uma string contém apenas caracteres específicos (neste caso, a-z, A-Z e 0-9).

In [59]:
# A expressão regular ^[a-zA-Z0-9]+$ busca por strings que consistam exclusivamente
# de letras (maiúsculas ou minúsculas) e/ou números, do início ao fim da string, sem
# nenhum outro caractere (como espaços, símbolos ou pontuações). Isso significa que
# a expressão regular corresponderia a strings como "abc123", "Qwerty", ou "7890", mas
# não a "hello world" (por causa do espaço) ou "abc!" (por causa do ponto de exclamação).
padrao = r"^[a-zA-Z0-9]+$"

# Duas strings de teste
string1 = "ABCDEFabcdef123450"
string2 = "*&%@#!}{"

# Testando a primeira string
if re.match(padrao, string1):
    print(f"'{string1}' contém apenas caracteres permitidos.")
else:
    print(f"'{string1}' contém caracteres não permitidos.")

# Testando a segunda string
if re.match(padrao, string2):
    print(f"'{string2}' contém apenas caracteres permitidos.")
else:
    print(f"'{string2}' contém caracteres não permitidos.")

'ABCDEFabcdef123450' contém apenas caracteres permitidos.
'*&%@#!}{' contém caracteres não permitidos.


####2. Escreva uma expressão regular para converter datas do formato aaaa-mm-dd para dd-mm-aaaa.

In [64]:
# A expressão regular para capturar os componentes da data
padrao = r'(\d{4})-(\d{2})-(\d{2})'

# Função para converter o formato da data
def converter_formato_data(data):
    # Substituindo e reorganizando os grupos capturados
    return re.sub(padrao, r'\3-\2-\1', data)

# Datas de teste
data1 = "2026-01-02"
data2 = "26-01-02"  # Esta data não está no formato aaaa-mm-dd, então o padrão não se aplica

# Convertendo as datas
data1_convertida = converter_formato_data(data1)
data2_convertida = converter_formato_data(data2)

# Imprimindo os resultados
print(formata_msg("INFO", f"\nData original: {data1}, Data convertida: {data1_convertida}\n"))
print(formata_msg("INFO", f"\nData original: {data2}, Data convertida: {data2_convertida}"))

[INFO] 2024-03-11 04:14:21 - 
Data original: 2026-01-02, Data convertida: 02-01-2026

[INFO] 2024-03-11 04:14:21 - 
Data original: 26-01-02, Data convertida: 26-01-02


####3. Escreva uma expressão regular para remover o conteúdo entre parênteses em uma string


- Amostra de Entrada:
> * ["example (.br)", "w3resource", "github (.com)", "stackoverflow (.com)"] </br>
* Saída Esperada:
> * example
> * w3resource
> * github
> * stackoverflow

In [65]:
# Lista de strings de entrada
entradas = ["example (.br)", "w3resource", "github (.com)", "stackoverflow (.com)"]

# Expressão regular para remover o conteúdo e os parênteses
padrao = r'\s*\([^)]*\)'

# Removendo as áreas de parênteses e imprimindo a saída
saidas = [re.sub(padrao, '', entrada) for entrada in entradas]
print(formata_msg("INFO", f"Resultado: \n{saidas}"))


[INFO] 2024-03-11 04:15:10 - Resultado: 
['example', 'w3resource', 'github', 'stackoverflow']


####4. Escreva um programa para quebrar um texto em sentenças

In [68]:
# A string de entrada
texto = "Vamos encontrar Padrões nesta string!! Agora é a nossa primeira prática de NLP!! Vamos aprender a procurar padrões!! Belo Horizonte 2020."

# Expressão regular para dividir o texto em sentenças baseando-se apenas
# em pontos, exclamações e interrogações
padrao = r'[.!?]\s+'

# Dividindo o texto em sentenças
sentencas = re.split(padrao, texto)

# Imprimindo as sentenças
print(formata_msg("INFO", f"Resultado:\n"))
for sentenca in sentencas:
    print(sentenca)

[INFO] 2024-03-11 04:16:46 - Resultado:

Vamos encontrar Padrões nesta string!
Agora é a nossa primeira prática de NLP!
Vamos aprender a procurar padrões!
Belo Horizonte 2020.


####5. Escreva um código para remover os zeros iniciais do IP 216.08.094.196

In [76]:
ip = "216.08.094.196"

# Dividindo o IP em seus componentes
partes = ip.split('.')

# Removendo os zeros iniciais de cada parte e garantindo que partes vazias sejam '0'
partes_sem_zeros = [parte.lstrip('0') or '0' for parte in partes]

# Juntando as partes de volta em um IP
ip_sem_zeros = '.'.join(partes_sem_zeros)

print(formata_msg("INFO", f"\n{ip_sem_zeros}\n"))

[INFO] 2024-03-11 04:20:18 - 
216.8.94.196



####6. Recupere todas as menções de "Twitter" da string abaixo

In [80]:
import re

# O texto de exemplo
texto_exemplo_twitter = """
This is a @test of some cool features that @mi_asd be @use-ful but @don't. look at this email@address.com.
@bla! I like #nylas but I don't like to go to this apple.com?a#url. I also don't like the ### comment blocks.
 But #msft is cool."""

# A expressão regular r'\B@\w+' vai encontrar ocorrências que representam menções
# de usuários no Twitter, como @usuario dentro de um texto, desde que essas menções
# não estejam no início de uma palavra (o que geralmente não ocorre em menções válidas).
padrao_twitter = r'\B@\w+'

# Encontrando todas as menções do Twitter no texto
mensoes_twitter = re.findall(padrao_twitter, texto_exemplo_twitter)

print(formata_msg("INFO", f"\n\n{mensoes_twitter}"))


[INFO] 2024-03-11 04:21:27 - 

['@test', '@mi_asd', '@use', '@don', '@bla']


####7. Escreva uma expressão regular para remover as urls do texto:

- Para realizar pesquisas de artigos acadêmicos use o Google Scholar: https://scholar.google.com.br/
- Sempre mantenha seu linkedin atualizado: https://www.linkedin.com/

In [82]:
import re

# O texto fornecido
texto = """
Para realizar pesquisas de artigos acadêmicos use o Google Scholar: https://scholar.google.com.br/
Sempre mantenha seu linkedin atualizado: https://www.linkedin.com/"""

# A expressão regular r'https?://\S+' é usada para encontrar URLs que começam
# com http ou https em um texto.
padrao_url = r'https?://\S+'

# Encontrando todas as URLs no texto
urls = re.findall(padrao_url, texto)

# Imprimindo as URLs encontradas
print(formata_msg("INFO", f"Resultado:\n"))
for url in urls:
    print(url)


[INFO] 2024-03-11 04:27:31 - Resultado:

https://scholar.google.com.br/
https://www.linkedin.com/
