<a href="https://colab.research.google.com/github/ihagoSantos/natural-language-processing/blob/main/regular_expressions.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Expressões Regulares

In [1]:
# funções utilitárias
import datetime
def formata_msg(nivel, msg, componente=None):
  """
  Formata uma mensagem de log incluindo o nível de severidade, timestamp, componente (opcional) e a mensagem.
  Parâmetros:
    - nível (str): Nível de severidade da mensagem(ex: 'INFO', 'ERROR', 'WARNING')
    - msg (str): A mensagem de log propriamente dita
    - componente (str, opcional): O componente ou módulo do sistema que gera a mensagem

  Retorna:
    - str: A mensagem formatada
  """
  timestamp = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')
  if componente:
    return f'[{nivel}] {timestamp} - {componente}: {msg}'
  else:
    return f'[{nivel}] {timestamp}: {msg}'


In [2]:
# Modulo essencial para execução do notebook
import re

In [3]:
texto = """Transferência recebida de JOAO SILVA, conta 1234-5. Valor R$1.500,00 em 2024-02-15.
Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor R$800,00 em 2024-02-16.
Depósito recebido, conta 5432-1. Valor R$3.200,00 em 2024-02-17."""

In [4]:
print(formata_msg('INFO', texto))

[INFO] 2024-11-28 09:17:56: Transferência recebida de JOAO SILVA, conta 1234-5. Valor R$1.500,00 em 2024-02-15.
Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor R$800,00 em 2024-02-16.
Depósito recebido, conta 5432-1. Valor R$3.200,00 em 2024-02-17.


## Método **match()**

O método **match()** é utilizado para verificar se uma expressão regular (RE) se alinha ao começo de uma determinada string. Esse recurso é especialmente útil em situações onde a correspondência no início do texto é essencial para validação ou análise dos dados em questão.

In [5]:
# A letra 'r' antes do início da string indica "raw string", tratando caracteres de
# escape como caracters comuns, útil para expressões regulares

padrao = r"transferência recebida"
resultado = re.match(padrao, texto)
if resultado:
  print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
  print(formata_msg('ERRO', f"Padrão '{padrao}', não encontrado. "))

[ERRO] 2024-11-28 09:17:56: Padrão 'transferência recebida', não encontrado. 


In [6]:
padrao = r"[Tt]ransferência recebida"
resultado = re.match(padrao, texto)
if resultado:
  print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
  print(formata_msg('ERRO', f"Padrão '{padrao}', não encontrado. "))

[INFO] 2024-11-28 09:17:56: Padrão '[Tt]ransferência recebida', encontrado: Transferência recebida


In [7]:
padrao = r"(Transferência|transferência)"
resultado = re.match(padrao, texto)
if resultado:
  print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
  print(formata_msg('ERRO', f"Padrão '{padrao}', não encontrado. "))

[INFO] 2024-11-28 09:17:56: Padrão '(Transferência|transferência)', encontrado: Transferência


In [8]:
padrao = r"transferência recebida"
compilado = re.compile(padrao, re.IGNORECASE)
resultado = compilado.match(texto)
if resultado:
  print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
  print(formata_msg('ERRO', f"Padrão '{padrao}', não encontrado. "))

[INFO] 2024-11-28 09:17:56: Padrão 'transferência recebida', encontrado: Transferência recebida


## Método **search()**

O método **search()** examina minuciosamente cada segmento da string para identificar pontos onde a expressão regular fornecida encontra correspondência. Diferente de **match()** que se limita ao início da string, **search()** abranget toda a totalidade do texto, aumentando as chances de detecção de correspondências relevantes.

In [9]:
padrao = r"pagamento CONFIRMADO"
compilado = re.compile(padrao, re.IGNORECASE)
resultado = compilado.search(texto)
if resultado:
  print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
  print(formata_msg('ERRO', f"Padrão '{padrao}', não encontrado. "))

[INFO] 2024-11-28 09:17:56: Padrão 'pagamento CONFIRMADO', encontrado: Pagamento confirmado


## Método **findall()**
O método **findall()** realiza uma busca completa na string, identificando todas as substrings que se alinham com a expressão regular especificada. Cada correspondência encontrada é então agregada em uma lista, facilitando a análise e o manuseio subsequente desses trechos de texto.

In [10]:
padrao = r"conta"
resultado = re.findall(padrao, texto)
if resultado:
  print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
  print(formata_msg('ERRO', f"Padrão '{padrao}', não encontrado. "))

[INFO] 2024-11-28 09:17:56: Padrão 'conta', encontrado: ['conta', 'conta']


In [11]:
padrao = r"conta"
resultado = re.findall(padrao, texto, re.I) # re.I == re.IGNORECASE
if resultado:
  print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
  print(formata_msg('ERRO', f"Padrão '{padrao}', não encontrado. "))

[INFO] 2024-11-28 09:17:56: Padrão 'conta', encontrado: ['conta', 'Conta', 'conta']


In [12]:
# A expressão regular "\w+A\w+" busca por strings que tenham pelo menos um caractere
# alfanumérico seguido da letra 'A' maiúscula e, em seguida, por pelo mais um caractere
# alfanumérico.
padrao = r"\w+A\w+"
resultado = re.findall(padrao, texto)
if resultado:
  print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
  print(formata_msg('ERRO', f"Padrão '{padrao}', não encontrado. "))

[INFO] 2024-11-28 09:17:56: Padrão '\w+A\w+', encontrado: ['JOAO']


In [13]:
# A expressão regular "\w+a\w+" busca por strings que tenham pelo menos um caractere
# alfanumérico seguido da letra 'a' minuscula e, em seguida, por pelo mais um caractere
# alfanumérico.
padrao = r"\w+a\w+"
resultado = re.findall(padrao, texto, re.I)
if resultado:
  print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
  print(formata_msg('ERRO', f"Padrão '{padrao}', não encontrado. "))

[INFO] 2024-11-28 09:17:56: Padrão '\w+a\w+', encontrado: ['Transferência', 'JOAO', 'Valor', 'Pagamento', 'confirmado', 'para', 'Valor', 'Valor']


In [14]:
# A expressão regular "\w*a\w*" procura por strings que contém a letra 'a' minúscula,
# precedida e/ou seguida por qualquer número (incluindo zero) de caracteres alfanuméricos.
# Isso significa que a expressão pode corresponder a uma string que contém apenas 'a' ou 'a' com letras e dígitos,
# ou underscores em qualquer lado, como 'ba', '1a3' ou simplesmente 'a'
padrao = r"\w*a\w*"
resultado = re.findall(padrao, texto, re.I)
if resultado:
  print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
  print(formata_msg('ERRO', f"Padrão '{padrao}', não encontrado. "))

[INFO] 2024-11-28 09:17:56: Padrão '\w*a\w*', encontrado: ['Transferência', 'recebida', 'JOAO', 'SILVA', 'conta', 'Valor', 'Pagamento', 'confirmado', 'para', 'ALUGUEL', 'Conta', 'Valor', 'conta', 'Valor']


## Método **finditer()**

O método **finditer()** vasculha a string em busca de todas as ocorrências que se ajustam à expressão regular fornecida, disponibilizando os resultados através de um iterator. Essa abordagem otimiza o uso de recursos, pois permite o acesso sequencial às correspondências sem a necessidade de armazená-las todas simultaneamente na memória.

In [15]:
padrao = r"\w+m\w+"
resultado = re.finditer(padrao, texto)
if resultado:
  print(formata_msg("INFO", f"Padrão '{padrao}' encontrado:\n"))
  for token in resultado:
    print(token.group())
else:
  print(formata_msg('ERRO', f"Padrão '{padrao}', não encontrado. "))

[INFO] 2024-11-28 09:17:56: Padrão '\w+m\w+' encontrado:

Pagamento
confirmado


## Método **split()**

O método **split()** segmenta a string em várias partes, utilizando os pontos de correspondência com a expressão regular como divisores. O resultado é uma lista contendo as substrings resultantes dessa divisão, proporcionando uma maneira eficiente de desmembrar e analisar o texto com base em padrões específicos.

In [16]:
separador = r"\n"
resultado = re.split(separador, texto)
print(formata_msg("INFO", f"Resultado:"))
for i, token in enumerate(resultado):
  print(f"{i+1} - {token}")

[INFO] 2024-11-28 09:17:56: Resultado:
1 - Transferência recebida de JOAO SILVA, conta 1234-5. Valor R$1.500,00 em 2024-02-15.
2 - Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor R$800,00 em 2024-02-16.
3 - Depósito recebido, conta 5432-1. Valor R$3.200,00 em 2024-02-17.


In [17]:
separador = r"\s+"
resultado = texto.split(separador) # split() da biblioteca padrão do python
print(formata_msg("INFO", f"Resultado:"))
for i, token in enumerate(resultado):
  print(f"{i+1} - {token}")

[INFO] 2024-11-28 09:17:56: Resultado:
1 - Transferência recebida de JOAO SILVA, conta 1234-5. Valor R$1.500,00 em 2024-02-15.
Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor R$800,00 em 2024-02-16.
Depósito recebido, conta 5432-1. Valor R$3.200,00 em 2024-02-17.


In [18]:
# Define a expressão regular para um ou mais espaços em branco
separador = r"\s+"
resultado = re.split(separador, texto)
print(formata_msg("INFO", f"Resultado:"))
for i, token in enumerate(resultado):
  print(f"{i+1} - {token}")

[INFO] 2024-11-28 09:17:56: Resultado:
1 - Transferência
2 - recebida
3 - de
4 - JOAO
5 - SILVA,
6 - conta
7 - 1234-5.
8 - Valor
9 - R$1.500,00
10 - em
11 - 2024-02-15.
12 - Pagamento
13 - confirmado
14 - para
15 - ALUGUEL,
16 - Conta
17 - 6789-0.
18 - Valor
19 - R$800,00
20 - em
21 - 2024-02-16.
22 - Depósito
23 - recebido,
24 - conta
25 - 5432-1.
26 - Valor
27 - R$3.200,00
28 - em
29 - 2024-02-17.


## Método **sub()**
O método **sub()** busca por todas as ocorrências dentro de uma string que se alinham com a expressão regular e realiza a substituição dessas por uma nova string definida pelo usuário. Esse processo permite a alteração dinâmica de partes específicas do texto, facilitando correções, formatações ou adaptações de conteúdo de forma ágil e precisa.

In [19]:
re.sub(r"R\$", "(BRL)", texto)

'Transferência recebida de JOAO SILVA, conta 1234-5. Valor (BRL)1.500,00 em 2024-02-15.\nPagamento confirmado para ALUGUEL, Conta 6789-0. Valor (BRL)800,00 em 2024-02-16.\nDepósito recebido, conta 5432-1. Valor (BRL)3.200,00 em 2024-02-17.'

## Método **subn()**

O método **subn()** oferece a mesma funcionalidade de substituição de substrings que correspondem a expressão regular, assim como **sub()**. A diferença reside no seu retorno, que inclui tanto a string resultante, quanto a contagem exata das substituições efetuadas. Essa característica adicional porporciona uma visão quantitativa do impacto das alterações, permitindo um controle mais preciso sobre o processo de manipulação de texto.



In [20]:
resultado, total_substituicoes = re.subn(r"R\$", '(BRL)', texto)
print(formata_msg("INFO", f"Texto modificado: \n{resultado} \n\nNúmero de substituicoes: {total_substituicoes}"))

[INFO] 2024-11-28 09:17:57: Texto modificado: 
Transferência recebida de JOAO SILVA, conta 1234-5. Valor (BRL)1.500,00 em 2024-02-15.
Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor (BRL)800,00 em 2024-02-16.
Depósito recebido, conta 5432-1. Valor (BRL)3.200,00 em 2024-02-17. 

Número de substituicoes: 3


# Aplicações de funções de Expressões Regulares

## 1 - Escreva uma expressão regular para verificar se uma string contém apenas caracteres específicos (neste caso, a-z, A-Z e 0-9).

In [21]:
# Explicação da expressão regular "^[a-zA-Z0-9]+$":
#
# ^           - Indica o início da string. Garante que a correspondência começe a partir do primeiro caractere da string.
# [a-zA-Z0-9] - Define a classe de caracteres
# +           - Indica uma ou mais ocorrências do conjunto de caracteres definido. Ou seja, a string deve ter pelo menos um caractere da classe [a-zA-Z0-9]
# $           - Indica o final da string. Garante que a correspondência vá até o ultimo caractere do texto.

padrao = r"^[a-zA-Z0-9]+$"

# Strings de teste
str1 = "ABCDEFabcdef123450"
str2 = "&*!&@*}{[]"

# Testando a primeira string
if re.match(padrao, str1):
  print(f"'{str1}' contém apenas caracteres permitidos.")
else:
  print(f"'{str1}' não contém caracteres permitidos.")

# Testando a segunda string
if re.match(padrao, str2):
  print(f"'{str2}' contém apenas caracteres permitidos.")
else:
  print(f"'{str2}' não contém caracteres permitidos.")



'ABCDEFabcdef123450' contém apenas caracteres permitidos.
'&*!&@*}{[]' não contém caracteres permitidos.


## 2 - Escrever uma expressão regular para converter datas do formato aaaa-mm-dd para dd-mm-aaaa

In [22]:
# Explicação da expressão regular r'(\d{4})-(\d{2})-(\d{2})':
#
# (\d{4}) - Corresponde a uma sequência de exatamente 4 dígitos. Utilizado para capturar o ano em uma data.
# -       - Corresponde ao literal '-', usado como separador.
# (\d{2}) - Corresponde a uma sequência de exatamente 2 dígitos. O primeiro grupo captura o mês e o segundo grupo o dia em uma data.
#
# Essa expressão é comumente usada para identificar e extrair datas no formato 'AAAA-MM-DD', onde 'AAAA' corresponde ao ano, 'MM' corresponde ao mês e 'DD' ao dia.

padrao = r'(\d{4})-(\d{2})-(\d{2})'

# Função para converter o formato da data
def formata_data(data):
  # Substituindo e reorganizando os grupos capturados
  # \3 corresponde ao terceiro grupo: (\d{2})
  # \2 corresponde ao segundo grupo: (\d{2})
  # \1 corresponde ao primeiro grupo: (\d{4})
  return re.sub(padrao, r'\3-\2-\1', data)

# Datas de teste
data1 = "2026-01-02"
data2 = "26-01-02" # Esta data não está no formato aaaa-mm-dd, então o padrão não se aplica

# Convertendo as datas
data1_convertida = formata_data(data1)
data2_convertida = formata_data(data2)

# Imprimindo resultados
print(formata_msg("INFO", f"\nData original: {data1} - Data convertida: {data1_convertida}\n"))
print(formata_msg("INFO", f"\nData original: {data2} - Data convertida: {data2_convertida}\n"))


[INFO] 2024-11-28 09:17:57: 
Data original: 2026-01-02 - Data convertida: 02-01-2026

[INFO] 2024-11-28 09:17:57: 
Data original: 26-01-02 - Data convertida: 26-01-02



## 3 - Escreva uma expressão regular para remover o conteúdo entre parênteses em uma string
- Amostra de entrada:
  - ["example (.br)", "w3resource", "github (.com)", "stackoverflow (.com)"]
- Saída esperada:
  - example
  - weresource
  - github
  - stackoverflow

In [23]:
# Lista de strings de entrada
entradas = ["example (.br)", "w3resource", "github (.com)", "stackoverflow (.com)"]

# Explicação da expressão regular r"\s*\([^)]*\)"
#
# \s*   - Zero ou mais espaços em branco.
# \(    - Parêntese de abertura literal.
# [^)]* - Qualquer caractere exceto parêntese de fechamento, repetido zero ou mais vezes.
# \)    - Parêntese de fechamento literal.

padrao = r"\s*\([^)]*\)"

# Removendo as áreas de parênteses e imprimindo a saída
saidas = [re.sub(padrao, '', entrada) for entrada in entradas]
print(formata_msg('INFO', f"Resultado: \n{saidas}"))

[INFO] 2024-11-28 09:17:57: Resultado: 
['example', 'w3resource', 'github', 'stackoverflow']


## 4 - Escreva um programa para quebrar um texto em sentensas

In [24]:
# String de entrada
texto = "Vamos encontrar Padrões nesta string!! Agora é a nossa primeira prática de NLP!! Vamos aprender a procurar padrões!! Belo horizonte 2020."

# Explicação do padrão r"[.!?]\s+"
#
# [.!?]   - Define uma classe de caracteres que inclui um ponto final(.),
#           um ponto de exclamação (!), ou um ponto de interrogação (?).
#           Essa expressão regular corresponde a qualquer desses
#           caracteres de pontuação.
# \s+     - Corresponde a um ou mais espaços em branco. O símbolo de adição (+)
#           indica "uma ou mais ocorrências" do caractere de espaço em branco precedente.
#           Espaços em branco incluem espaços, tabulações, quabras de linha, etc.
#
# Esta expressão regular é útil para identificar ocorrências de caracteres de pontuação
# que indicam o fim de uma sentença (ponto, exclamação, interrogação), seguidos por
# um ou mais espaços em branco. Pode ser usada para tarefas como segmentar textos em sentenças
# ou formatar texto.

padrao = r"[.!?]\s+"

# Dividindo o texto em sentenças
sentencas = re.split(padrao, texto)

# Imprimindo as sentenças
print(formata_msg("INFO", "Resultados:\n"))
for sentenca in sentencas:
  print(sentenca)

[INFO] 2024-11-28 09:17:57: Resultados:

Vamos encontrar Padrões nesta string!
Agora é a nossa primeira prática de NLP!
Vamos aprender a procurar padrões!
Belo horizonte 2020.


## 5 - Escreva um código para remover os zeros iniciais do IP 216.08.094.196

In [26]:
ip = '216.08.094.196'

# Dividindo o ip
partes = ip.split('.')

# Removendo o zero das partes iniciais e garantindo que partes vazias sejam '0'
partes_sem_zero = [parte.lstrip('0') or '0' for parte in partes]

# junta as partes de volta em um IP
ip = '.'.join(partes_sem_zero)

print(formata_msg('INFO', f"\n{ip}"))


[INFO] 2024-11-28 09:22:10: 
216.8.94.196


## 6 - Recupere todas as mensões de "Twitter" da string abaixo

In [27]:
texto_exemplo_twitter = """
this is a @test of some cool features that @mi_asd be @use-ful but @don't. look at this email@address.com.
@bla! I like #nylas but I don't like to go to this apple.com?a#url. I also don't like the ### comment blocks.
But #msft is cool."""

# Explicação da expressão regular r"\B@\w+":

# \B    Corresponde a uma posição que não é o limite de uma palavra. Isso garante
#       que o símbolo @ não seja precedido por um caractere de palavra, como letras,
#       dígitos ou sublinhados, permitindo que a menção apareça no meio do texto sem
#       ser parte de uma palavra maior.

# @     Corresponde ao símbolo literal '@', que é usado para iniciar menções
#       ou referências a usuários em redes sociais

# \w+   Corresponde a uma ou mais ocorrências de qualquer caractere de palavra, incluindo
#       letras (maiúsculas e minúsculas), dígitos e sublinhados. O símbolo de adição (+)
#       indica "uma ou mais ocorrências" do caractere da palavra precedente

# Essa expressão regualr é útil para identificar menções de usuários em textos
# de redes sociais, como no twitter, onde os nomes dos usuários são precedidos
# pelo símbolo '@'

padrao_twitter = r'\B@\w+'

mencoes_twitter = re.findall(padrao_twitter, texto_exemplo_twitter)

print(formata_msg("INFO", f"\n\n{mencoes_twitter}"))

[INFO] 2024-11-28 09:33:30: 

['@test', '@mi_asd', '@use', '@don', '@bla']


## 7 - Escreva uma expressão regular para remover as URLs do texto
- Para realizar as pesquisas de artigos use o Google Scholar: https://scholar.google.com.br/
- Sempre mantenha o seu linkedin atualizado: https://www.linkedin.com/

In [28]:
texto = """
Para realizar as pesquisas de artigos use o Google Scholar: https://scholar.google.com.br/
Sempre mantenha o seu linkedin atualizado: https://www.linkedin.com/"""

# Explicação da expressão r"https?://\S+"

# https?      Corresponde à string 'http' seguida por um 's' opcional. O '?' após
#             o 's' indica que o 's' é opicional, permitindo que a expressão corresponda
#             tanto para o 'http' quanto para o 'https'

# ://         Corresponde aos caracteres literais '://', que são parte típica da
#             sintaxe de uma URL logo após ao protocolo (http ou https)

# \S+         Corresponde a uma ou mais ocorrências de qualquer caractere que não seja um
#             espaço em branco. O '\S' corresponde a qualquer caractere que não seja espaço,
#             tabulação, etc., e o '+' indica 'uma ou mais ocorrências' desse tipo de caractere.

# Esta expressão regular é útil para identificar URLs em textos. Ela capta URLs iniciadas
# por 'http' ou 'https', seguidas por qualquer sequência de caracteres que não incluam espaços
# em branco, até o próximo espaço ou fim da string.

padrao = r'https?://\S+'

# Encontrando todas as urls do texto
urls = re.findall(padrao, texto)
print(formata_msg('INFO', f"Resultado\n"))
for url in urls:
  print(url)

[INFO] 2024-11-28 09:42:33: Resultado

https://scholar.google.com.br/
https://www.linkedin.com/
