<a href="https://colab.research.google.com/github/wellBorges/PUC_PLN/blob/main/02_2_expressoes_regulares.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Expressões Regulares

No Python, o módulo re é a ferramenta essencial para quem deseja explorar as expressões regulares, um recurso potente para o processamento e análise de textos. Com funcionalidades diversificadas, esse módulo permite identificar, buscar e alterar padrões específicos dentro de strings, simplificando análises textuais que, de outra forma, seriam complexas e demoradas. Neste guia, exploraremos como essas capacidades se traduzem em soluções práticas para desafios comuns no universo da programação.

## Métodos de pesquisa

|   Método   |                                      Descrição                                     |
|:----------|:----------------------------------------------------------------------------------|
| match()    | Verifica se a expressão regular (RE) corresponde ao início da string.                                  |
| search()   | Varre toda a string, procurando qualquer local onde esta expressão regular corresponda.   |
| findall()  |Encontra todas as substrings onde a expressão regular corresponde e retorna-as em uma lista.  |
| finditer() | Encontra todas as substrings em que a expressão regular corresponde e as retorna como um iterador. |

## Métodos para modificar strings

| Método  | Descrição                                                                                            |
|---------|------------------------------------------------------------------------------------------------------|
| split() | Divide a string em uma lista, separando-a nos pontos onde ocorre uma correspondência com a expressão regular.                |
| sub()   | Encontra todas as substrings que correspondem à expressão regular e as substitui por uma string diferente. |
| subn()  |  Funciona de forma semelhante ao método sub(), mas retorna a nova string e o número de substituições feitas.                 |

In [1]:
# Declara define funções utilitárias utilizadas no notebook.
import datetime
import sys
def formata_msg(nivel, msg):
    """
    Formata uma mensagem de log incluindo o nível de severidade, timestamp
    e a mensagem.

    Parâmetros:
    - nivel (str): Nível de severidade da mensagem (ex: 'INFO', 'ERROR', 'WARNING').
    - msg (str): A mensagem de log propriamente dita.

    Retorna:
    - str: A mensagem de log formatada.
    """
    timestamp = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')

    return f"[{nivel}] {timestamp} - {msg}"

print(formata_msg("INFO", "Funções utilitárias prontas para utilização."))
print(formata_msg("INFO", f"Versão do Python: {sys.version} "))

[INFO] 2024-06-19 09:24:23 - Funções utilitárias prontas para utilização.
[INFO] 2024-06-19 09:24:23 - Versão do Python: 3.10.12 (main, Nov 20 2023, 15:14:05) [GCC 11.4.0] 


In [2]:
# Importa módulos essenciais para funcionalidades do notebook.
import re

In [3]:
texto = """Transferência recebida de JOAO SILVA, conta 1234-5. Valor: R$1.500,00 em 2024-02-15.
Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor: R$800,00 em 2024-02-16.
Depósito recebido, conta 5432-1. Valor: R$3.200,00 em 2024-02-17."""

In [4]:
print(formata_msg("INFO",f"\n{texto}"))

[INFO] 2024-06-19 09:24:31 - 
Transferência recebida de JOAO SILVA, conta 1234-5. Valor: R$1.500,00 em 2024-02-15.
Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor: R$800,00 em 2024-02-16.
Depósito recebido, conta 5432-1. Valor: R$3.200,00 em 2024-02-17.


## Método **match()**
O método **match()** é utilizado para verificar se uma expressão regular (RE) se alinha ao começo de uma determinada string. Esse recurso é especialmente útil em situações onde a correspondência no início do texto é esseencial para a validação ou análise dos dados em questão.

In [5]:
# A letra 'r' antes da string indica uma "raw string", tratando caracteres de
# escape como caracteres comuns, útil em expressões regulares.
padrao = r"transferência recebida"
resultado = re.match(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[ERRO] 2024-06-19 09:24:37 - Padrão 'transferência recebida', não encontrado.


In [6]:
padrao = r"[Tt]ransferência recebida"
resultado = re.match(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-06-19 09:25:16 - Padrão '[Tt]ransferência recebida', encontrado: Transferência recebida


In [7]:
padrao = r"(Transferência|transferência)"
resultado = re.match(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-06-19 09:25:28 - Padrão '(Transferência|transferência)', encontrado: Transferência


In [8]:
padrao = r"transferência recebida"
compilado = re.compile(padrao, re.IGNORECASE)
resultado = compilado.match(texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-06-19 09:25:31 - Padrão 'transferência recebida', encontrado: Transferência recebida


## Método **search()**
O método **search()** examina minuciosamente cada segmento da string para identificar pontos onde a expressão regular fornecida encontra correspondência. Diferente de match(), que se limita ao início da string, search() abrange a totalidade do texto, aumentando as chances de detecção de correspondências relevantes.

In [9]:
padrao = r"pagamento CONFIRMADO"
compilado = re.compile(padrao, re.IGNORECASE)
resultado = compilado.search(texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado.group()}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-06-19 09:25:36 - Padrão 'pagamento CONFIRMADO', encontrado: Pagamento confirmado


## Método **findall()**
O método **findall()** realiza uma busca completa na string, identificando todas as substrings que se alinham com a expressão regular especificada. Cada correspondência encontrada é então agregada e apresentada em uma lista, facilitando a análise e o manuseio subsequente desses trechos de texto.

In [10]:
padrao = r"conta"
resultado = re.findall(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-06-19 09:25:41 - Padrão 'conta', encontrado: ['conta', 'conta']


In [11]:
padrao = r"conta"
resultado = re.findall(padrao, texto, re.I)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-06-19 09:25:46 - Padrão 'conta', encontrado: ['conta', 'Conta', 'conta']


In [12]:
# A expressão regular \w+A\w+ busca por strings que tenham pelo menos um caractere
# alfanumérico seguido pela letra 'A' maiúscula e, em seguida, por pelo menos mais
# um caractere alfanumérico.
padrao = r"\w+A\w+"
resultado = re.findall(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-06-19 09:25:48 - Padrão '\w+A\w+', encontrado: ['JOAO']


In [13]:
# A expressão regular \w+a\w+ busca por strings que tenham pelo menos um caractere
# alfanumérico seguido pela letra 'a' maiúscula e, em seguida, por pelo menos mais
# um caractere alfanumérico.
padrao = r"\w+a\w+"
resultado = re.findall(padrao, texto, re.I)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-06-19 09:25:51 - Padrão '\w+a\w+', encontrado: ['Transferência', 'JOAO', 'Valor', 'Pagamento', 'confirmado', 'para', 'Valor', 'Valor']


In [14]:
# A expressão regular \w*a\w* procura por strings que contêm a letra 'a' minúscula,
# precedida e/ou seguida por qualquer número (incluindo zero) de caracteres alfanuméricos.
# Isso significa que a expressão pode corresponder a uma string que contém apenas 'a',
# ou 'a' com letras, dígitos, ou underscores em qualquer lado, como "ba", "1a3", ou
# simplesmente "a".
padrao = r"\w*a\w*"
resultado = re.findall(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado: {resultado}"))
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-06-19 09:25:54 - Padrão '\w*a\w*', encontrado: ['Transferência', 'recebida', 'conta', 'Valor', 'Pagamento', 'confirmado', 'para', 'Conta', 'Valor', 'conta', 'Valor']


## Método **finditer()**
O método **finditer()** vasculha a string em busca de todas as ocorrências que se ajustam à expressão regular fornecida, disponibilizando os resultados através de um iterador. Essa abordagem otimiza o uso de recursos, pois permite o acesso sequencial às correspondências sem a necessidade de armazená-las todas simultaneamente na memória.

In [15]:
# A expressão regular \w*m\w+ corresponda a strings que contenham a letra 'm' minúscula,
# precedida por uma sequência de caracteres alfanuméricos de qualquer comprimento
# (incluindo nenhum) e seguida por pelo menos um caractere alfanumérico.
padrao = r"\w+m\w+"
resultado = re.finditer(padrao, texto)
if resultado:
    print(formata_msg("INFO", f"Padrão '{padrao}', encontrado:\n"))
    for token in resultado:
      print(f"{token.group()}")
else:
    print(formata_msg("ERRO", f"Padrão '{padrao}', não encontrado."))

[INFO] 2024-06-19 09:25:57 - Padrão '\w+m\w+', encontrado:

Pagamento
confirmado


## Método **split()**
O método **split()** segmenta a string em várias partes, utilizando os pontos de correspondência com a expressão regular como divisores. O resultado é uma lista contendo as substrings resultantes dessa divisão, proporcionando uma maneira eficiente de desmembrar e analisar o texto com base em padrões específicos.

In [16]:
separador = r"\n"
resultado = re.split(separador,texto)
print(formata_msg("INFO", f"Resultado:"))
for ii, token in enumerate(resultado):
      print(f"{ii+1} - {token}")

[INFO] 2024-06-19 09:26:00 - Resultado:
1 - Transferência recebida de JOAO SILVA, conta 1234-5. Valor: R$1.500,00 em 2024-02-15.
2 - Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor: R$800,00 em 2024-02-16.
3 - Depósito recebido, conta 5432-1. Valor: R$3.200,00 em 2024-02-17.


In [17]:
separador = r"\s+"

# split() da biblioteca padrão do Python.
resultado = texto.split(separador)
print(formata_msg("INFO", f"Resultado:"))
for ii, token in enumerate(resultado):
      print(f"{ii+1} - {token}")

[INFO] 2024-06-19 09:26:03 - Resultado:
1 - Transferência recebida de JOAO SILVA, conta 1234-5. Valor: R$1.500,00 em 2024-02-15.
Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor: R$800,00 em 2024-02-16.
Depósito recebido, conta 5432-1. Valor: R$3.200,00 em 2024-02-17.


In [18]:
# Define a expressão regular para um ou mais espaços em branco.
separador = "\s+"
resultado = re.split(separador, texto)
print(formata_msg("INFO", f"Resultado:"))
for ii, token in enumerate(resultado):
      print(f"{ii+1} - {token}")

[INFO] 2024-06-19 09:26:06 - Resultado:
1 - Transferência
2 - recebida
3 - de
4 - JOAO
5 - SILVA,
6 - conta
7 - 1234-5.
8 - Valor:
9 - R$1.500,00
10 - em
11 - 2024-02-15.
12 - Pagamento
13 - confirmado
14 - para
15 - ALUGUEL,
16 - Conta
17 - 6789-0.
18 - Valor:
19 - R$800,00
20 - em
21 - 2024-02-16.
22 - Depósito
23 - recebido,
24 - conta
25 - 5432-1.
26 - Valor:
27 - R$3.200,00
28 - em
29 - 2024-02-17.


## Método **sub()**
O método **sub()** busca por todas as instâncias dentro de uma string que se alinham com uma expressão regular e realiza a substituição dessas por uma nova string definida pelo usuário. Esse processo permite a alteração dinâmica de partes específicas do texto, facilitando correções, formatações ou adaptações de conteúdo de forma ágil e precisa.

In [19]:
re.sub(r"R\$", "(BRL)", texto)

'Transferência recebida de JOAO SILVA, conta 1234-5. Valor: (BRL)1.500,00 em 2024-02-15.\nPagamento confirmado para ALUGUEL, Conta 6789-0. Valor: (BRL)800,00 em 2024-02-16.\nDepósito recebido, conta 5432-1. Valor: (BRL)3.200,00 em 2024-02-17.'

## Método **subn()**
O método **subn()** oferece a mesma funcionalidade de substituição de substrings que correspondem a uma expressão regular, assim como sub(). A diferença reside no seu retorno, que inclui tanto a string resultante quanto a contagem exata das substituições efetuadas. Essa característica adicional proporciona uma visão quantitativa do impacto das alterações, permitindo um controle mais preciso sobre o processo de manipulação de texto.

In [20]:
resultado, num_substituicoes = re.subn('R\$', '(BRL)', texto)
print(formata_msg("INFO", f"Texto modificado:\n{resultado} \n\nNúmero de substituições: {num_substituicoes}"))

[INFO] 2024-06-19 09:26:15 - Texto modificado:
Transferência recebida de JOAO SILVA, conta 1234-5. Valor: (BRL)1.500,00 em 2024-02-15.
Pagamento confirmado para ALUGUEL, Conta 6789-0. Valor: (BRL)800,00 em 2024-02-16.
Depósito recebido, conta 5432-1. Valor: (BRL)3.200,00 em 2024-02-17. 

Número de substituições: 3


# Aplicações de funções expressões regulares

####1. Escreva uma expressão regular para verificar se uma string contém apenas caracteres específicos (neste caso, a-z, A-Z e 0-9).

In [23]:
# Explicação da expressão regular r"^[a-zA-Z0-9]+$":
#
# ^        - Indica o início da string. Garante que a correspondência comece
#            a partir do primeiro caractere da string.
# [a-zA-Z0-9] - Define uma classe de caracteres que inclui letras minúsculas (a-z),
#            letras maiúsculas (A-Z) e números (0-9).
# +        - Indica uma ou mais ocorrências do conjunto de caracteres definido.
#            Ou seja, a string deve ter pelo menos um caractere da classe
#            [a-zA-Z0-9].
# $        - Indica o final da string. Garante que a correspondência vá até
#            o último caractere da string.
#
# Essa expressão é usada para validar se uma string contém apenas letras
# (maiúsculas ou minúsculas) e números, sem espaços, símbolos ou caracteres
# especiais. É comum em cenários onde se exigem identificadores, nomes de
# usuário ou senhas simples.
padrao = r"^[a-zA-Z0-9]+$"

# Duas strings de teste
string1 = "ABCDEFabcdef123450"
string2 = "*&%@#!}{"

# Testando a primeira string
if re.match(padrao, string1):
    print(f"'{string1}' contém apenas caracteres permitidos.")
else:
    print(f"'{string1}' contém caracteres não permitidos.")

# Testando a segunda string
if re.match(padrao, string2):
    print(f"'{string2}' contém apenas caracteres permitidos.")
else:
    print(f"'{string2}' contém caracteres não permitidos.")

'ABCDEFabcdef123450' contém apenas caracteres permitidos.
'*&%@#!}{' contém caracteres não permitidos.


####2. Escreva uma expressão regular para converter datas do formato aaaa-mm-dd para dd-mm-aaaa.

In [24]:
# Explicação da expressão regular r'(\d{4})-(\d{2})-(\d{2})':
#
# (\d{4}) - Corresponde a uma sequência de exatamente 4 dígitos. Utilizado
#           para capturar o ano em uma data.
# -       - Corresponde ao caractere literal '-', usado como separador.
# (\d{2}) - Corresponde a uma sequência de exatamente 2 dígitos. O primeiro
#           grupo captura o mês e o segundo grupo o dia em uma data.
#
# Essa expressão é comumente usada para identificar e extrair datas no formato
# 'AAAA-MM-DD', onde 'AAAA' é o ano, 'MM' é o mês e 'DD' é o dia.
padrao = r'(\d{4})-(\d{2})-(\d{2})'

# Função para converter o formato da data
def converter_formato_data(data):
    # Substituindo e reorganizando os grupos capturados
    return re.sub(padrao, r'\3-\2-\1', data)

# Datas de teste
data1 = "2026-01-02"
data2 = "26-01-02"  # Esta data não está no formato aaaa-mm-dd, então o padrão não se aplica

# Convertendo as datas
data1_convertida = converter_formato_data(data1)
data2_convertida = converter_formato_data(data2)

# Imprimindo os resultados
print(formata_msg("INFO", f"\nData original: {data1}, Data convertida: {data1_convertida}\n"))
print(formata_msg("INFO", f"\nData original: {data2}, Data convertida: {data2_convertida}"))

[INFO] 2024-06-19 09:34:13 - 
Data original: 2026-01-02, Data convertida: 02-01-2026

[INFO] 2024-06-19 09:34:13 - 
Data original: 26-01-02, Data convertida: 26-01-02


####3. Escreva uma expressão regular para remover o conteúdo entre parênteses em uma string


- Amostra de Entrada:
> * ["example (.br)", "w3resource", "github (.com)", "stackoverflow (.com)"] </br>
* Saída Esperada:
> * example
> * w3resource
> * github
> * stackoverflow

In [25]:
# Lista de strings de entrada
entradas = ["example (.br)", "w3resource", "github (.com)", "stackoverflow (.com)"]

# Explicação da expressão regular r'\s*\([^)]*\)':
#
# \s*    - Zero ou mais espaços em branco.
# \(     - Parêntese de abertura literal.
# [^)]*  - Qualquer caractere exceto parêntese de fechamento, repetido zero ou
#          mais vezes.
# \)     - Parêntese de fechamento literal.
#
# Identifica sequências que iniciam com espaços opcionais seguidos por texto
# entre parênteses, excluindo os parênteses de fechamento internos.
padrao = r'\s*\([^)]*\)'

# Removendo as áreas de parênteses e imprimindo a saída
#list comprehension python
saidas = [re.sub(padrao, '', entrada) for entrada in entradas]
print(formata_msg("INFO", f"Resultado: \n{saidas}"))


[INFO] 2024-06-19 09:35:49 - Resultado: 
['example', 'w3resource', 'github', 'stackoverflow']


####4. Escreva um programa para quebrar um texto em sentenças

In [26]:
# A string de entrada
texto = "Vamos encontrar Padrões nesta string!! Agora é a nossa primeira prática de NLP!! Vamos aprender a procurar padrões!! Belo Horizonte 2020."

# Explicação da expressão regular r'[.!?]\s+':
#
# [.!?]   - Define uma classe de caracteres que inclui um ponto final (.),
#           um ponto de exclamação (!), ou um ponto de interrogação (?).
#           Essa parte da expressão regular corresponde a qualquer um desses
#           caracteres de pontuação.
#
# \s+     - Corresponde a um ou mais espaços em branco. O símbolo de adição (+)
#           indica "uma ou mais ocorrências" do caractere de espaço em branco
#           precedente. Espaços em branco incluem espaços, tabulações, quebras
#           de linha, etc.
#
# Esta expressão regular é útil para identificar ocorrências de caracteres de
# pontuação que indicam o fim de uma sentença (ponto, exclamação, interrogação)
# seguidos por um ou mais espaços em branco. Pode ser usada para tarefas como
# segmentar texto em sentenças ou formatar texto.
padrao = r'[.!?]\s+'

# Dividindo o texto em sentenças
sentencas = re.split(padrao, texto)

# Imprimindo as sentenças
print(formata_msg("INFO", f"Resultado:\n"))
for sentenca in sentencas:
    print(sentenca)

[INFO] 2024-06-19 09:36:20 - Resultado:

Vamos encontrar Padrões nesta string!
Agora é a nossa primeira prática de NLP!
Vamos aprender a procurar padrões!
Belo Horizonte 2020.


####5. Escreva um código para remover os zeros iniciais do IP 216.08.094.196

In [28]:
ip = "216.08.094.196"

# Dividindo o IP em seus componentes
partes = ip.split('.')

#list comprehension python
# Removendo os zeros iniciais de cada parte e garantindo que partes vazias sejam '0'
partes_sem_zeros = [parte.lstrip('0') or '0' for parte in partes]

# Juntando as partes de volta em um IP
ip_sem_zeros = '.'.join(partes_sem_zeros)

print(formata_msg("INFO", f"\n{ip_sem_zeros}\n"))

[INFO] 2024-06-19 09:37:23 - 
216.8.94.196



####6. Recupere todas as menções de "Twitter" da string abaixo

In [29]:
# O texto de exemplo
texto_exemplo_twitter = """
This is a @test of some cool features that @mi_asd be @use-ful but @don't. look at this email@address.com.
@bla! I like #nylas but I don't like to go to this apple.com?a#url. I also don't like the ### comment blocks.
 But #msft is cool."""

# Explicação da expressão regular r'\B@\w+':
#
# \B      - Corresponde a uma posição que não é o limite de uma palavra. Isso
#           garante que o símbolo @ não seja precedido por um caractere de
#           palavra, como letras, dígitos ou sublinhados, permitindo que a
#           menção apareça no meio do texto sem ser parte de uma palavra maior.
#
# @       - Corresponde ao símbolo literal '@', que é usado para indicar menções
#           ou referências a usuários nas redes sociais.
#
# \w+     - Corresponde a uma ou mais ocorrências de qualquer caractere de
#           palavra, incluindo letras (maiúsculas e minúsculas), dígitos e
#           sublinhados. O símbolo de adição (+) indica "uma ou mais
#           ocorrências" do caractere de palavra precedente.
#
# Essa expressão regular é útil para identificar menções de usuários em textos
# de redes sociais, como no Twitter, onde os nomes de usuário são precedidos
# pelo símbolo '@'.
padrao_twitter = r'\B@\w+'

# Encontrando todas as menções do Twitter no texto
mensoes_twitter = re.findall(padrao_twitter, texto_exemplo_twitter)

print(formata_msg("INFO", f"\n\n{mensoes_twitter}"))


[INFO] 2024-06-19 09:37:56 - 

['@test', '@mi_asd', '@use', '@don', '@bla']


####7. Escreva uma expressão regular para remover as urls do texto:

- Para realizar pesquisas de artigos acadêmicos use o Google Scholar: https://scholar.google.com.br/
- Sempre mantenha seu linkedin atualizado: https://www.linkedin.com/

In [30]:
import re

# O texto fornecido
texto = """
Para realizar pesquisas de artigos acadêmicos use o Google Scholar: https://scholar.google.com.br/
Sempre mantenha seu linkedin atualizado: https://www.linkedin.com/"""

# Explicação da expressão regular r'https?://\S+':
#
# https?  - Corresponde à string "http" seguida por um "s" opcional. O "?" após
#           o "s" indica que o "s" é opcional, permitindo que a expressão
#           corresponda tanto a "http" quanto a "https".
#
# ://     - Corresponde aos caracteres literais "://", que são parte típica da
#           sintaxe de uma URL logo após o protocolo (http ou https).
#
# \S+     - Corresponde a uma ou mais ocorrências de qualquer caractere que não
#           seja um espaço em branco. O "\S" corresponde a qualquer caractere
#           que não seja espaço, tabulação, etc., e o "+" indica "uma ou mais
#           ocorrências" desse tipo de caractere.
#
# Esta expressão regular é usada para identificar URLs em textos. Ela capta
# URLs iniciadas por "http" ou "https", seguidas por qualquer sequência de
# caracteres que não inclua espaços em branco, até o próximo espaço ou o fim
# da string.
padrao_url = r'https?://\S+'

# Encontrando todas as URLs no texto
urls = re.findall(padrao_url, texto)

# Imprimindo as URLs encontradas
print(formata_msg("INFO", f"Resultado:\n"))
for url in urls:
    print(url)


[INFO] 2024-06-19 09:38:39 - Resultado:

https://scholar.google.com.br/
https://www.linkedin.com/
