In [1]:
# Instalação de pacotes para raspagem e análise de dados.
!pip install beautifulsoup4 pyspellchecker

Collecting pyspellchecker
  Downloading pyspellchecker-0.8.1-py3-none-any.whl (6.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.8/6.8 MB[0m [31m14.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pyspellchecker
Successfully installed pyspellchecker-0.8.1


In [2]:
# Declara define funções utilitárias utilizadas no notebook.
import datetime
import sys
def formata_msg(nivel, msg):
    """
    Formata uma mensagem de log incluindo o nível de severidade, timestamp
    e a mensagem.

    Parâmetros:
    - nivel (str): Nível de severidade da mensagem (ex: 'INFO', 'ERROR', 'WARNING').
    - msg (str): A mensagem de log propriamente dita.

    Retorna:
    - str: A mensagem de log formatada.
    """
    timestamp = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')

    return f"[{nivel}] {timestamp} - {msg}"

print(formata_msg("INFO", "Funções utilitárias prontas para utilização."))
print(formata_msg("INFO", f"Versão do Python: {sys.version} "))

[INFO] 2024-05-05 02:28:28 - Funções utilitárias prontas para utilização.
[INFO] 2024-05-05 02:28:28 - Versão do Python: 3.10.12 (main, Nov 20 2023, 15:14:05) [GCC 11.4.0] 


In [3]:
# Importa módulos essenciais para funcionalidades do notebook.
from bs4 import BeautifulSoup
from spellchecker import SpellChecker

print(formata_msg("INFO", "Bibliotecas importadas com sucesso; ambiente pronto."))

[INFO] 2024-05-05 02:28:50 - Bibliotecas importadas com sucesso; ambiente pronto.


# Remoção de **caracteres** não imprimíveis
Caracteres não imprimíveis, ou caracteres de controle, são fundamentais na codificação de textos, servindo para organizar e controlar a apresentação de dados sem gerar símbolos visíveis. Eles incluem **espaços**, **tabulações ('\t')**, **quebras de linha ('\n')** e **retornos de carro ('\r')**, entre outros, e são usados em dispositivos e softwares para estruturar textos, controlar fluxos de dados e delimitar strings.

In [4]:
texto_exemplo = """
A marca do home imaturo😜 é\t\t querer morrer de maneira nobre por alguma causa🕊️,\n
enquanto\n\n a marca do\r home maduo🤓 é querer viver de maneira humide por uma\n
causa☮️.
"""

In [12]:
html_fragmento = f"""
<div>
    {texto_exemplo}
</div>
"""
soup = BeautifulSoup(html_fragmento, "html.parser")

print("Texto original:")
texto_original = soup.get_text()
print(f"[{texto_original}]")

print("\nTexto limpo:")
texto_limpo = ' '.join(texto_original.split())
print(f"[{texto_limpo}]")

Texto original:
[

    
A marca do home imaturo😜 é		 querer morrer de maneira nobre por alguma causa🕊️,

enquanto

 a marca do home maduo🤓 é querer viver de maneira humide por uma

causa☮️.


]

Texto limpo:
[A marca do home imaturo😜 é querer morrer de maneira nobre por alguma causa🕊️, enquanto a marca do home maduo🤓 é querer viver de maneira humide por uma causa☮️.]


# Correção ortográfica
A correção ortográfica **corrige erros de escrita**, melhorando a interpretação de textos. Essencial para análises precisas em tarefas como tradução, análise de sentimentos e assistentes virtuais, a correção ortográfica aumenta a eficácia da PLN ao garantir clareza e precisão na comunicação digital. Ela desempenha um papel fundamental na acessibilidade e na **qualidade das informações** processadas, facilitando interações mais naturais e compreensíveis entre humanos e máquinas.

In [13]:
corretor = SpellChecker(language='pt')

# find those words that may be misspelled
erros = corretor.unknown(['ingreso', 'bola', 'futbol', 'estádio'])

for erro in erros:
    # Get the one `most likely` answer
    correcao = corretor.correction(erro)

    # Get a list of `likely` options
    candidatas = corretor.candidates(erro)

    print(f"Palavra incorreta: {erro}, correção:{correcao}, outras opções: {candidatas}")

Palavra incorreta: futbol, correção:futebol, outras opções: {'futebol'}
Palavra incorreta: ingreso, correção:ingresso, outras opções: {'ingleso', 'ingresso'}


In [17]:
def corrija_texto(texto):

  corretor = SpellChecker(language="pt")

  texto_aux = texto[:]
  erros = corretor.unknown(texto_aux.split(" "))

  for erro in erros:
    correcao = corretor.correction(erro)
    if correcao:
      texto_aux = texto_aux.replace(erro, correcao)

  return texto_aux

print(formata_msg("INFO", "Função de correção de texto pronta para utilização."))

[INFO] 2024-05-05 02:37:58 - Função de correção de texto pronta para utilização.


In [19]:
print(corrija_texto(texto_limpo))

A marca do homem imaturo é querer morrer de maneira nobre por alguma causa🕊️, enquanto a marca do homem madura é querer viver de maneira humilde por uma causa☮️.


# Normalização unicode

A **normalização unicode** ou **codificação de texto** converte caracteres unicode em alguma forma de representação binária para ser armazenado em um computador.

In [20]:
texto = 'Eu amo pizza 🍕!  Vamos reservar uma viagem para 🚗 Giza?'

print("Texto original:")
print(texto)

print("\nTexto normalizado:")
print(texto.encode("utf-8"))

Texto original:
Eu amo pizza 🍕!  Vamos reservar uma viagem para 🚗 Giza?

Texto normalizado:
b'Eu amo pizza \xf0\x9f\x8d\x95!  Vamos reservar uma viagem para \xf0\x9f\x9a\x97 Giza?'
