<a href="https://colab.research.google.com/github/ihagoSantos/natural-language-processing/blob/main/data_cleaning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Instalação de pacotes para limpeza e raspagem de dados
!pip install beautifulsoup4==4.12.3
!pip install pyspellchecker==0.8.1

Collecting pyspellchecker==0.8.1
  Downloading pyspellchecker-0.8.1-py3-none-any.whl.metadata (9.4 kB)
Downloading pyspellchecker-0.8.1-py3-none-any.whl (6.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.8/6.8 MB[0m [31m51.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pyspellchecker
Successfully installed pyspellchecker-0.8.1


In [2]:
# Funções utilitárias
import datetime
import sys

def formata_msg(nivel, msg, componente=None):
  """
  Formata uma mensagem de log incluindo o nível de severidade, timestamp, componente (opcional) e a mensagem.
  Parâmetros:
    - nível (str): Nível de severidade da mensagem(ex: 'INFO', 'ERROR', 'WARNING')
    - msg (str): A mensagem de log propriamente dita
    - componente (str, opcional): O componente ou módulo do sistema que gera a mensagem

  Retorna:
    - str: A mensagem formatada
  """
  timestamp = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')
  if componente:
    return f'[{nivel}] {timestamp} - {componente}: {msg}'
  else:
    return f'[{nivel}] {timestamp}: {msg}'


In [4]:
# Importação de módulos essenciais para funcionalidades do notebook
from bs4 import BeautifulSoup
from spellchecker import SpellChecker

print(formata_msg('INFO', "Bibliotecas importadas com sucesso!"))

[INFO] 2024-11-26 09:42:04: Bibliotecas importadas com sucesso!


# Remoção de caracteres não imprimiveis

Caracteres não imprimiveis ou caracteres de controle, são fundamentais na codificação de textos, servindo para organizar e controlar a apresentação de dados sem gerar símbolos visíveis. Eles incluem **tabulações (\t)**, **quebras de linhas (\n)**, **retornos de carros (\r)** e **tags HTML**, e são usados em disponsitivos e softwares para estruturar textos, controlar fluxos de dados e delimitar strings.

In [19]:
texto_exemplo = """
<div>
  <p>
    A marca do home imaturo 🧐 é \t\t querer morrer de maneira nobre por alguma causa 🧐, \n
    enquanto \n\n a marca do\r home maduro é querer viver de maneira humide por uma \n
    causa 🧐.
  </p>
</div>
"""

In [20]:
soup = BeautifulSoup(texto_exemplo, "html.parser")
print("Texto sem tags:")
texto_sem_tags = soup.get_text()
print(f"[{texto_sem_tags}]")

Texto sem tags:
[


    A marca do home imaturo 🧐 é 		 querer morrer de maneira nobre por alguma causa 🧐, 

    enquanto 

 a marca do home maduro é querer viver de maneira humide por uma 

    causa 🧐.
  

]


In [21]:
print("Textos sem caracteres não imprimíveis:")
texto_sem_nao_imprimiveis = ' '.join(texto_sem_tags.split())
print(f"[{texto_sem_nao_imprimiveis}]")

Textos sem caracteres não imprimíveis:
[A marca do home imaturo 🧐 é querer morrer de maneira nobre por alguma causa 🧐, enquanto a marca do home maduro é querer viver de maneira humide por uma causa 🧐.]


# Correções ortográficas
A correção ortográfica corrige erros de escrita, melhorando a interpretação de textos. É essencial para análises precisas em tarefas como tradução, análise de sentimentos e assistentes virtuais. A correção aumenta a eficácia da PLN ao garantir clareza e precisão na comunicação digital. Ela desempenha um papel fundamental na acessibilidade e na qualidade das informações processadas, facilitando interações mais naturais e compreensíveis entre humanos e máquinas.

In [22]:
# Define o corretor ortográfico para a língua portuguesa
corretor = SpellChecker(language='pt')

# Encontra palavras que podem estar escritas incorretamente
erros = corretor.unknown(['ingreso', 'bola', 'futbol', 'estádio'])
print("Erros:", erros)

for erro in erros:
  # Obtem a opção 'mais provável' como correção
  correcao = corretor.correction(erro)
  # Obtem uma lista das opções 'prováveis'
  candidatas = corretor.candidates(erro)
  print(formata_msg('INFO', f'Palavra incorreta: {erro}, correção: {correcao}, outras opções: {candidatas}.'))


Erros: {'futbol', 'ingreso'}
[INFO] 2024-11-26 10:16:59: Palavra incorreta: futbol, correção: futebol, outras opções: {'futebol'}.
[INFO] 2024-11-26 10:16:59: Palavra incorreta: ingreso, correção: ingresso, outras opções: {'ingleso', 'ingresso'}.


In [25]:
def corrija_texto(texto):
  """
  Corrige erros ortográficos em um texto em português.

  Utiliza 'SpellChecker' para identificar e corrigir palavras com erros
  ortográficos. A função analisa cada palavra, verifica a presenta de erros
  e, se encontrados, substitui a palavra pela correção sugerida.

  Args:
    - texto (str): o texto original que necessita correção.

  Returns:
    - str: o texto corrigido

  Exemplo:
    >>> corrija_texto('Olá, como voçê está?')
    >>> "Olá, como você está?"
  """

  corretor = SpellChecker(language='pt')

  texto_aux = texto[:]
  erros = corretor.unknown(texto_aux.split())

  for erro in erros:
    correcao = corretor.correction(erro)

    if correcao:
      texto_aux = texto_aux.replace(erro, correcao)

  return texto_aux

print(formata_msg('INFO', "Função de correção pronta para inicialização"))

[INFO] 2024-11-26 10:17:38: Função de correção pronta para inicialização


In [24]:
texto_sem_erros_ortograficos = corrija_texto(texto_sem_nao_imprimiveis)
print(formata_msg('INFO', f"Texto sem erros ortográficos:\n{texto_sem_erros_ortograficos}"))

[INFO] 2024-11-26 10:17:04: Texto sem erros ortográficos:
A marca do homem imaturo a é querer morrer de maneira nobre por alguma causa a enquanto a marca do homem maduro é querer viver de maneira humilde por uma causa a


# Normalização Unicode
A normalização unicode ou codificação de texto converte caracteres unicode em alguma forma de representação binária para ser armazenado em um computador.

In [26]:
texto_normalizado = texto_sem_erros_ortograficos.encode('utf-8')
print(formata_msg('INFO', f"Texto normalizado:\n{texto_normalizado}"))

[INFO] 2024-11-26 10:20:36: Texto normalizado:
b'A marca do homem imaturo a \xc3\xa9 querer morrer de maneira nobre por alguma causa a enquanto a marca do homem maduro \xc3\xa9 querer viver de maneira humilde por uma causa a'
