<a href="https://colab.research.google.com/github/ihagoSantos/natural-language-processing/blob/main/data_cleaning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Instala√ß√£o de pacotes para limpeza e raspagem de dados
!pip install beautifulsoup4==4.12.3
!pip install pyspellchecker==0.8.1

Collecting pyspellchecker==0.8.1
  Downloading pyspellchecker-0.8.1-py3-none-any.whl.metadata (9.4 kB)
Downloading pyspellchecker-0.8.1-py3-none-any.whl (6.8 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m6.8/6.8 MB[0m [31m51.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pyspellchecker
Successfully installed pyspellchecker-0.8.1


In [2]:
# Fun√ß√µes utilit√°rias
import datetime
import sys

def formata_msg(nivel, msg, componente=None):
  """
  Formata uma mensagem de log incluindo o n√≠vel de severidade, timestamp, componente (opcional) e a mensagem.
  Par√¢metros:
    - n√≠vel (str): N√≠vel de severidade da mensagem(ex: 'INFO', 'ERROR', 'WARNING')
    - msg (str): A mensagem de log propriamente dita
    - componente (str, opcional): O componente ou m√≥dulo do sistema que gera a mensagem

  Retorna:
    - str: A mensagem formatada
  """
  timestamp = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')
  if componente:
    return f'[{nivel}] {timestamp} - {componente}: {msg}'
  else:
    return f'[{nivel}] {timestamp}: {msg}'


In [4]:
# Importa√ß√£o de m√≥dulos essenciais para funcionalidades do notebook
from bs4 import BeautifulSoup
from spellchecker import SpellChecker

print(formata_msg('INFO', "Bibliotecas importadas com sucesso!"))

[INFO] 2024-11-26 09:42:04: Bibliotecas importadas com sucesso!


# Remo√ß√£o de caracteres n√£o imprimiveis

Caracteres n√£o imprimiveis ou caracteres de controle, s√£o fundamentais na codifica√ß√£o de textos, servindo para organizar e controlar a apresenta√ß√£o de dados sem gerar s√≠mbolos vis√≠veis. Eles incluem **tabula√ß√µes (\t)**, **quebras de linhas (\n)**, **retornos de carros (\r)** e **tags HTML**, e s√£o usados em disponsitivos e softwares para estruturar textos, controlar fluxos de dados e delimitar strings.

In [19]:
texto_exemplo = """
<div>
  <p>
    A marca do home imaturo üßê √© \t\t querer morrer de maneira nobre por alguma causa üßê, \n
    enquanto \n\n a marca do\r home maduro √© querer viver de maneira humide por uma \n
    causa üßê.
  </p>
</div>
"""

In [20]:
soup = BeautifulSoup(texto_exemplo, "html.parser")
print("Texto sem tags:")
texto_sem_tags = soup.get_text()
print(f"[{texto_sem_tags}]")

Texto sem tags:
[


    A marca do home imaturo üßê √© 		 querer morrer de maneira nobre por alguma causa üßê, 

    enquanto 

 a marca do home maduro √© querer viver de maneira humide por uma 

    causa üßê.
  

]


In [21]:
print("Textos sem caracteres n√£o imprim√≠veis:")
texto_sem_nao_imprimiveis = ' '.join(texto_sem_tags.split())
print(f"[{texto_sem_nao_imprimiveis}]")

Textos sem caracteres n√£o imprim√≠veis:
[A marca do home imaturo üßê √© querer morrer de maneira nobre por alguma causa üßê, enquanto a marca do home maduro √© querer viver de maneira humide por uma causa üßê.]


# Corre√ß√µes ortogr√°ficas
A corre√ß√£o ortogr√°fica corrige erros de escrita, melhorando a interpreta√ß√£o de textos. √â essencial para an√°lises precisas em tarefas como tradu√ß√£o, an√°lise de sentimentos e assistentes virtuais. A corre√ß√£o aumenta a efic√°cia da PLN ao garantir clareza e precis√£o na comunica√ß√£o digital. Ela desempenha um papel fundamental na acessibilidade e na qualidade das informa√ß√µes processadas, facilitando intera√ß√µes mais naturais e compreens√≠veis entre humanos e m√°quinas.

In [22]:
# Define o corretor ortogr√°fico para a l√≠ngua portuguesa
corretor = SpellChecker(language='pt')

# Encontra palavras que podem estar escritas incorretamente
erros = corretor.unknown(['ingreso', 'bola', 'futbol', 'est√°dio'])
print("Erros:", erros)

for erro in erros:
  # Obtem a op√ß√£o 'mais prov√°vel' como corre√ß√£o
  correcao = corretor.correction(erro)
  # Obtem uma lista das op√ß√µes 'prov√°veis'
  candidatas = corretor.candidates(erro)
  print(formata_msg('INFO', f'Palavra incorreta: {erro}, corre√ß√£o: {correcao}, outras op√ß√µes: {candidatas}.'))


Erros: {'futbol', 'ingreso'}
[INFO] 2024-11-26 10:16:59: Palavra incorreta: futbol, corre√ß√£o: futebol, outras op√ß√µes: {'futebol'}.
[INFO] 2024-11-26 10:16:59: Palavra incorreta: ingreso, corre√ß√£o: ingresso, outras op√ß√µes: {'ingleso', 'ingresso'}.


In [25]:
def corrija_texto(texto):
  """
  Corrige erros ortogr√°ficos em um texto em portugu√™s.

  Utiliza 'SpellChecker' para identificar e corrigir palavras com erros
  ortogr√°ficos. A fun√ß√£o analisa cada palavra, verifica a presenta de erros
  e, se encontrados, substitui a palavra pela corre√ß√£o sugerida.

  Args:
    - texto (str): o texto original que necessita corre√ß√£o.

  Returns:
    - str: o texto corrigido

  Exemplo:
    >>> corrija_texto('Ol√°, como vo√ß√™ est√°?')
    >>> "Ol√°, como voc√™ est√°?"
  """

  corretor = SpellChecker(language='pt')

  texto_aux = texto[:]
  erros = corretor.unknown(texto_aux.split())

  for erro in erros:
    correcao = corretor.correction(erro)

    if correcao:
      texto_aux = texto_aux.replace(erro, correcao)

  return texto_aux

print(formata_msg('INFO', "Fun√ß√£o de corre√ß√£o pronta para inicializa√ß√£o"))

[INFO] 2024-11-26 10:17:38: Fun√ß√£o de corre√ß√£o pronta para inicializa√ß√£o


In [24]:
texto_sem_erros_ortograficos = corrija_texto(texto_sem_nao_imprimiveis)
print(formata_msg('INFO', f"Texto sem erros ortogr√°ficos:\n{texto_sem_erros_ortograficos}"))

[INFO] 2024-11-26 10:17:04: Texto sem erros ortogr√°ficos:
A marca do homem imaturo a √© querer morrer de maneira nobre por alguma causa a enquanto a marca do homem maduro √© querer viver de maneira humilde por uma causa a


# Normaliza√ß√£o Unicode
A normaliza√ß√£o unicode ou codifica√ß√£o de texto converte caracteres unicode em alguma forma de representa√ß√£o bin√°ria para ser armazenado em um computador.

In [26]:
texto_normalizado = texto_sem_erros_ortograficos.encode('utf-8')
print(formata_msg('INFO', f"Texto normalizado:\n{texto_normalizado}"))

[INFO] 2024-11-26 10:20:36: Texto normalizado:
b'A marca do homem imaturo a \xc3\xa9 querer morrer de maneira nobre por alguma causa a enquanto a marca do homem maduro \xc3\xa9 querer viver de maneira humilde por uma causa a'
