<a href="https://colab.research.google.com/github/gomesluiz/ContosoPizza/blob/main/02_limpeza_de_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [62]:
# Instala√ß√£o de pacotes para raspagem e an√°lise de dados.
!pip install beautifulsoup4 pyspellchecker



In [65]:
# Importa m√≥dulos essenciais para funcionalidades do notebook.
from bs4 import BeautifulSoup
from spellchecker import SpellChecker

print(formata_msg("INFO", "Bibliotecas importadas com sucesso; ambiente pronto."))

[INFO] 2024-02-11 14:19:01: Bibliotecas importadas com sucesso; ambiente pronto.


In [66]:
# Declara define fun√ß√µes utilit√°rias utilizadas no notebook.
import datetime
def formata_msg(nivel, msg):
    """
    Formata uma mensagem de log incluindo o n√≠vel de severidade, timestamp
    e a mensagem.

    Par√¢metros:
    - nivel (str): N√≠vel de severidade da mensagem (ex: 'INFO', 'ERROR', 'WARNING').
    - msg (str): A mensagem de log propriamente dita.

    Retorna:
    - str: A mensagem de log formatada.
    """
    timestamp = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')

    return f"[{nivel}] {timestamp} - {msg}"

print(formata_msg("INFO", "Fun√ß√µes utilit√°rias prontas para utiliza√ß√£o."))

[INFO] 2024-02-11 14:19:03 - Fun√ß√µes utilit√°rias prontas para utiliza√ß√£o.


# Remo√ß√£o de **caracteres** n√£o imprim√≠veis
Caracteres n√£o imprim√≠veis, ou caracteres de controle, s√£o fundamentais na codifica√ß√£o de textos, servindo para organizar e controlar a apresenta√ß√£o de dados sem gerar s√≠mbolos vis√≠veis. Eles incluem **espa√ßos**, **tabula√ß√µes ('\t')**, **quebras de linha ('\n')** e **retornos de carro ('\r')**, entre outros, e s√£o usados em dispositivos e softwares para estruturar textos, controlar fluxos de dados e delimitar strings.

In [109]:
texto_exemplo = """
A marca do home imaturoüòú √©\t\t querer morrer de maneira nobre por alguma causaüïäÔ∏è,\n
enquanto\n\n a marca do\r home maduoü§ì √© querer viver de maneira humide por uma\n
causa‚òÆÔ∏è.
"""

In [110]:
html_fragmento = f"""
<div>
    {texto_exemplo}
</div>
"""
soup = BeautifulSoup(html_fragmento, "html.parser")

print("Texto original:")
texto_original = soup.get_text()
print(f"[{texto_original}]")

print("\nTexto limpo:")
texto_limpo = ' '.join(texto_original.split())
print(f"[{texto_limpo}]")

Texto original:
[

    
A marca do home imaturoüòú √©		 querer morrer de maneira nobre por alguma causaüïäÔ∏è,

enquanto

 a marca do home maduoü§ì √© querer viver de maneira humide por uma

causa‚òÆÔ∏è.


]

Texto limpo:
[A marca do home imaturoüòú √© querer morrer de maneira nobre por alguma causaüïäÔ∏è, enquanto a marca do home maduoü§ì √© querer viver de maneira humide por uma causa‚òÆÔ∏è.]


# Corre√ß√£o ortogr√°fica
A corre√ß√£o ortogr√°fica **corrige erros de escrita**, melhorando a interpreta√ß√£o de textos. Essencial para an√°lises precisas em tarefas como tradu√ß√£o, an√°lise de sentimentos e assistentes virtuais, a corre√ß√£o ortogr√°fica aumenta a efic√°cia da PLN ao garantir clareza e precis√£o na comunica√ß√£o digital. Ela desempenha um papel fundamental na acessibilidade e na **qualidade das informa√ß√µes** processadas, facilitando intera√ß√µes mais naturais e compreens√≠veis entre humanos e m√°quinas.

In [111]:
corretor = SpellChecker(language='pt')

# find those words that may be misspelled
erros = spell.unknown(['ingreso', 'bola', 'futbol', 'est√°dio'])

for erro in erros:
    # Get the one `most likely` answer
    correcao = corretor.correction(erro)

    # Get a list of `likely` options
    candidatas = corretor.candidates(erro)

    print(f"Palavra incorreta: {erro}, corre√ß√£o:{correcao}, outras op√ß√µes: {candidatas}")


Palavra incorreta: futbol, corre√ß√£o:futebol, outras op√ß√µes: {'futebol'}
Palavra incorreta: ingreso, corre√ß√£o:ingresso, outras op√ß√µes: {'ingleso', 'ingresso'}


In [112]:
def corrija_texto(texto):

  corretor = SpellChecker(language="pt")

  texto_aux = texto[:]
  erros = corretor.unknown(texto_aux.split(" "))

  for i, erro in enumerate(erros):
    texto_aux = texto_aux.replace(erro, corretor.correction(erro))

  return texto_aux

print(formata_msg("INFO", "Fun√ß√£o de corre√ß√£o de texto pronta para utiliza√ß√£o."))

[INFO] 2024-02-11 15:08:02 - Fun√ß√£o de corre√ß√£o de texto pronta para utiliza√ß√£o.


In [113]:
print(corrija_texto(texto_limpo))

TypeError: replace() argument 2 must be str, not None

# Normaliza√ß√£o unicode

A **normaliza√ß√£o unicode** ou **codifica√ß√£o de texto** converte caracteres unicode em alguma forma de representa√ß√£o bin√°ria para ser armazenado em um computador.

In [61]:
texto = 'Eu amo pizza üçï!  Vamos reservar uma viagem para üöó Giza?'

print("Texto original:")
print(texto)

print("\nTexto normalizado:")
print(texto.encode("utf-8"))

Texto original:
Eu amo pizza üçï!  Vamos reservar uma viagem para üöó Giza?

Texto normalizado:
b'Eu amo pizza \xf0\x9f\x8d\x95!  Vamos reservar uma viagem para \xf0\x9f\x9a\x97 Giza?'
