In [5]:
# Importação de bibliotecas
# ------------------------
# NLTK: Biblioteca para processamento de linguagem natural
# re: Biblioteca para operações com expressões regulares
import re
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

# Download dos recursos necessários do NLTK
# -----------------------------------------
# stopwords: Lista de palavras irrelevantes (ex: "a", "o", "de")
# punkt: Tokenizador para divisão do texto em palavras
# punkt_tab: Tokenizador para português
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('punkt_tab')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [4]:
# Carrega o tokenizador em português
# ----------------------------------
# Necessário para garantir que o tokenizador funcione corretamente com textos em PT-BR
nltk.data.load('tokenizers/punkt/PY3/portuguese.pickle')

# Definição do texto de exemplo
# -----------------------------
# Lista de frases para demonstração do pré-processamento
# Contém exemplos com emojis e pontuação para teste
texto = [
    "ótimo produto! Adorei a qualidade 😊",
    "Péssima experiência. Nunca mais compro aqui! 😒",
    "Entrega rápida e eficiente. Muito satisfeito!"
]

# Função de pré-processamento
# ---------------------------
def preproc_texto(texto):

    #Realiza o pré-processamento de texto para análise de sentimentos.
    #
    #Etapas:
    #1. Converte para minúsculas
    #2. Remove pontuação e emojis
    #3. Tokeniza o texto
    #4. Filtra stopwords
    #
    #Parâmetros:
    #   texto (str): Texto a ser processado

    #Retorna:
    #    list: Lista de tokens limpos

    texto = texto.lower()  # Minúsculo
    texto = re.sub(r'[^\w\s]', '', texto)  # Remove pontuação e emojis
    tokens = word_tokenize(texto, language='portuguese')  # Especificar o idioma
    stop_words = set(stopwords.words('portuguese'))
    tokens_filtrados = [palavra for palavra in tokens if palavra not in stop_words]
    return tokens_filtrados

# Aplicando o pré-processamento
textos_processados = [preproc_texto(frase) for frase in texto]

print("Textos pré-processados: ", textos_processados)

Textos pré-processados:  [['ótimo', 'produto', 'adorei', 'qualidade'], ['péssima', 'experiência', 'nunca', 'compro', 'aqui'], ['entrega', 'rápida', 'eficiente', 'satisfeito']]
