In [5]:
# Importa√ß√£o de bibliotecas
# ------------------------
# NLTK: Biblioteca para processamento de linguagem natural
# re: Biblioteca para opera√ß√µes com express√µes regulares
import re
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

# Download dos recursos necess√°rios do NLTK
# -----------------------------------------
# stopwords: Lista de palavras irrelevantes (ex: "a", "o", "de")
# punkt: Tokenizador para divis√£o do texto em palavras
# punkt_tab: Tokenizador para portugu√™s
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('punkt_tab')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [4]:
# Carrega o tokenizador em portugu√™s
# ----------------------------------
# Necess√°rio para garantir que o tokenizador funcione corretamente com textos em PT-BR
nltk.data.load('tokenizers/punkt/PY3/portuguese.pickle')

# Defini√ß√£o do texto de exemplo
# -----------------------------
# Lista de frases para demonstra√ß√£o do pr√©-processamento
# Cont√©m exemplos com emojis e pontua√ß√£o para teste
texto = [
    "√≥timo produto! Adorei a qualidade üòä",
    "P√©ssima experi√™ncia. Nunca mais compro aqui! üòí",
    "Entrega r√°pida e eficiente. Muito satisfeito!"
]

# Fun√ß√£o de pr√©-processamento
# ---------------------------
def preproc_texto(texto):

    #Realiza o pr√©-processamento de texto para an√°lise de sentimentos.
    #
    #Etapas:
    #1. Converte para min√∫sculas
    #2. Remove pontua√ß√£o e emojis
    #3. Tokeniza o texto
    #4. Filtra stopwords
    #
    #Par√¢metros:
    #   texto (str): Texto a ser processado

    #Retorna:
    #    list: Lista de tokens limpos

    texto = texto.lower()  # Min√∫sculo
    texto = re.sub(r'[^\w\s]', '', texto)  # Remove pontua√ß√£o e emojis
    tokens = word_tokenize(texto, language='portuguese')  # Especificar o idioma
    stop_words = set(stopwords.words('portuguese'))
    tokens_filtrados = [palavra for palavra in tokens if palavra not in stop_words]
    return tokens_filtrados

# Aplicando o pr√©-processamento
textos_processados = [preproc_texto(frase) for frase in texto]

print("Textos pr√©-processados: ", textos_processados)

Textos pr√©-processados:  [['√≥timo', 'produto', 'adorei', 'qualidade'], ['p√©ssima', 'experi√™ncia', 'nunca', 'compro', 'aqui'], ['entrega', 'r√°pida', 'eficiente', 'satisfeito']]
