In [8]:
# Importação de bibliotecas
# ------------------------
import re
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.probability import FreqDist

# Download de recursos do NLTK
# ---------------------------
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('punkt_tab')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [7]:
# Configuração do tokenizador para português
# -----------------------------------------
nltk.data.load('tokenizers/punkt/PY3/portuguese.pickle')

# Texto de exemplo
# ----------------
texto = [
    "ótimo produto! Adorei a qualidade 😊",
    "Péssima experiência. Nunca mais compro aqui! 😒",
    "Entrega rápida e eficiente. Muito satisfeito!"
]

# Função para pré-processamento
# ------------------------------------------------------
def preproc_texto(texto):
    texto = texto.lower()  # Minúsculo
    texto = re.sub(r'[^\w\s]', '', texto)  # Remove pontuação e emojis
    tokens = word_tokenize(texto, language='portuguese')  # Especificar o idioma
    stop_words = set(stopwords.words('portuguese'))
    tokens_filtrados = [palavra for palavra in tokens if palavra not in stop_words]
    return tokens_filtrados

# Pré-processamento dos textos
# ----------------------------
textos_processados = [preproc_texto(frase) for frase in texto]

print("Textos pré-processados: ", textos_processados)

Textos pré-processados:  [['ótimo', 'produto', 'adorei', 'qualidade'], ['péssima', 'experiência', 'nunca', 'compro', 'aqui'], ['entrega', 'rápida', 'eficiente', 'satisfeito']]


In [9]:
# Definição de léxico de sentimentos
# ----------------------------------
# Listas manuais de palavras positivas/negativas
# NOTE: Em produção, usar léxicos completos como SentiLex
palavras_positivas = ["ótimo", "adorei","qualidade","rápida","eficiente","satisfeito"]
palavras_negativas = ["péssima", "experiência", "nunca", "compro"]

# Categorização e análise de frequência
# -------------------------------------
# Separa palavras por polaridade
positivas = [palavra for frase in textos_processados for palavra in frase if palavra in palavras_positivas]
negativas = [palavra for frase in textos_processados for palavra in frase if palavra in palavras_negativas]

# Calcula frequência das palavras
freq_positivas = FreqDist(positivas)
freq_negativas = FreqDist(negativas)

# Resultados
# ----------
print("Palavras positivas mais frequentes:", freq_positivas.most_common(5))
print("Palavras negativas mais frequentes:", freq_negativas.most_common(5))

Palavras positivas mais frequentes: [('ótimo', 1), ('adorei', 1), ('qualidade', 1), ('rápida', 1), ('eficiente', 1)]
Palavras negativas mais frequentes: [('péssima', 1), ('experiência', 1), ('nunca', 1), ('compro', 1)]
