<a href="https://colab.research.google.com/github/nobertomaciel/PLN-ANIMA/blob/main/PLN_Analise_de_sentimentos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# ===============================================
# Exemplo pr√°tico de Processamento de Linguagem Natural (PLN)
# Aplica√ß√£o: An√°lise de sentimentos de avalia√ß√µes de produtos
# T√©cnicas: Tokeniza√ß√£o, Stopwords, Bag-of-Words, TF-IDF, Word2Vec
# ===============================================

import re
import nltk
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from gensim.models import Word2Vec
from nltk.corpus import stopwords

# Baixar recursos necess√°rios do NLTK (apenas na primeira execu√ß√£o)
nltk.download('punkt')
nltk.download('stopwords')

# ===============================================
# 1Ô∏è‚É£ Exemplo de dataset realista
# ===============================================
avaliacoes = [
    "O celular √© √≥timo, tem uma c√¢mera excelente!",
    "Horr√≠vel! Que produto terr√≠vel, n√£o recomendo a ningu√©m.",
    "Entrega r√°pida e produto de boa qualidade.",
    "A bateria dura pouco e esquenta muito. P√©ssimo!",
    "Muito bom, atendeu todas as minhas expectativas.",
]

# ===============================================
# 2Ô∏è‚É£ Fun√ß√£o de pr√©-processamento
# ===============================================
def preprocessar_texto(texto):
    texto = texto.lower()                               # min√∫sculas
    texto = re.sub(r'[^a-zA-Z√†-√∫√Ä-√ö\s]', '', texto)     # remove pontua√ß√£o e n√∫meros
    tokens = nltk.word_tokenize(texto, language='portuguese')  # tokeniza√ß√£o
    stop_words = set(stopwords.words('portuguese'))
    tokens = [t for t in tokens if t not in stop_words and len(t) > 2]  # remove stopwords
    return " ".join(tokens)

avaliacoes_limpo = [preprocessar_texto(a) for a in avaliacoes]

print("üîπ Textos ap√≥s pr√©-processamento:")
print(avaliacoes_limpo)
print()

# ===============================================
# 3Ô∏è‚É£ Representa√ß√£o Bag-of-Words
# ===============================================
bow_vectorizer = CountVectorizer()
bow_matriz = bow_vectorizer.fit_transform(avaliacoes_limpo)

print("üîπ Representa√ß√£o Bag-of-Words (sparse matrix):")
print(pd.DataFrame(bow_matriz.toarray(), columns=bow_vectorizer.get_feature_names_out()))
print()

# ===============================================
# 4Ô∏è‚É£ Representa√ß√£o TF-IDF
# ===============================================
tfidf_vectorizer = TfidfVectorizer()
tfidf_matriz = tfidf_vectorizer.fit_transform(avaliacoes_limpo)

print("üîπ Representa√ß√£o TF-IDF:")
print(pd.DataFrame(tfidf_matriz.toarray(), columns=tfidf_vectorizer.get_feature_names_out()))
print()

# ===============================================
# 5Ô∏è‚É£ Representa√ß√£o Word2Vec
# ===============================================
# Para o Word2Vec, usamos listas de tokens (n√£o texto √∫nico)
tokens_avaliacoes = [a.split() for a in avaliacoes_limpo]

modelo_w2v = Word2Vec(sentences=tokens_avaliacoes, vector_size=50, window=3, min_count=1, sg=1)
print("üîπ Vocabul√°rio do modelo Word2Vec:")
print(list(modelo_w2v.wv.index_to_key))
print()

# Exemplo: similaridade entre palavras
print("üîπ Similaridade entre '√≥timo' e 'excelente':")
try:
    print(modelo_w2v.wv.similarity('√≥timo', 'excelente'))
except KeyError:
    print("Alguma das palavras n√£o foi encontrada no vocabul√°rio.")

# ===============================================
# 6Ô∏è‚É£ Aplica√ß√£o pr√°tica: vetorizar novas avalia√ß√µes
# ===============================================
nova_avaliacao = "A qualidade da c√¢mera √© muito boa, mas a bateria dura pouco."
nova_avaliacao_proc = preprocessar_texto(nova_avaliacao)
nova_tfidf = tfidf_vectorizer.transform([nova_avaliacao_proc])

print("\nüîπ Nova avalia√ß√£o pr√©-processada:")
print(nova_avaliacao_proc)
print("\nüîπ Vetor TF-IDF correspondente:")
print(pd.DataFrame(nova_tfidf.toarray(), columns=tfidf_vectorizer.get_feature_names_out()))
