<a href="https://colab.research.google.com/github/nobertomaciel/PLN-ANIMA/blob/main/PLN_Analise_de_sentimentos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [4]:
!pip install gensim
!pip install nltk



In [15]:
# ===============================================
# Exemplo completo de PLN com Classifica√ß√£o de Sentimentos
# ===============================================

import re
import nltk
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
from gensim.models import Word2Vec
from nltk.corpus import stopwords

# ===============================================
# 1. Recursos do NLTK
# ===============================================
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')

# ===============================================
# 2. Dataset realista de avalia√ß√µes
# ===============================================
# 1 = positivo, 0 = negativo
dados = {
    "avaliacao": [
        "O celular √© √≥timo, tem uma c√¢mera excelente!",
        "Horr√≠vel! Que produto terr√≠vel, n√£o recomendo a ningu√©m.",
        "Entrega r√°pida e produto de boa qualidade.",
        "A bateria dura pouco e esquenta muito. P√©ssimo!",
        "Muito bom, atendeu todas as minhas expectativas.",
        "N√£o gostei, o material parece fr√°gil e a tela risca f√°cil.",
        "Superou minhas expectativas, recomendo demais!",
        "O som √© baixo e a bateria acabou em poucas horas.",
        "Produto maravilhoso, desempenho excelente.",
        "Defeituoso, n√£o funcionou desde o primeiro dia."
    ],
    "sentimento": [1, 0, 1, 0, 1, 0, 1, 0, 1, 0]
}

df = pd.DataFrame(dados)

# ===============================================
# 3. Fun√ß√£o de pr√©-processamento
# ===============================================
def preprocessar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r'[^a-zA-Z√†-√∫√Ä-√ö\s]', '', texto)
    tokens = nltk.word_tokenize(texto, language='portuguese')
    stop_words = set(stopwords.words('portuguese'))
    tokens = [t for t in tokens if t not in stop_words and len(t) > 2]
    return " ".join(tokens)

df["texto_limpo"] = df["avaliacao"].apply(preprocessar_texto)

# ===============================================
# 4. Representa√ß√µes vetoriais (Bag-of-Words e TF-IDF)
# ===============================================
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df["texto_limpo"])
y = df["sentimento"]

# ===============================================
# 5. Divis√£o de dados (treino e teste)
# ===============================================
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# ===============================================
# 6. Aplica√ß√£o do Machine Learning: modelo de classifica√ß√£o (Regress√£o Log√≠stica)
# ===============================================
modelo = LogisticRegression(max_iter=1000)
modelo.fit(X_train, y_train)

# ===============================================
# 7. Avalia√ß√£o do modelo
# ===============================================
y_pred = modelo.predict(X_test)
print("Relat√≥rio de Classifica√ß√£o:")
print(classification_report(y_test, y_pred, target_names=["Negativo", "Positivo"]))

print("Matriz de Confus√£o:")
print(confusion_matrix(y_test, y_pred))

# ===============================================
# 8. Teste com novas avalia√ß√µes
# ===============================================
novas_avaliacoes = [
    "A c√¢mera √© incr√≠vel e a bateria dura o dia todo.",
    "O produto veio quebrado e n√£o liga mais.",
    "Entrega r√°pida, mas o desempenho √© ruim.",
    "Excelente custo-benef√≠cio, estou muito satisfeito!"
]

# Pr√©-processar e transformar
novas_proc = [preprocessar_texto(a) for a in novas_avaliacoes]
X_novas = vectorizer.transform(novas_proc)
predicoes = modelo.predict(X_novas)

# Exibir resultados
print("\nResultados em novas avalia√ß√µes:")
for texto, pred in zip(novas_avaliacoes, predicoes):
    sentimento = "Positivo üòÄ" if pred == 1 else "Negativo üòû"
    print(f"- {texto} ‚Üí {sentimento}")

# ===============================================
# 9. Word2Vec (para an√°lise sem√¢ntica complementar)
# ===============================================
tokens = [t.split() for t in df["texto_limpo"]]
modelo_w2v = Word2Vec(sentences=tokens, vector_size=50, window=3, min_count=1, sg=1)

print("\nPalavras mais similares a '√≥timo':")
try:
    print(modelo_w2v.wv.most_similar('√≥timo'))
except KeyError:
    print("A palavra '√≥timo' n√£o est√° no vocabul√°rio.")


Relat√≥rio de Classifica√ß√£o:
              precision    recall  f1-score   support

    Negativo       0.00      0.00      0.00         2
    Positivo       0.33      1.00      0.50         1

    accuracy                           0.33         3
   macro avg       0.17      0.50      0.25         3
weighted avg       0.11      0.33      0.17         3

Matriz de Confus√£o:
[[0 2]
 [0 1]]

Resultados em novas avalia√ß√µes:
- A c√¢mera √© incr√≠vel e a bateria dura o dia todo. ‚Üí Positivo üòÄ
- O produto veio quebrado e n√£o liga mais. ‚Üí Positivo üòÄ
- Entrega r√°pida, mas o desempenho √© ruim. ‚Üí Positivo üòÄ
- Excelente custo-benef√≠cio, estou muito satisfeito! ‚Üí Positivo üòÄ

Palavras mais similares a '√≥timo':
[('acabou', 0.2474919706583023), ('terr√≠vel', 0.19713576138019562), ('parece', 0.1907748281955719), ('poucas', 0.18167969584465027), ('risca', 0.16631169617176056), ('maravilhoso', 0.1545863002538681), ('desde', 0.12634193897247314), ('dia', 0.11094342917203903), 

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
