# PLN - Avalia√ß√£o de Sentimentos V1

- Utilizando as bibliotecas NLTK e SKLearn demonstrar o uso de processamento de linguagem natural para avalia√ß√£o do `Feedback` dos usu√°rios

## üì¶ 1. Importar bibliotecas

In [1]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

- **NLTK**: para processamento de linguagem natural (tokeniza√ß√£o, remo√ß√£o de stopwords).
- **re**: para manipular texto (ex: remover pontua√ß√£o).
- **TfidfVectorizer**: transforma textos em n√∫meros (vetores) para o modelo.
- **MultinomialNB**: algoritmo de classifica√ß√£o baseado na probabilidade.
- **accuracy_score / classification_report**: avaliam o desempenho do modelo.

## üîê 2. Baixar recursos necess√°rios da NLTK

In [2]:
nltk.download('punkt_tab')
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt_tab to C:\Users\Luis
[nltk_data]     Rodrigo\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package punkt to C:\Users\Luis
[nltk_data]     Rodrigo\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to C:\Users\Luis
[nltk_data]     Rodrigo\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

- `punkt`: usado para tokenizar palavras.
- `stopwords`: lista de palavras comuns (como "o", "a", "e") que n√£o ajudam na an√°lise.

## üìö 3. Dataset artificial

In [3]:
dados = [
    ("Eu amo programar em Python!", "positivo"),
    ("Python √© incr√≠vel e muito √∫til.", "positivo"),
    ("Adorei este tutorial!", "positivo"),
    ("N√£o gosto desse sistema.", "negativo"),
    ("Essa experi√™ncia foi horr√≠vel.", "negativo"),
    ("Nunca mais usarei esse produto.", "negativo"),
    ("O suporte foi r√°pido e eficiente.", "positivo"),
    ("Tudo funciona bem aqui.", "positivo"),
    ("A interface √© confusa.", "negativo"),
    ("Estou decepcionado.", "negativo"),
    ("Eu amo programar em Python!", "positivo"),
    ("Python √© incr√≠vel e muito √∫til.", "positivo"),
    ("Adorei este tutorial!", "positivo"),
    ("N√£o gosto desse sistema.", "negativo"),
    ("Essa experi√™ncia foi horr√≠vel.", "negativo"),
    ("Nunca mais usarei esse produto.", "negativo"),
    ("O suporte foi r√°pido e eficiente.", "positivo"),
    ("Tudo funciona bem aqui.", "positivo"),
    ("A interface √© confusa.", "negativo"),
    ("Estou decepcionado.", "negativo"),
    ("Adorei o filme!", "positivo"),
    ("Muito bom!","positivo" ),
    ("Excelente servi√ßo!", "positivo"),
    ("Recomendo muito!", "positivo"),
    ("√ìtima qualidade!", "positivo"),
    ("Maravilhoso!", "positivo"),
    ("Fant√°stico!", "positivo"),
    ("Incr√≠vel experi√™ncia!", "positivo"),
    ("Perfeito!", "positivo"), 
    ("Surpreendente!", "positivo"),
    ("Vale cada centavo!", "positivo"),
    ("Impec√°vel!", "positivo"),
    ("Nota 10!", "positivo"),
    ("Superou expectativas!", "positivo"),
    ("Encantado!","positivo"),
    ("Sensacional!", "positivo"),
    ("Estou impressionado!", "positivo"),
    ("Melhor que esperava!", "positivo"),
    ("Divertido demais!", "positivo"),
    ("Amei!","positivo"),
    ("Top de linha!", "positivo"),
    ("Simplesmente perfeito!", "positivo"),
    ("Recomendo sem d√∫vidas!", "positivo"),
    ("Produto excelente!", "positivo"),
    ("Atendimento maravilhoso!","positivo"),
    ("Muito chato.", "negativo"), 
    ("P√©ssimo filme.", "negativo"), 
    ("Horr√≠vel experi√™ncia.", "negativo"), 
    ("N√£o recomendo.", "negativo"), 
    ("Terr√≠vel.", "negativo"), 
    ("Desapontado.", "negativo"), 
    ("Ruim demais.", "negativo"), 
    ("Lament√°vel.", "negativo"), 
    ("Fraco.", "negativo"), 
    ("Decepcionante.", "negativo"), 
    ("Perda de tempo.", "negativo"), 
    ("N√£o vale o pre√ßo.", "negativo"), 
    ("Horroroso.", "negativo"), 
    ("P√©ssimo atendimento.", "negativo"), 
    ("Arrependido.", "negativo"), 
    ("Muito ruim.", "negativo"), 
    ("Nunca mais compro.", "negativo"), 
    ("Qualidade inferior.", "negativo"), 
    ("N√£o funciona.", "negativo"), 
    ("Engana√ß√£o.", "negativo"), 
    ("Pior experi√™ncia.", "negativo"), 
    ("Tive problemas.", "negativo"), 
    ("N√£o atendeu expectativas.", "negativo"), 
    ("Fiquei insatisfeito.", "negativo"), 
    ("Produto defeituoso.", "negativo")
]

- Cada entrada tem:
  - Um **texto** (opini√£o).
  - Um **r√≥tulo** (`positivo` ou `negativo`).

## üóÇÔ∏è 4. Separar textos e r√≥tulos

- `textos`: todas as frases.
- `rotulos`: os sentimentos associados.

In [7]:
textos = [t[0] for t in dados]
rotulos = [t[1] for t in dados]

print (f"\n\nTextos  : \n\t{textos[0:5]}")
print (f"\n\nRotulos : \n\t{rotulos[0:5]}")





Textos  : 
	['Eu amo programar em Python!', 'Python √© incr√≠vel e muito √∫til.', 'Adorei este tutorial!', 'N√£o gosto desse sistema.', 'Essa experi√™ncia foi horr√≠vel.']


Rotulos : 
	['positivo', 'positivo', 'positivo', 'negativo', 'negativo']


## ‚ú® 5. Pr√©-processamento do texto

- **Limpa** o texto: remove pontua√ß√£o, transforma em min√∫sculas.
- **Tokeniza**: divide o texto em palavras.
- **Remove stopwords**: elimina palavras irrelevantes como "o", "a", "e".

In [8]:
def preprocessar(texto):
    # Remover pontua√ß√£o
    texto = re.sub(r'[^\w\s]', '', texto)
    
    # Tokenizar e converter para min√∫sculas
    tokens = word_tokenize(texto.lower())
    
    # Remover stopwords
    stop_words = set(stopwords.words('portuguese'))
    tokens_filtrados = [t for t in tokens if t not in stop_words]
    return ' '.join(tokens_filtrados)

## üßπ 6. Aplicar pr√©-processamento a todos os textos

- Retorna uma lista de textos j√° limpos e prontos para an√°lise.

In [10]:
textos_limpos = [preprocessar(t) for t in textos]

print (f"\n\nTextos Limpos: \n\t{textos_limpos[0:5]}")



Textos Limpos: 
	['amo programar python', 'python incr√≠vel √∫til', 'adorei tutorial', 'gosto desse sistema', 'experi√™ncia horr√≠vel']


## ü§ñ 7. Vetorizar os textos com TF-IDF

- Transforma cada texto em um vetor num√©rico.
- Usa **TF-IDF**, que mede a import√¢ncia das palavras no contexto

In [12]:
vectorizer = TfidfVectorizer()

## Obter as stopwords em portugu√™s
#stopwords_pt = stopwords.words('portuguese')
#vectorizer = TfidfVectorizer(
#    max_features=5000,         # Limita o n√∫mero m√°ximo de palavras usadas
#    min_df=2,                  # Ignora palavras que aparecem em menos de 2 documentos
#    max_df=0.95,               # Ignora palavras muito comuns (>95% dos textos)
#    ngram_range=(1, 2),        # Considera bigramas al√©m de unigramas
#    stop_words=stopwords_pt,   # Remove stopwords automaticamente
#    lowercase=True             # Converte tudo para min√∫sculas
#)

X = vectorizer.fit_transform(textos_limpos)


## üß™ 8. Dividir dados em treino e teste

- 80% dos dados s√£o usados para **treinar** o modelo.
- 20% s√£o usados para **testar** seu desempenho.

In [13]:
X_treino, X_teste, y_treino, y_teste = train_test_split(X, rotulos, test_size=0.2, random_state=42)

## üßë‚Äçüíª 9. Treinar o modelo (Naive Bayes)'

- Cria um modelo Naive Bayer (MultinomialNB)
- Usa o algoritmo **Multinomial Naive Bayes**, bom para classifica√ß√£o de textos.
- Executa o modelo com os dados de treino (X_treino e y_treino)

In [16]:
modelo = MultinomialNB()
modelo.fit(X_treino, y_treino)

0,1,2
,alpha,1.0
,force_alpha,True
,fit_prior,True
,class_prior,


## üîÆ 10. Fazer previs√µes

- Submete os dados de de **teste** (`X_teste`)
- O modelo prev√™ os sentimentos dos textos do conjunto de **teste**.
- Obtem as **previs√µes** (`y_pred`)

In [17]:
y_pred = modelo.predict(X_teste)

## üìä 11. Avaliar o modelo

- **Acur√°cia**: percentual de acertos do modelo.
- **Classification report**: mostra m√©tricas detalhadas (precis√£o, recall, f1-score) por classe.

In [19]:
print("Acur√°cia:", accuracy_score(y_teste, y_pred))
print("\nRelat√≥rio de classifica√ß√£o:")
print(classification_report(y_teste, y_pred))

Acur√°cia: 0.7142857142857143

Relat√≥rio de classifica√ß√£o:
              precision    recall  f1-score   support

    negativo       1.00      0.50      0.67         8
    positivo       0.60      1.00      0.75         6

    accuracy                           0.71        14
   macro avg       0.80      0.75      0.71        14
weighted avg       0.83      0.71      0.70        14



## ‚úÖ Resumo Geral

| Etapa | O que faz |
|-------|-----------|
| 1-2   | Importar e preparar ferramentas |
| 3-4   | Criar e separar dataset |
| 5-6   | Limpar e preparar os textos |
| 7     | Converter textos em n√∫meros |
| 8     | Dividir dados em treino/teste |
| 9     | Treinar modelo de classifica√ß√£o |
| 10-11 | Testar e avaliar o modelo |

Esse √© um exemplo b√°sico, mas completo, de como construir um **classificador de sentimentos** usando aprendizado de m√°quina. √â muito √∫til para an√°lises de opini√£o em redes sociais, avalia√ß√µes de produtos, etc.

## üìÅ C√≥digo Completo