# Oficina 9: Análise de sentimento com o dataset “Sentiment Labelled Sentences”

Você foi contratado por uma empresa de pesquisa de mercado interessada em automatizar a análise de sentimentos de comentários de clientes de diferentes setores (filmes, produtos, restaurantes). Para isso, você utilizará o dataset Sentiment Labelled Sentences (clique aqui), que contém comentários já rotulados como positivos ou negativos. 

O objetivo é criar um modelo de classificação de sentimentos que seja capaz de analisar os sentimentos expressos nesses comentários e fornecer insights rápidos para a empresa.

Este dataset contém comentários retirados de três fontes diferentes: Yelp, Amazon e IMDb, com cada linha sendo rotulada como “0” (negativo) ou “1” (positivo).

# Questão 1

Quais bibliotecas e ferramentas são necessárias para realizar essa análise? Importe essas bibliotecas em um ambiente de desenvolvimento como Google Colab ou Jupyter Notebook.

In [7]:
# Manipulação dos dados:
import pandas as pd

# Operações numéricas:
import numpy as np

# Transformar os textos em vetores numéricos 
from sklearn.feature_extraction.text import TfidfVectorizer

# Para utilizar o parâmetro stopwords como portuguese
import nltk
from nltk.corpus import stopwords

# Para dividir os dados em treino e teste
from sklearn.model_selection import train_test_split

# Modelo de classificação
from sklearn.naive_bayes import MultinomialNB

from sklearn.linear_model import LogisticRegression

# Para construir um pipeline de processamento e modelagem
from sklearn.pipeline import Pipeline

# Métrica de avaliação
from sklearn.metrics import accuracy_score, classification_report

# Questão 2
Como podemos transformar os textos brutos em uma forma utilizável para o modelo? Utilize a técnica TfidfVectorizer para converter os textos em uma matriz de características numéricas. Explique por que o pré-processamento é essencial para a análise de texto.

O pré-processamento é essencial porque os textos podem conter caracteres especiais, stopwords e variações de palavras que dificultam a análise. O TfidfVectorizer converte os textos em uma matriz numérica de frequência, onde palavras mais relevantes têm um peso maior. Ele é preferível a outras técnicas, como CountVectorizer, pois considera a importância relativa das palavras no conjunto de dados.

In [9]:
# Criando um DataFrame
data = {
    "sentence": [
        "O filme foi incrível, adorei cada cena!",  # Positivo (1)
        "O produto que comprei quebrou em menos de uma semana.",  # Negativo (0)
        "O atendimento no restaurante foi excelente, voltarei mais vezes!",  # Positivo (1)
        "Péssima experiência, a comida chegou fria e sem tempero.",  # Negativo (0)
        "Esse smartphone tem uma ótima bateria, dura o dia todo.",  # Positivo (1)
        "O hotel era sujo e barulhento, não recomendo.",  # Negativo (0)
        "Melhor serviço que já tive, parabéns a toda equipe!",  # Positivo (1)
        "O filme foi arrastado e sem emoção, me arrependi de assistir.",  # Negativo (0)
        "O sabor desse café é maravilhoso, recomendo!",  # Positivo (1)
        "Comprei um fone de ouvido e veio com defeito.",  # Negativo (0),
    ],
    "label": [1, 0, 1, 0, 1, 0, 1, 0, 1, 0]  # 1 = Positivo, 0 = Negativo
}


In [10]:
data

{'sentence': ['O filme foi incrível, adorei cada cena!',
  'O produto que comprei quebrou em menos de uma semana.',
  'O atendimento no restaurante foi excelente, voltarei mais vezes!',
  'Péssima experiência, a comida chegou fria e sem tempero.',
  'Esse smartphone tem uma ótima bateria, dura o dia todo.',
  'O hotel era sujo e barulhento, não recomendo.',
  'Melhor serviço que já tive, parabéns a toda equipe!',
  'O filme foi arrastado e sem emoção, me arrependi de assistir.',
  'O sabor desse café é maravilhoso, recomendo!',
  'Comprei um fone de ouvido e veio com defeito.'],
 'label': [1, 0, 1, 0, 1, 0, 1, 0, 1, 0]}

In [11]:
# Criar o DataFrame
df = pd.DataFrame(data)

# Separar os textos (X) e os rótulos (y)
X = df["sentence"]
y = df["label"]

# Dividir os dados em treino (80%) e teste (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [12]:
df.head()

Unnamed: 0,sentence,label
0,"O filme foi incrível, adorei cada cena!",1
1,O produto que comprei quebrou em menos de uma ...,0
2,"O atendimento no restaurante foi excelente, vo...",1
3,"Péssima experiência, a comida chegou fria e se...",0
4,"Esse smartphone tem uma ótima bateria, dura o ...",1


# Questão 3
Qual modelo de classificação devemos usar e por quê? Construa um pipeline que integra o pré-processamento de texto e o modelo. Explique a sua escolha de modelo para a tarefa de análise de sentimento.

In [None]:
# Baixar as stopwords do nltk
nltk.download('stopwords')
stopwords_pt = stopwords.words('portuguese')

# Criar o pipeline de processamento e modelagem
pipeline = Pipeline([
    ("tfidf", TfidfVectorizer(stop_words=stopwords_pt, max_features=5000)),
    ("classifier", MultinomialNB())
])


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Yago\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


# Questão 4
Como treinamos o modelo para que ele aprenda a classificar os comentários? Treine o modelo Naive Bayes usando os dados de treino. Descreva o processo de treinamento e como o modelo aprende a partir dos exemplos rotulados.

In [28]:
# Treinar o modelo
pipeline.fit(X_train, y_train)

# Questão 5
Como podemos avaliar o desempenho do modelo? Avalie o modelo usando o conjunto de teste e calcule a acurácia. Explique o que a acurácia nos diz sobre a qualidade das previsões do modelo.

O modelo é avaliado usando a acurácia, que mede a proporção de previsões corretas.
- Se for alta (>80%), significa que o modelo está aprendendo bem as características dos textos.

In [29]:
# Fazer previsões
y_pred = pipeline.predict(X_test)

# Avaliando o desempenho do modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo: {accuracy:.2f}")

# Relatório de classificação
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred))

Acurácia do modelo: 0.50

Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.50      1.00      0.67         1
           1       0.00      0.00      0.00         1

    accuracy                           0.50         2
   macro avg       0.25      0.50      0.33         2
weighted avg       0.25      0.50      0.33         2



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
