In [1]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Exemplo ampliado de dados de treinamento
data = {
    'text': [
        'Eu amo este filme!',
        'Este é um ótimo produto!',
        'Terrível experiência, nunca mais!',
        'Eu não gostei nada disso.',
        'Isso é maravilhoso!',
        'Muito ruim, não recomendo.',
        'Excelente, vou comprar de novo.',
        'O pior que já vi!',
        'Altamente recomendável, adorei!',
        'Decepcionante, esperava mais.',
        'Eu gostei bastante deste livro.',
        'Este serviço foi muito bom!',
        'Horrível, perdi meu tempo.',
        'Achei incrível, muito interessante!',
        'Não valeu a pena.',
        'Fantástico, superou minhas expectativas.',
        'Péssimo, estragou meu dia.',
        'Gostei do atendimento, foram muito atenciosos.',
        'Detestei, nunca mais uso.',
        'Excelente qualidade, estou satisfeito.',
        'O serviço foi muito rápido e eficiente.',
        'Não consegui resolver meu problema com este produto.',
        'Adorei o design e a funcionalidade.',
        'Produto chegou quebrado, muito ruim.',
        'Maravilhoso, vou comprar novamente.',
        'Experiência péssima, atendimento ruim.',
        'Estou muito feliz com minha compra!',
        'Não compraria novamente, decepção total.',
        'Simplesmente perfeito, atendeu todas as minhas expectativas.',
        'Horrível, muito aquém do esperado.',
        'Incrível, super recomendo a todos.'
    ],
    'sentiment': [
        1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1,
        1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1
    ]
}

# Verificando o tamanho das listas
print(len(data['text']), len(data['sentiment']))

# Criação do DataFrame
df = pd.DataFrame(data)

# Divisão dos dados em treino e teste garantindo ambas as classes
X_train, X_test, y_train, y_test = train_test_split(df['text'], df['sentiment'], test_size=0.2, random_state=42, stratify=df['sentiment'])

# Vetorização do texto usando Bag of Words
vectorizer = CountVectorizer()
X_train_bow = vectorizer.fit_transform(X_train)
X_test_bow = vectorizer.transform(X_test)

# Treinamento do modelo de Regressão Logística
model = LogisticRegression()
model.fit(X_train_bow, y_train)

# Previsão nos dados de teste
y_pred = model.predict(X_test_bow)

# Avaliação do modelo
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))

# Testando com novos dados
new_data = [
    'Eu realmente adorei este produto!',
    'Não gostei nada disso, foi horrível.'
]
new_data_bow = vectorizer.transform(new_data)
new_predictions = model.predict(new_data_bow)

print("Novas previsões:", new_predictions)


31 31
Accuracy: 0.7142857142857143
Confusion Matrix:
 [[1 2]
 [0 4]]
Classification Report:
               precision    recall  f1-score   support

           0       1.00      0.33      0.50         3
           1       0.67      1.00      0.80         4

    accuracy                           0.71         7
   macro avg       0.83      0.67      0.65         7
weighted avg       0.81      0.71      0.67         7

Novas previsões: [1 0]


Vamos interpretar os resultados:

1. Acurácia
Acurácia: 0.7142857142857143 (ou 71.4%)
Isso significa que o modelo previu corretamente 71.4% dos exemplos no conjunto de teste.

2. Matriz de Confusão
Matriz de Confusão
[[1 2]
 [0 4]]
- A matriz de confusão mostra os seguintes resultados:
   - 1 verdadeiro negativo (classe 0 corretamente - prevista como 0)
   - 2 falsos positivos (classe 0 incorretamente prevista como 1)
   - 0 falsos negativos (classe 1 incorretamente prevista como 0)
   - 4 verdadeiros positivos (classe 1 corretamente prevista como 1)

1. Relatório de Classificação
- Precisão:
   - Classe 0: 1.00 (ou 100%) - Todas as previsões da classe 0 foram corretas.
   - Classe 1: 0.67 (ou 67%) - 67% das previsões da - classe 1 foram corretas.
- Recall:
   - Classe 0: 0.33 (ou 33%) - Apenas 33% dos exemplos da classe 0 foram corretamente identificados.
   - Classe 1: 1.00 (ou 100%) - Todos os exemplos da classe 1 foram corretamente identificados.
- F1-score:
   - Classe 0: 0.50 - Média harmônica entre precisão e recall para a classe 0.
   - Classe 1: 0.80 - Média harmônica entre precisão e recall para a classe 1.

1. Novas Previsões
- Novas previsões: [1, 0]
   - O modelo previu que o primeiro novo texto tem um sentimento positivo (1).
   - O modelo previu que o segundo novo texto tem um sentimento negativo (0).
- Interpretação
   - O modelo tem uma alta precisão para a classe 0, mas um baixo recall, indicando que embora todas as previsões da classe 0 estejam corretas, ele falhou em identificar todos os exemplos da classe 0.
   - Para a classe 1, o modelo tem um recall perfeito, mas uma precisão menor, indicando que ele identificou todos os exemplos da classe 1 corretamente, mas também fez algumas previsões incorretas para a classe 0 como classe 1.
   - A acurácia geral de 71.4% é aceitável, mas pode ser melhorada, especialmente considerando o desequilíbrio nas previsões corretas para as duas classes.
 
 Esses resultados sugerem que o modelo está razoavelmente bom em prever sentimentos positivos, mas pode precisar de mais ajustes ou dados adicionais para melhorar a previsão de sentimentos negativos.