In [10]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 1. Dataset Simulado (Agora com 3 classes)
# Na prática, eles carregariam de um CSV/Excel
data = {
    'texto': [
        "Amei o produto, maravilhoso!",       # Positivo
        "O atendimento foi excelente.",       # Positivo
        "Chegou no prazo, tudo ok.",          # Neutro
        "A embalagem é normal, sem luxo.",    # Neutro
        "O produto não funciona, horrível.",  # Negativo
        "Detestei, quero meu dinheiro.",      # Negativo
        "Poderia ser melhor, mas serve.",     # Neutro
        "Muito caro pelo que oferece.",
        # --- POSITIVOS (15 exemplos) ---
        "O produto é fantástico, superou minhas expectativas!",
        "Entrega muito rápida, chegou em dois dias.",
        "Adorei o atendimento, foram muito atenciosos.",
        "A qualidade do material é excelente, recomendo.",
        "Preço justo e ótima qualidade.",
        "Simplesmente perfeito, comprarei novamente.",
        "Funciona muito bem, estou satisfeito.",
        "A embalagem veio impecável, muito cuidado.",
        "Melhor custo-benefício do mercado.",
        "O suporte resolveu meu problema em minutos.",
        "Muito bonito e acabamento de primeira.",
        "Exatamente como na foto, muito bom.",
        "Fiquei feliz com a agilidade da loja.",
        "Nota 10, nada a reclamar.",
        "Uma experiência de compra maravilhosa.",

        # --- NEUTROS (15 exemplos) ---
        "O produto chegou, mas a caixa estava amassada.",
        "É um produto ok, nada de especial.",
        "Cumpre o que promete, mas o preço é alto.",
        "A entrega foi no prazo, sem surpresas.",
        "A cor é um pouco diferente da foto, mas serve.",
        "Razoável, serve para uso básico.",
        "Não é ruim, mas esperava um pouco mais.",
        "O atendimento foi normal, nem bom nem ruim.",
        "Recebi o produto conforme a descrição.",
        "Funciona, porém faz um pouco de barulho.",
        "Achei mediano, tem opções melhores.",
        "Para quem não é exigente, vale a pena.",
        "Tamanho padrão, coube direitinho.",
        "Demorou um pouco, mas chegou inteiro.",
        "É um bom quebra-galho.",

        # --- NEGATIVOS (15 exemplos) ---
        "Péssimo, parou de funcionar em uma semana.",
        "O atendimento é horrível, ninguém responde.",
        "Não comprem, é dinheiro jogado fora.",
        "Chegou tudo quebrado, uma vergonha.",
        "A entrega atrasou mais de um mês.",
        "Qualidade muito baixa, parece descartável.",
        "Detestei, quero meu dinheiro de volta.",
        "O produto veio com defeito e não trocam.",
        "Muito caro para o que oferece.",
        "Experiência frustrante, não recomendo.",
        "O site travou e cobrou duas vezes.",
        "Enganação, o produto não faz o que diz.",
        "Material frágil, quebrou no primeiro uso.",
        "O suporte me deixou esperando horas.",
        "Totalmente insatisfeito com a compra."# Negativo
    ],
    'sentimento': [
        'Positivo', 'Positivo',
        'Neutro', 'Neutro',
        'Negativo', 'Negativo',
        'Neutro', 'Negativo', # Labels correspondentes (15 de cada)
        "Positivo", "Positivo", "Positivo", "Positivo", "Positivo",
        "Positivo", "Positivo", "Positivo", "Positivo", "Positivo",
        "Positivo", "Positivo", "Positivo", "Positivo", "Positivo",

        "Neutro", "Neutro", "Neutro", "Neutro", "Neutro",
        "Neutro", "Neutro", "Neutro", "Neutro", "Neutro",
        "Neutro", "Neutro", "Neutro", "Neutro", "Neutro",

        "Negativo", "Negativo", "Negativo", "Negativo", "Negativo",
        "Negativo", "Negativo", "Negativo", "Negativo", "Negativo",
        "Negativo", "Negativo", "Negativo", "Negativo", "Negativo"
    ]
}

df = pd.DataFrame(data)

# 2. Separação (Treino e Teste)
X = df['texto']
y = df['sentimento']

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, random_state=42
)

# 3. Criação do Pipeline (TF-IDF + Regressão Logística)
# O parâmetro class_weight='balanced' é útil se tivermos poucos 'Neutros'
modelo = make_pipeline(
    TfidfVectorizer(),
    LogisticRegression(multi_class='multinomial', solver='lbfgs')
)

# 4. Treinamento
modelo.fit(X_train, y_train)

# 5. Testando com uma frase nova
novos_textos = ["O produto chegou, é excelente."]
predicao = modelo.predict(novos_textos)
probabilidades = modelo.predict_proba(novos_textos)

# 6. Exibindo Resultados
print(f"Texto: {novos_textos[0]}")
print(f"Previsão: {predicao[0]}")

# Mostra as classes que o modelo aprendeu (ex: ['Negativo', 'Neutro', 'Positivo'])
classes = modelo.classes_
print(f"\nOrdem das Classes: {classes}")
print(f"Probabilidades: {probabilidades[0]}")

# Exemplo de como interpretar a probabilidade:
# Se classes for ['Negativo', 'Neutro', 'Positivo']
# e proba for [0.10, 0.85, 0.05] -> 85% de chance de ser Neutro.

Texto: O produto chegou, é excelente.
Previsão: Positivo

Ordem das Classes: ['Negativo' 'Neutro' 'Positivo']
Probabilidades: [0.24670347 0.37410668 0.37918985]


