# NLP - Prova 1

Nesta prova, utilizaremos um dataset fornecido por uma empresa de e-commerce. Trata-se de um dataset que contém reviews de pedidos feitos na Internet ou através do aplicativo. Cada review tem uma nota (*score*) que vai de 1 (muito ruim) a 5 (muito bom). Também, cada review tem uma mensagem deixada pelo cliente, que pode esclarecer o que levou à atribuição da nota. O dataset é o seguinte:

In [1]:
import pandas as pd 
df = pd.read_csv('reviews.csv')
df.head()

Unnamed: 0,review_id,review_score,review_comment_message
0,e64fb393e7b32834bb789ff8bb30750e,5,Recebi bem antes do prazo estipulado.
1,f7c4243c7fe1938f181bec41a392bdeb,5,Parabéns lojas lannister adorei comprar pela I...
2,8670d52e15e00043ae7de4c01cc2fe06,4,aparelho eficiente. no site a marca do aparelh...
3,4b49719c8a200003f700d3d986ea1a19,4,"Mas um pouco ,travando...pelo valor ta Boa.\r\n"
4,3948b09f7c818e2d86c9a546758b2335,5,"Vendedor confiável, produto ok e entrega antes..."


A empresa, porém, gostaria de saber quais são os aspectos em que pode melhorar. Para fazer isso, jogou todos os reviews em um LLM (o procedimento para isso está em `consultar_llm.py`, que acompanha este notebook), e então coletou as respostas. Em sua execução, o LLM retornou o seguinte:

## RESPOSTA DO LLM

Para identificar os elementos mais elogiados e reclamados, vou analisar as avaliações buscando palavras-chave e temas recorrentes.

**Elogios Mais Comuns:**

*   **Entrega Rápida/No Prazo:** Este é o elogio mais frequente. Termos como "chegou antes do prazo", "entrega rápida", "no prazo" aparecem repetidamente.
*   **Produto Bom/Excelente Qualidade:** Muitos clientes expressam satisfação com a qualidade do produto em si. Palavras como "excelente", "bom", "perfeito", "recomendo", "atendeu minhas expectativas", "cumpre o que promete" são comuns.
*   **Bom Atendimento/Comunicação:** Alguns clientes elogiam a comunicação clara e eficiente com o vendedor.
*   **Embalagem:** Alguns clientes elogiaram a forma como o produto foi embalado.

**Reclamações Mais Comuns:**

*   **Não Recebimento do Produto:** Esta é a reclamação mais grave e frequente. Várias avaliações mencionam "não recebi o produto" ou "ainda não recebi".
*   **Atraso na Entrega:** Mesmo quando o produto é entregue, o atraso é uma reclamação comum.
*   **Produto com Defeito/Danificado:** Alguns clientes relatam receber produtos com defeito, amassados ou com peças faltando.
*   **Produto Errado:** Alguns clientes relatam ter recebido o produto errado.
*   **Problemas com a Compra/Cancelamento:** Alguns clientes relatam problemas com o cancelamento da compra.
*   **Problemas com a Comunicação:** Alguns clientes reclamam da dificuldade em se comunicar com o vendedor após a compra ou da falta de resposta às suas dúvidas.
*   **Voltagem Errada:** Um cliente reclamou que o produto veio com a voltagem errada.
*   **Qualidade do Produto Abaixo do Esperado:** Alguns clientes expressam insatisfação com a qualidade do produto, mencionando material ruim, acabamento imperfeito ou falsificação.
*   **Problemas com a Entrega pelos Correios:** Um cliente reclamou do serviço dos correios.

**Resumo:**

*   **Elogios:** Entrega rápida/no prazo e boa qualidade do produto são os pontos fortes.
*   **Reclamações:** Problemas com a entrega (não recebimento, atraso) e produtos com defeito/qualidade inferior são os principais pontos fracos.

**Recomendações:**

A empresa deve priorizar a melhoria dos processos de entrega para garantir que os produtos cheguem aos clientes no prazo e em perfeitas condições. Além disso, deve investir no controle de qualidade dos produtos e na comunicação com os clientes para resolver problemas de forma rápida e eficiente.


## Discussão

Mesmo que o LLM possa dar pistas importantes para o desenvolvimento desta solução, há um problemaa fundamental em simplesmente "acreditar" nessa resposta: ela não tem base em dados nem em uma metodologia científica, então é impossível criticá-la, replicá-la ou saber de suas limitações.

A tarefa neste exercício é encontrar dados, usando metodologias clássicas de NLP, que corroborem ou que contradigam a conclusão trazida pelo LLM.


# Exercícios

## Exercício 1

Faça e avalie (usando uma métrica) um modelo preditivo baseado no modelo Bag-of-Words capaz de prever, à partir do texto do review, se ele será positivo (notas 4 ou 5) ou negativo (notas 1, 2 ou 3). Use estratégias adequadas para mostrar que o modelo não está enviesado (por exemplo, retornando sempre 'positivo' para o review). Justifique todas as suas decisões (tipo de vetorizador, tipo de classificador, métrica(s) usada(s) para avaliação) em comentários no código.

Dica: `df['positivo'] = df['review_score'].apply(lambda x: x > 3)`

In [None]:
#exercicio1
#não apague o comentário acima!!!
# Faça todo o seu código (e também os comentários) nesta célula!
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

# Inicialmente, construir o y, fazendo uma coluna baseada na avaliação das reviews:
df['positivo'] = df['review_score'].apply(lambda x: x > 3)

# Outra informação relevante para minha avaliação do modelo é entender os dados, por isso,
# obtenho a informação da representatividade dos meus dados (entre reviews positivas e negativas):
print(df["positivo"].value_counts())

# Descobri que existem 26530 reviews positivas (4 ou 5 estrelas) e 14447 reviews negativas (1, 2 ou 3)
# O que me sinaliza que, apesar de não totalmente balanceado entre classes, o dataset contém uma quantidade
# suficiente de entradas para cada classe.
# Sabendo também que a razão de reviews positivas para o total é de aproximadamente 65%, eu sei que uma 
# Acurácia trivial seria de 65%, onde meu classificador simplesmente estaria chutando a classe mais proeminente.

# Utilizando uma pipeline simples com um CountVectorizer e um modelo baseado em Naive Bayes, 
# vou fazer testes para afirmar a interação de um modelo baseado em Bag-of-Words com os dados.

# Utilizei um CountVectorizer por ser uma forma simples de representar os termos e suas presenças nos documentos,
# E um modelo de Regressão Logística para avaliar as probabilidades das palavras mais tarde.

X_train, X_test, y_train, y_test = train_test_split(df['review_comment_message'], df['positivo'], test_size=0.20)

# Construi a pipeline com alguns argumentos no Vetorizador para ajudarem o treinamento do modelo, como stop words 
# (adquiri de um repositório) e min e max df,
# Para tratarem palavras extremamente comuns ou outliers extremos.

stop_words = open("stopwords.txt", "r")
stop_words = stop_words.read().split(" \n")

model = Pipeline([
    ('vectorizer', CountVectorizer(binary=True, stop_words=stop_words, min_df=3, max_df=0.8)),
    ('classifier', LogisticRegression())
])

# Treino e faço a predição
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

# E finalmente, usei um classification report para ter um entendimento profundo da interação do meu modelo com os dados
print(classification_report(y_test, y_pred))

# Meu classification report me informou que para a classe False (reviews negativas) meu precision é de 86%, e meu recall é de 82%,
# Enquanto para a classe True (reviews positivas) meu precision é de 91%, e meu recall é de 93%. Os f1-scores são de 84% e 92% respectivamente.
# Essa informação é bem interessante e me garante que meu modelo não chuta a classe mais proeminente, já que
# sua acurácia não se assemelha a representatividade dessa classe no conjunto de teste, e ele é consistente em classificar as 
# reviews, com uma acurácia geral de 89%.

positivo
True     26530
False    14447
Name: count, dtype: int64




              precision    recall  f1-score   support

       False       0.86      0.82      0.84      2837
        True       0.91      0.93      0.92      5359

    accuracy                           0.89      8196
   macro avg       0.89      0.88      0.88      8196
weighted avg       0.89      0.89      0.89      8196



## Exercício 2

Analise seu modelo e encontre quais são as palavras e/ou n-gramas que são melhores preditoras do número de estrelas (alto ou baixo) recebido um review (dica: você pode usar `pipeline[:-1].get_feature_names_out()` para encontrar uma lista com todos os tokens do seu vocabulário). Ao usar elementos do sklearn, use um comentário no código para explicar o que esses elementos significam e como eles podem apontar para o poder preditivo de cada palavra (ou n-grama). Por fim, use comentários no código para explicar como suas descobertas corroboram, contradizem, ou relativizam o que foi proposto pelo LLM.

In [None]:
#exercicio2
#não apague o comentário acima!!!
# Faça todo o seu código (e também os comentários) nesta célula!

# Decidi construir uma função que receberia uma review e classificaria essa review,
# E então usando o método decision function nativo do modelo, escolheria as palavras
# mais decisivas para aquela classificação
import numpy as np
import random

def best_word_probabilities(model: Pipeline, review, k=5):
    y = "positivo" if model.predict([review])[0] else "negativo"
    
    words = review.split()
    words = np.array(list(set(words)))
    decisive_words = model.decision_function(words)
    sorted_idx = np.argsort(decisive_words)

    if y == "positivo":
        best_words = words[sorted_idx[:k]]
    elif y == "negativo":
        best_words = words[sorted_idx[-k:]]

    return best_words

# Tendo essa função feita, eu então usei ela para entender quais são as palavras mais
# indicativas de cada classe do problema, passando por todas as reviews e guardando em dicionários
# as palavras e suas frequências entre as melhores palavras, ou seja, quantas vezes elas apareceram 
# entre as palavras mais relevantes para uma review ser classificada

reviews_positivas = df[df["positivo"]]["review_comment_message"]
reviews_negativas = df[df["positivo"] == False]["review_comment_message"]

# Eu utilizei as 2 palavras mais importantes, pois muitas reviews eram bem curtas
best_words_for_positives = reviews_positivas.apply(lambda x: best_word_probabilities(model, x, 2) if len(x.split()) > 0 else [])
best_words_for_negatives = reviews_negativas.apply(lambda x: best_word_probabilities(model, x, 2) if len(x.split()) > 0 else [])

best_positive_words = {}
best_negative_words = {}

# Tive que remover as stop words do dicionário, pois elas apareciam de qualquer forma
for words in best_words_for_positives:
    for word in words:
        word = word.lower()
        if word in stop_words:
            continue
        if word in best_positive_words:
            best_positive_words[word] += 1
        else:
            best_positive_words[word] = 1

for words in best_words_for_negatives:
    for word in words:
        word = word.lower()
        if word in stop_words:
            continue
        if word in best_negative_words:
            best_negative_words[word] += 1
        else:
            best_negative_words[word] = 1

sorted_best_positive_words = dict(sorted(best_positive_words.items(), key=lambda x: x[1]))
sorted_best_negative_words = dict(sorted(best_negative_words.items(), key=lambda x: x[1]))

print(list(sorted_best_positive_words.items())[-30:])
print(list(sorted_best_negative_words.items())[-30:])

# Ao analizar as palavras que estavam entre as mais frequentes, a avaliação do LLM usado pela empresa parece coerente.
# Digo isso pois entre as palavras mais frequentes em reviews positivas estavam os óbvios "ótimo", "excelente", "gostei",
# mas também haviam palavras relacionadas com os tópicos que o LLM mencionoi, como "prazo", "recebi", "entregue", "chegou".
# Já ao analizar as palavras mais frequentes em reviews negativas, essas mesmas palavras "prazo", "recebi", "entregue", "chegou"
# Estavam presentes também, mas as outras tinham conotações negativas, o que indica que a impressão contrária foi a passada.

# Rubricas e auto-avaliação assistida por IA

Este teste tem duas questões. Porém, são questões bastante complexas. Para verificar se você não esqueceu de nada em nenhuma questão, você pode usar o script `autoavaliacao.py`.

Cada um dos ítens cumpridos corretamente nas rubricas disponíveis em `autoavaliacao.py` terão o mesmo valor nas questões (1/8 na questão 1, 1/4 na questão 2). Um ítem cumprido parcialmente vale metade dos pontos. Um ítem feito errado não vale pontos. Cada uma das questões tem o mesmo valor (50% do total).

**IMPORTANTE**: o fato de o LLM dizer que um ítem da rubrica foi cumprido, não significa que ele **realmente** foi cumprido. O LLM avalia apenas se o ítem **existe**. O LLM é uma **ferramenta** e a sua utilidade depende do **seu** julgamento crítico.

Após o término da prova, salve seu notebook e entregue no Blackboard.

## Avaliação da prova

Se desejar, comente os pontos abaixo:

**Experiência da prova**: ao fazer esta prova, me senti...

**Dificuldades técnicas ou de compreensão do enunciado**: ...

**O script de auto-avaliação me ajudou**: sim, não, em partes...?