# NLP - Prova 1

Nesta prova, utilizaremos um dataset fornecido por uma empresa de e-commerce. Trata-se de um dataset que contém reviews de pedidos feitos na Internet ou através do aplicativo. Cada review tem uma nota (*score*) que vai de 1 (muito ruim) a 5 (muito bom). Também, cada review tem uma mensagem deixada pelo cliente, que pode esclarecer o que levou à atribuição da nota. O dataset é o seguinte:

In [None]:
import pandas as pd 
df = pd.read_csv('reviews.csv')
df.head()

Unnamed: 0,review_id,review_score,review_comment_message
0,e64fb393e7b32834bb789ff8bb30750e,5,Recebi bem antes do prazo estipulado.
1,f7c4243c7fe1938f181bec41a392bdeb,5,Parabéns lojas lannister adorei comprar pela I...
2,8670d52e15e00043ae7de4c01cc2fe06,4,aparelho eficiente. no site a marca do aparelh...
3,4b49719c8a200003f700d3d986ea1a19,4,"Mas um pouco ,travando...pelo valor ta Boa.\r\n"
4,3948b09f7c818e2d86c9a546758b2335,5,"Vendedor confiável, produto ok e entrega antes..."


A empresa, porém, gostaria de saber quais são os aspectos em que pode melhorar. Para fazer isso, jogou todos os reviews em um LLM (o procedimento para isso está em `consultar_llm.py`, que acompanha este notebook), e então coletou as respostas. Em sua execução, o LLM retornou o seguinte:

## RESPOSTA DO LLM

Para identificar os elementos mais elogiados e reclamados, vou analisar as avaliações buscando palavras-chave e temas recorrentes.

**Elogios Mais Comuns:**

*   **Entrega Rápida/No Prazo:** Este é o elogio mais frequente. Termos como "chegou antes do prazo", "entrega rápida", "no prazo" aparecem repetidamente.
*   **Produto Bom/Excelente Qualidade:** Muitos clientes expressam satisfação com a qualidade do produto em si. Palavras como "excelente", "bom", "perfeito", "recomendo", "atendeu minhas expectativas", "cumpre o que promete" são comuns.
*   **Bom Atendimento/Comunicação:** Alguns clientes elogiam a comunicação clara e eficiente com o vendedor.
*   **Embalagem:** Alguns clientes elogiaram a forma como o produto foi embalado.

**Reclamações Mais Comuns:**

*   **Não Recebimento do Produto:** Esta é a reclamação mais grave e frequente. Várias avaliações mencionam "não recebi o produto" ou "ainda não recebi".
*   **Atraso na Entrega:** Mesmo quando o produto é entregue, o atraso é uma reclamação comum.
*   **Produto com Defeito/Danificado:** Alguns clientes relatam receber produtos com defeito, amassados ou com peças faltando.
*   **Produto Errado:** Alguns clientes relatam ter recebido o produto errado.
*   **Problemas com a Compra/Cancelamento:** Alguns clientes relatam problemas com o cancelamento da compra.
*   **Problemas com a Comunicação:** Alguns clientes reclamam da dificuldade em se comunicar com o vendedor após a compra ou da falta de resposta às suas dúvidas.
*   **Voltagem Errada:** Um cliente reclamou que o produto veio com a voltagem errada.
*   **Qualidade do Produto Abaixo do Esperado:** Alguns clientes expressam insatisfação com a qualidade do produto, mencionando material ruim, acabamento imperfeito ou falsificação.
*   **Problemas com a Entrega pelos Correios:** Um cliente reclamou do serviço dos correios.

**Resumo:**

*   **Elogios:** Entrega rápida/no prazo e boa qualidade do produto são os pontos fortes.
*   **Reclamações:** Problemas com a entrega (não recebimento, atraso) e produtos com defeito/qualidade inferior são os principais pontos fracos.

**Recomendações:**

A empresa deve priorizar a melhoria dos processos de entrega para garantir que os produtos cheguem aos clientes no prazo e em perfeitas condições. Além disso, deve investir no controle de qualidade dos produtos e na comunicação com os clientes para resolver problemas de forma rápida e eficiente.


## Discussão

Mesmo que o LLM possa dar pistas importantes para o desenvolvimento desta solução, há um problemaa fundamental em simplesmente "acreditar" nessa resposta: ela não tem base em dados nem em uma metodologia científica, então é impossível criticá-la, replicá-la ou saber de suas limitações.

A tarefa neste exercício é encontrar dados, usando metodologias clássicas de NLP, que corroborem ou que contradigam a conclusão trazida pelo LLM.


# Exercícios

## Exercício 1

Faça e avalie (usando uma métrica) um modelo preditivo baseado no modelo Bag-of-Words capaz de prever, à partir do texto do review, se ele será positivo (notas 4 ou 5) ou negativo (notas 1, 2 ou 3). Use estratégias adequadas para mostrar que o modelo não está enviesado (por exemplo, retornando sempre 'positivo' para o review). Justifique todas as suas decisões (tipo de vetorizador, tipo de classificador, métrica(s) usada(s) para avaliação) em comentários no código.

Dica: `df['positivo'] = df['review_score'].apply(lambda x: x > 3)`

In [13]:
df['positivo'] = df['review_score'].apply(lambda x: x > 3)

Unnamed: 0,review_id,review_score,review_comment_message,positivo
0,e64fb393e7b32834bb789ff8bb30750e,5,Recebi bem antes do prazo estipulado.,True
1,f7c4243c7fe1938f181bec41a392bdeb,5,Parabéns lojas lannister adorei comprar pela I...,True
2,8670d52e15e00043ae7de4c01cc2fe06,4,aparelho eficiente. no site a marca do aparelh...,True
3,4b49719c8a200003f700d3d986ea1a19,4,"Mas um pouco ,travando...pelo valor ta Boa.\r\n",True
4,3948b09f7c818e2d86c9a546758b2335,5,"Vendedor confiável, produto ok e entrega antes...",True
...,...,...,...,...
40972,98fffa80dc9acbde7388bef1600f3b15,4,para este produto recebi de acordo com a compr...,True
40973,df5fae90e85354241d5d64a8955b2b09,5,Entregou dentro do prazo. O produto chegou em ...,True
40974,a709d176f59bc3af77f4149c96bae357,3,"O produto não foi enviado com NF, não existe v...",False
40975,b3de70c89b1510c4cd3d0649fd302472,5,"Excelente mochila, entrega super rápida. Super...",True


In [None]:
#exercicio1
#não apague o comentário acima!!!
# Faça todo o seu código (e também os comentários) nesta célula!


from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score

# descobrindo qual a proporção de positivos:
df['positivo'].value_counts()

# resultado: 64.7% Positivo
# True     26530
# False    14447

# etapa de balancear proporção de positivos/negativos:
dfa = df[df["positivo"]].head(14447)
dfb = df[df["positivo"] == False]

dfc = pd.concat([dfa,dfb])
dfc['positivo'].value_counts()

# resultado 50% Positivo
# True     14447
# False    14447

vectorizer = CountVectorizer(
  min_df=10, # filtro de regularização para excluir palavras que aparecem em ao menos de 10 documentos
  max_df=0.8, # filtro de regularização para excluir palavras que aparecem em mais de 80% dos documentos
) # classe do sklearn que gera um vetor (documentos X palavras) = bag-of-words

X = vectorizer.fit_transform(dfc["review_comment_message"]) 

X_train, X_test, y_train, y_test = train_test_split(X, dfc['positivo'], test_size=0.2)

model = LogisticRegression() 
model.fit(X_train, y_train)

y_pred = model.predict(X_test) 

# metrica utilizada foi comparar a acuracia do resultado do modelo com a classificação real vinda do dataset.
accuracy = accuracy_score(y_test, y_pred) 
accuracy

# recall = recall_score(y_test, y_pred, average='macro')
# precision = precision_score(y_test, y_pred, average='macro')
# f1 = f1_score(y_test, y_pred, average='macro')

# print(f'Recall: {recall}')
# print(f'Precision: {precision}')
# print(f'F1: {f1:.2f}')

# Accuracy do modelo foi 0.89. Um resultado muito acima do caso base, 0.5. Logo, o modelo não está enviezado 
# em responder sempre positivo, por exemplo. 
# Dessa forma, é possivel concluir que o BagOfWords foi capaz de prever os reviews baseados em suas palavras.

0.8868316317702024

## Exercício 2

Analise seu modelo e encontre quais são as palavras e/ou n-gramas que são melhores preditoras do número de estrelas (alto ou baixo) recebido um review (dica: você pode usar `pipeline[:-1].get_feature_names_out()` para encontrar uma lista com todos os tokens do seu vocabulário). Ao usar elementos do sklearn, use um comentário no código para explicar o que esses elementos significam e como eles podem apontar para o poder preditivo de cada palavra (ou n-grama). Por fim, use comentários no código para explicar como suas descobertas corroboram, contradizem, ou relativizam o que foi proposto pelo LLM.

In [43]:
model.coef_[0]

array([-1.11060888, -0.02764377, -0.41029993, ...,  1.38573787,
       -0.25387825, -0.76816453], shape=(2035,))

In [None]:
#exercicio2
#não apague o comentário acima!!!
#Faça todo o seu código (e também os comentários) nesta célula!

# a partir do modelo definido no exercício anterior

words = vectorizer.get_feature_names_out() # extração dos nomes das features, ou seja, cada palavra
words_coefficients = model.coef_[0] # extração do coeficiente, ou seja, o peso da palavra na classificação 

feature_importance = pd.DataFrame({'feature': words, 'coefficient': words_coefficients}) # junção entre nome e coeficiente
feature_importance = feature_importance.sort_values(by='coefficient', ascending=False) # ordernação decrescente

positive_words = feature_importance.head(20) # extração das palavras positivas com maior importancia
# Palavras positivas de destaque: ['excelente','amei','otimo','ótimo','adorei','testei','surpreendeu','sofá','maravilhoso','show','ótima','parabéns','adorou','rápida','perfeito','satisfeito','beleza','top','ideal','interessante']

negative_words = feature_importance.tail(10) # extração das palavras negativas com maior importancia
# Palavras negativas de destaque: péssima, demorada, longo, péssimo, ruim, quebrado, demora, inferior, unidade, baixa

# Verificando a presença da palavra mais significativa em relação a classifição do review
print(dfc[dfc["review_comment_message"].str.contains("péssima")]["positivo"].value_counts())
print(dfc[dfc["review_comment_message"].str.contains("excelente")]["positivo"].value_counts())
# palavras tem correlação alta com resultado da classificação


# para analisar a resposta da LLM acerca dos reviews vamos relembrar o que foi dito:
# *   **Elogios:** Entrega rápida/no prazo e boa qualidade do produto são os pontos fortes.
# *   **Reclamações:** Problemas com a entrega (não recebimento, atraso) e produtos com defeito/qualidade inferior são os principais pontos fracos.

# Dentro da coletanea de palavras mais positivas de maior peso na classificação temos por exemplo: 
# (excelente, ótimo, perfeito) correspondentes a avaliação do produto.
# (rápida) correspondende a velocidade da entrega.

# Em relação as palavras negativas tivemos: 
# (demorada, longo, demora) referente a entrega.
# (pessimo, quebrado, inferior). criticando a qualidade dos produtos

# Dessa forma é possivel concluir que o LLM extraiu de forma correta as análises sobre os reviews. Minhas descobertas corroboram com o LLM.



# list(negative_words["feature"])

positivo
False    143
True       3
Name: count, dtype: int64
positivo
True     574
False     26
Name: count, dtype: int64


# Rubricas e auto-avaliação assistida por IA

Este teste tem duas questões. Porém, são questões bastante complexas. Para verificar se você não esqueceu de nada em nenhuma questão, você pode usar o script `autoavaliacao.py`.

Cada um dos ítens cumpridos corretamente nas rubricas disponíveis em `autoavaliacao.py` terão o mesmo valor nas questões (1/8 na questão 1, 1/4 na questão 2). Um ítem cumprido parcialmente vale metade dos pontos. Um ítem feito errado não vale pontos. Cada uma das questões tem o mesmo valor (50% do total).

**IMPORTANTE**: o fato de o LLM dizer que um ítem da rubrica foi cumprido, não significa que ele **realmente** foi cumprido. O LLM avalia apenas se o ítem **existe**. O LLM é uma **ferramenta** e a sua utilidade depende do **seu** julgamento crítico.

Após o término da prova, salve seu notebook e entregue no Blackboard.

## Avaliação da prova

Se desejar, comente os pontos abaixo:

**Experiência da prova**: ao fazer esta prova, me senti...

**Dificuldades técnicas ou de compreensão do enunciado**: ...

**O script de auto-avaliação me ajudou**: sim, não, em partes...?