# Análise de Sentimentos - Reviews do site Olist

O objetivo desse notebook é treinar um modelo de análise de sentimentos com o dataset [Brazilian E-Commerce Public Dataset by Olist](https://www.kaggle.com/olistbr/brazilian-ecommerce), comparando duas técnicas clássicas de feature extraction: Bag of Words e TF-IDF.

Sobre o dataset: foi usado o arquivo `olist_order_reviews_dataset.csv`, que contém reviews de compras feitas no site Olist.

O notebook pode ser facilmente acompanhado por iniciantes em NLP, mas os seguintes materias podem ajudar em caso de dúvidas:
  - [Pré-processamento](https://medium.com/turing-talks/introdu%C3%A7%C3%A3o-ao-processamento-de-linguagem-natural-com-baco-exu-do-blues-17cbb7404258)
  - [Bag of Words e TF-IDF](https://medium.com/turing-talks/introdu%C3%A7%C3%A3o-a-bag-of-words-e-tf-idf-43a128151ce9?source=collection_detail----a9511cd63c8b-----24-----------------------)
  - [Métricas de classificação](https://medium.com/turing-talks/como-avaliar-seu-modelo-de-classifica%C3%A7%C3%A3o-acd2a03690e?source=collection_detail----a9511cd63c8b-----37-----------------------)
  - [Regressão logística](https://medium.com/turing-talks/turing-talks-14-modelo-de-predi%C3%A7%C3%A3o-regress%C3%A3o-log%C3%ADstica-7b70a9098e43), [Naive Bayes](https://medium.com/turing-talks/turing-talks-16-modelo-de-predi%C3%A7%C3%A3o-naive-bayes-6a3e744e7986?source=collection_detail----a9511cd63c8b-----66-----------------------) e [Random Forest](https://medium.com/turing-talks/turing-talks-18-modelos-de-predi%C3%A7%C3%A3o-random-forest-cfc91cd8e524)

Feedbacks são bem-vindos! :)

# Pré-processamento


### Importando as bibliotecas necessárias

In [None]:
import pandas as pd
import re
import nltk
import spacy
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

In [None]:
import spacy.cli
spacy.cli.download("pt_core_news_sm")

In [None]:
import pt_core_news_sm

spc_pt = pt_core_news_sm.load()

### Limpando o dataset

In [None]:
# Lendo o dataset, primeiramente
data = pd.read_csv("../input/brazilian-ecommerce/olist_order_reviews_dataset.csv")

In [None]:
data.head(15)

Como nosso foco é a análise de sentimentos, não precisamos das colunas `order_id`, `review_creation_date` e `review_answer_timestamp`.

In [None]:
data.drop(['order_id', 'review_creation_date', 'review_answer_timestamp'],
          1, inplace = True)

In [None]:
data.info()

Vamos checar se há dados duplicados.

In [None]:
duplicados = round(sum(data.duplicated("review_id"))/len(data)*100, 2)
print(f"Reviews com id duplicado: {duplicados}%.")

In [None]:
data[data.duplicated("review_id", keep =  False)].sort_values(by = "review_id")

In [None]:
data.drop_duplicates("review_id", inplace = True) # remove os duplicados

Temos pouco menos de 100000 datapoints, todos possundo um score de review, mas nem todos possuem review escrita.

Como estamos interessados justamente no texto, vamos juntar as colunas `review_comment_title` e `review_comment_message` em uma só e tirar entradas que não possuem texto.

In [None]:
data.fillna('', inplace = True) # para nao ter problemas com nulos na concatenacao

In [None]:
# concatenando as duas colunas
data['review'] = data['review_comment_title'] + ' ' + data['review_comment_message']

In [None]:
# removendo entradas sem texto
data = data[data['review'] != ' ']

In [None]:
data.info()

In [None]:
data.head()

### Review scores

In [None]:
data['review_score'].value_counts()

Há 5 valores de score diferentes (indo de 1 - pior até 5 - melhor), porém, para facilitar nossa tarefa, vamos classificar as reviews apenas como positiva ou negativa. Se o score for menor ou igual a 3, consideraremos negativa (0) e caso contrário, positiva (1). 

In [None]:
labels = []

for score in data['review_score']:
  if score > 3:
    labels.append(1)
  else:
    labels.append(0)

data['label'] = labels

In [None]:
data.head(10)

In [None]:
plt.figure(figsize=(8,6))
sns.countplot(data['label'])
plt.show()

Há bem mais reviews positivas do que negativas.

### Pré-processamento do texto

In [None]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

In [None]:
stopwords_pt = stopwords.words("portuguese")

In [None]:
stopwords_pt

Palavras como 'não' e 'nem' podem ser importantes na análise de sentimentos, por isso vamos tirá-las da lista de stopwords.

In [None]:
stopwords_pt.remove('não')
stopwords_pt.remove('nem')

In [None]:
def limpa_texto(texto):
  '''(str) -> str
  Essa funcao recebe uma string, deixa tudo em minusculo, filtra apenas letras,
  retira stopwords, lemmatiza e retorna a string resultante.
  '''
  texto = texto.lower()

  texto = re.sub(r"[\W\d_]+", " ", texto)

  texto = [pal for pal in texto.split() if pal not in stopwords_pt]

  spc_texto = spc_pt(" ".join(texto))
  tokens = [word.lemma_ if word.lemma_ != "-PRON-" else word.lower_ for word in spc_texto]
  
  return " ".join(tokens)

In [None]:
data['review'] = data['review'].apply(limpa_texto)

In [None]:
data.info()

In [None]:
data.head(10)

In [None]:
data[data['review'] == '']

Como tinham reviews com apenas números ou símbolos, ainda há dados faltantes na coluna `review`, vamos removê-los.

In [None]:
data = data[data['review'] != '']

In [None]:
data.info()

In [None]:
# rode essa celula se quiser salvar o dataset pre-processado
data.to_csv('olist_preprocessado.csv', index= False, columns= ['review_id', 'review', 'label'])

# Feature extraction


Vamos testar dois métodos: Bag of Words com um vetor de componentes binários ou TF-IDF.

### Com Bag of Words

In [None]:
# Importando o CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
# Instanciando o CountVectorizer, binary=True faz a codificacao binaria
vectorizer = CountVectorizer(binary=True, max_features=5000)

texto = data['review']

# Vetorizando o texto
X_bow = vectorizer.fit_transform(texto)

In [None]:
X_bow.toarray()

In [None]:
print(X_bow.shape, type(X_bow))

### Com TF-IDF

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
# Instanciando o TfidfVectorizer
tfidf_vect = TfidfVectorizer(max_features=5000)

# Vetorizando
X_tfidf = tfidf_vect.fit_transform(texto)

In [None]:
print(X_tfidf)

# Modelos

Primeiro, é preciso dividir os dados em base de treino (70%) e teste (30%).

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X1_train, X1_test, y1_train, y1_test = train_test_split(X_bow, data['label'],
                                                        test_size=0.3, random_state = 10)

X2_train, X2_test, y2_train, y2_test = train_test_split(X_tfidf, data['label'],
                                                        test_size=0.3, random_state = 10)

Importando as métricas que serão usadas para avaliação de cada modelo:

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, f1_score, roc_auc_score

In [None]:
def mostra_metricas(y_true, y_pred):
  ''' Função que recebe o y real, o y predito e mostra as
  principais metricas.
  '''
  print("Acurácia: ", accuracy_score(y_true, y_pred))
  print("\nAUROC:", roc_auc_score(y_true, y_pred))
  print("\nF1-Score:", f1_score(y_true, y_pred, average='weighted'))
  print("\nMatriz de confusão:")
  sns.heatmap(confusion_matrix(y_true, y_pred), annot=True)
  plt.show()

## Regressão Logística

### Texto vetorizado com Bag of Words

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
# Instanciando a reg. logistica
reglog = LogisticRegression()

# Aplicando o modelo
reglog.fit(X1_train, y1_train)

In [None]:
# Predicao
y1_reglog_pred = reglog.predict(X1_test)

Vamos agora analisar as métricas:

In [None]:
mostra_metricas(y1_test, y1_reglog_pred)

### Texto vetorizado com tf-idf

In [None]:
reglog2 = LogisticRegression()

reglog2.fit(X2_train, y2_train)

y2_reglog_pred = reglog2.predict(X2_test)

In [None]:
mostra_metricas(y2_test, y2_reglog_pred)

A diferença do desempenho do modelo com os 2 métodos de feature extraction é pouca, mas todas as métricas apontam ele foi melhor com tf-idf.

## Naive Bayes Multinomial

### BoW

In [None]:
from sklearn.naive_bayes import MultinomialNB

In [None]:
nb1 = MultinomialNB()

nb1.fit(X1_train.toarray(), y1_train)

y1_gnb_pred = nb1.predict(X1_test.toarray())

mostra_metricas(y1_test, y1_gnb_pred)

### Tf-idf

In [None]:
nb2 = MultinomialNB()

nb2.fit(X2_train.toarray(), y2_train)

y2_gnb_pred = nb2.predict(X2_test.toarray())

mostra_metricas(y2_test, y2_gnb_pred)

## Random Forest

In [None]:
from sklearn.ensemble import RandomForestClassifier

### BoW

In [None]:
rf1 = RandomForestClassifier()

rf1.fit(X1_train, y1_train)

y1_dt_pred = rf1.predict(X1_test)

mostra_metricas(y1_test, y1_dt_pred)

### Tf-idf

In [None]:
rf2 = RandomForestClassifier()

rf2.fit(X2_train, y2_train)

y2_dt_pred = rf2.predict(X2_test)

mostra_metricas(y2_test, y2_dt_pred)

## Resultados

Para todos os modelos, a diferença entre usar Bag of Words ou TF-IDF foi bem pequena. Os modelos apresentaram melhores métricas com TF-IDF, com exceção do Naive Bayes.

O melhor modelo foi a regressão logística (com TF-IDF), com acurácia e F1 de 90% e AUROC de 89% (arredondando).
Vamos testá-lo com um novo texto:

In [None]:
def nova_predicao(texto):
  '''Funcao que recebe uma string e printa a pedicao feita
  pelo modelo reglog2.'''
  texto_vetorizado = tfidf_vect.transform([texto])
  pred = reglog2.predict(texto_vetorizado)

  if pred == 0:
    print("Essa é uma review negativa.")
  else:
    print("Essa é uma review positiva.")

In [None]:
nova_predicao("Demorou muito não gostei")

In [None]:
nova_predicao("Achei cheirosinho")

In [None]:
nova_predicao("Nossa que produto ruim é esse parece que encontrei no lixo")

In [None]:
nova_predicao("Gostei")

In [None]:
nova_predicao("Não gostei")