# Análise de Sentimento com Regressão Logística

Este guia trás um exemplo de como usar o SHAP em conjunto com um modelo baseado em regressão logística para análise de sentimentos. O conjunto de dados utilziado é o IMDB. O grande destaque deste guia é perceber que palavras inexistentes nos textos são tão importantes quanto as existentes.

Este guia é uma tradução livre do material disponibilizado por Scott Lundberg (todos os direitos reservados ao autor) em:

https://slundberg.github.io/shap/notebooks/linear_explainer/Sentiment%20Analysis%20with%20Logistic%20Regression.html

O objetivo aqui é disponibilziar material de grande relevância para impulsinar o ecosistema da temática abordada em língua portuguesa (PT-BR).

Bons estudos!

### Carregando as Dependências do Projeto

In [None]:
import sklearn
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
import numpy as np
import shap

shap.initjs()

### Carregando o Conjunto de Dados

Durante a concepção deste projeto, o código inicial proposto não conseguiu carregar os dados direto da base do IMDB (por um erro de codificação), logo, apresentamos abaixo duas possibilidades para solucionar o problema:

- 1º solução para o problema de importação dos dados: Localize o conjunto de dados do IMDB que pode ser encontrado na pasta onde o shap foi instalado via PIP ou gerenciador de pacotes, basta acessar os packages de libs externas, o conteúdo do arquivo estará dentro da pasta "cached_data". Após ocalizar o arquivo, realize um paste na pasta "dataset" na raiz deste projeto.


- 2º solução para o problema de importação dos dados: Outra forma de corrigir a importação é abrindo o arquivo "datasets" na raiz da instalação do SHAP via PIP ou gerenciador de pacotes e modifocando a linha 54 para:

    "with open(cache(github_data_url + "imdb_train.txt"), encoding="utf8") as f:"

As duas propostas tem como objetivo usar a codificação correta para importação dos dados. Caso contrário, o erro irpa persistir até os responsáveis pelo SHAP realizarem a correção.

#### Se optou pela primeira opção de correção opção execute o trecho abaixo:

In [None]:
def imdb():
    with open("dataset\\imdb_train.txt", encoding="utf8") as f:
        data = f.readlines()
    y = np.ones(25000, dtype=np.bool)
    y[:12500] = 0
    return data, y

In [None]:
corpus,y = imdb()

#### Se optou pela segunda opção de correção execute o trecho abaixo:

In [None]:
corpus,y = shap.datasets.imdb()

### Construindo Amostras de Treinamento e Testes

In [None]:
corpus_train, corpus_test, y_train, y_test = train_test_split(corpus, y, test_size=0.2, random_state=7)

vectorizer = TfidfVectorizer(min_df=10)
X_train = vectorizer.fit_transform(corpus_train)
X_test = vectorizer.transform(corpus_test)

### Treinando um Modelo de Regressão Linear

In [None]:
model = sklearn.linear_model.LogisticRegression(penalty="l1", C=0.1)
model.fit(X_train, y_train)

### Explicando o Modelo Linear

#### Construindo o explicador SHAP

In [None]:
explainer = shap.LinearExplainer(model, X_train, feature_dependence="independent")
shap_values = explainer.shap_values(X_test)
X_test_array = X_test.toarray() # we need to pass a dense version for the plotting functions

#### Sumarizando o efeito das features

In [None]:
shap.summary_plot(shap_values, X_test_array, feature_names=vectorizer.get_feature_names())

Ao obervar o gráfico acima, percebemos que as features mais relevantes para revisões de filmes positivas e negativas estão bem aparentes. Notemos que, para predições positivas, as features mais significativas apresentam picos em vermelho com valores acima de zero no eixo X. De forma inversa, as features significativas para predições negativas, apresentam picos em vermelho com valores abaixo de zero no eixo X. Destacamos ainda que, para predições positivas, de acordo com os valores apresentados pelo SHAP, o termo "bad" é o maior característico para aumentar a probabilidade de um review ser classificado como negativo. No que diz respeito ao termo característico para reviews positivos, considerando as informações apresentadas no gráfico, podemos obervar o termo "great".

#### Explicando a primeira revisão do conjunto de dados

In [None]:
ind = 0
print("Positive" if y_test[ind] else "Negative", "Review:")
print(corpus_test[ind])

In [None]:
shap.force_plot(
    explainer.expected_value, shap_values[ind,:], X_test_array[ind,:],
    feature_names=vectorizer.get_feature_names()
)

Ao observar a influência das features no primeiro review, podemos identificar as features que "empurraram" a classificação para uma possível positividade ("and", "it", "best", "great"). Além disso, percebemos também que, embora o review possa tender a positividade, existem features que tentaram e influenciar um review negativo ("even", "to"). É necessário destacar que os dados podem ser refinados para que ele possa utilizar features com menos ruídos: descartando stopwords, por exemplo.

#### Explicando a segunda revisão do conjunto de dados

In [None]:
ind = 1
print("Positive" if y_test[ind] else "Negative", "Review:")
print(corpus_test[ind])

In [None]:
shap.force_plot(
    explainer.expected_value, shap_values[ind,:], X_test_array[ind,:],
    feature_names=vectorizer.get_feature_names()
)

Neste caso, podemos obervar um comportamento contrário ao do primeiro review. Claramente, percebemos que as features que tendem a caracterizar um review negativo estão mais presentes e elevam a probabilidade de uma revisão negativa.