#SHAP
---
**Aula Prática 18**: SHAP Values


**Objetivo**: Interpretabilidade para modelos de classificação


Banco de dados:


**Breast cancer wisconsin dataset**


Disponível via sklearn


> Features are computed from a digitized image of a fine needle aspirate (FNA) of a breast mass.  They describe characteristics of the cell nuclei present in the image.
>
> 1) ID number
>
> 2) Diagnosis (0 = malignant, 1 = benign)
>
> 3-32)
>
> Ten real-valued features are computed for each cell nucleus:
>
> a) radius (mean of distances from center to points on the perimeter)
>
> b) texture (standard deviation of gray-scale values)
>
> c) perimeter
>
> d) area
>
> e) smoothness (local variation in radius lengths)
>
> f) compactness (perimeter^2 / area - 1.0)
>
> g) concavity (severity of concave portions of the contour)
>
> h) concave points (number of concave portions of the contour)
>
> i) symmetry
>
> j) fractal dimension ("coastline approximation" - 1)

##Import das principais funções e leitura dos dados


---



In [None]:
import pandas as pd
import numpy as np
from sklearn import datasets

In [None]:
data = datasets.load_breast_cancer()

In [None]:
df = pd.DataFrame(data.data, columns=data.feature_names)

In [None]:
target = pd.DataFrame(data.target, columns=['Target'])
df = pd.concat([df, target], axis=1)

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.dtypes

In [None]:
df.describe().T

##Treino de modelo de decision tree e interpretabilidade
---




Para treinar um modelo de regressão utilizaremos o pacote sklearn.




### Separação do banco entre treino e teste
O primeiro passo para se treinar um modelo é separar o banco entre treino e teste. Para isso utilizaremos a função train_test_split




``` python
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=.3, random_state=15)
```
No exemplo acima X é um dataframe contendo as features do modelo e Y um dataframe com a variável target.




O parâmetro test_size controla o percentual de dados que será utilizado para teste.




O parâmetro random_state controla a aleatoriedade da geração do dado, permitindo que ao reexecutar o código seja gerado os mesmos bancos de treino e teste.




É importante separar o banco entre treino e teste, pois utilizaremos o banco de treino para treinar modelos e o banco de teste para avaliar os modelos.




### Treino do modelo
Agora que já possuímos os dados de treino e teste vamos treinar o nosso modelo XGBoost




``` python
from xgboost import XGBClassifier
model = XGBClassifier(objective='binary:logistic')
model.fit(X_train, Y_train)
```


No código acima o objeto model é do tipo XGBClassifier, nele iremos fazer o ajuste do nosso modelo, realizar predições e também ficará armazenado a árvore e a importância das features.




``` python
# Para fazer predições de classes
model.predict(X_test)
# Para fazer predições de probabilidade
model.predict_proba(X_test)
# Para acessar a importância
model.feature_importances_


```


### Interpretabilidade
Para trazer interpretabilidade em modelos do tipo árvore utilizamos o SHAP value(SHapley Additive exPlanations); Valores positivos são indicativos de impacto positivo da feature.


O SHAP values é calculado sobre o banco de teste. Com base no impacto que a feature trouxe para cada observação podemos ter uma análise geral do impacto, uma análise correlacionando duas features e uma análise a nível individual.


Observação SHAP é independente do tipo de modelo utilizado.


```python
#Criando o cálculo
explainer = shap.Explainer(model)
shap_values = explainer.shap_values(X_test)


#Plot geral
shap.summary_plot(shap_values, X_test)


#Plot relação
shap.dependence_plot(var1, shap_values, X_test,interaction_index=var2)


#Plot explicando uma observação
shap_values = explainer(X_test)
shap.waterfall_plot(shap_values[idx])
```






### Exercício:




* Separe o banco entre treino e teste. Use 30% do banco para teste. Faça a quebra com todas as variáveis.
* Treine um modelo.
* Faça análise do impacto das features no geral
* Faça análise das features para a observação 2 do banco de teste.

In [None]:
X = pd.DataFrame(data.data, columns=data.feature_names)
Y = data.target

#### Solução