- autor: Eduardo Pacheco (edu@atlasia.tech)
- 11/01/2023

### Estudo de Caso Dotz

Precisamos entenderrt o algoritmo SHAP e a fórmula do SHAP values no paper original. A abordagem que daremos aqui é uma abordagem computacional, de forma a reproduzir os exemplos do artigo  [SHAP Values Explained Exactly How You Wished Someone Explained to You](https://towardsdatascience.com/shap-explained-the-way-i-wish-someone-explained-it-to-me-ab81cc69ef30) via código.


### O que é SHAP (resumo cego)?

O algoritmo SHAP (SHapley Additive exPlanations ) é um modelo de explicabilidade de modelos de machine learning aplicável a modelos black box. Ele é capaz de medir a contribuição marginal de cada feature em um caso na previsão daquele caso. É, portanto, um modelo de explicabilidade local.

SHAP foi proposto por Lundberg e Lee no artigo [A Unified Approach to Interpreting Model Predictions](https://arxiv.org/abs/1705.07874). Os autores se valem de um conceito das teorias dos jogos chamado Sharpley Values. Os Sharpley Values são valores associados à importância de cada jogador em um jogo. Essa importância é calculada considerando cada possível interação entre jogadores e os resultados a partir dessa combinação. Em outras palavras : para determinar a importãncia de um jogador no jogo deve-se considerar cada possível combinação de jogadores  (ou coalizão ).

O que o SHAP faz é uma metáfora dessa ideia considerando que o jogo é acertar as previsões de um modelo de machine learning ( usualmente black box) e os jogadores são as features. A partir disso, considera-se todas as possíveis combinações entre features (em um power set de features) e se produz um modelo para cada combinação, incluíndo aí o modelo nulo ou dummy (sem features). Dessa forma, é possível saber a previsão feita por cada um desses modelos que partem do mesmo caso (X0) e que usam os mesmos hiperparâmetros - mas que diferem entre si no conjunto de features usado.

De posse disso, é possível criar contrastes entre dois dados modelos(quando aplicados a um caso X0, frise-se) que são treinados em condições idênticas exceto pela presença de uma feature. Essa diferença na presença dessa feature leva, naturalmente, a uma diferença no funcionamento interno do modelo e na previsão que é realizada por ele nesse caso X0. Para calcular o SHAP, a diferença entre as previsões é atribuída ("imputada") à presença (e à extensão) daquela feature. Assim, o tamanho da diferença entre as previsões dos modelos com e sem a feature considerada é a **contribuição marginal** dessa feature nesse caso (X0) **para esse modelo** (que possui essa feature, não presente no modelo-contraste). 

O próximo passo é encontrar essa contribuição marginal para todos os modelos que possuem essa feature adicionada e repetir o cálculo da contribuição marginal dessa feature em cada um desses modelos. Com esses valores podemos criar uma equação que equipara ao valor um todas as contribuições marginais dessa feature em cada um dos modelos, atribuídas um peso para cada uma e somadas.

Teremos, aí, tantos pesos  quantos forem os modelos em que aquela feature está presente e igual número de contribuições marginais. As contribuições marginais da feature no modelo com ela já estarão a essa altura calculadas e os pesos são desconhecidos. Para descobrir os pesos pela via heurística (computacional) é possível aplicar um algoritmo como o a seguir:

1. Considere F o número de features do modelo a ser explicado.
2. Defina uma lista de 0 até F, com cada valor sendo f, representando a quantiadde de features que aquele modelo usa ao ser treinado.
3. Crie um powerset de features, a partir do conjunto de features usado no modelo original a ser previsto, de modo que todas as combinações de features, incluindo o conjunto vazio, apareça ( e que cada feature apareça apenas uma vez).
4. Treine um modelo para cada combinação possível de features e os aloque/associe ao valor f, como se cada modelo estivesse associado a um "nível" de f.
5. Crie um peso para cada modelo treinado (w1, w2, w3).
6. Iguale a somatória dos pesos a 1.
7. Iguale a soma dos pesos de todas as camadas (f=0, f=1, f=2...) entre si.
8. Iguale os pesos dentro de cada camada.
9. Encontre a solução considerando 6, 7 e 8. Isso dará as os valores dos pesos associados a cada contribuição marginal daquela feature em cada modelo em que ela está presente. 

Agora temos tanto os pesos quanto as contribuições marginais. Aplicando os pesos nas contribuiçoes marginais e somando tudo teremos o valor SHAP associado a essa feature para esse caso X0. Ao repetir o processo para todas as features teremos a importância de cada uma delas na previsão ( ou melhor, na explicação da diferença entre o valor com as featurese o modelo nulo).

### Reprodução via código do SHAP

Vamos reproduzir via código a ideia geral do SHAP ( sem incluir as otimizações, para fins meramente didáticos). Consideraremos os valores do site para o exemplo de um modelo que prevê o salário dado age, gender e job. Fizemos um arquivo CSV para representar cada modelo sendo que cada feature é um binário, exceto pela feature prevista, que é o valor do salário.   

In [6]:
import pandas as pd

# carrega um dataframe com as representações dos modelos d0 powerset de features e suas previsões
models = pd.read_csv('models_preds.csv')

#pega as features, sua quantidade e a cardinalidade
features = list(models.columns)
X,y = features[0:-1], features[-1]
n_features = len(X)
cardinality = 2**n_features

models

Unnamed: 0,age,gender,job,salary
0,0,0,0,50
1,1,0,0,40
2,0,1,0,48
3,0,0,1,100
4,1,1,0,39
5,1,0,1,85
6,0,1,1,95
7,1,1,1,83


O próximo passo é conseguir descobrir o valor de f para cada modelo representado. Em seguida vamos descobrir o edge que vincula um modelo a outro, de forma a produzir uma árvore.

In [7]:
def get_f(model):
    ''' recebe a representação de um modelo (Series) e retorna o valor de f para ele'''
    return  int(model[0:-1].sum())

In [8]:
m0 = models.query('age == 0 and gender == 0 and job == 0').squeeze()
f = get_f(m0)
print('\nO modelo \n',m0, '\ntem f = ', f)

m4 = models.query('age == 1 and gender == 1 and job == 0').squeeze()
f = get_f(m4)
print('\nO modelo \n',m4, '\ntem f = ', f)

m7 = models.query('age == 1 and gender == 1 and job == 1').squeeze()
f = get_f(m7)
print('\nO modelo \n',m7, '\ntem f = ', f)


O modelo 
 age        0
gender     0
job        0
salary    50
Name: 0, dtype: int64 
tem f =  0

O modelo 
 age        1
gender     1
job        0
salary    39
Name: 4, dtype: int64 
tem f =  2

O modelo 
 age        1
gender     1
job        1
salary    83
Name: 7, dtype: int64 
tem f =  3


A função para achar o f funciona. Agora vamos criar um grafo unidirecional/árvore que represente os edges. Para isso precisamos catalogar os modelos, atribuir os valores de f, olhar para todos os f +1 e ver se o modelo ali possui todas as suas features e, se sim, se a feature adicional é a feature alvo. Se for, então há um edge entre o modelo no nível f e o nível f+1. Esse edge é importante porque é a partir desse vínculo que tanto pegamos a contribuição marginal da feature naquele modelo para o caso X0 quanto sabemos que precisamos ter um peso associado a essa contribuição marginal.

In [9]:
def get_fs(models):
    ''' função registrar o valor de f'''
    models_catag = models.copy()
    #registra o f
    for ix, row in models_catag.iterrows():
        models_catag.at[ix,'f'] = get_f(row)
    return models_catag

def get_edges(feature_alvo,X, m):
    ''' função para criar a árvore de conexões entre representações de modelo, dada uma feature alvo e um conjunto de features'''
    models_catag = m.copy()
    f = ['f']
    features_nao_alvo = [feature for feature in X if feature not in feature_alvo and feature not in f]
    print(features_nao_alvo)
    # varre cada modelo e descobre suas conexões
    for ix, row in models_catag.iterrows():
        #a origem não pode ter a feature alvo, se tiver pode passar
        if not row[feature_alvo]:
            f_from = row.f 
            #pega o caso que é idêntico nas features não alvo, com f+1
            query = 'f == {} '.format(f_from + 1)
            #monta uma string para a query que encontra o próximo nó
            for feature in features_nao_alvo:
                query = query +' and '+ feature + ' == {} '.format(row[feature])
            # pega o próximo nó para montar o edge
            ix_edge = models_catag.query(query).index[0]
            models_catag.at[ix,'edge'] = ix_edge
    return models_catag

Se tudo correr bem então os resultados são de tal forma que, dado uma feature alvo, um modelo aponte para outro modelo idêntico nas demais features, mas que o modelo destino tenha a feature alvo e o origem não. Vamos testar para os 3 casos.

In [10]:
models_f = get_fs(models)
edges_gender = get_edges('gender',X, models_f)
edges_gender

['age', 'job']


Unnamed: 0,age,gender,job,salary,f,edge
0,0,0,0,50,0.0,2.0
1,1,0,0,40,1.0,4.0
2,0,1,0,48,1.0,
3,0,0,1,100,1.0,6.0
4,1,1,0,39,2.0,
5,1,0,1,85,2.0,7.0
6,0,1,1,95,2.0,
7,1,1,1,83,3.0,


In [11]:
edges_age = get_edges('age',X, models_f)
edges_age

['gender', 'job']


Unnamed: 0,age,gender,job,salary,f,edge
0,0,0,0,50,0.0,1.0
1,1,0,0,40,1.0,
2,0,1,0,48,1.0,4.0
3,0,0,1,100,1.0,5.0
4,1,1,0,39,2.0,
5,1,0,1,85,2.0,
6,0,1,1,95,2.0,7.0
7,1,1,1,83,3.0,


In [12]:
edges_job = get_edges('job',X, models_f)
edges_job

['age', 'gender']


Unnamed: 0,age,gender,job,salary,f,edge
0,0,0,0,50,0.0,3.0
1,1,0,0,40,1.0,5.0
2,0,1,0,48,1.0,6.0
3,0,0,1,100,1.0,
4,1,1,0,39,2.0,7.0
5,1,0,1,85,2.0,
6,0,1,1,95,2.0,
7,1,1,1,83,3.0,


Tudo certo aqui. Agora vamos calcular as contribuições marginais de uma feature em cada modelo.

In [13]:
import math

def get_MC(feature_alvo,X, edges, y):
    ''' retorna as contribuições marginais associadas a cada conexão entre modelos do contraste com e sem a feature alvo '''
    marginal_contributions = edges.copy()

    for ix, row in marginal_contributions.iterrows():
        #verifica se o modelo atual se conecta a outro
        if not math.isnan(row.edge):
            #se sim pega o salário de origem e destino
            prev_to = marginal_contributions.iloc[int(row.edge)][y]
            prev_from = row[y]

            #calcula a diferença e atribui como contribuição marginal ao modelo com a feature alvo
            diff = prev_to - prev_from
            marginal_contributions.at[int(row.edge),'MC'] = diff
    return marginal_contributions

In [14]:
age_MC = get_MC('age',X, edges_age,'salary')
age_MC

Unnamed: 0,age,gender,job,salary,f,edge,MC
0,0,0,0,50,0.0,1.0,
1,1,0,0,40,1.0,,-10.0
2,0,1,0,48,1.0,4.0,
3,0,0,1,100,1.0,5.0,
4,1,1,0,39,2.0,,-9.0
5,1,0,1,85,2.0,,-15.0
6,0,1,1,95,2.0,7.0,
7,1,1,1,83,3.0,,-12.0


Para age bate com os exemplos do [artigo de Samuelle Mazantinni : SHAP Values Explained Exactly How You Wished Someone Explained to You] (https://towardsdatascience.com/shap-explained-the-way-i-wish-someone-explained-it-to-me-ab81cc69ef30). Vejamos para as outras features.

In [15]:
job_MC = get_MC('job',X, edges_job,'salary')
job_MC

Unnamed: 0,age,gender,job,salary,f,edge,MC
0,0,0,0,50,0.0,3.0,
1,1,0,0,40,1.0,5.0,
2,0,1,0,48,1.0,6.0,
3,0,0,1,100,1.0,,50.0
4,1,1,0,39,2.0,7.0,
5,1,0,1,85,2.0,,45.0
6,0,1,1,95,2.0,,47.0
7,1,1,1,83,3.0,,44.0


In [16]:
gender_MC = get_MC('gender',X, edges_gender,'salary')
gender_MC

Unnamed: 0,age,gender,job,salary,f,edge,MC
0,0,0,0,50,0.0,2.0,
1,1,0,0,40,1.0,4.0,
2,0,1,0,48,1.0,,-2.0
3,0,0,1,100,1.0,6.0,
4,1,1,0,39,2.0,,-1.0
5,1,0,1,85,2.0,7.0,
6,0,1,1,95,2.0,,-5.0
7,1,1,1,83,3.0,,-2.0


### Calculando os pesos

Para calcular os pesos de modo heurístico (e não pela via das fórmulas ou com binomial) precisamos respeitar trẽs regras:

1. A soma de todos os pesos é igual a 1;
2. A soma de cada camada (f) de features obtidas no poweset é igual a cada outra camada;
3. O valor dos pesos **dentro** de cada camada é o mesmo para cada modelo nessa camada.

In [17]:
def get_weights(edges):
    ''' devolve os pesos dado um DF de MC '''
    # filtra apenas os casos que já tenham MC
    weights = edges.query('not MC.isnull()', engine='python')
    #pega todos os fs
    fs = weights.f.unique()
    n_fs = len(fs)

    #varre os modelos com MC e conta quantos modelos tem naquele f
    for ix, row in weights.iterrows():
        n_models = len(weights.query('f == {}'.format(row.f)))
        # atribui o peso w
        weights.at[ix,'w'] = 1 / (n_fs * n_models)

    return weights


In [18]:
# pega os pesos
age_mc_w = get_weights(age_MC)
gender_mc_w = get_weights(gender_MC)
job_mc_w = get_weights(job_MC)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  weights.at[ix,'w'] = 1 / (n_fs * n_models)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  weights.at[ix,'w'] = 1 / (n_fs * n_models)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  weights.at[ix,'w'] = 1 / (n_fs * n_models)


Calculamos os pesos, agora vamos somar tudo.

In [19]:
import numpy as np

def get_feature_shap(mc_w):
    ''' faz a somatória dado um df com MC e w '''
    return np.round(np.sum(np.multiply(np.array(mc_w['MC']), np.array(mc_w['w']))),2)


In [20]:
age_shap = get_feature_shap(age_mc_w)
age_shap

-11.33

In [21]:
gender_shap = get_feature_shap(gender_mc_w)
gender_shap

-2.33

In [22]:
job_shap = get_feature_shap(job_mc_w)
job_shap

46.67

Os valores bateram com os do artigo didático. Agora vamos devolver um pandas dataframe com os SHAP values.

In [23]:
def get_SHAP_df(model):
    ''' dado um dataframe com a representação dos modelos retorna um df com os SHAP values'''

    #vamos assumir que apenas a representação dos modelos foi passada então pegaremos as features novamente
    #pega as features, sua quantidade e a cardinalidade
    features = list(model.columns)
    X,y = features[0:-1], features[-1]
    n_features = len(X)
    cardinality = 2**n_features
    #pega os valores de f
    model_f = get_fs(model)
    # filtra o modelo que usa todas as features, que tem f máximo
    shap_df = model_f.query('f == {}'.format(n_features))

    #converte as features para float
    for x in X:
        shap_df[x] = shap_df[x].astype(float)
    index = shap_df.head(1).index[0]
    #para cada feature
    for feature in X:
        #pega as conexões
        edges = get_edges(feature,X, model_f)
        #calcula as contribuições marginais
        mc = get_MC(feature,X, edges,y)
        #agrega os pesos
        mc_w = get_weights(mc)
        #calcula a feature SHAP
        feature_shap = get_feature_shap(mc_w)
        
        shap_df.at[index,feature] = feature_shap
    return shap_df.drop('f', axis=1)



In [24]:
models = pd.read_csv('models_preds.csv')
get_SHAP_df(models)

['gender', 'job']
['age', 'job']
['age', 'gender']


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  shap_df[x] = shap_df[x].astype(float)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  weights.at[ix,'w'] = 1 / (n_fs * n_models)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  weights.at[ix,'w'] = 1 / (n_fs * n_models)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc

Unnamed: 0,age,gender,job,salary
7,-11.33,-2.33,46.67,83


### Conclusão

Conseguimos reproduzir computacionalmente a fórmula de cálculo dos valores SHAP. Isso implica em uma compreensão de sua mecânica e usa a mesma lógica. O código aqui usou como exemplos o artigo [SHAP Values Explained Exactly How You Wished Someone Explained to You](https://towardsdatascience.com/shap-explained-the-way-i-wish-someone-explained-it-to-me-ab81cc69ef30) de Samuele Mazzanti e usa a abordagem da série Think (como em [Think Statistics](https://greenteapress.com/wp/think-stats-2e/), que resolve problemas de estatística com uma abordagem computacional) e do livro Data Science do Zero.

É possível a partir daqui adaptar esse código para pegar e treinar modelos reais.

### Treinar modelos

Vamos agora adaptar nosso código para lidar com modelos treinados. Como teste, faremos um modelo baseado no California Housing Dataset, que é uma base de dados para prever o preço de imóveis na Califórnia. Primeiro vamos treinar o modelo, escolhendo as 5 features mais relevantes. Depois disso vamos:

1. Fazer o poweset das features
2. Treinar 2^5 modelos
3. Fazer as conexões


#### Preparar os dados

In [25]:
from sklearn.datasets import fetch_california_housing
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline


houses = fetch_california_housing(as_frame=True).frame

In [26]:
houses.head()


Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


In [27]:
houses.describe()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
count,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0
mean,3.870671,28.639486,5.429,1.096675,1425.476744,3.070655,35.631861,-119.569704,2.068558
std,1.899822,12.585558,2.474173,0.473911,1132.462122,10.38605,2.135952,2.003532,1.153956
min,0.4999,1.0,0.846154,0.333333,3.0,0.692308,32.54,-124.35,0.14999
25%,2.5634,18.0,4.440716,1.006079,787.0,2.429741,33.93,-121.8,1.196
50%,3.5348,29.0,5.229129,1.04878,1166.0,2.818116,34.26,-118.49,1.797
75%,4.74325,37.0,6.052381,1.099526,1725.0,3.282261,37.71,-118.01,2.64725
max,15.0001,52.0,141.909091,34.066667,35682.0,1243.333333,41.95,-114.31,5.00001


In [28]:
# prepara treino e teste
X = houses.copy()
y = X.pop('MedHouseVal')
X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.05, random_state=2023)

In [29]:
#pipeline de treino
pipeline = Pipeline([('scaler', StandardScaler()), ('linear_regressor', LinearRegression())])

#treina o modelo
pipeline.fit(X_train, y_train)

In [30]:
pipeline.score(X_test, y_test)

0.6253366762624648

In [31]:
len(X_test)

1032

### Powerset de features

Sabemos que um powerset de features tem 2^n linhas. No nosso caso então temos:

In [32]:
print(2**len(X.columns))

256


In [33]:
from itertools import chain, combinations
import pandas as pd

def powerset(iterable):
    ''' função para um powerset'''
    s = list(iterable)
    return chain.from_iterable(combinations(s, r) for r in range(len(s)+1))

def get_df_powerset(df):
    ''' dado um dataframe retorna um powerset de features'''

    feature_list = list(df.columns)
    powerset_list = powerset(feature_list)
    new_df = pd.DataFrame(columns=feature_list)
    for subset in powerset_list:
        new_row = {}
        for feature in feature_list:
            if feature in subset:
                new_row[feature] = 1
            else:
                new_row[feature] = 0
        new_df = new_df.append(new_row, ignore_index=True)
    return new_df

In [34]:
#faz um powerset das features de treino
houses_powerset = get_df_powerset(X)
houses_powerset

  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,0,0,0,0,0,0,0,0
1,1,0,0,0,0,0,0,0
2,0,1,0,0,0,0,0,0
3,0,0,1,0,0,0,0,0
4,0,0,0,1,0,0,0,0
...,...,...,...,...,...,...,...,...
251,1,1,1,0,1,1,1,1
252,1,1,0,1,1,1,1,1
253,1,0,1,1,1,1,1,1
254,0,1,1,1,1,1,1,1


São 256 modelos a serem treinados. Precisamos agora treinar um modelo por linha, prever um caso e anotar o resultado.

In [35]:
from sklearn.base import BaseEstimator

class dummy_model(BaseEstimator):
    #o modelo base não tem featuires e retorna a média das previsões do treino 
    def fit(self, X, y=None):
        self.pred = np.mean(y)

    def predict(self, X):
        return self.pred

def filter_features(ix, powerset_df,X):
    model_representation = powerset_df.iloc[ix]
    subset_cols = [col for col, val in model_representation.items() if val == 1]
    X_filtered = X[subset_cols]
    return X_filtered


def train_powerset_models(X, y):
    print("pega feature list")
    feature_list = list(X.columns)
    print(feature_list)
    
    powerset_df = get_df_powerset(X)
    models = {}
    print('pegou powerset')
    for index, row in powerset_df.iterrows():
        print('ix, row',index, row)
        subset_cols = [col for col, val in row.items() if val == 1]
        print(subset_cols)
        if not subset_cols: # se o subset for vazio usa o dummy model
            print("treinando dummy model")
            model = dummy_model()
            model.fit(X, y) # X não importa, pode passar todas as features mesmo
        else:
            print("treinando modelo RL")
            X_train = X[subset_cols]
            model = pipeline.fit(X_train, y)
        print('registrando modelo')
        models[index] = model
    print('tudo certo com fazer os modelos')
    return models

In [37]:
models = train_powerset_models(X_train, y_train)

#pega um caso
X0 = X_test.head(1)
print(X0)

for index, model in models.items():
    #print(index, model.predict(X0))
    houses_powerset.at[index,'target'] = model.predict(filter_features(index, houses_powerset,X0))



pega feature list
['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'Latitude', 'Longitude']
pegou powerset
ix, row 0 MedInc        0
HouseAge      0
AveRooms      0
AveBedrms     0
Population    0
AveOccup      0
Latitude      0
Longitude     0
Name: 0, dtype: object
[]
treinando dummy model
registrando modelo
ix, row 1 MedInc        1
HouseAge      0
AveRooms      0
AveBedrms     0
Population    0
AveOccup      0
Latitude      0
Longitude     0
Name: 1, dtype: object
['MedInc']
treinando modelo RL
registrando modelo
ix, row 2 MedInc        0
HouseAge      1
AveRooms      0
AveBedrms     0
Population    0
AveOccup      0
Latitude      0
Longitude     0
Name: 2, dtype: object
['HouseAge']
treinando modelo RL
registrando modelo
ix, row 3 MedInc        0
HouseAge      0
AveRooms      1
AveBedrms     0
Population    0
AveOccup      0
Latitude      0
Longitude     0
Name: 3, dtype: object
['AveRooms']
treinando modelo RL
registrando modelo
ix, row 4 MedInc        0


  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index=True)
  new_df = new_df.append(new_row, ignore_index

registrando modelo
ix, row 52 MedInc        1
HouseAge      0
AveRooms      0
AveBedrms     0
Population    1
AveOccup      1
Latitude      0
Longitude     0
Name: 52, dtype: object
['MedInc', 'Population', 'AveOccup']
treinando modelo RL
registrando modelo
ix, row 53 MedInc        1
HouseAge      0
AveRooms      0
AveBedrms     0
Population    1
AveOccup      0
Latitude      1
Longitude     0
Name: 53, dtype: object
['MedInc', 'Population', 'Latitude']
treinando modelo RL
registrando modelo
ix, row 54 MedInc        1
HouseAge      0
AveRooms      0
AveBedrms     0
Population    1
AveOccup      0
Latitude      0
Longitude     1
Name: 54, dtype: object
['MedInc', 'Population', 'Longitude']
treinando modelo RL
registrando modelo
ix, row 55 MedInc        1
HouseAge      0
AveRooms      0
AveBedrms     0
Population    0
AveOccup      1
Latitude      1
Longitude     0
Name: 55, dtype: object
['MedInc', 'AveOccup', 'Latitude']
treinando modelo RL
registrando modelo
ix, row 56 MedInc        1

In [38]:
get_SHAP_df(houses_powerset)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  shap_df[x] = shap_df[x].astype(float)


['HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'Latitude', 'Longitude']


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  weights.at[ix,'w'] = 1 / (n_fs * n_models)


['MedInc', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'Latitude', 'Longitude']


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  weights.at[ix,'w'] = 1 / (n_fs * n_models)


['MedInc', 'HouseAge', 'AveBedrms', 'Population', 'AveOccup', 'Latitude', 'Longitude']


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  weights.at[ix,'w'] = 1 / (n_fs * n_models)


['MedInc', 'HouseAge', 'AveRooms', 'Population', 'AveOccup', 'Latitude', 'Longitude']


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  weights.at[ix,'w'] = 1 / (n_fs * n_models)


['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'AveOccup', 'Latitude', 'Longitude']


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  weights.at[ix,'w'] = 1 / (n_fs * n_models)


['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'Latitude', 'Longitude']


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  weights.at[ix,'w'] = 1 / (n_fs * n_models)


['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'Longitude']


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  weights.at[ix,'w'] = 1 / (n_fs * n_models)


['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'Latitude']


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  weights.at[ix,'w'] = 1 / (n_fs * n_models)


Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,target
255,-0.17,0.02,-0.09,-0.01,0.01,0.0,0.11,0.27,2.192149


18698    0.748
12500    2.132
12136    2.444
9325     3.310
8532     2.290
10854    2.750
8185     2.872
1320     0.902
10371    2.519
9368     3.339
Name: MedHouseVal, dtype: float64