# Partial Dependence Profiles/Plots (PDP)

##### Wykresy częściowej zależności (profile PD)
Zostały one wprowadzone przez Friedmana w 2000 roku. Przez wiele lat profile PD pozostawały niezauważone, jednak w ostatnich latach stały się one bardzo popularne

Profile PD są przydatne do porównań różnych modeli:
     - zgodność
     - rozbieżność
     - wydajność


In [None]:
import dalex as dx
import pandas as pd
import numpy as np
import pickle

In [None]:
train = pd.read_csv("train.csv")
train

In [None]:
variables = ["bedrooms", "bathrooms", "floors", "waterfront", "view", "condition", "grade", "lat", "long", "age", "m2_living", "m2_lot", "m2_basement"]

In [None]:
X_train = train[variables]
y_train = train.price_log

In [None]:
reg_rr = pickle.load(open("reg_rr", 'rb'))

In [None]:
def predict_function(model, data):
    return np.exp(model.predict(data))

In [None]:
explainer = dx.Explainer(reg_rr, X_train, y_train, predict_function = predict_function, label = "Random Forest")

In [None]:
cp10 = explainer.predict_profile(X_train.iloc[0:10,:])

In [None]:
cp10.plot()

In [None]:
pdp = explainer.model_profile()

In [None]:
pdp.plot(geom="profiles")

mp_rf = titanic_rf_exp.model_profile( variable_type = 'categorical')
mp_rf.plot(variables = ['gender', 'class'])

![](fig/1.png)

mp_rf = titanic_rf_exp.model_profile(groups = 'class', 
                                  variables = ['age', 'fare'])
mp_rf.plot()

![](fig/2.png)

In [None]:
reg_dd = pickle.load(open("reg_dd", 'rb'))
reg_gb = pickle.load(open("reg_gb", 'rb'))
reg_lin = pickle.load(open("reg_lin", 'rb'))

In [None]:
explainer_dd= dx.Explainer(reg_dd, X_train, y_train, predict_function = predict_function, verbose = 0)
explainer_gb = dx.Explainer(reg_gb, X_train, y_train, predict_function = predict_function, verbose = 0)
explainer_lin = dx.Explainer(reg_lin, X_train, y_train, predict_function = predict_function, verbose = 0)

In [None]:
pdp_dd = explainer_dd.model_profile()
pdp_gb = explainer_gb.model_profile()
pdp_lin = explainer_lin.model_profile()

In [None]:
pdp.plot([pdp_dd, pdp_gb, pdp_lin])

### Plusy 
- prosty sposób na podsumowanie wpływu danej zmiennej objaśniającej
- są one łatwe do wyjaśnienia i intuicyjne
- mogą być uzyskiwane dla podgrup obserwacji i porównywane w różnych modelach


### Minusy

- profile PD są problematyczne w przypadku skorelowanych zmiennych objaśniających, nie są odpowiednie dla tego przypadku, ponieważ mogą oferować zgrubne i potencjalnie mylące podsumowanie


## ALE są rozwiązania tego problemu 

w model_profile: type : {'partial', 'accumulated', 'conditional'}

In [None]:
ale = explainer.model_profile(type = 'accumulated')

In [None]:
pdp = explainer.model_profile(type = 'partial')

In [None]:
ale

In [None]:
ale.result['_label_'] = "ALE"
pdp.result['_label_'] = "PDP"

In [None]:
ale.plot(pdp)