# Jakub Kosterna - pd 4
## Warsztaty Badawcze 2021: XAI-1

### Początek klasycznie

In [41]:
import pandas as pd
import numpy as np
import math

import pickle
from sklearn.ensemble import GradientBoostingClassifier, RandomForestClassifier
from sklearn.model_selection import train_test_split

import dalex as dx 
import lime

In [12]:
df_wines = pd.read_csv('winequality-red.csv')
df_wines["is_good"] = df_wines.apply(lambda row: 1 if row.quality > 5 else 0, axis = 1)
X = df_wines.drop(["is_good", 'quality'], axis=1)
y = df_wines["is_good"]
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y,random_state = 42)
y_test = y_test.reset_index()["is_good"]

In [36]:
xgb = pickle.load(open("xgb", 'rb'))
y_pred = xgb.predict(X_test)

### XGBoost

In [19]:
explainer = dx.Explainer(xgb, X_train, y_train, label = "XGBoost")

Preparation of a new explainer is initiated

  -> data              : 1199 rows 11 cols
  -> target variable   : Parameter 'y' was a pandas.Series. Converted to a numpy.ndarray.
  -> target variable   : 1199 values
  -> model_class       : sklearn.model_selection._search.RandomizedSearchCV (default)
  -> label             : XGBoost
  -> predict function  : <function yhat_proba_default at 0x00000297ABE47B80> will be used (default)
  -> predict function  : Accepts pandas.DataFrame and numpy.ndarray.
  -> predicted values  : min = 0.00364, mean = 0.535, max = 1.0
  -> model type        : classification will be used (default)
  -> residual function : difference between y and yhat (default)
  -> residuals         : min = -0.626, mean = -2.74e-05, max = 0.775
  -> model_info        : package sklearn

A new explainer has been created!


I wreszcie czas przypatrzyć się permutacyjnej ważności zmiennych modelu!

In [29]:
fi = explainer.model_parts()

In [21]:
fi.result

Unnamed: 0,variable,dropout_loss,label
0,_full_model_,0.001489,XGBoost
1,residual sugar,0.004696,XGBoost
2,free sulfur dioxide,0.005097,XGBoost
3,fixed acidity,0.007558,XGBoost
4,density,0.009383,XGBoost
5,chlorides,0.014876,XGBoost
6,pH,0.016118,XGBoost
7,citric acid,0.019362,XGBoost
8,total sulfur dioxide,0.032444,XGBoost
9,volatile acidity,0.036295,XGBoost


In [17]:
fi.plot()

🍷 Metoda *model_parts* potwierdza wcześniejsze spostrzeżenia - zgodnie z wynikami wcześniejszych analiz, zawartość alkoholu ma największy wpływ na wartość predykcji.

🍷 Nie jest to jednak kolumna mocno wychodząca poza szereg - wskaźnik dla zawartości siarczanów odpowiedzialnych za konserwowanie win jest nieznacznie niższy.

🍷 Mimo, że wyżej wspomniane dwie zmienne decyzyjne dominują w kwestii wpływu na wynik algorytmu, każda ma "jakiś" wpływ.

🍷 Tak jak i w przypadku wcześniejszych rozwiązań, umiarkowany wpływ okazują się mieć kwasowość lotna, a także całkowita zawartość dwutlenku siarki. Nie dorównują one pierwszym dwóm, ale także mają znaczny udział i efekt.

🍷 Trochę "gorzej" w przypadku kwasu cytrynowego, odczynnika pH i sól w winie - te okazują się mieć umiarkowanie niski wkład.

🍷 Najsłabiej pod względem ważności wypadają gęstość, kwasowość stała i ilość cząsteczek dwutlenku siarki niezwiązanych z innymi cząsteczkami. Mamy tu wartości poniżej 1/1000!

### Gradient Boosting

In [27]:
gbc = GradientBoostingClassifier()
gbc.fit(X_train, y_train)

GradientBoostingClassifier()

In [38]:
explainer = dx.Explainer(gbc, X_train, y_train, label = "Gradient Boosting")

Preparation of a new explainer is initiated

  -> data              : 1199 rows 11 cols
  -> target variable   : Parameter 'y' was a pandas.Series. Converted to a numpy.ndarray.
  -> target variable   : 1199 values
  -> model_class       : sklearn.ensemble._gb.GradientBoostingClassifier (default)
  -> label             : Gradient Boosting
  -> predict function  : <function yhat_proba_default at 0x00000297ABE47B80> will be used (default)
  -> predict function  : Accepts pandas.DataFrame and numpy.ndarray.
  -> predicted values  : min = 0.0247, mean = 0.535, max = 0.984
  -> model type        : classification will be used (default)
  -> residual function : difference between y and yhat (default)
  -> residuals         : min = -0.859, mean = 2.17e-05, max = 0.879
  -> model_info        : package sklearn

A new explainer has been created!


In [39]:
fi = explainer.model_parts()
fi.result

Unnamed: 0,variable,dropout_loss,label
0,_full_model_,0.043719,Gradient Boosting
1,free sulfur dioxide,0.049876,Gradient Boosting
2,density,0.052252,Gradient Boosting
3,residual sugar,0.05574,Gradient Boosting
4,fixed acidity,0.059746,Gradient Boosting
5,citric acid,0.062703,Gradient Boosting
6,chlorides,0.065441,Gradient Boosting
7,pH,0.073862,Gradient Boosting
8,volatile acidity,0.078557,Gradient Boosting
9,total sulfur dioxide,0.093488,Gradient Boosting


In [40]:
fi.plot()

O proszę!!

🍷 Wyniki dosyć podobne.

🍷 Można zaobserwować wyraźnie większą dominację alkoholu - dobrze dla naszej pracy badawczej

🍷 Miejsca trzecie i czwarte zamienione miejscami - dla kwasowości lotnej wartość już niewiele odbiegająca od bloku miejsc 5-10.

🍷 To samo bottom 2 i pozycje 6-8. Jest podobnie, ale jednak nieco inaczej --> widać, że inne modele.

Może chociaż dla lasów losowych będzie do zaobserwowania jeszcze większe odstępstwo? Obstawiam, że jednak ich większa prostota zaowocuje wyraźnymi różnicami w stosunku do dwóch wcześniej wygenerowanych wykresów.

### Random forest

In [42]:
rf = RandomForestClassifier()
rf.fit(X_train, y_train)

RandomForestClassifier()

In [44]:
explainer = dx.Explainer(rf, X_train, y_train, label = "Random Forest")

Preparation of a new explainer is initiated

  -> data              : 1199 rows 11 cols
  -> target variable   : Parameter 'y' was a pandas.Series. Converted to a numpy.ndarray.
  -> target variable   : 1199 values
  -> model_class       : sklearn.ensemble._forest.RandomForestClassifier (default)
  -> label             : Random Forest
  -> predict function  : <function yhat_proba_default at 0x00000297ABE47B80> will be used (default)
  -> predict function  : Accepts pandas.DataFrame and numpy.ndarray.
  -> predicted values  : min = 0.0, mean = 0.534, max = 1.0
  -> model type        : classification will be used (default)
  -> residual function : difference between y and yhat (default)
  -> residuals         : min = -0.41, mean = 0.000509, max = 0.45
  -> model_info        : package sklearn

A new explainer has been created!


In [45]:
fi = explainer.model_parts()
fi.result

Unnamed: 0,variable,dropout_loss,label
0,_full_model_,0.0,Random Forest
1,residual sugar,0.000207,Random Forest
2,free sulfur dioxide,0.000208,Random Forest
3,fixed acidity,0.000369,Random Forest
4,pH,0.000385,Random Forest
5,citric acid,0.001197,Random Forest
6,density,0.001737,Random Forest
7,chlorides,0.002751,Random Forest
8,volatile acidity,0.011283,Random Forest
9,total sulfur dioxide,0.011728,Random Forest


In [46]:
fi.plot()

🍷 Zgodnie z oczekiwaniami output dla lasów losowych już kompletnie inny.

🍷 W odwóżnieniu do wcześniejszych dwóch bardziej zaawansowanych modeli - tu zero wpływu na wynik ze strony trzech zmiennych.

🍷 Co szokuje tym bardziej - jedna z nich, wskaźnik pH - dla głównego modelu *XGBoost* okazała się według tej metody szóstą najważniejszą, zaś patrząc na najprostszą formę *Gradient Boostingu* - aż piątą!

🍷 TOP 2 bez zmian. Tutaj modelem *XGBoost-a* - przy nie jakiejś znaczącej różnicy. Tu jednak ich dominacja nad innymi jest zdecydowanie największa.

🍷 To samo z trzecią i czwartą najważniejszą zmienną (przymykając oko na ich kolejność).

🍷 Gęstość, kwas cytrynowy i sole okazały się mieć niezerowy, ale bardzo niski wkład na efekt algorytmu - wartości najmniejsze porównując z wcześniejszymi dwoma modelami.

### Podsumowując

🍷 Kolejna fajna metoda!

🍷 Największa zaleta - przejrzystość i oczywistość.

🍷 Największa wada - co w sumie trochę jest związane z zaletą, ale jednak: brak wiedzy skąd te wartości.. niewiadoma.
    
🍷 Satysfakcjonujące wyniki porównując trzy modele. Zgodnie z oczekiwaniami *XGBoost* i *Gradient Boosting* okazały się mieć nieco bliższe współczynniki między sobą niż z jednak bardziej prymitywnym *Random Forest*. Widać też specyfikacje owych rozwiązań - dla pierwszych dwóch każda kolumna miała jednak jakiś wpływ, zaś dla lasów losowych wyszło szydło z worka w kwestii złożoności końcowo uzyskanego algorytmu. Pociesza, że ważności zmiennych są w miarę spójne między sobą, niezależnie od rozwiązania [przynajmniej w ciele owych pierwszych-lepszych trzech rozwiązań niegłupich].