In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import dalex as dx
import plotly.express as px

# Wczytanie danych z pliku CSV
df = pd.read_csv('serce.csv')

# Rozdzielenie cech (X) i etykiet (y)
X = df.drop('diagnoza', axis=1)  # Wszystkie kolumny poza 'diagnoza'
y = df['diagnoza']  # Kolumna diagnozy jako zmienna docelowa

# Podział danych na zbiór treningowy i testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Tworzenie modelu RandomForestClassifier
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train)

# Tworzenie explainera za pomocą Dalex
explainer = dx.Explainer(rf_model, X_test, y_test, label="Model RandomForest dla danych serca")  

# Predykcje dla danych testowych
predictions = explainer.predict(X_test)

# Wyświetlenie wykresu Break Down dla pierwszej obserwacji
bd = explainer.predict_parts(X_test.iloc[0], type='break_down')  
bd.plot()

# Wyświetlenie progów klasyfikacyjnych dla pierwszej obserwacji
probabilities = rf_model.predict_proba(X_test.iloc[[0]])[0]
thresholds = {f"Klasa {i}": prob for i, prob in enumerate(probabilities)}
print("Progi klasyfikacji dla pierwszej obserwacji:", thresholds)

# Wyświetlenie wykresu Feature Importance
fi = explainer.model_parts()  
fi.plot()

# Wyświetlenie wykresu Partial Dependence Plot (PDP) dla jednej z cech
print("Partial Dependence Plots")
pdp = explainer.model_profile(variables=['wiek'])  
pdp.plot()

# Wyświetlenie wykresu Ceteris Paribus dla pierwszej obserwacji
print("Ceteris Paribus")
cp = explainer.predict_profile(X_test.iloc[0])  
cp.plot()

# Wyświetlenie wykresu Accumulated Local Effects (ALE) dla jednej z cech
print("Accumulated Local Effects")
ale = explainer.model_profile(type='accumulated', variables=['wiek']) 
ale.plot()


Preparation of a new explainer is initiated

  -> data              : 81 rows 13 cols
  -> target variable   : Parameter 'y' was a pandas.Series. Converted to a numpy.ndarray.
  -> target variable   : 81 values
  -> model_class       : sklearn.ensemble._forest.RandomForestClassifier (default)
  -> label             : Model RandomForest dla danych serca
  -> predict function  : <function yhat_proba_default at 0x0000027BCEF4D440> will be used (default)
  -> predict function  : Accepts pandas.DataFrame and numpy.ndarray.
  -> predicted values  : min = 0.02, mean = 0.375, max = 0.95
  -> model type        : classification will be used (default)
  -> residual function : difference between y and yhat (default)
  -> residuals         : min = 0.41, mean = 1.02, max = 1.87
  -> model_info        : package sklearn

A new explainer has been created!


Progi klasyfikacji dla pierwszej obserwacji: {'Klasa 0': 0.58, 'Klasa 1': 0.42}


Partial Dependence Plots


Calculating ceteris paribus: 100%|██████████| 1/1 [00:00<00:00, 13.93it/s]


Ceteris Paribus


Calculating ceteris paribus: 100%|██████████| 13/13 [00:00<00:00, 78.73it/s]


Accumulated Local Effects


Calculating ceteris paribus: 100%|██████████| 1/1 [00:00<00:00, 12.26it/s]
Calculating accumulated dependency: 100%|██████████| 1/1 [00:00<00:00,  9.42it/s]
