# Projekt 3 - Eksperymenty i analiza danych
## Autorzy
- Daniel Zdancewicz [145317]
- Alex Terentowicz [145419]

## Opis
t 3 polega na przeprowadzeniu eksperymentów z użyciem kilku metod i przeprowadzeniu
analizy uzyskanych wyników. Znajdź zbiór danych, który zawiera kilka kryteriów monotonicznych, ponad 100 alternatyw i co najmniej 2 klasy (jeśli problem ma więcej klas, możesz je zbinaryzować).

Wyobraźmy sobie, że jesteśmy instytucją zajmującą się utylizacją odpadów radioaktywnych. Naszym
zadaniem jest zaproponowanie modelu utylizacji takich odpadów dla 30-letniego programu nuklearnego.
Wybrano 3 miejsca na potencjalne składowisko, 3 scenariusze czasowe oraz 3 modele finansowania. Ze
względu na to, że ostatecznie klient może się nie zgodzić na optymalną dla nas strategię, dlatego chcielibyśmy uzyskać pełne rankingi wszystkich opcji. Zespół ekspertów ocenił wszystkie możliwe scenariusze przez nas rozważane (dane znajdują się w pliku [Nuclear waste management.csv](.


Krótko opisz zbiór danych, w tym opisy kryteriów. Dla tego zbioru danych wytrenuj następujące modele:
- Jeden prosty, interpretowalny model ML (np. XGBoost, rankSVM lub regresja logistyczna)
- Jeden interpretowalny model ANN-MCDA przedstawiony na zajęciach (ANN-Ch-Constr.
lub ANN-UTADIS)
- Złożony model sici neuronowej zawierającej kilka warstw ukrytych.


## Opis zbioru danych

### Opisy kryteriów


In [65]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

train, test = (pd.read_csv(f"./data/loan_sanction_{p}.csv") for p in ["train", "test"])
train.describe()

Unnamed: 0,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History
count,614.0,614.0,592.0,600.0,564.0
mean,5403.459283,1621.245798,146.412162,342.0,0.842199
std,6109.041673,2926.248369,85.587325,65.12041,0.364878
min,150.0,0.0,9.0,12.0,0.0
25%,2877.5,0.0,100.0,360.0,1.0
50%,3812.5,1188.5,128.0,360.0,1.0
75%,5795.0,2297.25,168.0,360.0,1.0
max,81000.0,41667.0,700.0,480.0,1.0


In [66]:
train.head()

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y


## Preprocessing

In [68]:
encoded_cols = ["Gender", "Married", "Education", "Dependents","Self_Employed", "Property_Area"]
for col in encoded_cols:
    print(f"{col}: {train[col].unique()}")

Gender: ['Male' 'Female' nan]
Married: ['No' 'Yes' nan]
Education: ['Graduate' 'Not Graduate']
Dependents: ['0' '1' '2' '3+' nan]
Self_Employed: ['No' 'Yes' nan]
Property_Area: ['Urban' 'Rural' 'Semiurban']


In [54]:
from sklearn.preprocessing import LabelEncoder

def preprocess(df):
    df = df.copy()
    df = df.dropna()
    # bo w danych testowych nie ma kolumny:
    if "Loan_Status" in df.columns:
        encoded_cols.append("Loan_Status")

    # te linijke chce zamienic na sztywne encodowanie ordinal kolumn na encoding w odpowiedniej kolejnosci
    # czyli zeby property_area było ['Urban' 'Semiurban' 'Rural'] -> [0, 1, 2]
    # oraz w dependents zmienic tylko typ i "3+" na "3"
    df[encoded_cols] = df[encoded_cols].apply(LabelEncoder().fit_transform)

    return df

def drop_ids_and_map(df):
    # create map of loan_id to index
    df_map = dict(zip(df["Loan_ID"], df.index))
    df = df.drop(columns=["Loan_ID"])
    return df, df_map

train, test = (preprocess(df) for df in [train, test])
(train, train_map), (test, test_map) = (drop_ids_and_map(df) for df in [train, test])
train.describe()

Unnamed: 0,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
count,480.0,480.0,480.0,480.0,480.0,480.0,480.0,480.0,480.0,480.0,480.0,480.0
mean,0.820833,0.647917,0.777083,0.202083,0.1375,5364.23125,1581.093583,144.735417,342.05,0.854167,1.022917,0.691667
std,0.383892,0.478118,1.020815,0.401973,0.344734,5668.251251,2617.692267,80.508164,65.212401,0.353307,0.776411,0.462287
min,0.0,0.0,0.0,0.0,0.0,150.0,0.0,9.0,36.0,0.0,0.0,0.0
25%,1.0,0.0,0.0,0.0,0.0,2898.75,0.0,100.0,360.0,1.0,0.0,0.0
50%,1.0,1.0,0.0,0.0,0.0,3859.0,1084.5,128.0,360.0,1.0,1.0,1.0
75%,1.0,1.0,2.0,0.0,0.0,5852.5,2253.25,170.0,360.0,1.0,2.0,1.0
max,1.0,1.0,3.0,1.0,1.0,81000.0,33837.0,600.0,480.0,1.0,2.0,1.0


In [56]:
train.iloc[train_map["LP001003"]]

Gender                  1.0
Married                 1.0
Dependents              0.0
Education               0.0
Self_Employed           1.0
ApplicantIncome      3000.0
CoapplicantIncome       0.0
LoanAmount             66.0
Loan_Amount_Term      360.0
Credit_History          1.0
Property_Area           2.0
Loan_Status             1.0
Name: 2, dtype: float64

In [49]:
# show types of data
train.dtypes

Gender                 int64
Married                int64
Dependents            object
Education              int64
Self_Employed          int64
ApplicantIncome        int64
CoapplicantIncome    float64
LoanAmount           float64
Loan_Amount_Term     float64
Credit_History       float64
Property_Area          int64
Loan_Status            int64
dtype: object

In [48]:
train.corr()

ValueError: could not convert string to float: '3+'

## Trening modeli

### Rank SVM — interpretowalny model ML

### ANN-Ch-Constr. — interpretowalny model ANN-MCDA

### Głęboka sieć neuronowa — model złożony.

## Eksperymenty
Wszystkie prezentowane wartości są do maksymalnie 4 miejsc po przecinku.

### Przedstawienie metryk

- Rank SVM
    - Accuracy
    - F1
    - AUC
- ANN-Ch-Constr.
    - Accuracy
    - F1
    - AUC
- Głęboka sieć neuronowa
    - Accuracy
    - F1
    - AUC


### Przedstawienie modelu
(np funkcje cząstkowe, schemat drzewa ...).


### Interpretacja
- Czy na podstawie uzyskanych parametrów możemy powiedzieć coś o preferencjach
użytkowników?
- Czy są jakieś kryteria, które nie mają żadnego wpływu, czy też mają wpływ decydujący.
- Czy istnieją jakieś progi preferencji?
- Czy istnieją oceny kryteriów, które są nierozróżnialne z punktu widzenia preferencji?


### Interpretacja techniką Partial Dependence Plot
Wykonaj interpretację modelu korzystając z conajmniej jednej techniki( Global Surrogate,
Partial Dependence Plot Permutation Feature Importance ...)


Dla 3 wybranych wariantów dokonaj wyjaśnienia decyzji.
- Znajdź minimalną zmianę w ocenach tak aby wariant został przypisany do innej klasy.
    – Spróbuj odpowiedzieć na to pytanie w sposób analityczny, opierając się tylko na
wartościach parametrów modelu i wyjaśnij, dlaczego taka zmiana jest minimalna
(bez próbkowania).
    - Wykonaj próbkowanie przestrzeni, nieznacznie zmieniając oceny, tak aby uzyskać
inną klasę. Czy wyniki zgadzają się z przewidywaniami teoretycznymi?
- Dokonaj wyjaśnienia predykcji za pomocą conajmniej jednej techniki (Anchors LIME,
SHAP, ... )


##### Możliwe narzędzia
Lista narzędzi, które zawierają różne techniki wyjaśniania predykcji i interpretacji modelu:
- Shapash
- Alibi
- Explainerdashboard
- DALEX
- eli5
- aix360