# Strom

In [1]:
from sklearn import tree
import pandas as pd
import numpy as np
import random as rnd
import seaborn
import matplotlib.pyplot as plt
%matplotlib inline


pd.set_option('display.max_columns', 50)

In [2]:
train_data = pd.read_csv('data/train_predspracovane.csv')
test_data = pd.read_csv('data/test_predspracovane.csv')

Do funkcie pre predspracovanie sme zabudli vložiť riadok kódu, kde sa vymazával stĺpec date_of_birth. Urobíme teda túto poslednú úpravu teraz.

In [3]:
train_data = train_data.drop('id', axis=1)
test_data = test_data.drop('id', axis=1)

Rozvinuli sme hodnoty kategorických atribútov do vlastných stĺpcov podľa One Hot Encoding, takže rozhodovací strom bude môcť pracovať aj s nimi.

In [4]:
tree_train_data = train_data.drop('test', axis=1)
tree_train_data = pd.get_dummies(tree_train_data, columns=tree_train_data.columns[tree_train_data.dtypes == np.object], dummy_na=True)
tree_train_target = train_data.test

tree_test_data = test_data.drop('test', axis=1)
tree_test_data = pd.get_dummies(tree_test_data, columns=tree_test_data.columns[tree_test_data.dtypes == np.object], dummy_na=True)
tree_test_target = test_data.test

Transformovali sme klasifikovaný atribút na binárny, aby sme mohli pre optimalizáciu rozhodovacieho stromu použiť metriku f1.

In [5]:
def bintransform(target):
    ret = []
    for i in range(len(target)):
        if (target.iloc[i] == 'discordant'):
            ret.append(1)
        else:
            ret.append(0)
    return ret
            
tree_train_target = bintransform(tree_train_target)
tree_test_target = bintransform(tree_test_target)

Zahodili sme stĺpce vyjadrujúce tie hodnoty kategorických atribútov, ktoré sa nevyskytovali v trénovacom dátovom súbore, takže na základe nich nebolo možné klasifikovať a boli zbytočné.

In [6]:
toDrop = []
for attr in tree_test_data.columns:
    if attr not in tree_train_data.columns:
        toDrop.append(attr)

tree_test_data = tree_test_data.drop(toDrop, axis=1)

A do testovacích dát sme pre zmenu doplnili stĺpce vyjadrujúce tie hodnoty kategorických atribútov, ktoré sa nevyskytovali v testovacom dátovom súbore.

In [7]:
for attr in tree_train_data.columns:
    if attr not in tree_test_data.columns:
        tree_test_data[attr] = 0

# 1 Hľadanie optimálneho stromu

Vytvorili sme rozhodovací strom a pokúsili sa nájsť optimálne hodnoty hyperparametrov, takže môžeme náš strom optimalizovať najviac ako to je možné.

In [8]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

cv_params={'criterion': ['gini', 'entropy'], 'min_samples_leaf':range(10, 500, 100), 'min_samples_split':range(10, 500, 100), 'max_depth':list(range(1, 10)), 'class_weight':["balanced", None]}            

tree_classifier = DecisionTreeClassifier
ind_params = {'random_state': 0}
optimization = GridSearchCV(tree_classifier(**ind_params), 
                            cv_params, 
                             scoring = 'f1', cv = 10, n_jobs = -1, verbose=True)

In [9]:
optimization.fit(tree_train_data, tree_train_target)

Fitting 10 folds for each of 900 candidates, totalling 9000 fits


[Parallel(n_jobs=-1)]: Done 116 tasks      | elapsed:    2.8s
[Parallel(n_jobs=-1)]: Done 1916 tasks      | elapsed:   13.7s
[Parallel(n_jobs=-1)]: Done 4916 tasks      | elapsed:   31.7s
[Parallel(n_jobs=-1)]: Done 9000 out of 9000 | elapsed:   56.5s finished


GridSearchCV(cv=10, error_score='raise',
       estimator=DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=0,
            splitter='best'),
       fit_params=None, iid=True, n_jobs=-1,
       param_grid={'criterion': ['gini', 'entropy'], 'min_samples_leaf': range(10, 500, 100), 'min_samples_split': range(10, 500, 100), 'max_depth': [1, 2, 3, 4, 5, 6, 7, 8, 9], 'class_weight': ['balanced', None]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='f1', verbose=True)

Zistili sme najlepšiu kombináciu hyperparametrov pre naše dáta. Tieto použijeme pri trénovaní nášho rozhodovacieho stromu.

Zároveň si tu je možné povšimnúť, že najlepšia priemerná hodnota f1 je pomerne nízka a štandardná odchýľka vysoká, čo naznačuje, že klasifikátor nemusí byť presný a úspešný pri klasifikácii.

In [10]:
sorted(optimization.grid_scores_, key=lambda x: x.mean_validation_score, reverse=True)[:5]



[mean: 0.60747, std: 0.23442, params: {'class_weight': None, 'criterion': 'entropy', 'max_depth': 5, 'min_samples_leaf': 10, 'min_samples_split': 10},
 mean: 0.59363, std: 0.22108, params: {'class_weight': None, 'criterion': 'entropy', 'max_depth': 6, 'min_samples_leaf': 10, 'min_samples_split': 10},
 mean: 0.59029, std: 0.21767, params: {'class_weight': None, 'criterion': 'entropy', 'max_depth': 7, 'min_samples_leaf': 10, 'min_samples_split': 10},
 mean: 0.59029, std: 0.21767, params: {'class_weight': None, 'criterion': 'entropy', 'max_depth': 8, 'min_samples_leaf': 10, 'min_samples_split': 10},
 mean: 0.59029, std: 0.21767, params: {'class_weight': None, 'criterion': 'entropy', 'max_depth': 9, 'min_samples_leaf': 10, 'min_samples_split': 10}]

Natrénovali sme si strom podľa zistenej najoptimálnejšej kombinácie hyperparametrov.

In [11]:
tree_classifier = DecisionTreeClassifier(criterion='entropy', max_depth=5, class_weight=None, min_samples_leaf= 10, min_samples_split= 10)
tree_classifier = tree_classifier.fit(tree_train_data, tree_train_target)

Vyskúšali sme, aké má natrénovaný klasifikátor skóre. Na základe tehto mierky by sa mohlo zdať, že bude pracovať veľmi dobre.

In [12]:
print(tree_classifier.score(tree_test_data, tree_test_target))
tree_prediction = tree_classifier.predict(tree_test_data)

0.9825102880658436


Vytvorili sme si funkciu, ktorá pre nás vytvorí pravdivostnú tabuľku pre výsledky jednotlivých rozhodovacích stromov, ktorá nám pomôže vyhodnotiť ich výsledky.

In [13]:
def pravdivost(real, pred, otocena=False):
    com = pd.DataFrame()
    com['real'] = real
    com['pred'] = pred
    
    total = len(real)
    tp = 0
    tIe = 0
    tIIe = 0
    tn = 0
    if  not otocena:
        for i in range(len(real)):
            if (pred[i] == 1 and real[i] == 'discordant'):
                tp = tp + 1
            if (pred[i] == 1 and real[i] == 'negative'):
                tIe = tIe + 1
            if (pred[i] == 0 and real[i] == 'discordant'):
                tIIe = tIIe + 1
            if (pred[i] == 0 and real[i] == 'negative'):
                tn = tn + 1
    else:
        for i in range(len(real)):
            if (pred[i] == 0 and real[i] == 'negative'):
                tp = tp + 1
            if (pred[i] == 0 and real[i] == 'discordant'):
                tIe = tIe + 1
            if (pred[i] == 1 and real[i] == 'negative'):
                tIIe = tIIe + 1
            if (pred[i] == 1 and real[i] == 'discordant'):
                tn = tn + 1
        
    print(64*'═')
    print('║{:<20}║{:<20}|{:<20}║'.format('', 'Prediction positive', 'Prediction negative'))
    print(64*'═')
    print('║{:<20}║{:<20.2f}|{:<20.2f}║'.format('Condition positive', tp, tIIe))
    print(64*'═')
    print('║{:<20}║{:<20.2f}|{:<20.2f}║'.format('Condition negative', tIe, tn))
    print(64*'═')
        
    print("Accuracy: ", (tp + tn) / total if total != 0 else 0)
    print("Precission: ",  tp / (tp + tIe) if tp + tIe != 0 else 0)
    print("Recall: ", tp / (tp + tIIe) if tp + tIIe != 0 else 0)

Overili sme si presnosť klasifikátora pre predikovanie pozitívnych testov.

Podľa tabuľky je možné pozorovať, že omnoho častejšie sa klasifikátor pri predikovaní pozitívneho testu mýli, ako má pravdu. Jeho použíteľnosť pre predikovanie pozitívneho testu je teda veľmi diskutabilná.

In [14]:
pravdivost(test_data.test, tree_prediction)

════════════════════════════════════════════════════════════════
║                    ║Prediction positive |Prediction negative ║
════════════════════════════════════════════════════════════════
║Condition positive  ║1.00                |12.00               ║
════════════════════════════════════════════════════════════════
║Condition negative  ║5.00                |954.00              ║
════════════════════════════════════════════════════════════════
Accuracy:  0.9825102880658436
Precission:  0.16666666666666666
Recall:  0.07692307692307693


Na druhú stranu je však presnosť klasifikátoru pre predikovanie negatívnych testov je znamenitá.

In [15]:
pravdivost(test_data.test, tree_prediction, True)

════════════════════════════════════════════════════════════════
║                    ║Prediction positive |Prediction negative ║
════════════════════════════════════════════════════════════════
║Condition positive  ║954.00              |5.00                ║
════════════════════════════════════════════════════════════════
║Condition negative  ║12.00               |1.00                ║
════════════════════════════════════════════════════════════════
Accuracy:  0.9825102880658436
Precission:  0.9875776397515528
Recall:  0.9947862356621481


Pre nás je však zaujímavé hlavne správne predikovanie pozitívnych testov. Tieto značia, že subjekt môže mať danú chorobu a preto je pre nás dôležitejšie vedieť identifikovať čo najviac takýchto prípadov ako presnejšie predikovanie zdravých ľudí. Ak je zdravý človek mylne označovaný za chorého, nič závažného sa nestane. Ak je ale chorý považovaný za zdravého, môže ho to stáť život.

Klasifikátor v aktuálnom stave nedosahuje z tohto hľadiska dobré výsledky. Pokúsime sa teda ešte upraviť ručne niektoré hyperparametre a natrénovať strom znova.

Tieto výsledky môžu byť spôsobené nevyváženosťou tried. Vyskúšame teda nastaviť vyvažovanie tried pri klasifikácii.

In [16]:
print(len(train_data[train_data.test == 'negative']), len(train_data[train_data.test == 'discordant']))

2755 45


In [17]:
tree_classifier = DecisionTreeClassifier(criterion='entropy', max_depth=5, class_weight='balanced', min_samples_leaf= 10, min_samples_split= 10)
tree_classifier = tree_classifier.fit(tree_train_data, tree_train_target)

Skóre je pri tomto klasifikátore menšie ako pri tom, kde triedy vyvažované neboli.

Predikcia pre pozitívnu triedu sa zlepšila. Narástol síce počet chýb I stupňa, keď strom predikoval test pozitívny, ale ten bol v skutočnosti negatívny, klesol však počet chýb II stupňa, keď strom pozitívne testy neodhalil.

In [18]:
tree_prediction = tree_classifier.predict(tree_test_data)
pravdivost(test_data.test, tree_prediction)

════════════════════════════════════════════════════════════════
║                    ║Prediction positive |Prediction negative ║
════════════════════════════════════════════════════════════════
║Condition positive  ║8.00                |5.00                ║
════════════════════════════════════════════════════════════════
║Condition negative  ║27.00               |932.00              ║
════════════════════════════════════════════════════════════════
Accuracy:  0.9670781893004116
Precission:  0.22857142857142856
Recall:  0.6153846153846154


Vyskúšame si teda vyhľadať najlepšie hyperparametre pri vyvažovaných triedach.

In [19]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

cv_params={'criterion': ['gini', 'entropy'], 'min_samples_leaf':range(10, 500, 100), 'min_samples_split':range(10, 500, 100), 'max_depth':list(range(1, 10)), 'class_weight':["balanced"]}            

tree_classifier_balanced = DecisionTreeClassifier
ind_params = {'random_state': 0}
optimization = GridSearchCV(tree_classifier_balanced(**ind_params), 
                            cv_params, 
                             scoring = 'f1', cv = 10, n_jobs = -1, verbose=True)

In [20]:
optimization.fit(tree_train_data, tree_train_target)

Fitting 10 folds for each of 450 candidates, totalling 4500 fits


[Parallel(n_jobs=-1)]: Done 116 tasks      | elapsed:    2.8s
[Parallel(n_jobs=-1)]: Done 1916 tasks      | elapsed:   13.6s
[Parallel(n_jobs=-1)]: Done 4500 out of 4500 | elapsed:   31.0s finished


GridSearchCV(cv=10, error_score='raise',
       estimator=DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=0,
            splitter='best'),
       fit_params=None, iid=True, n_jobs=-1,
       param_grid={'criterion': ['gini', 'entropy'], 'min_samples_leaf': range(10, 500, 100), 'min_samples_split': range(10, 500, 100), 'max_depth': [1, 2, 3, 4, 5, 6, 7, 8, 9], 'class_weight': ['balanced']},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='f1', verbose=True)

Dostali sme odlišné odporúčané hyperparametre, vyskúšame natrénovať strom s nimi.

In [21]:
sorted(optimization.grid_scores_, key=lambda x: x.mean_validation_score, reverse=True)[:5]



[mean: 0.54641, std: 0.15904, params: {'class_weight': 'balanced', 'criterion': 'entropy', 'max_depth': 6, 'min_samples_leaf': 10, 'min_samples_split': 10},
 mean: 0.54633, std: 0.19077, params: {'class_weight': 'balanced', 'criterion': 'gini', 'max_depth': 8, 'min_samples_leaf': 10, 'min_samples_split': 10},
 mean: 0.53848, std: 0.18425, params: {'class_weight': 'balanced', 'criterion': 'entropy', 'max_depth': 7, 'min_samples_leaf': 10, 'min_samples_split': 10},
 mean: 0.53648, std: 0.18329, params: {'class_weight': 'balanced', 'criterion': 'gini', 'max_depth': 7, 'min_samples_leaf': 10, 'min_samples_split': 10},
 mean: 0.53148, std: 0.17756, params: {'class_weight': 'balanced', 'criterion': 'gini', 'max_depth': 9, 'min_samples_leaf': 10, 'min_samples_split': 10}]

In [22]:
tree_classifier_balanced = DecisionTreeClassifier(criterion='entropy', max_depth=6, class_weight='balanced', min_samples_leaf= 10, min_samples_split= 10)
tree_classifier_balanced = tree_classifier_balanced.fit(tree_train_data, tree_train_target)

Skóre je o niečo lepšie. Overíme si, či sa teda zlepšila aj klasifikácia voči pozitívnej triede v testovacom súbore.

Klasifikácia pozitívnej triedy sa zlepšila iba v tom zmysle, že bolo menej negatívnych testov označených mylne za pozitívne. Každopádne takouto konfiguráciou boli dosiahnuté pre náš účel lepšie výsledky.

In [23]:
tree_balanced_prediction = tree_classifier_balanced.predict(tree_test_data)
pravdivost(test_data.test, tree_balanced_prediction)

════════════════════════════════════════════════════════════════
║                    ║Prediction positive |Prediction negative ║
════════════════════════════════════════════════════════════════
║Condition positive  ║7.00                |6.00                ║
════════════════════════════════════════════════════════════════
║Condition negative  ║23.00               |936.00              ║
════════════════════════════════════════════════════════════════
Accuracy:  0.970164609053498
Precission:  0.23333333333333334
Recall:  0.5384615384615384


Predsalen sme ale ešte vyskúšali ďalšie úpravy. Najprv vyskúšame optimalizovať pre metriku recall.

In [24]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

cv_params={'criterion': ['gini', 'entropy'], 'min_samples_leaf':range(10, 500, 100), 'min_samples_split':range(10, 500, 100), 'max_depth':list(range(1, 10)), 'class_weight':["balanced"]}            

tree_classifier_recall = DecisionTreeClassifier
ind_params = {'random_state': 0}
optimization = GridSearchCV(tree_classifier_recall(**ind_params), 
                            cv_params, 
                             scoring = 'recall', cv = 10, n_jobs = -1, verbose=True)

In [25]:
optimization.fit(tree_train_data, tree_train_target)

Fitting 10 folds for each of 450 candidates, totalling 4500 fits


[Parallel(n_jobs=-1)]: Done  94 tasks      | elapsed:    3.4s
[Parallel(n_jobs=-1)]: Done 1894 tasks      | elapsed:   14.3s
[Parallel(n_jobs=-1)]: Done 4500 out of 4500 | elapsed:   31.8s finished


GridSearchCV(cv=10, error_score='raise',
       estimator=DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=0,
            splitter='best'),
       fit_params=None, iid=True, n_jobs=-1,
       param_grid={'criterion': ['gini', 'entropy'], 'min_samples_leaf': range(10, 500, 100), 'min_samples_split': range(10, 500, 100), 'max_depth': [1, 2, 3, 4, 5, 6, 7, 8, 9], 'class_weight': ['balanced']},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='recall', verbose=True)

In [26]:
sorted(optimization.grid_scores_, key=lambda x: x.mean_validation_score, reverse=True)[:5]



[mean: 0.95502, std: 0.09069, params: {'class_weight': 'balanced', 'criterion': 'gini', 'max_depth': 2, 'min_samples_leaf': 110, 'min_samples_split': 10},
 mean: 0.95502, std: 0.09069, params: {'class_weight': 'balanced', 'criterion': 'gini', 'max_depth': 2, 'min_samples_leaf': 110, 'min_samples_split': 110},
 mean: 0.95502, std: 0.09069, params: {'class_weight': 'balanced', 'criterion': 'gini', 'max_depth': 2, 'min_samples_leaf': 110, 'min_samples_split': 210},
 mean: 0.95502, std: 0.09069, params: {'class_weight': 'balanced', 'criterion': 'gini', 'max_depth': 2, 'min_samples_leaf': 110, 'min_samples_split': 310},
 mean: 0.95502, std: 0.09069, params: {'class_weight': 'balanced', 'criterion': 'gini', 'max_depth': 2, 'min_samples_leaf': 110, 'min_samples_split': 410}]

In [27]:
tree_classifier_recall = DecisionTreeClassifier(criterion='gini', max_depth=2, class_weight='balanced', min_samples_leaf= 11, min_samples_split= 10)
tree_classifier_recall = tree_classifier_recall.fit(tree_train_data, tree_train_target)

S ňou sme ale lepšie výsledky nezískali.

In [28]:
tree_recall_prediction = tree_classifier_recall.predict(tree_test_data)
pravdivost(test_data.test, tree_recall_prediction)

════════════════════════════════════════════════════════════════
║                    ║Prediction positive |Prediction negative ║
════════════════════════════════════════════════════════════════
║Condition positive  ║7.00                |6.00                ║
════════════════════════════════════════════════════════════════
║Condition negative  ║60.00               |899.00              ║
════════════════════════════════════════════════════════════════
Accuracy:  0.9320987654320988
Precission:  0.1044776119402985
Recall:  0.5384615384615384


Ako posledný pokus o zlepšenie výsledkov pre pozitívnu predikciu sa pokúsime využiť pozorovanie, že pri niektorých stĺpoch je pri pozitívnom teste menšia odchýľka ich hodnôt od priemeru stĺpca ako pri negatívnom teste.

In [29]:
def addDeviation(data):
    aug = data.copy()
    for col in ['TSH', 'T3', 'TT4', 'T4U', 'fnlwgt', 'FTI']:
        mn = data[col].mean()
        new = col + '_deviation'
        aug[new] = 0 
        for i in range(len(data[col])):
            aug.loc[i, new] = abs(data[col][i] - mn)
    return aug

Upravíme teda dátové súbory.

In [30]:
dev_train_data = addDeviation(tree_train_data)
dev_test_data = addDeviation(tree_test_data)

In [31]:
dev_train_data.head()

Unnamed: 0,age,TSH,T3,TT4,T4U,fnlwgt,education-num,hours-per-week,FTI,birth_year,birth_month,on thyroxine_f,on thyroxine_t,on thyroxine_nan,query on thyroxine_f,query on thyroxine_t,query on thyroxine_nan,pregnant_f,pregnant_t,pregnant_nan,thyroid surgery_f,thyroid surgery_t,thyroid surgery_nan,I131 treatment_f,I131 treatment_t,...,on antithyroid medication_f,on antithyroid medication_t,on antithyroid medication_nan,sick_f,sick_t,sick_nan,T4U measured_f,T4U measured_t,T4U measured_nan,psych_f,psych_t,psych_nan,query hypothyroid_f,query hypothyroid_t,query hypothyroid_nan,yield_gain,yield_loss,yield_none,yield_nan,TSH_deviation,T3_deviation,TT4_deviation,T4U_deviation,fnlwgt_deviation,FTI_deviation
0,82.0,0.813772,1.0,68.0,0.77,365.447207,11.0,40.0,88.0,1935.0,5.0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,...,1,0,0,1,0,0,0,1,0,1,0,0,1,0,0,0,0,1,0,0.667723,1.024966,41.108775,0.224992,29.803774,22.422424
1,50.0,5.172593,0.5,22.0,1.12,402.66113,13.0,35.0,19.0,1967.0,8.0,1,0,0,1,0,0,1,0,0,0,1,0,1,0,...,1,0,0,1,0,0,0,1,0,1,0,0,1,0,0,0,0,1,0,5.026544,1.524966,87.108775,0.125008,7.410149,91.422424
2,41.0,0.341027,2.0,99.0,0.96,318.259586,10.0,50.0,104.0,1976.0,5.0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,...,1,0,0,1,0,0,0,1,0,1,0,0,1,0,0,0,0,1,0,0.194978,0.024966,10.108775,0.034992,76.991395,6.422424
3,73.0,-0.35165,2.0,116.0,0.99,483.59558,9.0,25.0,117.0,1944.0,10.0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,...,1,0,0,1,0,0,0,1,0,1,0,0,1,0,0,0,0,1,0,0.497699,0.024966,6.891225,0.004992,88.344599,6.577576
4,64.0,0.712661,1.8,80.0,0.91,550.637942,10.0,60.0,88.0,1953.0,5.0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,...,1,0,0,1,0,0,0,1,0,1,0,0,1,0,0,0,0,1,0,0.566613,0.224966,29.108775,0.084992,155.38696,22.422424


In [32]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

cv_params={'criterion': ['gini', 'entropy'], 'min_samples_leaf':range(10, 500, 100), 'min_samples_split':range(10, 500, 100), 'max_depth':list(range(1, 10)), 'class_weight':["balanced"]}            

tree_classifier_dev = DecisionTreeClassifier
ind_params = {'random_state': 0}
optimization = GridSearchCV(tree_classifier_dev(**ind_params), 
                            cv_params, 
                             scoring = 'f1', cv = 10, n_jobs = -1, verbose=True)

In [33]:
optimization.fit(dev_train_data, tree_train_target)

Fitting 10 folds for each of 450 candidates, totalling 4500 fits


[Parallel(n_jobs=-1)]: Done 104 tasks      | elapsed:    2.8s
[Parallel(n_jobs=-1)]: Done 1604 tasks      | elapsed:   13.0s
[Parallel(n_jobs=-1)]: Done 4104 tasks      | elapsed:   30.2s
[Parallel(n_jobs=-1)]: Done 4500 out of 4500 | elapsed:   32.9s finished


GridSearchCV(cv=10, error_score='raise',
       estimator=DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=0,
            splitter='best'),
       fit_params=None, iid=True, n_jobs=-1,
       param_grid={'criterion': ['gini', 'entropy'], 'min_samples_leaf': range(10, 500, 100), 'min_samples_split': range(10, 500, 100), 'max_depth': [1, 2, 3, 4, 5, 6, 7, 8, 9], 'class_weight': ['balanced']},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='f1', verbose=True)

In [34]:
sorted(optimization.grid_scores_, key=lambda x: x.mean_validation_score, reverse=True)[:5]



[mean: 0.53163, std: 0.16124, params: {'class_weight': 'balanced', 'criterion': 'entropy', 'max_depth': 5, 'min_samples_leaf': 10, 'min_samples_split': 10},
 mean: 0.52172, std: 0.14362, params: {'class_weight': 'balanced', 'criterion': 'entropy', 'max_depth': 6, 'min_samples_leaf': 10, 'min_samples_split': 10},
 mean: 0.52172, std: 0.14362, params: {'class_weight': 'balanced', 'criterion': 'entropy', 'max_depth': 7, 'min_samples_leaf': 10, 'min_samples_split': 10},
 mean: 0.52172, std: 0.14362, params: {'class_weight': 'balanced', 'criterion': 'entropy', 'max_depth': 8, 'min_samples_leaf': 10, 'min_samples_split': 10},
 mean: 0.52172, std: 0.14362, params: {'class_weight': 'balanced', 'criterion': 'entropy', 'max_depth': 9, 'min_samples_leaf': 10, 'min_samples_split': 10}]

In [35]:
tree_classifier_dev = DecisionTreeClassifier(criterion='entropy', max_depth=5, class_weight='balanced', min_samples_leaf= 10, min_samples_split= 10)
tree_classifier_dev = tree_classifier_dev.fit(dev_train_data, tree_train_target)

Takáto úprava ale taktiež nepomohla.

In [36]:
tree_classifier_dev = tree_classifier_dev.predict(dev_test_data)
pravdivost(test_data.test, tree_classifier_dev)

════════════════════════════════════════════════════════════════
║                    ║Prediction positive |Prediction negative ║
════════════════════════════════════════════════════════════════
║Condition positive  ║6.00                |7.00                ║
════════════════════════════════════════════════════════════════
║Condition negative  ║25.00               |934.00              ║
════════════════════════════════════════════════════════════════
Accuracy:  0.9670781893004116
Precission:  0.1935483870967742
Recall:  0.46153846153846156


Na základe týchto zistení sme sa teda rozhodli používať model s vyváženými váhami s optimalizáciou f1. 

# 2 Porovnanie metód nahrádzania chýbajúcich hodnôt

Ked už sme sa teda rozhodli, ktorý model by bol najvhodnejšie použíť, rovnaké úpravy vzkonáme aj pre dátové súbory, v ktorých sme neznáme hodnoty nahrádzali buď výlučne priemerom/mediánom, alebo lineárnou regresiou a otestujeme, či pre ne nebude klasifikátor presnejší.

In [37]:
mean_med_data = pd.read_csv('data/train_mean_med.csv')
lin_reg_data = pd.read_csv('data/train_linreg.csv')

In [38]:
mean_med_data = mean_med_data.drop('id', axis=1)
lin_reg_data = lin_reg_data.drop('id', axis=1)

In [39]:
mean_med_data = mean_med_data.drop('test', axis=1)
mean_med_data = pd.get_dummies(mean_med_data, columns=mean_med_data.columns[mean_med_data.dtypes == np.object], dummy_na=True)
mean_med_target = train_data.test

lin_reg_data = lin_reg_data.drop('test', axis=1)
lin_reg_data = pd.get_dummies(lin_reg_data, columns=lin_reg_data.columns[lin_reg_data.dtypes == np.object], dummy_na=True)
lin_reg_target = train_data.test

In [40]:
mean_med_target = bintransform(mean_med_target)
lin_reg_target = bintransform(lin_reg_target)

In [41]:
tree_mean_med_classifier = DecisionTreeClassifier(criterion='gini', max_depth=8, class_weight='balanced', min_samples_leaf= 10, min_samples_split= 10)
tree_mean_med_classifier = tree_mean_med_classifier.fit(mean_med_data, mean_med_target)

tree_lin_reg_classifier = DecisionTreeClassifier(criterion='gini', max_depth=8, class_weight='balanced', min_samples_leaf= 10, min_samples_split= 10)
tree_lin_reg_classifier = tree_lin_reg_classifier.fit(lin_reg_data, lin_reg_target)

Priemer/medián dosiahol spomedzi troch stromov najhoršie skóre, lineárna regresia bola o niečo horšia od kombinácie oboch uvedených techník. Na základe uvedeného je teda možné tvrdiť, že aspoň čo sa týka tejto mierky, náš postup s vhodným kombinovaním obch týchto techník sa ukazuje byť správny.

In [42]:
tree_mean_med_prediction = tree_mean_med_classifier.predict(tree_test_data)
pravdivost(test_data.test, tree_mean_med_prediction)

════════════════════════════════════════════════════════════════
║                    ║Prediction positive |Prediction negative ║
════════════════════════════════════════════════════════════════
║Condition positive  ║8.00                |5.00                ║
════════════════════════════════════════════════════════════════
║Condition negative  ║35.00               |924.00              ║
════════════════════════════════════════════════════════════════
Accuracy:  0.9588477366255144
Precission:  0.18604651162790697
Recall:  0.6153846153846154


In [43]:
tree_lin_reg_prediction = tree_lin_reg_classifier.predict(tree_test_data)
pravdivost(test_data.test, tree_lin_reg_prediction)

════════════════════════════════════════════════════════════════
║                    ║Prediction positive |Prediction negative ║
════════════════════════════════════════════════════════════════
║Condition positive  ║7.00                |6.00                ║
════════════════════════════════════════════════════════════════
║Condition negative  ║26.00               |933.00              ║
════════════════════════════════════════════════════════════════
Accuracy:  0.9670781893004116
Precission:  0.21212121212121213
Recall:  0.5384615384615384


Nechali sme si vizualizovať všetky tri vytovrené stromy, aby sme sa pozreli, aké rozdiely sú v ich rozhodovacích pravidlách.

In [44]:
import graphviz 
tree.export_graphviz(tree_classifier_balanced, feature_names=tree_train_data.columns, filled=True, class_names='test',  out_file='strom.dot')
tree.export_graphviz(tree_mean_med_classifier, feature_names=tree_train_data.columns, filled=True, class_names='test',  out_file='strom_priemer_median.dot') 
tree.export_graphviz(tree_lin_reg_classifier, feature_names=tree_train_data.columns, filled=True, class_names='test',  out_file='strom_linreg.dot') 

<img src="strom2.png">
<img src="strom_priemer_median.png">
<img src="strom_linreg.png">

In [46]:
pravdivost(test_data.test, tree_mean_med_prediction)

════════════════════════════════════════════════════════════════
║                    ║Prediction positive |Prediction negative ║
════════════════════════════════════════════════════════════════
║Condition positive  ║8.00                |5.00                ║
════════════════════════════════════════════════════════════════
║Condition negative  ║35.00               |924.00              ║
════════════════════════════════════════════════════════════════
Accuracy:  0.9588477366255144
Precission:  0.18604651162790697
Recall:  0.6153846153846154


In [47]:
pravdivost(test_data.test, tree_mean_med_prediction, True)

════════════════════════════════════════════════════════════════
║                    ║Prediction positive |Prediction negative ║
════════════════════════════════════════════════════════════════
║Condition positive  ║924.00              |35.00               ║
════════════════════════════════════════════════════════════════
║Condition negative  ║5.00                |8.00                ║
════════════════════════════════════════════════════════════════
Accuracy:  0.9588477366255144
Precission:  0.9946178686759957
Recall:  0.9635036496350365


In [48]:
pravdivost(test_data.test, tree_lin_reg_prediction)

════════════════════════════════════════════════════════════════
║                    ║Prediction positive |Prediction negative ║
════════════════════════════════════════════════════════════════
║Condition positive  ║7.00                |6.00                ║
════════════════════════════════════════════════════════════════
║Condition negative  ║26.00               |933.00              ║
════════════════════════════════════════════════════════════════
Accuracy:  0.9670781893004116
Precission:  0.21212121212121213
Recall:  0.5384615384615384


In [49]:
pravdivost(test_data.test, tree_lin_reg_prediction, True)

════════════════════════════════════════════════════════════════
║                    ║Prediction positive |Prediction negative ║
════════════════════════════════════════════════════════════════
║Condition positive  ║933.00              |26.00               ║
════════════════════════════════════════════════════════════════
║Condition negative  ║6.00                |7.00                ║
════════════════════════════════════════════════════════════════
Accuracy:  0.9670781893004116
Precission:  0.9936102236421726
Recall:  0.97288842544317


In [None]:
for column in train_data.columns:
    if np.issubdtype(train_data[column].dtype, np.number):
        train_data.boxplot(column=column, by='test')

# 3 Pravidla

In [63]:
class Pravidlo:
    def __init__(self):
        self.popis = ''
        self.podmienka = lambda a:True
        self.dosledok = lambda a:True
        
    def __init__(self, pop, pod, dos):
        self.popis = pop
        self.podmienka = pod
        self.dosledok = dos
        
    def over(self, data):
        total = data.shape[0]
        tp = data[self.podmienka(data) & self.dosledok(data)].shape[0]
        tIe = data[self.podmienka(data) & ~self.dosledok(data)].shape[0]
        tIIe = data[~self.podmienka(data) & self.dosledok(data)].shape[0]
        tn =data[~self.podmienka(data) & ~self.dosledok(data)].shape[0]
        
        print(64*'═')
        print('║{:<20}║{:<20}|{:<20}║'.format('', 'Prediction positive', 'Prediction negative'))
        print(64*'═')
        print('║{:<20}║{:<20.2f}|{:<20.2f}║'.format('Condition positive', tp, tIIe))
        print(64*'═')
        print('║{:<20}║{:<20.2f}|{:<20.2f}║'.format('Condition negative', tIe, tn))
        print(64*'═')
        
        print("Accuracy: ", (tp + tn) / total if total != 0 else 0)
        print("Precission: ",  tp / (tp + tIe) if tp + tIe != 0 else 0)
        print("Recall: ", tp / (tp + tIIe) if tp + tIIe != 0 else 0)

Vrátili sme sa k pravidlám, ktoré sme v predchádzajúcej časti nemali dobre riešené.
Uvedomujúc si dôležitosť pozitívnej klasifikácie, tentokrát sme zvolili taký postup, že sme vytvárali podľa trénovacieho súboru také pravidlá, ktoré by maximalizovali detekciu pozitívnej triedy. 

Náš postup bol pritom taký, že sme začali s jedným pravidlom, ktoré vždy uhádlo pozitívnu triedu a na toto sme následne postupne nabaľovali ďalšie a ďalšie pravidlá, ktoré pre pozitívnu triedu platili v snahe zvýšiť presnosť a znížiť chybu I. stupňa.

Pomohli sme si pritom zisteniami z prieskumnej analýzy.

In [100]:
train_data[train_data.test == 'discordant'].describe()

Unnamed: 0,age,TSH,T3,TT4,T4U,fnlwgt,education-num,hours-per-week,FTI,birth_year,birth_month
count,45.0,45.0,45.0,45.0,45.0,45.0,45.0,45.0,45.0,45.0,45.0
mean,51.613348,-0.725994,2.039997,148.080556,0.939259,390.214272,10.111111,38.088889,161.443601,1965.533333,6.266667
std,23.075203,1.767164,0.620127,28.353676,0.158097,80.270534,2.357023,10.727666,25.758165,23.087383,3.326204
min,2.0,-3.854254,1.2,54.0,0.75,199.436326,5.0,10.0,58.0,1930.0,1.0
25%,32.193361,-2.103556,1.6,134.0,0.85,352.317554,9.0,35.0,159.0,1945.0,4.0
50%,53.0,-0.500561,2.0,146.0,0.91,409.961949,9.0,40.0,165.0,1965.0,6.0
75%,72.0,0.764325,2.2,159.0,0.99,443.31679,12.0,40.0,171.0,1985.0,9.0
max,87.0,2.401469,4.0,237.0,1.516387,539.215213,16.0,80.0,203.0,2015.0,12.0


In [None]:
Začali sme  číselnými atribútmi.

In [90]:
pravidlo = Pravidlo('all', lambda a: ((a.T4U <= 1.6) & 
                                      (a.TT4 <= 240) & 
                                      (a.T3 <= 4.1) & 
                                      (a.TSH <= 2.5) & 
                                      (a.FTI <= 205)), lambda a: a.test == 'discordant')

print('---------------------------------------------\nOverovanie pravidla: ', pravidlo.popis)
print('Trénovací súbor: ')
pravidlo.over(train_data)

---------------------------------------------
Overovanie pravidla:  all
Trénovací súbor: 
════════════════════════════════════════════════════════════════
║                    ║Prediction positive |Prediction negative ║
════════════════════════════════════════════════════════════════
║Condition positive  ║45.00               |0.00                ║
════════════════════════════════════════════════════════════════
║Condition negative  ║2486.00             |269.00              ║
════════════════════════════════════════════════════════════════
Accuracy:  0.11214285714285714
Precission:  0.017779533781114184
Recall:  1.0


In [None]:
Potom sme pridali aj kategorické.

In [96]:
pravidlo = Pravidlo('all', lambda a: ((a['on antithyroid medication'] == 'f') &
                                      (a['psych'] == 'f') &(a['sick'] == 'f') &
                                      (a['lithium'] == 'f') &
                                      (a['goitre'] == 'f') & 
                                      (a['tumor'] == 'f') &
                                      (a['I131 treatment'] == 'f') & 
                                      (a['thyroid surgery'] == 'f') & 
                                      (a['query on thyroxine'] == 'f') & 
                                      (a.T4U <= 1.6) & 
                                      (a.TT4 <= 240) & 
                                      (a.T3 <= 4.1) & 
                                      (a.TSH <= 2.5) &
                                      (a.FTI <= 205)), lambda a: a.test == 'discordant')

print('---------------------------------------------\nOverovanie pravidla: ', pravidlo.popis)
print('Trénovací súbor: ')
pravidlo.over(train_data)


---------------------------------------------
Overovanie pravidla:  all
Trénovací súbor: 
════════════════════════════════════════════════════════════════
║                    ║Prediction positive |Prediction negative ║
════════════════════════════════════════════════════════════════
║Condition positive  ║43.00               |2.00                ║
════════════════════════════════════════════════════════════════
║Condition negative  ║2035.00             |720.00              ║
════════════════════════════════════════════════════════════════
Accuracy:  0.2725
Precission:  0.020692974013474495
Recall:  0.9555555555555556


Chybu 1. stupňa sme znížili približne o 25 percent. Pokúsili sa zapojiť ešte aj dolné ohraničenia pri číselných atribútoch.

In [101]:
pravidlo = Pravidlo('all', lambda a: ((a['on antithyroid medication'] == 'f') & 
                                      (a['psych'] == 'f') &
                                      (a['sick'] == 'f') &
                                      (a['lithium'] == 'f') &
                                      (a['goitre'] == 'f') & 
                                      (a['tumor'] == 'f') &
                                      (a['I131 treatment'] == 'f') & 
                                      (a['thyroid surgery'] == 'f') & 
                                      (a['query on thyroxine'] == 'f') & 
                                      (a.T4U >= 0.75) & 
                                      (a.TT4 >= 54) & 
                                      (a.T3 >= 1.2) & 
                                      (a.TSH >= -3.86) &  
                                      (a.FTI >= 58) &
                                      (a.T4U <= 1.6) & 
                                      (a.TT4 <= 240) & 
                                      (a.T3 <= 4.1) & 
                                      (a.TSH <= 2.5) & 
                                      (a.FTI <= 205)), 
                    lambda a: a.test == 'discordant')

print('---------------------------------------------\nOverovanie pravidla: ', pravidlo.popis)
print('Trénovací súbor: ')
pravidlo.over(train_data)


---------------------------------------------
Overovanie pravidla:  all
Trénovací súbor: 
════════════════════════════════════════════════════════════════
║                    ║Prediction positive |Prediction negative ║
════════════════════════════════════════════════════════════════
║Condition positive  ║43.00               |2.00                ║
════════════════════════════════════════════════════════════════
║Condition negative  ║1791.00             |964.00              ║
════════════════════════════════════════════════════════════════
Accuracy:  0.35964285714285715
Precission:  0.023446019629225736
Recall:  0.9555555555555556


Takýmto spôsobom sa nám postupne podarilo znížiť chybu 1. stupňa približne na 66 percent. Viac atribútov už ale zapojiť do pravidiel nemôžeme a chyba 1. stupňa stále ostáva priveľká, preto musíme začať znižovať hranice testovania číselných atribútov. 
Začneme u tých, pri ktorých sme zistili možnú koreláciu s klasifikovaným atribútom.

In [143]:
pravidlo = Pravidlo('all', lambda a: ((a['on antithyroid medication'] == 'f') & 
                                      (a['psych'] == 'f') &
                                      (a['sick'] == 'f') &
                                      (a['lithium'] == 'f') &
                                      (a['goitre'] == 'f') & 
                                      (a['tumor'] == 'f') &
                                      (a['I131 treatment'] == 'f') & 
                                      (a['thyroid surgery'] == 'f') & 
                                      (a['query on thyroxine'] == 'f') & 
                                      (a['on thyroxine'] == 'f') & 
                                      (a.T4U >= 0.75) & 
                                      (a.TT4 >= 124) & 
                                      (a.T3 >= 1.2) & 
                                      (a.TSH >= -3.86) &  
                                      (a.FTI >= 150) &
                                      (a.T4U <= 1.6) & 
                                      (a.TT4 <= 220) & 
                                      (a.T3 <= 3.0) & 
                                      (a.TSH <= 2.5) & 
                                      (a.FTI <= 205)), 
                    lambda a: a.test == 'discordant')

print('---------------------------------------------\nOverovanie pravidla: ', pravidlo.popis)
print('Trénovací súbor: ')
pravidlo.over(train_data)


---------------------------------------------
Overovanie pravidla:  all
Trénovací súbor: 
════════════════════════════════════════════════════════════════
║                    ║Prediction positive |Prediction negative ║
════════════════════════════════════════════════════════════════
║Condition positive  ║38.00               |7.00                ║
════════════════════════════════════════════════════════════════
║Condition negative  ║36.00               |2719.00             ║
════════════════════════════════════════════════════════════════
Accuracy:  0.9846428571428572
Precission:  0.5135135135135135
Recall:  0.8444444444444444


Toto sú už pravidlá, pri ktorých sa uspokojíme s ich výsledkom. Majú výbornú úroveň predikcie pre negatívnu triedu, pričom dobrá úroveň je aj pri predikovaní pozitívnej triedy. Chyba 1. bola znížená na uspokojujúcu uroveň. Znamená síce, že každé druhé predikovanie pozistívnej triedy je chybné, ale vzhľadom na predchádzajúce výsledky je to značný pokrok. Vyskúšame si teda teraz naše pravidlá na testovacom súbore.

In [144]:
pravidlo = Pravidlo('all', lambda a: ((a['on antithyroid medication'] == 'f') & 
                                      (a['psych'] == 'f') &
                                      (a['sick'] == 'f') &
                                      (a['lithium'] == 'f') &
                                      (a['goitre'] == 'f') & 
                                      (a['tumor'] == 'f') &
                                      (a['I131 treatment'] == 'f') & 
                                      (a['thyroid surgery'] == 'f') & 
                                      (a['query on thyroxine'] == 'f') & 
                                      (a['on thyroxine'] == 'f') & 
                                      (a.T4U >= 0.75) & 
                                      (a.TT4 >= 124) & 
                                      (a.T3 >= 1.2) & 
                                      (a.TSH >= -3.86) &  
                                      (a.FTI >= 150) &
                                      (a.T4U <= 1.6) & 
                                      (a.TT4 <= 220) & 
                                      (a.T3 <= 3.0) & 
                                      (a.TSH <= 2.5) & 
                                      (a.FTI <= 205)), 
                    lambda a: a.test == 'discordant')

print('---------------------------------------------\nOverovanie pravidla: ', pravidlo.popis)
print('Trénovací súbor: ')
pravidlo.over(test_data)


---------------------------------------------
Overovanie pravidla:  all
Trénovací súbor: 
════════════════════════════════════════════════════════════════
║                    ║Prediction positive |Prediction negative ║
════════════════════════════════════════════════════════════════
║Condition positive  ║3.00                |10.00               ║
════════════════════════════════════════════════════════════════
║Condition negative  ║8.00                |951.00              ║
════════════════════════════════════════════════════════════════
Accuracy:  0.9814814814814815
Precission:  0.2727272727272727
Recall:  0.23076923076923078


In [None]:
Pravidlá sme očividne pretrénovali.