In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

%matplotlib inline

In [2]:
# Nowy start random.
np.random.seed(42)

# Załaowanie danych.
heartr_disease = pd.read_csv('data/heart-disease.csv')

# Rozdzielenie danych na wejściowe 'X' i wyjściowe 'y'.
X = heartr_disease.drop('target', axis=1) # X = heartr_disease oprócz kolumny target (features, features variables, data)
y = heartr_disease['target'] # y = kolumna target (labels, targets, target variables)

# Rozdzielenie danych na treningowe i testowe.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [3]:
# Stworzenie obiektu clasyfikatora.
clf = RandomForestClassifier(n_estimators=300)

# Dopasowanie drzew obiektu do danych. Zbudowanie drzewa decyzyjnego ze zbioru uczącego (X, y). Zbudowanie modelu ML.
clf.fit(X_train, y_train) 

# Przetestowanie na modelu danych testowych. Zwraca średnią dokładność dla podanych danych testowych i etykiet.
clf.score(X_test, y_test)

0.8524590163934426

## Dwa sposoby na predict
    * 'predict()'
    * 'predict_proba()'

## PREDICT

In [4]:
# Wyniki z modely ML.
y_preds = clf.predict(X_test)
y_preds

array([0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0,
       1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0], dtype=int64)

In [5]:
# Wyniki prawdziwe testowe.
np.array(y_test)

array([0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0,
       0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0], dtype=int64)

In [6]:
# Porównanie wyników.
y_preds == np.array(y_test)

array([ True, False,  True,  True,  True,  True,  True,  True,  True,
       False,  True, False,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True, False,  True,  True, False, False,
        True,  True,  True, False,  True,  True, False,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True, False,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True])

In [7]:
# Średnia porównnia wynmików.
np.mean(y_preds == y_test)

0.8524590163934426

In [8]:
# Dokładność klasyfikacji.
accuracy_score(y_test, y_preds)

0.8524590163934426

## PREDICT_PROBA
Oszacowania prawdopodobieństwa. Zwrócone szacunki dla wszystkich klas są uporządkowane według etykiet klas.
Można uzyskać bardziej szczegółowe dane.

In [9]:
clf.predict_proba(X_test[:5])

array([[0.91      , 0.09      ],
       [0.4       , 0.6       ],
       [0.46666667, 0.53333333],
       [0.87      , 0.13      ],
       [0.19333333, 0.80666667]])

In [10]:
clf.predict(X_test[:5])

array([0, 1, 1, 0, 1], dtype=int64)

predict_proba() pokazuje wagowo w wierszu wynik predict(), np:
- pierwszy wiersz w predict_proba() pokazuje że w 91% będzie 0, co widać na pierwszej popzycji w predict()
- drugi wiersz w predict_proba() pokazuje że w 60% będzie 1, co widać na drugiej popzycji w predict()
- trzeci wiersz w predict_proba() pokazuje że w 53.333% będzie 1, co widać na trzeciej popzycji w predict()
- itd.