# Creating benchmark models the scikit-learn way

## Setup

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.dummy import DummyClassifier
from sklearn.tree import DecisionTreeClassifier
from collections import Counter

from sklearn.metrics import accuracy_score, f1_score, recall_score, precision_score

In [2]:
def print_binary_evaluation(y_true, y_pred):
    results_dict = {'accuracy': accuracy_score(y_true, y_pred),
                    'recall': recall_score(y_true, y_pred),
                    'precision': precision_score(y_true, y_pred),
                    'f1_score': f1_score(y_true, y_pred)}
    return results_dict

## Load data

In [3]:
iris = load_iris()

In [4]:
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [5]:
X, y = iris.data, iris.target
y[y != 1] = 0

In [6]:
Counter(y)

Counter({0: 100, 1: 50})

In [7]:
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.2,
                                                    stratify=y, 
                                                    shuffle=True, 
                                                    random_state=42)

## Exploring variants of the DummyClassifier

### constant 

In [8]:
dummy_clf = DummyClassifier(strategy='constant', constant=1)
dummy_clf.fit(X_train, y_train)
y_pred = dummy_clf.predict(X_test)
print_binary_evaluation(y_test, y_pred)

{'accuracy': 0.3333333333333333,
 'recall': 1.0,
 'precision': 0.3333333333333333,
 'f1_score': 0.5}

### uniform

In [21]:
dummy_clf = DummyClassifier(strategy='uniform', random_state=42)
dummy_clf.fit(X_train, y_train)
y_pred = dummy_clf.predict(X_test)
print_binary_evaluation(y_test, y_pred)

{'accuracy': 0.4,
 'recall': 0.4,
 'precision': 0.25,
 'f1_score': 0.3076923076923077}

In [22]:
Counter(y_pred)

Counter({0: 14, 1: 16})

### stratified

In [23]:
dummy_clf = DummyClassifier(strategy='stratified', random_state=42)
dummy_clf.fit(X_train, y_train)
y_pred = dummy_clf.predict(X_test)
print_binary_evaluation(y_test, y_pred)

{'accuracy': 0.6333333333333333,
 'recall': 0.3,
 'precision': 0.42857142857142855,
 'f1_score': 0.3529411764705882}

In [24]:
Counter(y_pred)

Counter({0: 23, 1: 7})

### most frequent

In [31]:
dummy_clf = DummyClassifier(strategy='most_frequent', random_state=42)
dummy_clf.fit(X_train, y_train)
y_pred = dummy_clf.predict(X_test)
print_binary_evaluation(y_test, y_pred)

  _warn_prf(average, modifier, msg_start, len(result))


{'accuracy': 0.6666666666666666,
 'recall': 0.0,
 'precision': 0.0,
 'f1_score': 0.0}

In [26]:
Counter(y_pred)

Counter({0: 30})

### prior

In [10]:
dummy_clf = DummyClassifier(strategy='prior', random_state=42)
dummy_clf.fit(X_train, y_train)
y_pred = dummy_clf.predict(X_test)
print_binary_evaluation(y_test, y_pred)

  _warn_prf(average, modifier, msg_start, len(result))


{'accuracy': 0.6666666666666666,
 'recall': 0.0,
 'precision': 0.0,
 'f1_score': 0.0}

In [11]:
Counter(y_pred)

Counter({0: 30})

In [35]:
Counter(y_train)

Counter({0: 80, 1: 40})

In [36]:
dummy_clf.predict_proba(X_test)

array([[0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333],
       [0.66666667, 0.33333333]])

## Decision Tree Classifier

In [17]:
tree_clf = DecisionTreeClassifier(random_state=42)
tree_clf.fit(X_train, y_train)
y_pred = tree_clf.predict(X_test)
print_binary_evaluation(y_test, y_pred)

{'accuracy': 0.9473684210526315,
 'recall': 0.9230769230769231,
 'precision': 0.9230769230769231,
 'f1_score': 0.9230769230769231}