In [1]:
import numpy as np

from si.io.csv_file import read_csv
from si.models.logistic_regression import LogisticRegression
from si.model_selection.cross_validate import k_fold_cross_validation

In [2]:
data = read_csv('../datasets/breast_bin/breast-bin.csv', sep=',', features=True, label=True)
data.X

array([[5., 1., 1., ..., 1., 1., 1.],
       [2., 1., 1., ..., 2., 1., 1.],
       [2., 1., 1., ..., 3., 1., 1.],
       ...,
       [5., 2., 2., ..., 1., 1., 2.],
       [2., 3., 2., ..., 3., 1., 1.],
       [7., 6., 6., ..., 7., 1., 1.]])

In [3]:
data.y

array([0., 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 1., 0., 0., 0., 0., 0., 1., 1., 1., 1., 1., 1., 0., 1., 1., 0.,
       1., 0., 1., 0., 0., 1., 1., 0., 0., 0., 0., 1., 1., 0., 0., 0., 1.,
       0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 1., 1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 1., 1., 1.,
       0., 0., 1., 0., 1., 0., 1., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.,
       1., 1., 1., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 1., 1., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 0., 1.,
       1., 0., 1., 1., 0., 0., 0., 0., 0., 0., 1., 0., 1., 0., 0., 1., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 1., 0., 0., 0., 0.,
       0., 1., 1., 1., 0., 0., 0., 1., 0., 0., 0., 0., 1., 1., 0., 0., 0.,
       0., 1., 0., 0., 0., 0., 0., 0., 1., 1., 0., 1., 1., 0., 1., 0., 0.,
       0., 0., 0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1.,
       0., 1., 0., 0., 0.

In [4]:
lr = LogisticRegression()
# note that in a real application, you should leave a test set aside
scores = k_fold_cross_validation(model=lr, dataset=data, cv=5)
scores

fold_score:  0.9424460431654677
fold_score:  0.9640287769784173
fold_score:  0.9640287769784173
fold_score:  0.9712230215827338
fold_score:  0.9928057553956835


[0.9424460431654677,
 0.9640287769784173,
 0.9640287769784173,
 0.9712230215827338,
 0.9928057553956835]

In [5]:
from si.model_selection.randomized_search import randomized_search_cv
from si.model_selection.cross_validate import k_fold_cross_validation 

hyperparameter_grid = {'l2_penalty': np.linspace(1, 10, 10) ,'alpha': np.linspace(0.001, 0.0001, 100), 
                       'max_iter': np.linspace(1000, 2000, 200) }

scores = k_fold_cross_validation(model=lr, dataset=data, cv=3)

dict_results = randomized_search_cv(model=lr, dataset=data, cv=3,
                                    hyperparameter_grid=hyperparameter_grid, 
                                    n_iter=10)

fold_score:  0.9698275862068966
fold_score:  0.9525862068965517
fold_score:  0.978448275862069
Before CV: Dataset type: <class 'si.data.dataset.Dataset'>
fold_score:  0.9655172413793104
fold_score:  0.978448275862069
fold_score:  0.9568965517241379
After CV: Dataset type: <class 'si.data.dataset.Dataset'>
Before CV: Dataset type: <class 'si.data.dataset.Dataset'>
fold_score:  0.9568965517241379
fold_score:  0.9827586206896551
fold_score:  0.9612068965517241
After CV: Dataset type: <class 'si.data.dataset.Dataset'>
Before CV: Dataset type: <class 'si.data.dataset.Dataset'>
fold_score:  0.9612068965517241
fold_score:  0.9741379310344828
fold_score:  0.9655172413793104
After CV: Dataset type: <class 'si.data.dataset.Dataset'>
Before CV: Dataset type: <class 'si.data.dataset.Dataset'>
fold_score:  0.9827586206896551
fold_score:  0.9698275862068966
fold_score:  0.9482758620689655
After CV: Dataset type: <class 'si.data.dataset.Dataset'>
Before CV: Dataset type: <class 'si.data.dataset.Datas

In [6]:
print(f"Accuracy: {np.mean(scores):.2f} (+/- {np.std(scores):.2f})")

Accuracy: 0.97 (+/- 0.01)
