In [14]:
import mglearn
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.model_selection import train_test_split, cross_val_score, KFold
from sklearn.datasets import make_blobs, make_moons, load_breast_cancer, load_iris

from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA

from sklearn.metrics.cluster import adjusted_rand_score
from sklearn.cluster import AgglomerativeClustering, KMeans, DBSCAN

from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestClassifier

In [4]:
iris = load_iris()
logreg = LogisticRegression()

score = cross_val_score(logreg, iris.data, iris.target)
print ('Значение правильности перекресткой проверки: {}'.format(score))

Значение правильности перекресткой проверки: [ 0.96078431  0.92156863  0.95833333]


In [10]:
score = cross_val_score(logreg, iris.data, iris.target, cv=5)
print ('Значение правильности перекресткой проверки: {}'.format(score))

Значение правильности перекресткой проверки: [ 1.          0.96666667  0.93333333  0.9         1.        ]


In [11]:
print ('Значение правильности перекресткой проверки: {}'.format(score.mean()))

Значение правильности перекресткой проверки: 0.9600000000000002


# Стратифицированная k-блочная перекрестная проверка и другие стратегии

In [12]:
print("Метки ирисов:\n{}".format(iris.target))

Метки ирисов:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


In [15]:
kfold = KFold(n_splits=5)
print ('Значение правильности перекрестной проверки: \n{}'.format(
        cross_val_score(logreg, iris.data, iris.target, cv=kfold)))

Значение правильности перекрестной проверки: 
[ 1.          0.93333333  0.43333333  0.96666667  0.43333333]


In [16]:
kfold = KFold(n_splits=3)
print ('Значение правильности перекрестной проверки: \n{}'.format(
        cross_val_score(logreg, iris.data, iris.target, cv=kfold)))

Значение правильности перекрестной проверки: 
[ 0.  0.  0.]


In [17]:
kfold = KFold(n_splits=3, shuffle=True, random_state=0)
print ('Значение правильности перекрестной проверки: \n{}'.format(
        cross_val_score(logreg, iris.data, iris.target, cv=kfold)))

Значение правильности перекрестной проверки: 
[ 0.9   0.96  0.96]


# Перекрестаня проверка с исключение по одному

In [18]:
from sklearn.model_selection import LeaveOneOut
loo = LeaveOneOut()
scores = cross_val_score(logreg, iris.data, iris.target, cv=loo)
print ('Количество итераций: ', len(scores))
print ('средняя правильность : {:.2f}'.format(scores.mean()))

Количество итераций:  150
средняя правильность : 0.95


# Перекрестная проверка со случаными ерестановками при разбиении

In [26]:
# Программный код, приведенный ниже, 10 раз разбивает данные на
# 50%-ный обучающий набор и 50%-ный тестовый набор:
from sklearn.model_selection import ShuffleSplit
shufle_split = ShuffleSplit(test_size=.5, train_size=.5, n_splits=10)
scores = cross_val_score(logreg, iris.data, iris.target, cv=shufle_split)
print ("Значение правильности перекретсной првоерки: {}".format(scores))

Значение правильности перекретсной првоерки: [ 0.96        0.96        0.94666667  0.96        0.97333333  0.93333333
  0.98666667  0.96        0.92        0.93333333]


# Перекрестная проверка с использованием групп

In [30]:
from sklearn.model_selection import GroupKFold
# создаем синтетический набор данных
X, y = make_blobs(n_samples=12, random_state=0)
# предположим, что первые три примера относяться к одной и той же группе
# затем следубщие 4 и так далее
groups = [0, 0, 0, 1, 1, 1, 1, 2, 2, 3, 3, 3]
scores = cross_val_score(logreg, X, y, groups, cv=GroupKFold(n_splits=3))
print ("Значение правильности перектрестной проверки:\n {}".format(scores))

Значение правильности перектрестной проверки:
 [ 0.75        0.8         0.66666667]
