In [1]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classification

In [2]:
X, y = make_classification(
    n_samples=1000,
    n_classes=2,
    weights=[0.99, 0.01],
    flip_y=0,
    random_state=1
)

X_train, X_test, y_train, y_test = \
    train_test_split(X, y, test_size = 0.2, random_state=3)

train_0, train_1 = len(y_train[y_train==0]), len(y_train[y_train==1])
test_0, test_1 = len(y_test[y_test==0]), len(y_test[y_test==1])

print('>Train: 0=%d, 1=%d, Test: 0=%d, 1=%d' % (train_0, train_1, test_0, test_1))

>Train: 0=790, 1=10, Test: 0=200, 1=0


###### Widać więc, że w danych treningowych są wszystkie klasy typu 1, natomiast nie ma ich w danych testowych. W fazie testowania naszego modelu nie będziemy mieli więc informacji, jak nasz model będzie się sprawował dla takiego typu danych – jest to Złe

In [3]:
X_train, X_test, y_train, y_test = \
    train_test_split(X, y, test_size = 0.2, random_state=3, stratify=y)

train_0, train_1 = len(y_train[y_train==0]), len(y_train[y_train==1])
test_0, test_1 = len(y_test[y_test==0]), len(y_test[y_test==1])

print('>Train: 0=%d, 1=%d, Test: 0=%d, 1=%d' % (train_0, train_1, test_0, test_1))

>Train: 0=792, 1=8, Test: 0=198, 1=2


###### Widzimy, że przy podziale 80%/20%, 80% obiektów klasy 1 znajduje się w zbiorze treningowym, natomiast 20% w zbiorze testowym i tak powinno być.

# StratifyKFold

In [14]:
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import KFold
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import SGDClassifier

import numpy as np

In [15]:
kf = KFold(n_splits=5, shuffle=True, random_state=1)
scaler = StandardScaler()

models = []
scores = []

for fold_nr, (train_idx, test_idx) in enumerate(kf.split(X, y)):
    X_train = X[train_idx]
    X_test = X[test_idx]
    
    y_train = y[train_idx]
    y_test = y[test_idx]
    
    # skalowanie danych wejściowych, aby model lepiej działał
    X_train = scaler.fit_transform(X_train)
    X_test = scaler.transform(X_test)

    clf = SGDClassifier(random_state=1).fit(X_train, y_train)

    models.append(clf)
    scores.append(clf.score(X_test, y_test))
    
print("Wyniki poszczególnych foldów: ", scores)
print("Średni wynik wszystkich foldów: ", np.array(scores).mean())

Wyniki poszczególnych foldów:  [0.975, 0.98, 0.975, 0.975, 0.985]
Średni wynik wszystkich foldów:  0.9780000000000001
