$\textbf{Разделение на обучающую и тестовую выборки}$

Описание: Разделение данных на тренировочный набор для обучения и тестовый набор для оценки.

Преимущества: Простота и быстрая реализация.

Недостатки: Результаты могут зависеть от конкретного разделения данных.


In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
def pipeStandSplit(X,Y):
    scaller = StandardScaler()
    X_scaller=scaller.fit_transform(X) 
    X_train,X_test,Y_train,Y_test=train_test_split(X_scaller,Y,test_size=0.2)
    return X_train,X_test,Y_train,Y_test

$\textbf{K-Fold Cross-Validation}$

Описание: Делит данные на k равных частей (folds), обучая модель на 𝑘−1
k−1 частях и тестируя на оставшейся. Процесс повторяется 𝑘 раз.

Преимущества: Уменьшает вероятность переобучения, так как модель тестируется на всех данных.

Недостатки: Вычислительно затратен для больших данных.


In [None]:
from sklearn.model_selection import KFold, cross_val_score
kf = KFold(n_splits=5)
scores = cross_val_score(model, X, y, cv=kf)
print("Средняя оценка:", scores.mean())

$\textbf{Stratified K-Fold}$

Описание: Модификация K-Fold, сохраняющая пропорции классов в каждом разбиении.

Используется для: Несбалансированных данных.

In [None]:
from sklearn.model_selection import StratifiedKFold
skf = StratifiedKFold(n_splits=5)
scores = cross_val_score(model, X, y, cv=skf)

$\textbf{Leave-One-Out Cross-Validation (LOOCV)}$

Описание: Каждый пример данных используется как тестовый, а остальные как обучающие.

Преимущества: Максимально использует данные для обучения.

Недостатки: Экстремально вычислительно затратен.

In [None]:
from sklearn.model_selection import LeaveOneOut
loo = LeaveOneOut()
scores = cross_val_score(model, X, y, cv=loo)

$\textbf{Time Series Split}$

Описание: Для временных рядов. Данные делятся на последовательные обучающие и тестовые наборы, соблюдая временную структуру.

Используется для: Временных рядов, где важно сохранить порядок данных.

In [None]:
from sklearn.model_selection import TimeSeriesSplit
tscv = TimeSeriesSplit(n_splits=5)
scores = cross_val_score(model, X, y, cv=tscv)

$\textbf{Holdout Validation}$

Описание: Данные делятся на три части: обучающую, валидационную и тестовую. Валидационная выборка используется для настройки гиперпараметров.

In [None]:
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)


$\textbf{Nested Cross-Validation}$

Описание: Внешняя петля разделяет данные для оценки модели, а внутренняя петля ищет оптимальные гиперпараметры.

Используется для: Оценки производительности модели с гиперпараметрами.

In [None]:
from sklearn.model_selection import GridSearchCV, cross_val_score
param_grid = {'param': [1, 10, 100]}
grid = GridSearchCV(model, param_grid, cv=3)
nested_scores = cross_val_score(grid, X, y, cv=5)


$\textbf{Bootstrapping}$

Описание: Генерация нескольких обучающих наборов с заменой для оценки модели.

Преимущества: Хорошо работает на небольших наборах данных.

In [None]:
from sklearn.utils import resample
for _ in range(100):
    X_resampled, y_resampled = resample(X, y)
    model.fit(X_resampled, y_resampled)


$\textbf{Monte Carlo Cross-Validation}$

Описание: Многократное случайное разделение данных на тренировочные и тестовые наборы.

Преимущества: Подходит для оценки производительности.

In [None]:
for _ in range(100):
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
    model.fit(X_train, y_train)
