Изучить метод кросс-валидации для оценки производительности
моделей машинного обучения и понять его преимущества по сравнению с
простым разделением данных на обучающий и тестовый наборы.

Метод кросс-валидации в сравнении с простым разделением данных на train и test можно сравнить с экзаменом и студентом.

Простое разделение: Студент пришел сдавать экзамен, ему попался сложный вариант и он получил 2.

Метод кросс-валидации: Студент пришел сдавать 5 раз экзамен и получил 4, так как решал экзамен не 1 раз, а 5. Результирующей оценкой стала среднее из 5 экзаменов

# Изучение метода кросс-валидации.
Ознакомьтесь с основными концепциями кросс-валидации, включая k-fold кросс-валидацию и стратифицированную кросс-валидацию.


In [1]:
from sklearn.model_selection import cross_val_score, StratifiedKFold
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()

X = iris.data
y = iris.target
# Инициализация модели машинного обучения
model = LogisticRegression(max_iter=1000)
# Инициализация метода кросс-валидации
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
# Оценка производительности модели с помощью кросс-валидации
scores = cross_val_score(model, X, y, cv=cv, scoring='accuracy')
print("Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))
scores

Accuracy: 0.97 (+/- 0.06)


array([1.        , 0.96666667, 0.93333333, 1.        , 0.93333333])

max_iter необходим для  оптимизации, так как алгоритм не смог достичь сходимости за заданное количество итераций. Это может произойти, если модель требует больше итераций для сходимости или если данные требуют масштабирования.

In [8]:
# Пример применения кросс-валидации к модели машинного обучения
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(n_estimators=100)
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
scores = cross_val_score(model, X, y, cv=cv, scoring='accuracy')
print("Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))
scores

Accuracy: 0.96 (+/- 0.08)


array([1.        , 0.96666667, 0.93333333, 1.        , 0.9       ])

# Сравнение с другими методами оценки производительности

In [9]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)
# Обучение модели на обучающем наборе данных
model.fit(X_train, y_train)
# Оценка производительности модели на тестовом наборе данных
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
accuracy

1.0

# 1. Проведите сравнительный анализ различных методов кросс-валидации (например, k-fold vs. стратифицированная кросс-валидация).


In [12]:
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score, KFold, StratifiedKFold
from sklearn.linear_model import LogisticRegression

# Загрузка набора данных Iris
iris = load_iris()
X = iris.data
y = iris.target

# K-fold кросс-валидация
kfold = KFold(n_splits=5, shuffle=True, random_state=42)
kfold_scores = cross_val_score(LogisticRegression(max_iter=1000), X, y, cv=kfold, scoring='accuracy')

# Стратифицированная кросс-валидация
stratified_kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
stratified_kfold_scores = cross_val_score(LogisticRegression(max_iter=1000), X, y, cv=stratified_kfold, scoring='accuracy')

# Вывод результатов
print("K-fold кросс-валидация: Accuracy: %0.2f (+/- %0.2f)" % (kfold_scores.mean(), kfold_scores.std() * 2))
print("Стратифицированная кросс-валидация: Accuracy: %0.2f (+/- %0.2f)" % (stratified_kfold_scores.mean(), stratified_kfold_scores.std() * 2))


K-fold кросс-валидация: Accuracy: 0.97 (+/- 0.05)
Стратифицированная кросс-валидация: Accuracy: 0.97 (+/- 0.06)


std*2, для захвата большего диапазона и более точной оценки.

Метод k-fold разделяет данные на k равных частей (фолдов) и выполняет обучение и оценку модели k раз. В каждой итерации один из фолдов используется в качестве тестового набора, а остальные фолды - в качестве обучающего набора. Этот метод обычно используется для оценки производительности модели и проверки ее устойчивости.

Стратифицированная кросс-валидация сохраняет пропорции классов в каждом фолде. Это особенно полезно, когда у вас есть несбалансированные классы в данных. В стратифицированной кросс-валидации каждый фолд содержит примерно одинаковое количество примеров каждого класса. Это помогает убедиться, что каждый класс будет представлен в обучающем и тестовом наборах.

# 2. Реализуйте функцию для оптимизации гиперпараметров модели с использованием кросс-валидации.

In [25]:
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.ensemble import RandomForestClassifier

# Загрузка набора данных Iris
iris = load_iris()
X = iris.data
y = iris.target

# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Определение модели
model = RandomForestClassifier()

# Определение сетки гиперпараметров для перебора
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 5, 10],
    'min_samples_leaf': [1, 2, 3]
}

# Создание объекта GridSearchCV
grid_search = GridSearchCV(model, param_grid, cv=5, scoring='accuracy')

# Обучение модели с использованием Grid Search
grid_search.fit(X_train, y_train)

# Вывод наилучших гиперпараметров и оценки производительности
print("Наилучшие гиперпараметры:", grid_search.best_params_)
print("Лучшая оценка производительности:", grid_search.best_score_)


Наилучшие гиперпараметры: {'max_depth': None, 'min_samples_leaf': 3, 'n_estimators': 300}
Лучшая оценка производительности: 0.9666666666666666


In [26]:
iris = load_iris()

X = iris.data
y = iris.target

model = LogisticRegression(max_iter=1000)

def hyperparameters(X,y):

  for i in range(2, 50, 2):
    cv = StratifiedKFold(n_splits=i, shuffle=True, random_state=42)
    scores = cross_val_score(model, X, y, cv=cv, scoring='accuracy')

  print(scores)
  print("Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))

hyperparameters(X,y)

[1.         1.         1.         1.         1.         1.
 1.         1.         1.         1.         1.         1.
 1.         1.         1.         0.66666667 1.         1.
 0.66666667 1.         1.         1.         1.         1.
 1.         1.         0.66666667 1.         1.         1.
 1.         1.         1.         1.         1.         1.
 1.         1.         1.         0.66666667 1.         1.
 1.         1.         0.66666667 1.         1.         1.        ]
Accuracy: 0.97 (+/- 0.20)
