# Практическая работа 3: Перекрестная проверка

## Цель
Изучить метод кросс-валидации для оценки производительности модели машинного обучения и его применение для достоверной оценки обобщающей способности модели.

## Шаги выполнения
* Изучение метода кросс-валидации.
* Применение кросс-валидации к модели машинного обучения.
* Анализ результатов кросс-валидации.
* Использование кросс-валидации для выбора модели.
* Дополнительные задания.


## Оборудование и инструменты
scikit-learn

## Исходные данные
* Набор данных о раке молочной железы из библиотеки scikit-learn.
* Изучение метода кросс-валидации
* Кросс-валидация — это метод оценки модели, который используется для проверки её способности обобщать результаты на новых данных. Он включает в себя разделение данных на несколько частей (наборов) и обучение модели на одном подмножестве данных, а тестирование на другом. Основные типы кросс-валидации включают K-Fold, Stratified K-Fold и Leave-One-Out.

## Применение кросс-валидации к модели машинного обучения

In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier

# Загрузка данных
data = load_breast_cancer()
X = data.data
y = data.target


In [2]:
# Определение модели
model = RandomForestClassifier(random_state=42)

# Применение кросс-валидации
cv_scores = cross_val_score(model, X, y, cv=5)

# Вывод средней оценки производительности модели
print("Cross-Validation Mean Score:", cv_scores.mean())

Cross-Validation Mean Score: 0.9560937742586555


### Анализ результатов кросс-валидации

In [3]:
# Вывод оценок производительности на каждом из разбиений
for i, score in enumerate(cv_scores):
    print(f"Fold {i+1} Score:", score)

Fold 1 Score: 0.9210526315789473
Fold 2 Score: 0.9385964912280702
Fold 3 Score: 0.9824561403508771
Fold 4 Score: 0.9649122807017544
Fold 5 Score: 0.9734513274336283


### Использование кросс-валидации для выбора модели

In [4]:
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

# Определение списка моделей
models = [RandomForestClassifier(random_state=42), LogisticRegression(random_state=42), SVC(random_state=42)]
model_names = ["RandomForestClassifier", "LogisticRegression", "SVC"]

# Применение кросс-валидации к каждой модели
for model, name in zip(models, model_names):
    cv_scores = cross_val_score(model, X, y, cv=5)
    print(f"{name} Mean Score:", cv_scores.mean())

RandomForestClassifier Mean Score: 0.9560937742586555


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

LogisticRegression Mean Score: 0.943766495885732
SVC Mean Score: 0.9121720229777983


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


## Дополнительные задания
Исследование влияния различных параметров кросс-валидации:
* Измените количество разбиений (cv) и стратегию разбиения (например, Stratified K-Fold) и оцените их влияние на производительность модели.

In [5]:
from sklearn.model_selection import StratifiedKFold

# Stratified K-Fold кросс-валидация
skf = StratifiedKFold(n_splits=5)
cv_scores_stratified = cross_val_score(model, X, y, cv=skf)

print("Stratified K-Fold Cross-Validation Mean Score:", cv_scores_stratified.mean())

Stratified K-Fold Cross-Validation Mean Score: 0.9121720229777983


## Реализация кросс-валидации с использованием различных метрик оценки качества модели:
Используйте различные метрики оценки, такие как precision, recall и f1-score.

In [6]:
from sklearn.metrics import make_scorer, precision_score, recall_score, f1_score

# Применение кросс-валидации с метрикой precision
cv_scores_precision = cross_val_score(model, X, y, cv=5, scoring=make_scorer(precision_score))
print("Cross-Validation Mean Precision Score:", cv_scores_precision.mean())

# Применение кросс-валидации с метрикой recall
cv_scores_recall = cross_val_score(model, X, y, cv=5, scoring=make_scorer(recall_score))
print("Cross-Validation Mean Recall Score:", cv_scores_recall.mean())

# Применение кросс-валидации с метрикой f1-score
cv_scores_f1 = cross_val_score(model, X, y, cv=5, scoring=make_scorer(f1_score))
print("Cross-Validation Mean F1 Score:", cv_scores_f1.mean())


Cross-Validation Mean Precision Score: 0.8928541157791425
Cross-Validation Mean Recall Score: 0.9803599374021911
Cross-Validation Mean F1 Score: 0.9339140018560181


## Заключение
В данной практической работе был изучен метод кросс-валидации для оценки производительности модели машинного обучения.

На примере данных о раке молочной железы была проведена оценка производительности модели RandomForestClassifier с использованием кросс-валидации.

Были также рассмотрены дополнительные задания, такие как исследование влияния различных параметров кросс-валидации и использование различных метрик оценки качества модели.