<a href="https://colab.research.google.com/github/AlekseevaTatiana23/Machine-learning/blob/main/HT10.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Урок 10. Работа с признаками
Вам предстоит провести эксперименты с моделью машинного обучения и изучить процесс кросс-валидации и подбора гиперпараметров.

Ваша задача состоит в следующем:

1. Загрузите набор данных, подходящий для задачи классификации или регрессии. Вы можете использовать любой набор данных, предоставленный в библиотеке scikit-learn или другом доступном источнике данных.

2. Разделите данные на обучающую и тестовую выборки с помощью функции train_test_split из библиотеки scikit-learn.

3. Создайте модель машинного обучения, которую вы хотите использовать для предсказания на этом наборе данных. Например, можно использовать модель линейной регрессии или случайный лес для задачи регрессии, или модель логистической регрессии или случайный лес для задачи классификации.

4. Используйте метод кросс-валидации, чтобы оценить производительность модели на обучающей выборке. Например, можно использовать метод cross_val_score из библиотеки scikit-learn с использованием метрики оценки, такой как точность (accuracy) или среднеквадратичная ошибка (mean squared error).

5. Проведите подбор гиперпараметров модели с помощью метода GridSearchCV из библиотеки scikit-learn. Этот метод позволяет перебирать различные значения гиперпараметров и выбирать наилучшие значения на основе кросс-валидации.

6. Обучите модель с использованием оптимальных гиперпараметров на обучающей выборке и оцени ее производительность на тестовой выборке.

7. Проведите анализ результатов и сделай выводы о процессе кросс-валидации и подборе гиперпараметров в задачах машинного обучения.

In [26]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score





In [27]:
# 1. Загрузка набора данных
data = load_breast_cancer()
X = data.data
y = data.target





In [28]:
# 2. Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)



In [29]:
# 3. Создаем модель — например, логистическая регрессия
model = LogisticRegression(max_iter=1000, random_state=42)




In [30]:
# 4. Оценка модели с помощью кросс-валидации
cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring='accuracy')
print(f"Кросс-валидационные оценки точности: {cv_scores}")
print(f"Средняя точность: {np.mean(cv_scores):.3f} ± {np.std(cv_scores):.3f}")





STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

Кросс-валидационные оценки точности: [0.97802198 0.93406593 0.92307692 0.94505495 0.93406593]
Средняя точность: 0.943 ± 0.019


STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [31]:
# 5. Подбор гиперпараметров с помощью GridSearchCV
param_grid = {
    'C': [0.01, 0.1, 1, 10, 100],
    'penalty': ['l2'],  # для LogisticRegression с 'l1' нужно использовать solver='liblinear'
    'solver': ['lbfgs', 'liblinear']
}

grid = GridSearchCV(model, param_grid, cv=5, scoring='accuracy', n_jobs=-1)
grid.fit(X_train, y_train)

print(f"Лучшие параметры: {grid.best_params_}")
print(f"Наилучшее значение кросс-валидационной точности: {grid.best_score_:.3f}")



Лучшие параметры: {'C': 10, 'penalty': 'l2', 'solver': 'liblinear'}
Наилучшее значение кросс-валидационной точности: 0.958


In [32]:
# 6. Обучение модели с оптимальными гиперпараметрами
best_model = grid.best_estimator_
best_model.fit(X_train, y_train)

# 7. Оценка на тестовой выборке
y_pred = best_model.predict(X_test)
test_accuracy = accuracy_score(y_test, y_pred)
print(f"Точность на тестовой выборке: {test_accuracy:.3f}")



Точность на тестовой выборке: 0.965


In [33]:
# 8. Анализ результатов
print("\nВыводы:")
print("- Кросс-валидация помогает оценить стабильность модели.")
print("- GridSearchCV позволяет подобрать гиперпараметры и улучшить качество модели.")
print("- Важно тестировать финальную модель на отдельной тестовой выборке, чтобы оценить ее реальную производительность.")


Выводы:
- Кросс-валидация помогает оценить стабильность модели.
- GridSearchCV позволяет подобрать гиперпараметры и улучшить качество модели.
- Важно тестировать финальную модель на отдельной тестовой выборке, чтобы оценить ее реальную производительность.
