# Практическая работа 2. Решетчатый поиск

### Цель
Изучить метод решетчатого поиска для подбора оптимальных гиперпараметров модели машинного обучения и его применение для улучшения производительности моделей.

### Шаги выполнения
Изучение метода решетчатого поиска.
Применение решетчатого поиска к модели машинного обучения.

1.   Изучение метода решетчатого поиска.
2.   Применение решетчатого поиска к модели машинного обучения.
3.   Оценка производительности модели с оптимальными гиперпараметрами.


### Библиотека
* scikit-learn


## Исходные данные
* Набор данных о раке молочной железы из библиотеки scikit-learn.
* Изучение метода решетчатого поиска
* Решетчатый поиск (Grid Search) — это метод перебора, используемый для настройки гиперпараметров модели машинного обучения. Он осуществляет исчерпывающий поиск по указанной сетке гиперпараметров, чтобы найти комбинацию, обеспечивающую наилучшую производительность модели на обучающем наборе данных с использованием кросс-валидации.

## Применение решетчатого поиска к модели машинного обучения

In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier

### Загрузка данных

In [2]:
data = load_breast_cancer()
X = data.data
y = data.target

### Разделение данных на обучающую и тестовую выборки


In [3]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


In [4]:
# Определение модели
model = RandomForestClassifier(random_state=42)

# Определение сетки параметров для поиска
param_grid = {
    'n_estimators': [50, 100, 150],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Инициализация решетчатого поиска
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, n_jobs=-1)

# Подгонка решетчатого поиска к данным
grid_search.fit(X_train, y_train)

# Вывод наилучших параметров
print("Best Parameters:", grid_search.best_params_)
# Вывод наилучшей оценки
print("Best Score:", grid_search.best_score_)

Best Parameters: {'max_depth': None, 'min_samples_leaf': 2, 'min_samples_split': 2, 'n_estimators': 150}
Best Score: 0.9572468354430379


### Оценка производительности модели с оптимальными гиперпараметрами

In [5]:
# Получение наилучшей модели после решетчатого поиска
best_model = grid_search.best_estimator_

# Оценка производительности модели на тестовом наборе данных
accuracy = best_model.score(X_test, y_test)
print("Test Set Accuracy:", accuracy)

Test Set Accuracy: 0.9707602339181286


## Дополнительные задания
Исследование влияния различных параметров решетчатого поиска:
Измените параметры решетчатого поиска, такие как разбиение кросс-валидации (cv) и метрика оценки (scoring), и оцените их влияние на производительность модели.

In [6]:
# Изменение параметров решетчатого поиска
grid_search_alt = GridSearchCV(estimator=model, param_grid=param_grid, cv=10, scoring='precision', n_jobs=-1)
grid_search_alt.fit(X_train, y_train)

print("Best Parameters with 10-fold CV and Precision Scoring:", grid_search_alt.best_params_)
print("Best Score with 10-fold CV and Precision Scoring:", grid_search_alt.best_score_)


Best Parameters with 10-fold CV and Precision Scoring: {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 50}
Best Score with 10-fold CV and Precision Scoring: 0.9602820512820512


### Изменение параметров решетчатого поиска

In [7]:
grid_search_alt = GridSearchCV(estimator=model, param_grid=param_grid, cv=10, scoring='precision', n_jobs=-1)
grid_search_alt.fit(X_train, y_train)

print("Best Parameters with 10-fold CV and Precision Scoring:", grid_search_alt.best_params_)
print("Best Score with 10-fold CV and Precision Scoring:", grid_search_alt.best_score_)

Best Parameters with 10-fold CV and Precision Scoring: {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 50}
Best Score with 10-fold CV and Precision Scoring: 0.9602820512820512


## Реализация параллельного решетчатого поиска:
Для ускорения процесса подбора гиперпараметров можно использовать параллельный решетчатый поиск, установив параметр n_jobs=-1, что позволит использовать все доступные процессоры.
python


In [8]:
# Параллельный решетчатый поиск
grid_search_parallel = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, n_jobs=-1)
grid_search_parallel.fit(X_train, y_train)

print("Best Parameters with Parallel Grid Search:", grid_search_parallel.best_params_)
print("Best Score with Parallel Grid Search:", grid_search_parallel.best_score_)


Best Parameters with Parallel Grid Search: {'max_depth': None, 'min_samples_leaf': 2, 'min_samples_split': 2, 'n_estimators': 150}
Best Score with Parallel Grid Search: 0.9572468354430379


## Заключение

В данной практической работе был изучен метод решетчатого поиска для подбора оптимальных гиперпараметров модели машинного обучения. На примере данных о раке молочной железы была проведена настройка модели RandomForestClassifier с использованием решетчатого поиска, что позволило улучшить производительность модели.

Были также рассмотрены дополнительные задания, такие как исследование влияния различных параметров решетчатого поиска и использование параллельного вычисления для ускорения процесса подбора гиперпараметров.







