<a href="https://colab.research.google.com/github/EvgenyEsin/Machine_learning/blob/main/Machine_learning_sem_11.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ДЗ к семинару 11

1. Загрузите набор данных, подходящий для задачи классификации или
регрессии. Вы можете использовать любой набор данных, предоставленный в
библиотеке scikit-learn или другом доступном источнике данных.
2. Разделите данные на обучающую и тестовую выборки с помощью функции
train_test_split из библиотеки scikit-learn.
3. Создайте модель машинного обучения, которую вы хотитеиспользовать для
предсказания на этом наборе данных. Например, можно использовать модель
линейной регрессии или случайный лес для задачи регрессии, или модель
логистической регрессии или случайный лес для задачи классификации.
4. Используйте метод кросс-валидации, чтобы оценить производительность
модели на обучающей выборке. Например, можно использовать метод
cross_val_score из библиотеки scikit-learn с использованием метрики оценки,
такой как точность (accuracy) или среднеквадратичная ошибка (mean squared
error).
5. Проведите подбор гиперпараметров модели с помощью метода GridSearchCV из
библиотеки scikit-learn. Этот метод позволяет перебирать различные значения
гиперпараметров и выбирать наилучшие значения на основе кросс-валидации.
6. Обучите модель с использованием оптимальных гиперпараметров на
обучающей выборке и оцени ее производительность на тестовой выборке.
7. Проведите анализ результатов и сделай выводы о процессе кросс-валидации и
подборе гиперпараметров в задачах машинного обучения.

## 1. Загрузка набора данных

In [1]:
from sklearn.datasets import load_iris
import pandas as pd

# Загрузка набора данных
data = load_iris()
X = data.data
y = data.target

# Преобразуем в DataFrame для удобства
df = pd.DataFrame(X, columns=data.feature_names)
df['target'] = y
print(df.head())


   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                5.1               3.5                1.4               0.2   
1                4.9               3.0                1.4               0.2   
2                4.7               3.2                1.3               0.2   
3                4.6               3.1                1.5               0.2   
4                5.0               3.6                1.4               0.2   

   target  
0       0  
1       0  
2       0  
3       0  
4       0  


## 2. Разделение данных на обучающую и тестовую выборки

In [2]:
from sklearn.model_selection import train_test_split

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## 3. Создание модели машинного обучения

В данном случае мы будем использовать модель случайного леса.

In [3]:
from sklearn.ensemble import RandomForestClassifier

# Создание модели случайного леса
model = RandomForestClassifier(random_state=42)

## 4. Оценка производительности модели с помощью кросс-валидации

In [4]:
from sklearn.model_selection import cross_val_score

# Оценка производительности модели с помощью кросс-валидации
cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring='accuracy')
print(f'Кросс-валидация: Средняя точность = {cv_scores.mean():.2f} +/- {cv_scores.std():.2f}')

Кросс-валидация: Средняя точность = 0.94 +/- 0.06


## 5. Подбор гиперпараметров с помощью GridSearchCV

In [5]:
from sklearn.model_selection import GridSearchCV

# Определение параметров для подбора
param_grid = {
    'n_estimators': [10, 50, 100],
    'max_depth': [None, 10, 20, 30],
}

# Подбор гиперпараметров
grid_search = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

print(f'Лучшие параметры: {grid_search.best_params_}')
print(f'Лучшая точность: {grid_search.best_score_:.2f}')

Лучшие параметры: {'max_depth': None, 'n_estimators': 10}
Лучшая точность: 0.95


## 6. Обучение модели с оптимальными гиперпараметрами и оценка на тестовой выборке

In [6]:
# Обучение модели с оптимальными гиперпараметрами
best_model = grid_search.best_estimator_
best_model.fit(X_train, y_train)

# Оценка производительности на тестовой выборке
test_accuracy = best_model.score(X_test, y_test)
print(f'Точность на тестовой выборке: {test_accuracy:.2f}')

Точность на тестовой выборке: 1.00


## 7. Анализ результатов и выводы

На этом этапе мы можем сделать выводы о процессе кросс-валидации и подборе гиперпараметров:

• Кросс-валидация позволяет получить более надежную оценку производительности модели, так как она использует разные подмножества данных для обучения и тестирования.

• Подбор гиперпараметров с использованием GridSearchCV помогает найти наилучшие параметры для модели, что может значительно улучшить ее производительность.

• В нашем случае использование случайного леса показало хорошую точность как на обучающей выборке (в ходе кросс-валидации), так и на тестовой выборке.

Эти шаги составляют стандартный процесс в задачах машинного обучения и помогают обеспечить надежные и воспроизводимые результаты.