# Экзаменационное задание по курсу «Основы машинного обучения»

Вам предстоит применить методы машинного обучения для решения задачи классификации изображений. В ходе выполнения работы вы пройдете через все ключевые этапы построения модели: загрузку и исследование данных, предварительную обработку, выбор алгоритма, тюнинг гиперпараметров и оценку качества предсказаний.

Задание структурировано таким образом, чтобы максимально приблизить вас к реальной работе с данными: вам нужно написать код и ответить на вопросы, чтобы обосновать выбор методов, интерпретировать полученные результаты и принять решение на основе анализа данных.

Вы начнете с исследования предоставленного набора изображений, выявления выбросов и визуализации данных. Затем попробуете несколько классических алгоритмов машинного обучения, таких как логистическая регрессия, случайный лес и метод опорных векторов, сравните их по выбранным метрикам и выберете наиболее подходящий. Далее вы проведете тюнинг гиперпараметров, а также оцените влияние снижения размерности данных на производительность модели.

В финальной части задания вы обучите и протестируете оптимальную модель, визуализируете результаты ее работы и сформулируете выводы.

На выполнение работы отводится три дня.

Успехов!

## Часть 1. Работа с данными (2 балла)

Вам предстоит загрузить и исследовать предоставленный набор данных. Вы проведете базовый анализ (EDA), визуализируете изображения, разобьете данные на обучающую и тестовую выборки. Этот этап важен для понимания структуры данных и подготовки для обучения моделей машинного обучения.

На протяжении всего задания мы будем работать с набором данных `digits` (набор изображений рукописных цифр, где каждый пример — это изображение размером 8x8 пикселей).

#### 1.1 Загрузка и визуализация данных (1 балл)

Загрузите датасет `digits` с помощью функции `datasets` библиотеки `sklearn`. Выведите пять случайных изображений из набора данных в один ряд с помощью библиотеки `matplotlib`.

In [None]:
# ВАШЕ РЕШЕНИЕ


#### 1.2 Базовый анализ и предобработка данных (1 балл)

Выполните базовый анализ данных. С помощью команды `print` выведите на экран следующую информацию:
- число экземпляров `num_samples`;
- число признаков `num_features`;
- число классов `num_classes`;
- распределение по классам — список `class_counts`, содержащий число изображений для каждого класса. Для этого вы можете воспользоваться функцией `np.bincount()`.

In [None]:
# ВАШЕ РЕШЕНИЕ

Разделите данные на обучающую и тестовую выборки в пропорции 80:20 (задайте random_state=42).  Нормализуйте признаки с помощью `StandardScaler`. Для обучения `StandardScaler` воспользуйтесь только обучающей выборкой и затем примените обученную модель к тестовой выборке. Назовите нормализованные данные `X_train_scaled` и `X_test_scaled`.

In [None]:
# ВАШЕ РЕШЕНИЕ

#### Вопрос 1

Почему нормализация данных должна проводиться после разделения на обучающую и тестовую выборки?

> *Введите ваш ответ*



## Часть 2. Выбор метода обучения (2 балла)

На этом этапе вы должны попробовать различные методы машинного обучения для решения задачи классификации изображений. Основная цель — сравнить несколько моделей, выбрать наиболее подходящую и обосновать свой выбор. Для этого необходимо выбрать подходящую метрику оценки.

#### 2.1 Тестирование моделей (2 балла)

Обучите три модели линейной классификации с помощью библиотеки `sklearn` на данных `X_train_scaled`: **логистическую регрессию**, **метод опорных векторов** и **случайный лес**.

Выберите метрику оценки качества модели, оцените ее на тестовой выборке `X_test_scaled` и сохраните в переменную `score_logreg`, `score_svm` и `score_rf` в соответствии с методом обучения.

Сравните производительности моделей и выберите лучшую из трех.


In [None]:
# ВАШЕ РЕШЕНИЕ

In [None]:
print(f"Логистическая регрессия:")
print(f"Score={score_logreg:.4f}")

print(f"Метод опорных векторов:")
print(f"Score={score_svm:.4f}")

print(f"Случайный лес:")
print(f"Score={score_rf:.4f}")

#### Вопрос 2
*  Какой метод показывает наилучшие результаты?

*  Какую метрику оценки вы выбрали для данного набора данных и почему?

> *Введите ваш ответ*



## Часть 3. Регуляризация (1 балл)

#### 3.1 Регуляризация (1 балл)
Добавьте регуляризацию (параметр `C` в `LogisticRegression`). Протестируйте качество обучения модели при разных значениях параметра регуляризации `С`: `[0.01, 0.03, 0.1, 0.3, 1, 3]`. Сравните метрики полученных моделей. Для каждого значения `C` выведите на экран значения метрики.

> Пример:
> `LogisticRegression(C=0.01, max_iter=1000, random_state=42)`

In [None]:
# ВАШЕ РЕШЕНИЕ


#### Вопрос 3
Как регуляризация влияет на качество модели и ее способность к обобщению, учитывая результаты тестирования на конкретных данных? Какое значение параметра `С` вы считаете оптимальным?

> *Введите ваш ответ*


## Часть 4. Оптимизация гиперпараметров (1 балл)

В этой части задания от вас требуется оптимизировать гиперпараметры выбранной модели, чтобы добиться наилучших результатов. Гиперпараметры управляют процессом обучения и могут существенно влиять на точность и обобщающую способность модели. Для их настройки примените метод поиска по сетке (GridSearchCV) или случайного поиска (RandomizedSearchCV), а затем обучите модель с оптимальными параметрами. В конце оцените влияние тюнинга на качество предсказаний и сделайте выводы о его важности.


#### 4.1 Подбор гиперпараметров (1 балл)

Воспользуйтесь методом HyperOpt для поиска оптимальных гиперпараметров. Например, в случае SVM, оптимизируйте `kernel` (`['linear', 'rbf', 'poly']`), `gamma` и `C`.

Обратите внимание, что в случае использования `hp.choice`, оптимизатор вернет не значение параметра, а его индекс в списке. Например, если оптимальным ядром для обучения окажется `rbf`, то HyperOpt вернет индекс `1`.

In [None]:
# ВАШЕ РЕШЕНИЕ


#### Вопрос 4

* Какая комбинация гиперпараметров показывает наилучшие результаты?

* Насколько выбранная комбинация соответствовала вашим ожиданиям и почему?

> *Введите ваш ответ*

## Часть 5. Снижение размерности данных (2 балла)

В этой части задания от вас требуется применить метод главных компонент (PCA) для снижения размерности данных.

PCA позволяет уменьшить количество признаков, сохраняя как можно больше информации, что может ускорить обучение моделей и снизить риск переобучения. Вам нужно визуализировать данные в пространстве главных компонент, сравнить качество предсказаний моделей, обученных на разном количестве компонент, и выбрать оптимальное число компонент.

#### 5.1 PCA и визуализация (1 балл)

Примените метод главных компонент (PCA) из библиотеки `sklearn` и визуализируйте данные в пространстве двух главных компонент. Каждая точка на графике должна быть раскрашена в соответствии с ее истинным классом, чтобы можно было оценить, насколько хорошо классы разделяются в новом пространстве.

In [None]:
# ВАШЕ РЕШЕНИЕ

#### Вопрос 5

* Насколько четко классы разделяются в пространстве двух главных компонент PCA?

* Можно ли ожидать высокой точности модели, обученной на данных, сведенных к двум измерениям?

> *Введите ваш ответ*

#### 5.2 Обучение на разном числе компонент (1 балл)

Нужно провести эксперимент, в котором необходимо варьировать число главных компонент (от одного до полного количества признаков с произвольным шагом) и оценивать качество предсказаний и время обучения модели, которую вы оптимизировали на прошлом этапе.

Постройте два графика в одних координатных осях:
- Ось X — число главных компонент.
- Одна ось Y — время обучения.
- Вторая ось Y — качество предсказаний (например, Accuracy на тестовой выборке).

На основе полученных результатов определите оптимальное число компонент PCA для данной задачи.

Обратите внимание, что как и в случае с нормализацией, обучать PCA нужно только на обучающей выборке, а затем применять обученную модель к тестовым данным.


In [None]:
# ВАШЕ РЕШЕНИЕ

#### Вопрос 6

Укажите плюсы и минусы снижения размерности для обучения моделей машинного обучения. Соответствуют ли графики эффективности и длительности обучения вашим ожиданиям? К каким выводам вы пришли, глядя на них?

> *Введите ваш ответ*


## Часть 6. Оценка и визуализация предсказаний (2 балла)

Вам необходимо окончательно обучить и оценить модель, используя наилучшие найденные параметры. Постройте матрицу ошибок, чтобы визуально проанализировать, какие классы путает модель (можете воспользоваться готовой функцией `confusion_matrix` от `sklearn`).

#### 6.1 Оценка модели на тестовых данных (1 балл)

Обучите и протестируйте модель на тестовой выборке, оценив ее качество по выбранным метрикам.



In [None]:
# ВАШЕ РЕШЕНИЕ

#### Вопрос 7

Как вы оцениваете качество предсказаний модели? На ваш взгляд, достаточной ли производительности вы добились? Как можно было бы улучшить модель?

> *Введите ваш ответ*

#### 6.2 Визуализация модели (1 балл)

Постройте матрицу ошибок, чтобы визуально проанализировать, какие классы путает модель (можете воспользоваться готовой функцией `confusion_matrix` от `sklearn`).

In [None]:
# ВАШЕ РЕШЕНИЕ

#### Вопрос 8

Какие критерии оценки могут быть использованы для более глубокого понимания производительности модели?

> *Введите ваш ответ*

# Заключение
Поздравляем, вы успешно прошли все этапы экзаменационного задания!

В ходе работы вы загрузили и исследовали данные, применили различные методы машинного обучения, подобрали оптимальную модель и настроили ее гиперпараметры. Вы также изучили влияние снижения размерности на качество классификации и научились визуализировать результаты работы модели.

Этот процесс напоминает реальную работу специалиста по машинному обучению: от анализа данных до выбора оптимального подхода и его финальной оценки. Надеемся, что это задание помогло вам глубже понять алгоритмы классификации и методы их улучшения.

## Обратная связь
Нам важно узнать ваше мнение:

- Какие задания показались вам наиболее полезными?
- Было ли что-то сложное или непонятное?
- Какие темы вы хотели бы изучить подробнее?



> *Введите ваш ответ*

