# Описание задания

**Цель домашнего задания:** решение комплексной задачи машинного обучения.

## Задание

1. Поиск и выбор набора данных для построения моделей машинного обучения. На основе выбранного набора данных студент должен построить модели машинного обучения для решения или задачи классификации, или задачи регрессии.
2. Проведение разведочного анализа данных. Построение графиков, необходимых для понимания структуры данных. Анализ и заполнение пропусков в данных.
3. Выбор признаков, подходящих для построения моделей. Кодирование категориальных признаков Масштабирование данных. Формирование вспомогательных признаков, улучшающих качество моделей.
4. Проведение корреляционного анализа данных. Формирование промежуточных выводов о возможности построения моделей машинного обучения. В зависимости от набора данных, порядок выполнения пунктов 2, 3, 4 может быть изменен.
5. Выбор метрик для последующей оценки качества моделей. Необходимо выбрать не менее двух метрик и обосновать выбор.
6. Выбор наиболее подходящих моделей для решения задачи классификации или регрессии. Необходимо использовать не менее трех моделей, хотя бы одна из которых должна быть ансамблевой.
7. Формирование обучающей и тестовой выборок на основе исходного набора данных.
8. Построение базового решения (baseline) для выбранных моделей без подбора гиперпараметров. Производится обучение моделей на основе обучающей выборки и оценка качества моделей на основе тестовой выборки.
9. Подбор гиперпараметров для выбранных моделей. Рекомендуется подбирать не более 1-2 гиперпараметров. Рекомендуется использовать методы кросс-валидации. В зависимости от используемой библиотеки можно применять функцию GridSearchCV, использовать перебор параметров в цикле, или использовать другие методы.
10. Повторение пункта 8 для найденных оптимальных значений гиперпараметров. Сравнение качества полученных моделей с качеством baseline-моделей.
11. Формирование выводов о качестве построенных моделей на основе выбранных метрик.

# Ход выполнения домашнего задания

## Выбор датасета
​
​
В качестве исходных данных для решения поставленной задачи был выбран датасет Heart Disease UCI (https://www.kaggle.com/ronitf/heart-disease-uci). 303 записи, 14 признаков, целевой признак относится к наличию болезни сердца у пациента: 0 - нет болезни сердца, 1 - есть. На основе данного датасета будем производить построение модели для решения задачи классификации.

In [1]:
import warnings
warnings.filterwarnings('ignore')

In [2]:
#from google.colab import drive, files
import google
google.colab.drive.mount('/content/drive')

ModuleNotFoundError: No module named 'google.colab'

In [None]:
from google.colab import files
import os
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline 
os.listdir()
data = pd.read_csv('drive/My Drive/mmo_datasets/heart.csv',
                   sep=",", encoding="iso-8859-1")

## Разведочный анализ данных

In [None]:
data.head()

In [None]:
data.shape

In [None]:
sns.violinplot(x=data['trestbps'])

In [None]:
total_count = data.shape[0]
num_cols = []
for col in data.columns:
    # Количество пустых значений 
    temp_null_count = data[data[col].isnull()].shape[0]
    dt = str(data[col].dtype)
    if temp_null_count>0:
        num_cols.append(col)
        temp_perc = round((temp_null_count / total_count) * 100.0, 2)
        print('Колонка {}. Тип данных {}. Количество пустых значений {}, {}%.'
              .format(col, dt, temp_null_count, temp_perc))

data_cleared = data

Пропусков в данных обнаружено не было.

In [None]:
data.dtypes

В модели отсутствуют категориальные признаки, поэтому нет необходимости проводить кодирование. В качетсве признака для классификации выберем предлагаемый признак target - наличие у пациента сердечных заболеваний.

## Проведение корреляционного анализа данных

In [None]:
fig, ax = plt.subplots(figsize=(20,10))
sns.heatmap(data.corr(), annot=True, fmt='.2f', ax=ax)

В результате построения корреляционной матрицы было выявлено, что признаки fbs (fasting blood sugar - уровень сахара в крови натощак) и chol (сыворотка холесторальная) слабо коррелируют с целевым признаком (0.03 и 0.09 соответственно), ввиду чего уберем данные признак из рассмотрения, чтобы предотвратить возможное ухудшение параметров работы моделей.

In [None]:
data = data.drop(['fbs', 'chol'], axis=1)

In [None]:
fig, ax = plt.subplots(figsize=(20,10))
sns.heatmap(data.corr(), annot=True, fmt='.2f', ax=ax)

## Выбор метрик для оценки качества моделей

**balanced_accuracy_score** - сбалансированная точность в задачах двоичной и мультиклассовой классификации для решения проблемы несбалансированных наборов данных. 

**precision_score** - доля верно предсказанных классификатором положительных объектов, из всех объектов, которые классификатор верно или неверно определил как положительные.

**recall_score** - доля верно предсказанных классификатором положительных объектов, из всех действительно положительных объектов. 

**f1_score** - объединяет precision и recall в единую метрику
$$
    F_1 = 2* \frac{precision*recall}{precision+recall}
$$

In [None]:
from sklearn.metrics import balanced_accuracy_score
from sklearn.metrics import precision_score, recall_score
from sklearn.metrics import f1_score

## Выбор моделей для решения задачи классификации

**SGDClassifier** - стохастический градиентный спуск.

**DecisionTreeClassifier** - дерево решений.

**RandomForestClassifier** - случайный лес.

In [None]:
from sklearn.linear_model import SGDClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

## Разделение выборки на обучающую и тестовую

In [None]:
target = data_cleared['target']
data_cleared = data_cleared.drop('target', axis=1)

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(
    data_cleared, 
    target, 
    test_size=0.2, 
    random_state=1
)

In [None]:
X_train.shape, Y_train.shape

In [None]:
X_test.shape, Y_test.shape

## Построение базового решения (baseline) для выбранных моделей без подбора гиперпараметров

In [None]:
sgd = SGDClassifier().fit(X_train, Y_train)
predicted_sgd = sgd.predict(X_test)

In [None]:
def print_accuracy_metrics(Y_test, predicted_sgd): 
  print("balanced_accuracy_score {}".format(
      balanced_accuracy_score(Y_test, predicted_sgd)))
  print("precision_score {}".format(
      precision_score(Y_test, predicted_sgd, average='weighted')))
  print("recall_score {}".format(
      recall_score(Y_test, predicted_sgd, average='weighted')))
  print("f1_score {}".format(
      f1_score(Y_test, predicted_sgd, average='weighted')))

In [None]:
print_accuracy_metrics(Y_test, predicted_sgd)

In [None]:
dt = DecisionTreeClassifier().fit(X_train, Y_train)
predicted_dt = dt.predict(X_test)

In [None]:
print_accuracy_metrics(Y_test, predicted_dt)

In [None]:
rfc = RandomForestClassifier().fit(X_train, Y_train)
predicted_rfc = rfc.predict(X_test)

In [None]:
print_accuracy_metrics(Y_test, predicted_rfc)

## Подбор гиперпараметров для выбранных моделей

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
n_range = np.array(range(0,100,5))
n_range = n_range / 100
tuned_parameters = [{'l1_ratio': n_range}]
tuned_parameters

In [None]:
clf_gs_sgd = GridSearchCV(SGDClassifier(), tuned_parameters, cv=5,
                      scoring='accuracy')
clf_gs_sgd.fit(X_train, Y_train)

In [None]:
clf_gs_sgd.best_params_

In [None]:
plt.plot(n_range, clf_gs_sgd.cv_results_['mean_test_score'])

In [None]:
n_range = np.array(range(1,7,1))
tuned_parameters = [{'max_depth': n_range}]
tuned_parameters

In [None]:
clf_gs_dt = GridSearchCV(DecisionTreeClassifier(random_state=1), tuned_parameters,
                          cv=5, scoring='accuracy')
clf_gs_dt.fit(X_train, Y_train)

In [None]:
clf_gs_dt.best_params_

In [None]:
plt.plot(n_range, clf_gs_dt.cv_results_['mean_test_score'])

In [None]:
rfc_n_range = np.array(range(5,100,5))
rfc_tuned_parameters = [{'n_estimators': rfc_n_range}]
rfc_tuned_parameters

In [None]:
gs_rfc = GridSearchCV(RandomForestClassifier(), rfc_tuned_parameters, cv=5,
                      scoring='accuracy')
gs_rfc.fit(X_train, Y_train)

In [None]:
gs_rfc.best_params_

In [None]:
plt.plot(rfc_n_range, gs_rfc.cv_results_['mean_test_score'])

## Оценка качества работы моделей с подобранными гиперпараметрами

In [None]:
import warnings
warnings.filterwarnings('ignore')

sgd_optimized = SGDClassifier(l1_ratio=clf_gs_sgd.best_params_['l1_ratio']).fit(X_train, Y_train)
predicted_sgd_opt = sgd_optimized.predict(X_test)

In [None]:
print_accuracy_metrics(Y_test, predicted_sgd)
print()
print_accuracy_metrics(Y_test, predicted_sgd_opt)

In [None]:
dt_optimized = DecisionTreeClassifier(max_depth=clf_gs_dt.best_params_['max_depth']).fit(X_train, Y_train)
predicted_dt_opt = dt_optimized.predict(X_test)

In [None]:
print_accuracy_metrics(Y_test, predicted_dt)
print()
print_accuracy_metrics(Y_test, predicted_dt_opt)

In [None]:
rfc_optimized = RandomForestClassifier(n_estimators=gs_rfc.best_params_['n_estimators']).fit(X_train, Y_train)
predicted_rfc_opt = rfc_optimized.predict(X_test)

In [None]:
print_accuracy_metrics(Y_test, predicted_rfc)
print()
print_accuracy_metrics(Y_test, predicted_rfc_opt)

## Выводы

Подбор гиперпараметров для выбранных моделей машинного обучения позволил увеличить точность решения задачи классификации на обучаемых моделях. Наибольший прирост в точности получила модель стохастического градиентного спуска. Однако наиболее точно с задачей классификации на данном датасете справляется дерево решений, как до подбора гиперпараметров, так и после.

## Список литературы


1. Heart Disease UCI: https://www.kaggle.com/ronitf/heart-disease-uci
2. Model evaluation: quantifying the quality of predictions: https://scikit-learn.org/stable/modules/model_evaluation.html
3. Model selection: choosing estimators and their parameters: https://scikit-learn.org/
stable/tutorial/statistical_inference/model_selection.html
4. SGDClassifier: https://scikit-learn.org/stable/modules/generated/
sklearn.linear_model.SGDClassifier.html
5. DecisionTreeClassifier: https://scikit-learn.org/stable/modules/generated/
sklearn.tree.DecisionTreeClassifier.html
6. RandomForestClassifier: https://scikit-learn.org/stable/modules/generated/
sklearn.ensemble.RandomForestClassifier.html