# Домашнее задание по дисциплине «Методы машинного обучения»

Домашнее задание направлено на решение комплексной задачи машинного обучения и включает выполнение следующих шагов:

1. Поиск и выбор набора данных для построения моделей машинного обучения. На основе выбранного набора данных студент должен построить модели машинного обучения для решения или задачи классификации, или задачи регрессии.
2. Проведение разведочного анализа данных. Построение графиков, необходимых для понимания структуры данных. Анализ и заполнение пропусков в данных.
3. Выбор признаков, подходящих для построения моделей. Кодирование категориальных признаков Масштабирование данных. Формирование вспомогательных признаков, улучшающих качество моделей.
4. Проведение корреляционного анализа данных. Формирование промежуточных выводов о возможности построения моделей машинного обучения. В зависимости от набора данных, порядок выполнения пунктов 2, 3, 4 может быть изменен.
5. Выбор метрик для последующей оценки качества моделей. Необходимо выбрать не менее двух метрик и обосновать выбор.
6. Выбор наиболее подходящих моделей для решения задачи классификации или регрессии. Необходимо использовать не менее трех моделей, хотя бы одна из которых должна быть ансамблевой.
7. Формирование обучающей и тестовой выборок на основе исходного набора данных.
8. Построение базового решения (baseline) для выбранных моделей без подбора гиперпараметров. Производится обучение моделей на основе обучающей выборки и оценка качества моделей на основе тестовой выборки.
9. Подбор гиперпараметров для выбранных моделей. Рекомендуется подбирать не более 1-2 гиперпараметров. Рекомендуется использовать методы кросс-валидации. В зависимости от используемой библиотеки можно применять функцию GridSearchCV, использовать перебор параметров в цикле, или использовать другие методы.
10. Повторение пункта 8 для найденных оптимальных значений гиперпараметров. Сравнение качества полученных моделей с качеством baseline-моделей.
11. Формирование выводов о качестве построенных моделей на основе выбранных метрик.

In [5]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
%matplotlib inline

### Загрузка данных

In [6]:
df = pd.read_csv("Heart.csv", sep=",")
df.head()

Unnamed: 0.1,Unnamed: 0,Age,Sex,ChestPain,RestBP,Chol,Fbs,RestECG,MaxHR,ExAng,Oldpeak,Slope,Ca,Thal,AHD
0,1,63,1,typical,145,233,1,2,150,0,2.3,3,0.0,fixed,No
1,2,67,1,asymptomatic,160,286,0,2,108,1,1.5,2,3.0,normal,Yes
2,3,67,1,asymptomatic,120,229,0,2,129,1,2.6,2,2.0,reversable,Yes
3,4,37,1,nonanginal,130,250,0,0,187,0,3.5,3,0.0,normal,No
4,5,41,0,nontypical,130,204,0,2,172,0,1.4,1,0.0,normal,No


In [7]:
countFemale = len(df[df.Sex == 0])
countMale = len(df[df.Sex == 1])
print("Percentage of Female Patients: {:.2f}%".format((countFemale / (len(df.Sex))*100)))
print("Percentage of Male Patients: {:.2f}%".format((countMale / (len(df.Sex))*100)))

Percentage of Female Patients: 32.01%
Percentage of Male Patients: 67.99%


In [10]:
pd.crosstab(df.Age, df.target).plot(kind="bar",figsize=(10,5))
plt.title('Heart Disease Frequency for Ages')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.savefig('heartDiseaseAndAges.png')
plt.show()

AttributeError: 'DataFrame' object has no attribute 'target'

In [None]:
plt.scatter(x=df.Age[df.Target==1], y=df.Thalach[(df.Target==1)], c="red")
plt.scatter(x=df.Age[df.Target==0], y=df.Thalach[(df.Target==0)])
plt.legend(["Disease", "Not Disease"])
plt.xlabel("Age")
plt.ylabel("Maximum Heart Rate")
plt.show()

In [None]:
sns.heatmap(df.Corr(method='pearson'), annot=True, fmt='.1f')

1. Заметим что oldpeak (снижение ST, вызванная физической нагрузкой, относительно отдыха)
наклон пика сегмента ST при физической нагрузке относительно сильно коррелируют - уберем oldpeak.
2. Уровень холестерина (chol),результаты электрокардиографии в покое(restecg)  и сахара в крови (fbs) слабо коррелированны относительно остальных признаков - уберем оба

In [None]:
df=df.drop(['chol','fbs','oldpeak','restecg'], axis = 1)

In [None]:
sns.heatmap(df.Corr(method='pearson'), annot=True, fmt='.1f')

In [None]:
for col in df.columns:
  temp=df[df[col].isnull()].shape[0]
  print('{}-{}'.format(col, temp))
print("----------------------")
df.dtypes

Заметим что датасет не содержит категориальных признаков и пропусков

In [None]:
Y = df.drop(df.columns[[0,1,2,3,4,5,6,7,8]],axis="columns")
X = df.drop(df.columns[[9]],axis="columns")

### Выбор метрик
Для оценки качества моделей будем использовать следующие метрики:
-Средняя абсолютная ошибка 
-Каппа Коэна

In [None]:
from sklearn.metrics import mean_absolute_error, cohen_kappa_score

### Выбор моделей
В качестве моделей возьмем линейную модель стохастического спуска, дерево решений и ансамблевый метод повышения градиента


In [None]:
from sklearn.linear_model import SGDClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import GradientBoostingClassifier

### Разделение выборки на обучающую и тестовую

In [None]:
data_x_train, data_x_test, data_y_train, data_y_test = train_test_split(X,Y,test_size=0.2,random_state=1)

### Построение базового решения без подбора гиперпараметров

In [None]:
class Classifier():
    def __init__(self, method, x_train, y_train, x_test, y_test):
        self._method = method
        self.x_train = x_train
        self.y_train = y_train
        self.x_test = x_test
        self.y_test = y_test
        self.tar1 = []
        self.tar2 = []
        
    def training(self):
        self._method.fit(self.x_train,self.y_train)
        self.tar2 = self._method.predict(self.x_test)
        
    def result(self,metric):
        print(metric(self.y_test,self.tar2)*100)

SGD -  реализует регуляризованные линейные модели с обучением по случайному градиентному спуску (SGD): градиент потерь оценивается для каждой выборки за раз, и модель обновляется по мере уменьшения  скорости обучения.

In [None]:
#Линейные модели
sgdlinear = Classifier(SGDClassifier(),data_x_train,data_y_train,data_x_test,data_y_test)
sgdlinear.training()
sgdlinear.result(mean_absolute_error)
sgdlinear.result(cohen_kappa_score)

Модель, которая прогнозирует значение целевой переменной путем изучения простых правил принятия решений, выведенных из функций данных.

Например, в приведенном ниже примере деревья решений учатся на основе данных для аппроксимации синусоиды с набором правил принятия решений if-then-else. Чем глубже дерево, тем сложнее правила принятия решений и тем лучше модель.

In [None]:
dtc = Classifier(DecisionTreeClassifier(random_state=5),data_x_train,data_y_train,data_x_test,data_y_test)
dtc.training()
dtc.result(mean_absolute_error)
dtc.result(cohen_kappa_score)

In [None]:
gbc=Classifier(GradientBoostingClassifier(max_features=2),data_x_train,data_y_train,data_x_test,data_y_test)
gbc.training()
gbc.result(mean_absolute_error)
gbc.result(cohen_kappa_score)

### Подбор гиперпараметра К

In [None]:
n_range = np.array(range(5,95,10))
n_range = n_range/100
tp=[{'l1_ratio':n_range}]

In [None]:
lgscv = GridSearchCV(SGDClassifier(),tp,scoring='accuracy')
lgscv.fit(data_x_train,data_y_train)

In [None]:
bp1=lgscv.best_params_['l1_ratio']
bp1

In [None]:
plt.plot(n_range,lgscv.cv_results_['mean_test_score'])

In [None]:
n_range = np.array(range(1,10,1))
tp=[{'max_depth':n_range}]

In [None]:
tgscv = GridSearchCV(DecisionTreeClassifier(random_state=1),tp,cv=5,scoring='accuracy')
tgscv.fit(data_x_train,data_y_train)


In [None]:
bp2=tgscv.best_params_['max_depth']
bp2

In [None]:
plt.plot(n_range,tgscv.cv_results_['mean_test_score'])

In [None]:
n_range = np.array(range(1,11,1))
n_range = n_range/10
tp=[{'max_features':n_range}]

In [None]:
gbcgscv = GridSearchCV(GradientBoostingClassifier(),tp,cv=5,scoring='accuracy')
gbcgscv.fit(data_x_train,data_y_train)

In [None]:
bp3=gbcgscv.best_params_['max_features']
bp3

In [None]:
plt.plot(n_range,gbcgscv.cv_results_['mean_test_score'])

### Сравнение моделей

In [None]:
#Линейные модели
sgdlinear.result(mean_absolute_error)
sgdlinear.result(cohen_kappa_score)
print("___________________________________")
sgdlinear2 = Classifier(SGDClassifier(l1_ratio=bp1),data_x_train,data_y_train,data_x_test,data_y_test)
sgdlinear2.training()
sgdlinear2.result(mean_absolute_error)
sgdlinear.result(cohen_kappa_score)

In [None]:
#DTC
dtc.result(mean_absolute_error)
dtc.result(cohen_kappa_score)
print("___________________________________")
dtc2 = Classifier(DecisionTreeClassifier(random_state=bp2),data_x_train,data_y_train,data_x_test,data_y_test)
dtc2.training()
dtc2.result(mean_absolute_error)
dtc2.result(cohen_kappa_score)


In [None]:
gbc.result(mean_absolute_error)
gbc.result(cohen_kappa_score)
print("vs")
gbc2=Classifier(GradientBoostingClassifier(max_features=bp3),data_x_train,data_y_train,data_x_test,data_y_test)
gbc2.training()
gbc2.result(mean_absolute_error)
gbc2.result(cohen_kappa_score)

### Выводы:
<div>По полученным моделям и значениям можно сделать следующие выводы:

<div> 1. Наилучшим методом оказался ансамблевский GradiendBoosting показав средние ~60%
<div> 2. Несмотря на визуально незначительный прирост после использования расчитанных гиперпараметров использовать случайные гиперпараметры не рекоммендуется.
  


### Литература
<div> 1. Heart Disease UCI: https://www.kaggle.com/ronitf/heart-disease-uci
<div> 2. Scikit-learn docs: https://scikit-learn.org/stable/modules/