# Домашнее задание к лекции «Улучшение качества модели» обновленное

## **Цель:**  
Применить на практике алгоритмы по автоматической оптимизации параметров моделей машинного обучения.

### **Описание задания:**  
В домашнем задании нужно решить задачу классификации наличия болезни сердца у пациентов наиболее эффективно. Данные для обучения моделей необходимо загрузить самостоятельно с [сайта](https://www.kaggle.com/datasets/fedesoriano/heart-failure-prediction). Целевая переменная – наличие болезни сердца (HeartDisease). Она принимает значения 0 или 1 в зависимости от отсутствия или наличия болезни соответственно. Подробное описание признаков можно прочесть в описании датасета на сайте. Для выполнения работы не обязательно вникать в медицинские показатели.

### **Этапы работы:**

#### 1. Получите данные и загрузите их в рабочую среду. (Jupyter Notebook или другую)

In [1]:
import pandas as pd
import numpy as np

In [2]:
import warnings
warnings.filterwarnings("ignore")

In [3]:
cd C:\Users\grebe\Documents\EDUCATION\Машинное обучение фундаментальные инструменты и практики\Работа с признаками и построение моделей\Улучшение качества модели

C:\Users\grebe\Documents\EDUCATION\Машинное обучение фундаментальные инструменты и практики\Работа с признаками и построение моделей\Улучшение качества модели


In [4]:
data = pd.read_csv('heart.csv')
data.head()

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,M,ATA,140,289,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283,0,ST,98,N,0.0,Up,0
3,48,F,ASY,138,214,0,Normal,108,Y,1.5,Flat,1
4,54,M,NAP,150,195,0,Normal,122,N,0.0,Up,0


In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 918 entries, 0 to 917
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Age             918 non-null    int64  
 1   Sex             918 non-null    object 
 2   ChestPainType   918 non-null    object 
 3   RestingBP       918 non-null    int64  
 4   Cholesterol     918 non-null    int64  
 5   FastingBS       918 non-null    int64  
 6   RestingECG      918 non-null    object 
 7   MaxHR           918 non-null    int64  
 8   ExerciseAngina  918 non-null    object 
 9   Oldpeak         918 non-null    float64
 10  ST_Slope        918 non-null    object 
 11  HeartDisease    918 non-null    int64  
dtypes: float64(1), int64(6), object(5)
memory usage: 86.2+ KB


In [6]:
categories=[]
[categories.append(i) for i in data.columns if data[i].dtype == 'object' ]
print(categories)

['Sex', 'ChestPainType', 'RestingECG', 'ExerciseAngina', 'ST_Slope']


In [7]:
for i in categories:
    print(f'In category = {i} There are following unique values: {data[i].unique()}')

In category = Sex There are following unique values: ['M' 'F']
In category = ChestPainType There are following unique values: ['ATA' 'NAP' 'ASY' 'TA']
In category = RestingECG There are following unique values: ['Normal' 'ST' 'LVH']
In category = ExerciseAngina There are following unique values: ['N' 'Y']
In category = ST_Slope There are following unique values: ['Up' 'Flat' 'Down']


In [8]:
data.describe(include=['int64','float64'])

Unnamed: 0,Age,RestingBP,Cholesterol,FastingBS,MaxHR,Oldpeak,HeartDisease
count,918.0,918.0,918.0,918.0,918.0,918.0,918.0
mean,53.510893,132.396514,198.799564,0.233115,136.809368,0.887364,0.553377
std,9.432617,18.514154,109.384145,0.423046,25.460334,1.06657,0.497414
min,28.0,0.0,0.0,0.0,60.0,-2.6,0.0
25%,47.0,120.0,173.25,0.0,120.0,0.0,0.0
50%,54.0,130.0,223.0,0.0,138.0,0.6,1.0
75%,60.0,140.0,267.0,0.0,156.0,1.5,1.0
max,77.0,200.0,603.0,1.0,202.0,6.2,1.0


#### 2. Подготовьте датасет к обучению моделей:  
a) Категориальные переменные переведите в цифровые значения. Можно использовать [pd.get_dummies](https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html), [preprocessing.LabelEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html). Старайтесь не использовать для этой задачи циклы.

In [9]:
X = data.iloc[:,0:11]

In [10]:
y = data['HeartDisease']

In [11]:
X = pd.get_dummies(X, columns=categories, drop_first=True, dtype = int)

#### 3. Разделите выборку на обучающее и тестовое подмножество. 80% данных оставить на обучающее множество, 20% на тестовое.

In [12]:
from sklearn.model_selection import train_test_split

In [13]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=30)

#### 4. Обучите модель логистической регрессии с параметрами по умолчанию.

In [14]:
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(n_jobs=-1)

In [15]:
model.fit(X_train,y_train)

In [16]:
model.score(X_train, y_train) # just to know)

0.8732970027247956

In [17]:
model.score(X_test, y_test) # just to know)

0.8641304347826086

#### 5. Подсчитайте основные метрики модели. Используйте следующие метрики и функцию:
cross_validate(…, cv=10, scoring=[‘accuracy’,‘recall’,‘precision’,‘f1’])

In [18]:
from sklearn.model_selection import cross_validate

In [19]:
scores = cross_validate(model, X_train, y_train, cv=10, scoring=['accuracy','recall','precision','f1'])
[print(f'Mean {i} = {scores[i].mean()}', sep='\n') for i in sorted(scores.keys())[2:6]]

Mean test_accuracy = 0.8664013328396889
Mean test_f1 = 0.8797794940457733
Mean test_precision = 0.8754322699367366
Mean test_recall = 0.8900609756097563


[None, None, None, None]

#### Вывод: В целом, модель показывает хорошие результаты и не переобучена

#### 6. Оптимизируйте 3-4 параметра модели:  
a) Используйте [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html).  
b) Используйте [RandomizedSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html).  
c) *Добавьте в п. 6b 2-5 моделей классификации и вариации их параметров.  
d) Повторите п. 5 после каждого итогового изменения параметров.

In [20]:
from sklearn.model_selection import GridSearchCV

In [21]:
# Solver type, max_iter, C are chosen for optimization
parameters = {'solver':('lbfgs', 'newton-cg', 'newton-cholesky', 'sag', 'saga'), 'max_iter':[10, 50, 75, 100, 250, 500], 'C':[0.5, 1.0, 1.5, 2.0, 2.5, 3.0]} 

In [22]:
model_gs = LogisticRegression(n_jobs=-1)

In [23]:
clf = GridSearchCV(model_gs, parameters, scoring=['accuracy','recall','precision','f1'], refit = 'accuracy', n_jobs=-1) #cv=10

In [24]:
clf.fit(np.array(X_train), np.array(y_train))

In [25]:
clf.best_estimator_

In [26]:
clf.best_params_

{'C': 1.0, 'max_iter': 75, 'solver': 'lbfgs'}

In [27]:
clf.score(np.array(X_train), np.array(y_train))

0.8773841961852861

In [28]:
clf.best_score_ # Why it is different from score?

0.8692386543658559

In [29]:
clf.score(np.array(X_test), np.array(y_test))

0.8641304347826086

In [30]:
scores_clf = cross_validate(clf, X_train, y_train, cv=10, scoring=['accuracy','recall','precision','f1'])
[print(f'Mean {i} = {scores_clf[i].mean()}', sep='\n') for i in sorted(scores_clf.keys())[2:6]]

Mean test_accuracy = 0.8610329507589782
Mean test_f1 = 0.8745103013841085
Mean test_precision = 0.875773463133186
Mean test_recall = 0.8778048780487806


[None, None, None, None]





#### 7. Сформулируйте выводы по проделанной работе:  
a) Сравните метрики построенных моделей.  
b) *Сравните с полученными результатами в домашнем задании по теме «Ансамблирование».  

Для получения зачета по этому домашнему заданию минимально необходимо:
обучить одну модель классификации;
оптимизировать параметры, используя метод из п. 6a;
вывести значения метрик.

### **Conclusions:**  
* Solver, max_iter and C were chosen for optimizing the model.
* It appeared that the set of parameters (Solver = 'lbfgs', max_iter = 75, C = 1.0) is optimal with only difference for max_iter vs. the max_iter by default (100).
* Score for train sample with the optimal parameters = 0.8773841961852861 vs. 0.8732970027247956 with default parameters.
* Scores for test sample are equal in both cases.