In [None]:
import warnings
warnings.filterwarnings('ignore')

In [None]:
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import roc_auc_score, roc_curve, confusion_matrix, f1_score, precision_score, recall_score, accuracy_score, classification_report
from sklearn.preprocessing import StandardScaler, OneHotEncoder

RANDOM_STATE = 42

### Задание 1

На лекции вы познакомились с одним из методов оптимизации - методом градиентного спуска. В машинном обучении градиентный спуск используется для минимизации функции потерь при обучении моделей. Для лучшего понимания происходящего реализуем алгоритм руками.

Пусть на отрезке $[-2; 2]$ задана функция $y=x^4 + sin(x)$. Для поиска минимума этой функции реализуйте простейший алгоритм градиентного спуска. Начальное приближение возьмите равным 1. Выбрав темп обучения равным 0.1, найдите экстремум функции. Далее рассчитайте оптимальный темп обучения (такой, при котором алгоритм после первого же шага должен найти минимум функции).

Выберите все верные ответы из списка.

In [None]:
def f(x):
    # ваш код здесь


def gradient_f(x):
    # ваш код здесь

In [None]:
x = np.linspace(-2, 2, num=10000)
y = f(x)

plt.scatter(x, y, marker='.')
plt.show()

In [None]:
learning_rate = 0.1  # темп обучения
iter = 1000  # базовое количество итераций

x0 = 1  # начальное приближение

In [None]:
# ваш код здесь

### Задание 2

Рассмотрим набор данных о заболевании раком. Здесь представлены два различных типа рака и необходимо отделить один от другого. Для этого разделите набор данных на тренировочную и тестовую выборки, постройте логистическую регрессию (здесь и далее в форме не масштабируем признаки для простоты) и выполните предсказания. Рассчитав коэффициенты модели, определите признак, который оказывает наиболее сильное влияние на наличие рака типа `'B'` у пациента. В качестве ответа сдайте название признака без кавычек.

In [None]:
# Считайте набор данных из файла Cancer_Data.csv
data = pd.read_csv('Cancer_Data.csv').drop(['id', 'Unnamed: 32'], axis=1)
data.head()

In [None]:
# Закодируйте значения в колонке с целевой переменной. Рак типа B - класс 1, рак типа M - класс 0
# ваш код здесь

In [None]:
# Разделите набор на тренировочную и тестовую выборки. размер тестовой выборки - 0.4, стратификация по целевой переменной, перемешивание включено,
# random_state=RANDOM_STATE
X_train, X_test, y_train, y_test = # ваш код здесь

In [None]:
# Создайте модель логистической регрессии и подберите ее оптимальные параметры с помощью GridSearchCV. Целевая метрика - ROC-AUC, количество фолдов 10
log_reg = # ваш код здесь

params = {
    'C' : [0.1, 0.3, 0.5, 0.7, 1.0]
}

clf = # ваш код здесь

In [None]:
# Обучите модель логистической регрессии с лучшими параметрами на тренировочной выборке и выполните предсказания на тестовой
model = # ваш код здесь
pred = # ваш код здесь

In [None]:
# Рассчитав коэффициенты модели, определите признак, который оказывает наиболее сильное влияние на наличие рака типа `'B'` у пациента
# ваш код здесь

### Задание 3

Давайте интерпретируем результаты логистической регрессии.


In [None]:
# Будете ли вы использовать те же X и y как и в предыдущем задании?
X, y = # ваш код здесь

In [None]:
log_reg = LogisticRegression(random_state=RANDOM_STATE)

params = {
    'C' : [0.1, 0.3, 0.5, 0.7, 1.0]
}

clf = GridSearchCV(log_reg, params, scoring='roc_auc', cv=10)
clf.fit(X, y)
print(f'Best score is {clf.best_score_}, best params are {clf.best_params_}')

In [None]:
# ваш код здесь

### Задание 4

Постройте матрицу ошибок и рассчитайте необходимые метрики. Выберите все верные ответы в списке.

In [None]:
cf_matrix = # ваш код здесь

plt.figure(figsize=(6, 4))

ax = sns.heatmap(cf_matrix, annot=True, cmap='Blues')

ax.set_title('Confusion Matrix\n')
ax.set_xlabel('Predicted label')
ax.set_ylabel('True label')

plt.show()

### Задание 5

Выполните предсказания на тестовой выборке и рассчитайте значение метрики AUC-ROC, а также для наглядности постройте ROC-кривую.

При разных порогах по вероятности (0.25, 0.5, 0.75) рассчитайте значения метрик (точность, полнота, F1-мера, ROC-AUC) и выберите все верные ответы.

In [None]:
# ваш код здесь

In [None]:
pred_proba = model.predict_proba(X_test)[::, 1]
fpr, tpr, thresholds = roc_curve(y_test, pred_proba)

plt.plot(fpr, tpr, c='r', label=f'AUC-ROC: {roc_auc_score(y_test, pred): .3f}')
plt.plot(fpr, fpr, linestyle='dashed', c='b', label='basic')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC-curve')
plt.legend()
plt.show()

In [None]:
thresholds = [0.25, 0.5, 0.75]
# ваш код здесь

### Задание 6

Найти порог, при котором F1-мера будет принимать максимальное значение.

In [None]:
# Порог надо искать среди чисел от 0 до 1 с шагом 0.001
best_thresh = 0
best_f1 = 0

# ваш код здесь

### Задание 7

Если для исследователя точность важнее полноты (принять ${\beta}$ = 0.5), то какой порог нужно выбрать для максимизации F-меры (перебор порога делать, как в предыдущем задании)? Рассчитайте также взвешанное значение F-меры в этом случае. Выберите все верные ответы из списка.

В этой [статье](https://habr.com/ru/companies/ods/articles/328372/) приведена формула взвешанной F-меры: $F_{\beta} = (1 + \beta^2) \cdot \frac{precision \cdot recall}{\beta^2 \cdot precision + recall}$

In [None]:
# Тут процедура аналогичная, только вместо F1-меры надо считать взвешенную F-меру
best_thresh = 0
best_f = 0

# ваш код здесь

### Задание 8

Вернемся к предсказаниям нашей логистической регрессии. Воспользуемся метрикой gini для сравнения нашей модели со случайной. Подробнее про метрику можно почитать [здесь](https://habr.com/ru/companies/ods/articles/350440/). Постройте случайную модель (используя наш random seed из ноутбука) и посчитайте разность нашего gini и gini случайной модели. Выберите правильный ответ.

In [None]:
rng = np.random.RandomState(RANDOM_STATE)
random_probs = rng.uniform(0, 1, 228)


fpr, tpr, thresholds = roc_curve(y_test, random_probs)

plt.plot(fpr, tpr, c='r', label=f'AUC-ROC: {roc_auc_score(y_test, random_probs): .3f}')
plt.plot(fpr, fpr, linestyle='dashed', c='b', label='basic')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC-curve')
plt.legend()
plt.show()

In [None]:
gini_our = # ваш код здесь
gini_random = # ваш код здесь

In [None]:
gini_our - gini_random