In [5]:
import numpy as np
import pandas as pd
import sklearn
import warnings
warnings.filterwarnings('ignore')
from numpy.testing import assert_array_equal, assert_array_almost_equal, assert_equal, assert_almost_equal
from pandas.testing import assert_frame_equal

# 1. Основы метрик классификации

На вход подаются 2 массива: 

* $y_{real}$ - реальные значения бинарных классов
* $y_{pred}$ - предсказанные значения бинарных классов. 

Вам необходимо посчитать, **не используя** стандартные функции, метрики: 

* $accuracy$
* $precision$
* $recall$
* $F_1$

Возвращать числа нужно именно в данном порядке.

### Sample 1
#### Input:
```python
y_real = np.array([0, 1, 0, 0, 1, 1, 1, 1])
y_pred = np.array([0, 1, 1, 0, 1, 1, 0, 0])
```
#### Output:
```python
0.625, 0.75, 0.6, 0.66
```

# TASK

In [22]:
import numpy as np

def main_metrics(y_real: np.array, y_pred: np.array) -> (float, float, float, float):
    acc = np.mean(y_real==y_pred)
    pre = (y_real*y_pred==1).sum() / len(y_real)
    rec = None
    f1 = None
    return (acc, pre, rec, f1)


In [23]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
######################################################
y_real = np.array([0, 1, 0, 0, 1, 1, 1, 1])
y_pred = np.array([0, 1, 1, 0, 1, 1, 0, 0])


acc, pre, rec, f1 = main_metrics(y_real, y_pred)

assert np.abs(acc - accuracy_score(y_real, y_pred)) < 0.001
assert np.abs(pre - precision_score(y_real, y_pred)) < 0.001, (pre, precision_score(y_real, y_pred), pre- precision_score(y_real, y_pred) )
assert np.abs(rec - recall_score(y_real, y_pred)) < 0.001
assert np.abs(f1  - f1_score(y_real, y_pred)) < 0.001
######################################################
y_real = np.random.choice(2, 1000)
y_pred = np.random.choice(2, 1000)

acc, pre, rec, f1 = main_metrics(y_real, y_pred)

assert np.abs(acc - accuracy_score(y_real, y_pred)) < 0.001
assert np.abs(pre - precision_score(y_real, y_pred)) < 0.001
assert np.abs(rec - recall_score(y_real, y_pred)) < 0.001
assert np.abs(f1  - f1_score(y_real, y_pred)) < 0.001
######################################################

AssertionError: (0.375, 0.75, -0.375)

# 2. Основы метрик регрессии

Решаем задачу регрессии. На вход подаются 2 массива: $y_{real}$ - реальные значения функции и $y_{pred}$ - предсказанные значения функции. 

Вам необходимо посчитать, **не используя** стандартные функции, метрики: 

* $R^2score$
* $MAE$ - `mean_absolute_error`
* $MSE$ - `mean_squared_error`
* $MSLE$ - `mean_squared_log_error`

Возвращать числа нужно именно в данном порядке.

Можете сверяться с реальными метриками в `sklearn.metrics`.

Все числа в тестах больше 0, поэтому $MSLE$ будет считаться корректно.
### Sample 1
#### Input:
```python
y_real = np.array([1, 2, 3, 4, 6])
y_pred = np.array([1, 3, 2, 4, 5])
```
#### Output:
```python
0.797297, 0.6, 0.6, 0.037856
```

# TASK

In [5]:
import numpy as np

def reg_metrics(y_real: np.array, y_pred: np.array) -> (float, float, float, float):
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [9]:
from sklearn.metrics import r2_score as R2, mean_absolute_error as MAE, mean_squared_log_error as MSLE, mean_squared_error as MSE 
######################################################
y_real = np.array([1,2,3,4,6])
y_pred = np.array([1,3,2,4,5])


r2, mae, mse, msle = reg_metrics(y_real, y_pred)

assert np.abs(r2 - R2(y_real, y_pred)) < 0.001
assert np.abs(mae - MAE(y_real, y_pred)) < 0.001
assert np.abs(mse - MSE(y_real, y_pred)) < 0.001
assert np.abs(msle  - MSLE(y_real, y_pred)) < 0.001
######################################################
y_real = np.random.choice(1000, 1000)
y_pred = np.random.choice(1000, 1000)

r2, mae, mse, msle = reg_metrics(y_real, y_pred)

assert np.abs(r2 - R2(y_real, y_pred)) < 0.001
assert np.abs(mae - MAE(y_real, y_pred)) < 0.001
assert np.abs(mse - MSE(y_real, y_pred)) < 0.001
assert np.abs(msle  - MSLE(y_real, y_pred)) < 0.001
######################################################

# 3. Нахождение Roc-curve

Вам на вход даны $y_{real}$ и массив вероятностей $y_{prob} = P(y_{pred}=1)$ необходимо реализовать функцию `roc-curve`, которая вернет 2 массива различных значений $fpr$ и $tpr$, для дальнейшего построения $Roc$ кривой.

Можно считать, что все вероятности ограничены $decimal=2$ (у каждого числа не более 2-х знаков после запятой).

### Sample
#### Input:
```python
y_real = np.array([  1,   1,   0,   0,   0,   1,   0,   1,   0])
y_prob = np.array([0.8, 0.8, 0.2, 0.2, 0.6, 0.4, 0.6, 0.6, 0.4])
```
#### Output:
```python
array([0.,  0.,  0.4, 0.6, 1. ]), #fpr
array([0., 0.5, 0.75,  1., 1. ])  #tpr
```

### Sample 2
#### Input:
```python
y_real = np.array([  1,   1,   0,   0,   1,   0,   1,   0])
y_prob = np.array([0.8, 0.8, 0.2, 0.2, 0.4, 0.4, 0.6, 0.6])
```
#### Output:
```python
array([0.,  0., 0.25, 0.5, 1. ]), #fpr
array([0., 0.5, 0.75,  1., 1. ])  #tpr

или 

array([0.,  0., 0.5, 1. ]), #fpr
array([0., 0.5,  1., 1. ])  #tpr
```

Обратите внимание на 2 пример: roc кривая, которая задается ими - одинаковая. Точка, которая уходит, находится на прямой между двумя соседними, в целом такие точки можно убирать, но будут приниматься оба варианта. Функция `sklearn.metrics.roc_curve` возвращает второй вариант.

# TASK

In [11]:
import numpy as np

def roc(y_real: np.array, y_prob: np.array) -> (np.array, np.array):
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [11]:
from sklearn.metrics import auc, roc_curve
######################################################
y_real = np.array([  1,   1,   0,   0,   0,   1,   0,   1,   0])
y_prob = np.array([0.8, 0.8, 0.2, 0.2, 0.6, 0.4, 0.6, 0.6, 0.4])
fpr_true, tpr_true, _ = roc_curve(y_real, y_prob)
fpr, tpr = roc(y_real, y_prob)

assert auc(fpr, tpr) - auc(fpr_true, tpr_true) < 0.01
######################################################
y_real = np.array([  1,   1,   0,   0,   1,   0,   1,   0])
y_prob = np.array([0.8, 0.8, 0.2, 0.2, 0.4, 0.4, 0.6, 0.6])
fpr_true, tpr_true, _  = roc_curve(y_real, y_prob)
fpr, tpr = roc(y_real, y_prob)

assert auc(fpr, tpr) - auc(fpr_true, tpr_true) < 0.01
######################################################
y_real = np.random.choice(2, 1000) 
y_prob = np.random.choice(101, 1000) / 100

fpr_true, tpr_true, _  = roc_curve(y_real, y_prob)
fpr, tpr = roc(y_real, y_prob)

assert auc(fpr, tpr) - auc(fpr_true, tpr_true) < 0.01
######################################################

# 4. GridSearch

C помощью [GridSearch](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) найдите лучшие коэффициенты гиперпараметров `max_depth` и `min_samples_leaf` для классификатора [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html) и верните обученный grid_search. 

* Пределы `max_depth` $(1, 10)$ 
* Пределы `min_samples_leaf` $(1, 10)$  
* Входные данные в `data/sonar.csv`
* scoring - `precision`
* cv - $5$
* Другие параметры в `DecisionTreeClassifier` не указывать.

Не нужно Shuffl-ить данные, это может повлиять на ответ и в итоге задача не зачтется.

# TASK

In [18]:
import numpy as np
from sklearn.model_selection import GridSearchCV

def fit_gs(X: np.ndarray, y: np.ndarray) ->  GridSearchCV:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [32]:
X = pd.read_csv('data/sonar.csv').drop(columns=['y']).values
Y = pd.read_csv('data/sonar.csv')['y']
######################################################
gs = fit_gs(X,Y)

assert gs.best_params_['max_depth'] == 4
assert gs.best_params_['min_samples_leaf'] == 3
assert np.abs(gs.best_score_ - 0.7829244) < 0.001
######################################################

# 5. Удаление Nan

Серия задач в данном модуле объединена в одну [большую задачу по предсказанию данных](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/overview). В ходе выполнения модуля мы будем разбирать определенные техники, которые нужны для ее решения. Настоятельно рекомендуем выполнить все шаги **по порядку**, тогда в конце вы получите решение большой реальной задачи по МЛ.

Нам даны [данные](https://yadi.sk/d/tcElz6cqSNpPqA) о домах выставленных на продажу. Нам необходимо решить задачу регрессии и предсказать цену продажи дома для $X_{test}$ по данным $X_{train}$ и $y_{train}$. В нашем случае  $y_{train}$ - это столбик `SalePrice`, $X_{train}$ - все остальные столбики.

На вход подается 2 считанных датафрейма **df_train**, **df_test** из файлов без изменений. 

Начальная подготовка:

* Разделить **df_train** на **X_train**(`pd.Dataframe`) и **y_train**(`pd.Series`).
* Сконкатенировать **X_train** и **df_test** в **df** по вертикали (можно ориентироваться по столбику `Id` они как раз идут по-порядку). Не забудьте обновить индекс!

Задачи:

* Заменить в **df** все Nan-ы в категориальных признаках (`object`) на строку `missing`
* Заменить в **df** все Nan-ы в числовых признаках на 0.

Вернуть из функции измененный **df**.

# TASK

In [2]:
import pandas as pd

def del_nan(df_train: pd.DataFrame, df_test: pd.DataFrame) -> pd.DataFrame:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [31]:
train = pd.read_csv("data/train.csv")
test = pd.read_csv("data/test.csv")
del_nan_df = pd.read_csv('data/del_nan.csv')
######################################################
assert_frame_equal(del_nan(train, test), del_nan_df)
######################################################

# 6. Порядковые категории

Вам на вход приходит **df** из предыдущей задачи.

Если внимательно изучить файл `data_description` можно понять, что многие категориальные признаки - порядковые (упорядоченное множество). Значит их можно перевести в осмысленные числа. Значит тут можно воспользоваться `LabelEncoding`.

Ваша задача: заменить в **df** категориальные признаки на числовые, для порядковых признаков.

На выходе возвращаем измененный **df**.

Чтобы слегка упростить вам жизнь, вот вам готовые словари для перевода. Однако к каким столбцам их применять - вы должны выяснить сами, изучив файл `data_description`. Каждый маппинг используется хотя бы 1 раз, а некоторые и не по одному разу.

```python
{'Ex': 5, 'Gd': 4, 'TA': 3, 'Fa': 2, 'Po': 1, 'missing':0}
{'Gd':4, 'Av': 3, 'Mn': 2, 'No': 1, 'missing': 0}
{'GLQ': 6, 'ALQ': 5, 'BLQ': 4, 'Rec': 3, 'LwQ': 2, 'Unf': 1, 'missing': 0}
{'Typ': 8, 'Min1': 7, 'Min2': 6, 'Mod': 5, 'Maj1': 4, 'Maj2': 3, 'Sev': 2, 'Sal': 1, 'missing': 0}
{'Fin': 3, 'RFn': 2, 'Unf': 1, 'missing': 0}
{'GdPrv': 4, 'MnPrv': 3, 'GdWo': 2, 'MnWw': 1, 'missing': 0}
{'Reg': 4, 'IR1': 3, 'IR2': 2, 'IR3': 1, 'missing': 0}
{'Lvl': 4, 'Bnk': 3, 'HLS':2,'Low':1, 'missing': 0}
{'AllPub':4, 'NoSewr':3, 'NoSeWa':2, 'ELO':1, 'missing':0}
{'Gtl':3, 'Mod':2, 'Sev':1, 'missing':0}
{'SBrkr':5, 'FuseA':4, 'FuseF':3, 'FuseP':2, 'Mix':1, 'missing':0}
{'Y':3, 'P':2, 'N':1, 'missing':0}
{'Y':1, 'N':0, 'missing':0} #тут нет ошибки, все так и задумано:)
```

# TASK

In [None]:
#hint
После перевода у вас должно **остаться** 20 категориальных признаков.

In [5]:
import pandas as pd

def cat_to_num(df: pd.DataFrame) -> pd.DataFrame:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [30]:
del_nan_df = pd.read_csv('data/del_nan.csv')
answer = pd.read_csv('data/cat_to_num.csv')
######################################################
cat_to_num_df = cat_to_num(del_nan_df)
assert_frame_equal(cat_to_num_df, answer)

categorical_cols = [col for col in cat_to_num_df.columns if cat_to_num_df[col].dtypes == "object"]
assert len(categorical_cols) == 20
######################################################

# 7. One hot encoding

Теперь разберемся с непорядковыми категориальными признаками.

Для начала заметим признак `MSSubClass`, у которого тип `int64`, но если посмотреть в описание `data_description` можно понять, что это - категориальный признак. 

* Измените тип признака `MSSubClass` с `int64` на `object`

Теперь можно сделать `One hot encoding`:

* Найдите все колонки с категориальными признаками и составьте из них отдельный **df_oh** `pd.DataFrame` (индекс сохранить прежний)
* Применить к полученному фрейму **df_oh** функцию [`pd.get_dummies`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html) (Реализует `One Hot Encoding`)
* Удалить категориальные колонки из **df** и добавить справа к **df** фрейм с `One Hot Encoding`
 
Вернуть из функции **df**

# TASK

In [None]:
#hint
Итого должно получится 238 колонка из них 179 пришли из `One hot encoding` фрейма.

In [8]:
import pandas as pd

def one_hot(df: pd.DataFrame) -> pd.DataFrame:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [29]:
cat_to_num_df = pd.read_csv('data/cat_to_num.csv')
one_hot_ans = pd.read_csv('data/one_hot.csv')
######################################################
one_hot_df = one_hot(cat_to_num_df)
assert_frame_equal(one_hot_df.astype('float64').reindex(sorted(one_hot_df.columns), axis=1), 
                   one_hot_ans.astype('float64').reindex(sorted(one_hot_ans.columns), axis=1))

assert one_hot_df.shape[1] == 238
######################################################

# 8. Некоррелирующие признаки 

Мы разобрались с категориальными признаками, теперь разберемся с числовыми.
Для числовых признаков можно посчитать корреляцию с правильным ответом. Если признаки слабо коррелируют, то они нам не нужны. Например колонка `Id` явно никак не влияет на стоимость дома.

Вам на вход передается изначальный **df_train** и **df** полученный из предыдущей задачи.

Ваша задача: 

* найти корреляцию всех **числовых** признаков **df_train** с признаком `SalePrice` с помощью `pd.corr`
* если абсолютное значение корреляции признака с `SalePrice` меньше $0.05$ - удалите этот признак из **df**

Верните измененный **df** и столбец корреляции признаков с признаком `SalePrice` упорядоченный по убыванию. Начало столбца корреляции выглядит следующим образом:

|               |SalePrice |
|---------------|----------|
|**SalePrice**  |1.000000  |
|**OverallQual**|0.790982  |
|**GrLivArea**  |0.708624  |
|**GarageCars** |0.640409  |
|**GarageArea** |0.623431  |
|**TotalBsmtSF**|0.613581  |
|**1stFlrSF**   |0.605852  |
|**FullBath**   |0.560664  |

Всего должно получиться 37 числовых признаков.

# TASK

In [11]:
def correlation(df: pd.DataFrame, df_train: pd.DataFrame) -> (pd.DataFrame, pd.DataFrame):
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [28]:
one_hot_df = pd.read_csv('data/one_hot.csv')
df_train = pd.read_csv("data/train.csv")
ans_corr_df = pd.read_csv('data/corr_df.csv')
ans_corr = pd.read_csv('data/corr.csv').set_index('Unnamed: 0')
######################################################
corr_df, corr = correlation(one_hot_df, df_train)

assert_frame_equal(corr_df.astype('float64').reindex(sorted(corr_df.columns), axis=1),
                   ans_corr_df.astype('float64').reindex(sorted(ans_corr_df.columns), axis=1))

assert_array_almost_equal(corr.values, ans_corr.values, decimal=4)
######################################################

# 9. Feature Engineering и Scaling

Сразу 2 простые задачки:

1) Давайте нагенерируем несколько фич во входном фрейме **df**:

    * `TotalArea` = `TotalBsmtSF` + `1stFlrSF` + `2ndFlrSF` + `GrLivArea` + `GarageArea`
    * `YearAverage` = (`YearRemodAdd` + `YearBuilt`) / 2
    * `LiveAreaQual` = `OverallQual` * `GrLivArea`

    На выход отправьте **df** c тремя новымим столбиками. столбцы должны идти в том же порядки что указаны в списке в хвосте **df**.

2) У стандартного и нормального масштабирования есть одна проблема: она учитывает все признаки, даже те, которые изначально некорректны (шум, выбросы). Чтобы избавитьться от шумов и выбросов и корректно масштабировать выборку необходимо использовать [RobustScaling](https://scikit-learn.org/0.18/auto_examples/preprocessing/plot_robust_scaling.html).

    Ваша задача - отмасштабировать полученный фрейм с помощью `RobustScaler`. И вернуть отмасштабированный массив (да, скалирование возвращает массив, а не DataFrame).

# TASK

In [14]:
import pandas as pd

def feature_en(df: pd.DataFrame) -> pd.DataFrame:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

def scaling(df: pd.DataFrame) -> np.array:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [27]:
corr_df = pd.read_csv('data/corr_df.csv')
ans_feature_df = pd.read_csv('data/feature_df.csv')
######################################################

feature_df = feature_en(corr_df)

assert_frame_equal(feature_df.astype('float64').reindex(sorted(feature_df.columns), axis=1),
                   ans_feature_df.astype('float64').reindex(sorted(ans_feature_df.columns), axis=1))
######################################################
feature_df = pd.read_csv('data/feature_df.csv')
ans_scale_df = pd.read_csv('data/scale_df.csv').values
######################################################

scale_df = scaling(feature_df)

assert_array_almost_equal(scale_df,
                          ans_scale_df,
                          decimal=6)
######################################################

# 10. Смешанная модель

Отлично, теперь мы готовы обучать модель! Осталось изучить последний интересный трюк - смешанные модели.

Возьмем [2 регрессии](https://towardsdatascience.com/ridge-and-lasso-regression-a-complete-guide-with-python-scikit-learn-e20e34bcbf0b):

* Ridge
* Lasso
 
Найдем оптимальные значения $\alpha$ для обеих регрессий с помощью GridSearch.

Теперь отправим обе модели с наилучшими параметрами в класс указанный снизу. Это класс смешения моделей. В нем параметр $\beta \in [0,1]$ - это коэффициент, с которым берется ответ одного классификаторв, а ответ второго - с коэффициентом $(1 - \beta)$. Такая техника нередко позволяет добиться лучших результатов, чем одна модель.

Теперь найдем наилучшее $\beta$ для смешенной модели также с помощью GridSearch. Осталось получить **y_pred** с помощью наилучшей смешанной модели.

На вход вы получаете **X_scaled** из предыдущей задачи и **df_train** начальный. Мы подготовили за вас **X_train**, **y_train** и **X_test**. 

В задаче необходимо минимизировать метрику `neg_mean_squared_log_error`. Для удобства мы возьмем `np.log1p(y_train)` и будем минимизировать метрику `neg_mean_squared_error`. Эту метрику необходимо минимизировать у всех 3-х GridSearch.

На выход отправьте GridSearch объект смешанной модели, а также результат **y_test**. (Не забудьте его проэкспоненциировать).

Мы выдаем вам ориентировачные параметры для каждого GridSearch. Вы можете увеличить перебор, чтобы получить лучшую модель.
```python
params_ridge = {'alpha': np.arange(1, 20)}
params_lasso = {'alpha': np.logspace(-4, 3, num=8, base=10)}
params_blend = {'beta': np.linspace(0, 1, 11)}
```

Первые 2 GridSearch **не нужно** писать в функции: они могут работать достаточно долго и превысят лимит работы задачи на сервере. Найдите у себя локально наилучшие параметры и уже с этими параметрами создайте смешанную модель внутри функции. 

Также не нужно сильно увеличивать перебор для $\beta$ - того, что есть, более чем достаточно.

P.S. Осталось сохранить файл с **y_test** и отправить его в [соревнование](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/submit). 

Улучшайте свои результы пробуя другие модели и другие параметры. Уберите больше ненужных признаков, добавьте новые фичи. Экспериментируйте и дерзайте!


# TASK

In [20]:
from sklearn.base import BaseEstimator
from sklearn.model_selection import GridSearchCV
class BlendRegressor(BaseEstimator): # предок класса классификаторов, чтобы можно было засунуть в GridSearch
    def __init__(self, clf1, clf2, beta=0.5):
        self.clf1 = clf1 
        self.clf2 = clf2
        self.beta = beta #параметр смешивания

    def fit(self, X, y): #обучаем классификатор
        self.X_ = X
        self.y_ = y 
        self.clf1.fit(X, y)
        self.clf2.fit(X, y)
        return self

    def predict(self, X): #возвращаем значения 
        return self.clf1.predict(X) * self.beta + self.clf2.predict(X) * (1 - self.beta)

    
def learning(X_scaled: np.array, df_train: pd.DataFrame) -> (GridSearchCV, np.array):
    X_train = X_scaled[0: len(df_train),]
    X_test  = X_scaled[len(df_train): len(X_scaled)]
    y_train = np.log1p(df_train['SalePrice'])
    
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    
    return blend_gs, np.exp(y_test) - 1