In [1]:
import numpy as np
import pandas as pd
import sklearn
import warnings
warnings.filterwarnings('ignore')
from numpy.testing import assert_array_equal, assert_array_almost_equal, assert_equal, assert_almost_equal
from pandas.testing import assert_frame_equal

# 1. Основы метрик классификации

На вход подаются 2 массива: 

* $y_{real}$ - реальные значения бинарных классов
* $y_{pred}$ - предсказанные значения бинарных классов. 

Вам необходимо посчитать, **не используя** стандартные функции, метрики: 

* $accuracy$
* $precision$
* $recall$
* $F_1$

Возвращать числа нужно именно в данном порядке.

### Sample 1
#### Input:
```python
y_real = np.array([0, 1, 0, 0, 1, 1, 1, 1])
y_pred = np.array([0, 1, 1, 0, 1, 1, 0, 0])
```
#### Output:
```python
0.625, 0.75, 0.6, 0.66
```

# TASK

# SOLUTION

In [35]:
import numpy as np


def main_metrics(y_real: np.array, y_pred: np.array) -> (float, float, float, float):
    acc = np.mean(y_real==y_pred)
    tp = (y_real*y_pred).sum() # true positive
    fn = (y_real * (y_pred ^ y_real)).sum() # false negative
    fp = (y_pred * (y_pred ^ y_real)).sum()
    tn = ((1 - y_real) * (1 - y_pred)).sum()
    
    
    pre = tp / (fp + tp)
    rec = tp / (fn + tp)
    f1 = 2 * pre * rec / (pre + rec)
    return (acc, pre, rec, f1)


# SOLUTION ALTERNATIVE

In [37]:
import numpy as np


def perf_measure(y_actual, y_hat):
    TP = 0
    FP = 0
    TN = 0
    FN = 0

    for i in range(len(y_hat)): 
        if y_actual[i]==y_hat[i]==1:
           TP += 1
        if y_hat[i]==1 and y_actual[i]!=y_hat[i]:
           FP += 1
        if y_actual[i]==y_hat[i]==0:
           TN += 1
        if y_hat[i]==0 and y_actual[i]!=y_hat[i]:
           FN += 1

    return(TP, FP, TN, FN)


def main_metrics(y_real: np.array, y_pred: np.array) -> (float, float, float, float):
    acc = np.mean(y_real==y_pred)
    TP, FP, TN, FN = perf_measure(y_real, y_pred)
    pre = TP / (FP + TP)
    rec = TP / (FN + TP)
    f1 = 2 * pre * rec / (pre + rec)
    return (acc, pre, rec, f1)



In [38]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
######################################################
y_real = np.array([0, 1, 0, 0, 1, 1, 1, 1])
y_pred = np.array([0, 1, 1, 0, 1, 1, 0, 0])


acc, pre, rec, f1 = main_metrics(y_real, y_pred)

assert np.abs(acc - accuracy_score(y_real, y_pred)) < 0.001
assert np.abs(pre - precision_score(y_real, y_pred)) < 0.001, (pre, precision_score(y_real, y_pred), pre- precision_score(y_real, y_pred) )
assert np.abs(rec - recall_score(y_real, y_pred)) < 0.001
assert np.abs(f1  - f1_score(y_real, y_pred)) < 0.001
######################################################
y_real = np.random.choice(2, 1000)
y_pred = np.random.choice(2, 1000)

acc, pre, rec, f1 = main_metrics(y_real, y_pred)

assert np.abs(acc - accuracy_score(y_real, y_pred)) < 0.001
assert np.abs(pre - precision_score(y_real, y_pred)) < 0.001
assert np.abs(rec - recall_score(y_real, y_pred)) < 0.001
assert np.abs(f1  - f1_score(y_real, y_pred)) < 0.001
######################################################

# 2. Основы метрик регрессии

Решаем задачу регрессии. На вход подаются 2 массива: $y_{real}$ - реальные значения функции и $y_{pred}$ - предсказанные значения функции. 

Вам необходимо посчитать, **не используя** стандартные функции, метрики: 

* $R^2score$
* $MAE$ - `mean_absolute_error`
* $MSE$ - `mean_squared_error`
* $MSLE$ - `mean_squared_log_error`

Возвращать числа нужно именно в данном порядке.

Можете сверяться с реальными метриками в `sklearn.metrics`.

Все числа в тестах больше 0, поэтому $MSLE$ будет считаться корректно.
### Sample 1
#### Input:
```python
y_real = np.array([1, 2, 3, 4, 6])
y_pred = np.array([1, 3, 2, 4, 5])
```
#### Output:
```python
0.797297, 0.6, 0.6, 0.037856
```

# TASK

In [81]:
import numpy as np

def reg_metrics(x: np.array, y: np.array) -> (float, float, float, float):
    r2 = 1 - ((x - y) ** 2).sum() / ((x - np.mean(x)) ** 2).sum()
    mae = np.mean(np.abs(x - y))
    mse = ((x - y) * (x - y)).sum() / len(x)
    a = np.log(x + 1) - np.log(y + 1)
    msle = (a * a).sum() / len(x)
    return r2, mae, mse, msle

In [82]:
from sklearn.metrics import r2_score as R2, mean_absolute_error as MAE, mean_squared_log_error as MSLE, mean_squared_error as MSE 
######################################################
y_real = np.array([1,2,3,4,6])
y_pred = np.array([1,3,2,4,5])


r2, mae, mse, msle = reg_metrics(y_real, y_pred)

assert np.abs(r2 - R2(y_real, y_pred)) < 0.001
assert np.abs(mae - MAE(y_real, y_pred)) < 0.001
assert np.abs(mse - MSE(y_real, y_pred)) < 0.001
assert np.abs(msle  - MSLE(y_real, y_pred)) < 0.001
######################################################
y_real = np.random.choice(1000, 1000)
y_pred = np.random.choice(1000, 1000)

r2, mae, mse, msle = reg_metrics(y_real, y_pred)

assert np.abs(r2 - R2(y_real, y_pred)) < 0.001
assert np.abs(mae - MAE(y_real, y_pred)) < 0.001
assert np.abs(mse - MSE(y_real, y_pred)) < 0.001
assert np.abs(msle  - MSLE(y_real, y_pred)) < 0.001
######################################################

# 3. Нахождение Roc-curve

Вам на вход даны $y_{real}$ и массив вероятностей $y_{prob} = P(y_{pred}=1)$ необходимо реализовать функцию `roc-curve`, которая вернет 2 массива различных значений $fpr$ и $tpr$, для дальнейшего построения $Roc$ кривой.

Можно считать, что все вероятности ограничены $decimal=2$ (у каждого числа не более 2-х знаков после запятой).

### Sample
#### Input:
```python
y_real = np.array([  1,   1,   0,   0,   0,   1,   0,   1,   0])
y_prob = np.array([0.8, 0.8, 0.2, 0.2, 0.6, 0.4, 0.6, 0.6, 0.4])
```
#### Output:
```python
array([0.,  0.,  0.4, 0.6, 1. ]), #fpr
array([0., 0.5, 0.75,  1., 1. ])  #tpr
```

### Sample 2
#### Input:
```python
y_real = np.array([  1,   1,   0,   0,   1,   0,   1,   0])
y_prob = np.array([0.8, 0.8, 0.2, 0.2, 0.4, 0.4, 0.6, 0.6])
```
#### Output:
```python
array([0.,  0., 0.25, 0.5, 1. ]), #fpr
array([0., 0.5, 0.75,  1., 1. ])  #tpr

или 

array([0.,  0., 0.5, 1. ]), #fpr
array([0., 0.5,  1., 1. ])  #tpr
```

Обратите внимание на 2 пример: roc кривая, которая задается ими - одинаковая. Точка, которая уходит, находится на прямой между двумя соседними, в целом такие точки можно убирать, но будут приниматься оба варианта. Функция `sklearn.metrics.roc_curve` возвращает второй вариант.

# TASK

In [89]:
import numpy as np
from sklearn import metrics

def roc(y_real: np.array, y_prob: np.array) -> (np.array, np.array):
    fpr, tpr, thresholds = metrics.roc_curve(y_real, y_prob, pos_label=None)
    print(fpr, tpr, sep='\n')
    return     fpr, tpr

In [90]:
from sklearn.metrics import auc, roc_curve
######################################################
y_real = np.array([  1,   1,   0,   0,   0,   1,   0,   1,   0])
y_prob = np.array([0.8, 0.8, 0.2, 0.2, 0.6, 0.4, 0.6, 0.6, 0.4])
fpr_true, tpr_true, _ = roc_curve(y_real, y_prob)
fpr, tpr = roc(y_real, y_prob)

assert auc(fpr, tpr) - auc(fpr_true, tpr_true) < 0.01
######################################################
y_real = np.array([  1,   1,   0,   0,   1,   0,   1,   0])
y_prob = np.array([0.8, 0.8, 0.2, 0.2, 0.4, 0.4, 0.6, 0.6])
fpr_true, tpr_true, _  = roc_curve(y_real, y_prob)
fpr, tpr = roc(y_real, y_prob)

assert auc(fpr, tpr) - auc(fpr_true, tpr_true) < 0.01
######################################################
y_real = np.random.choice(2, 1000) 
y_prob = np.random.choice(101, 1000) / 100

fpr_true, tpr_true, _  = roc_curve(y_real, y_prob)
fpr, tpr = roc(y_real, y_prob)

assert auc(fpr, tpr) - auc(fpr_true, tpr_true) < 0.01
######################################################

[0.  0.  0.4 0.6 1. ]
[0.   0.5  0.75 1.   1.  ]
[0.  0.  0.5 1. ]
[0.  0.5 1.  1. ]
[0.         0.00796813 0.02390438 0.03386454 0.03984064 0.04581673
 0.05179283 0.05976096 0.07171315 0.07968127 0.09561753 0.10358566
 0.11155378 0.11952191 0.12749004 0.13346614 0.14940239 0.15737052
 0.17131474 0.187251   0.20119522 0.21115538 0.22310757 0.23705179
 0.24900398 0.25697211 0.26294821 0.27290837 0.27689243 0.29282869
 0.29880478 0.31474104 0.31673307 0.32270916 0.32868526 0.33864542
 0.35059761 0.36055777 0.37051793 0.38247012 0.39043825 0.40039841
 0.41035857 0.42231076 0.42828685 0.43625498 0.4501992  0.4561753
 0.46613546 0.48007968 0.49203187 0.5059761  0.51792829 0.52390438
 0.53386454 0.55179283 0.56175299 0.57171315 0.58565737 0.59561753
 0.60756972 0.61752988 0.62749004 0.63545817 0.64741036 0.65338645
 0.66135458 0.67131474 0.67928287 0.69322709 0.69721116 0.70916335
 0.71912351 0.72709163 0.73705179 0.74103586 0.75099602 0.75896414
 0.7689243  0.77290837 0.79083665 0.81075697 

# 4. GridSearch

C помощью [GridSearch](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) найдите лучшие коэффициенты гиперпараметров `max_depth` и `min_samples_leaf` для классификатора [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html) и верните обученный grid_search. 

* Пределы `max_depth` $(1, 10)$ 
* Пределы `min_samples_leaf` $(1, 10)$  
* Входные данные в `data/sonar.csv`
* scoring - `precision`
* cv - $5$
* Другие параметры в `DecisionTreeClassifier` не указывать.

Не нужно Shuffl-ить данные, это может повлиять на ответ и в итоге задача не зачтется.

# TASK

In [133]:
import numpy as np
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier

def fit_gs(X: np.ndarray, y: np.ndarray) ->  GridSearchCV:
    dt = DecisionTreeClassifier(
        max_depth=3,
        min_samples_leaf=3,

    )
    params = {'max_depth': list(range(2, 100)), 'min_samples_leaf': [2, 3, 4]}
    gs = GridSearchCV(
        estimator=dt, 
        param_grid=params, 
        cv=5, 
        scoring='precision')
    gs.fit(X, y)
    return gs

In [134]:
X = pd.read_csv('data/sonar.csv').drop(columns=['y']).values
Y = pd.read_csv('data/sonar.csv')['y']
######################################################
gs = fit_gs(X,Y)

print(gs.best_params_)

assert gs.best_params_['max_depth'] == 4
assert gs.best_params_['min_samples_leaf'] == 3
assert np.abs(gs.best_score_ - 0.7829244) < 0.001
######################################################

{'max_depth': 4, 'min_samples_leaf': 3}


# 5. Удаление Nan

Серия задач в данном модуле объединена в одну [большую задачу по предсказанию данных](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/overview). В ходе выполнения модуля мы будем разбирать определенные техники, которые нужны для ее решения. Настоятельно рекомендуем выполнить все шаги **по порядку**, тогда в конце вы получите решение большой реальной задачи по МЛ.

Нам даны [данные](https://yadi.sk/d/tcElz6cqSNpPqA) о домах выставленных на продажу. Нам необходимо решить задачу регрессии и предсказать цену продажи дома для $X_{test}$ по данным $X_{train}$ и $y_{train}$. В нашем случае  $y_{train}$ - это столбик `SalePrice`, $X_{train}$ - все остальные столбики.

На вход подается 2 считанных датафрейма **df_train**, **df_test** из файлов без изменений. 

Начальная подготовка:

* Разделить **df_train** на **X_train**(`pd.Dataframe`) и **y_train**(`pd.Series`).
* Сконкатенировать **X_train** и **df_test** в **df** по вертикали (можно ориентироваться по столбику `Id` они как раз идут по-порядку). Не забудьте обновить индекс!

Задачи:

* Заменить в **df** все Nan-ы в категориальных признаках (`object`) на строку `missing`
* Заменить в **df** все Nan-ы в числовых признаках на 0.

Вернуть из функции измененный **df**.

# TASK

In [202]:
import pandas as pd

def split_X_y(df):
    X, y = df.iloc[:, 0:-1], df.iloc[:, -1:]
    return X, y

def del_nan(df_train: pd.DataFrame, X_test: pd.DataFrame) -> pd.DataFrame:
    X, y = split_X_y(df_train)
    
    df = pd.concat([X, X_test])
    df = df.reset_index(drop=True)
#     print(X.shape, y.shape, X_test.shape, df.shape)
    cat = df.select_dtypes(include=['object']).columns
    num = df.select_dtypes(exclude=['object']).columns
    df[cat] = df[cat].fillna('missing')
    df[num] = df[num].fillna(0)

#     print(df.columns)

    return df

In [203]:
del_nan_df = pd.read_csv('data/del_nan.csv')
print(del_nan_df)
######################################################
assert_frame_equal(del_nan(train, test), del_nan_df)
######################################################

        Id  MSSubClass MSZoning  LotFrontage  LotArea Street    Alley  \
0        1          60       RL         65.0     8450   Pave  missing   
1        2          20       RL         80.0     9600   Pave  missing   
2        3          60       RL         68.0    11250   Pave  missing   
3        4          70       RL         60.0     9550   Pave  missing   
4        5          60       RL         84.0    14260   Pave  missing   
...    ...         ...      ...          ...      ...    ...      ...   
2914  2915         160       RM         21.0     1936   Pave  missing   
2915  2916         160       RM         21.0     1894   Pave  missing   
2916  2917          20       RL        160.0    20000   Pave  missing   
2917  2918          85       RL         62.0    10441   Pave  missing   
2918  2919          60       RL         74.0     9627   Pave  missing   

     LotShape LandContour Utilities  ... ScreenPorch PoolArea   PoolQC  \
0         Reg         Lvl    AllPub  ...         

In [204]:
train = pd.read_csv("data/train.csv")
test = pd.read_csv("data/test.csv")

In [205]:
train

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1455,1456,60,RL,62.0,7917,Pave,,Reg,Lvl,AllPub,...,0,,,,0,8,2007,WD,Normal,175000
1456,1457,20,RL,85.0,13175,Pave,,Reg,Lvl,AllPub,...,0,,MnPrv,,0,2,2010,WD,Normal,210000
1457,1458,70,RL,66.0,9042,Pave,,Reg,Lvl,AllPub,...,0,,GdPrv,Shed,2500,5,2010,WD,Normal,266500
1458,1459,20,RL,68.0,9717,Pave,,Reg,Lvl,AllPub,...,0,,,,0,4,2010,WD,Normal,142125


In [206]:
test

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition
0,1461,20,RH,80.0,11622,Pave,,Reg,Lvl,AllPub,...,120,0,,MnPrv,,0,6,2010,WD,Normal
1,1462,20,RL,81.0,14267,Pave,,IR1,Lvl,AllPub,...,0,0,,,Gar2,12500,6,2010,WD,Normal
2,1463,60,RL,74.0,13830,Pave,,IR1,Lvl,AllPub,...,0,0,,MnPrv,,0,3,2010,WD,Normal
3,1464,60,RL,78.0,9978,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,6,2010,WD,Normal
4,1465,120,RL,43.0,5005,Pave,,IR1,HLS,AllPub,...,144,0,,,,0,1,2010,WD,Normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1454,2915,160,RM,21.0,1936,Pave,,Reg,Lvl,AllPub,...,0,0,,,,0,6,2006,WD,Normal
1455,2916,160,RM,21.0,1894,Pave,,Reg,Lvl,AllPub,...,0,0,,,,0,4,2006,WD,Abnorml
1456,2917,20,RL,160.0,20000,Pave,,Reg,Lvl,AllPub,...,0,0,,,,0,9,2006,WD,Abnorml
1457,2918,85,RL,62.0,10441,Pave,,Reg,Lvl,AllPub,...,0,0,,MnPrv,Shed,700,7,2006,WD,Normal


In [207]:
del_nan_df = pd.read_csv('data/del_nan.csv')
######################################################
assert_frame_equal(del_nan(train, test), del_nan_df)
######################################################

# 6. Порядковые категории

Вам на вход приходит **df** из предыдущей задачи.

Если внимательно изучить файл `data_description` можно понять, что многие категориальные признаки - порядковые (упорядоченное множество). Значит их можно перевести в осмысленные числа. Значит тут можно воспользоваться `LabelEncoding`.

Ваша задача: заменить в **df** категориальные признаки на числовые, для порядковых признаков.

На выходе возвращаем измененный **df**.

Чтобы слегка упростить вам жизнь, вот вам готовые словари для перевода. Однако к каким столбцам их применять - вы должны выяснить сами, изучив файл `data_description`. Каждый маппинг используется хотя бы 1 раз, а некоторые и не по одному разу.

```python
{'Ex': 5, 'Gd': 4, 'TA': 3, 'Fa': 2, 'Po': 1, 'missing':0}
{'Gd':4, 'Av': 3, 'Mn': 2, 'No': 1, 'missing': 0}
{'GLQ': 6, 'ALQ': 5, 'BLQ': 4, 'Rec': 3, 'LwQ': 2, 'Unf': 1, 'missing': 0}
{'Typ': 8, 'Min1': 7, 'Min2': 6, 'Mod': 5, 'Maj1': 4, 'Maj2': 3, 'Sev': 2, 'Sal': 1, 'missing': 0}
{'Fin': 3, 'RFn': 2, 'Unf': 1, 'missing': 0}
{'GdPrv': 4, 'MnPrv': 3, 'GdWo': 2, 'MnWw': 1, 'missing': 0}
{'Reg': 4, 'IR1': 3, 'IR2': 2, 'IR3': 1, 'missing': 0}
{'Lvl': 4, 'Bnk': 3, 'HLS':2,'Low':1, 'missing': 0}
{'AllPub':4, 'NoSewr':3, 'NoSeWa':2, 'ELO':1, 'missing':0}
{'Gtl':3, 'Mod':2, 'Sev':1, 'missing':0}
{'SBrkr':5, 'FuseA':4, 'FuseF':3, 'FuseP':2, 'Mix':1, 'missing':0}
{'Y':3, 'P':2, 'N':1, 'missing':0}
{'Y':1, 'N':0, 'missing':0} #тут нет ошибки, все так и задумано:)
```

# TASK

In [229]:
#hint
# После перевода у вас должно **остаться** 20 категориальных признаков.
del_nan_df = pd.read_csv('data/del_nan.csv')
answer = pd.read_csv('data/cat_to_num.csv')
pd.options.display.max_columns = None
pd.options.display.max_rows = 100

In [232]:
del_nan_df[(del_nan_df['PoolQC'] != 'missing')]

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,LotConfig,LandSlope,Neighborhood,Condition1,Condition2,BldgType,HouseStyle,OverallQual,OverallCond,YearBuilt,YearRemodAdd,RoofStyle,RoofMatl,Exterior1st,Exterior2nd,MasVnrType,MasVnrArea,ExterQual,ExterCond,Foundation,BsmtQual,BsmtCond,BsmtExposure,BsmtFinType1,BsmtFinSF1,BsmtFinType2,BsmtFinSF2,BsmtUnfSF,TotalBsmtSF,Heating,HeatingQC,CentralAir,Electrical,1stFlrSF,2ndFlrSF,LowQualFinSF,GrLivArea,BsmtFullBath,BsmtHalfBath,FullBath,HalfBath,BedroomAbvGr,KitchenAbvGr,KitchenQual,TotRmsAbvGrd,Functional,Fireplaces,FireplaceQu,GarageType,GarageYrBlt,GarageFinish,GarageCars,GarageArea,GarageQual,GarageCond,PavedDrive,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition
197,198,75,RL,174.0,25419,Pave,missing,Reg,Lvl,AllPub,Corner,Gtl,NAmes,Artery,Norm,1Fam,2Story,8,4,1918,1990,Gable,CompShg,Stucco,Stucco,,0.0,Gd,Gd,PConc,TA,TA,No,GLQ,1036.0,LwQ,184.0,140.0,1360.0,GasA,Gd,Y,SBrkr,1360,1360,392,3112,1.0,1.0,2,0,4,1,Gd,8,Typ,1,Ex,Detchd,1918.0,Unf,2.0,795.0,TA,TA,Y,0,16,552,0,0,512,Ex,GdPrv,missing,0,3,2006,WD,Abnorml
810,811,20,RL,78.0,10140,Pave,missing,Reg,Lvl,AllPub,Inside,Gtl,NWAmes,Norm,Norm,1Fam,1Story,6,6,1974,1999,Hip,CompShg,HdBoard,HdBoard,BrkFace,99.0,TA,TA,CBlock,TA,TA,No,ALQ,663.0,LwQ,377.0,0.0,1040.0,GasA,Fa,Y,SBrkr,1309,0,0,1309,1.0,0.0,1,1,3,1,Gd,5,Typ,1,Fa,Attchd,1974.0,RFn,2.0,484.0,TA,TA,Y,265,0,0,0,0,648,Fa,GdPrv,missing,0,1,2006,WD,Normal
1170,1171,80,RL,76.0,9880,Pave,missing,Reg,Lvl,AllPub,Inside,Gtl,Mitchel,Norm,Norm,1Fam,SLvl,6,6,1977,1977,Gable,CompShg,Plywood,Plywood,,0.0,TA,TA,CBlock,TA,TA,Av,ALQ,522.0,Unf,0.0,574.0,1096.0,GasA,TA,Y,SBrkr,1118,0,0,1118,1.0,0.0,1,0,3,1,TA,6,Typ,1,Po,Attchd,1977.0,Fin,1.0,358.0,TA,TA,Y,203,0,0,0,0,576,Gd,GdPrv,missing,0,7,2008,WD,Normal
1182,1183,60,RL,160.0,15623,Pave,missing,IR1,Lvl,AllPub,Corner,Gtl,NoRidge,Norm,Norm,1Fam,2Story,10,5,1996,1996,Hip,CompShg,Wd Sdng,ImStucc,,0.0,Gd,TA,PConc,Ex,TA,Av,GLQ,2096.0,Unf,0.0,300.0,2396.0,GasA,Ex,Y,SBrkr,2411,2065,0,4476,1.0,0.0,3,1,4,1,Ex,10,Typ,2,TA,Attchd,1996.0,Fin,3.0,813.0,TA,TA,Y,171,78,0,0,0,555,Ex,MnPrv,missing,0,7,2007,WD,Abnorml
1298,1299,60,RL,313.0,63887,Pave,missing,IR3,Bnk,AllPub,Corner,Gtl,Edwards,Feedr,Norm,1Fam,2Story,10,5,2008,2008,Hip,ClyTile,Stucco,Stucco,Stone,796.0,Ex,TA,PConc,Ex,TA,Gd,GLQ,5644.0,Unf,0.0,466.0,6110.0,GasA,Ex,Y,SBrkr,4692,950,0,5642,2.0,0.0,2,1,3,1,Ex,12,Typ,3,Gd,Attchd,2008.0,Fin,2.0,1418.0,TA,TA,Y,214,292,0,0,0,480,Gd,missing,missing,0,1,2008,New,Partial
1386,1387,60,RL,80.0,16692,Pave,missing,IR1,Lvl,AllPub,Inside,Gtl,NWAmes,RRAn,Norm,1Fam,2Story,7,5,1978,1978,Gable,CompShg,Plywood,Plywood,BrkFace,184.0,TA,TA,CBlock,Gd,TA,No,BLQ,790.0,LwQ,469.0,133.0,1392.0,GasA,TA,Y,SBrkr,1392,1392,0,2784,1.0,0.0,3,1,5,1,Gd,12,Typ,2,TA,Attchd,1978.0,RFn,2.0,564.0,TA,TA,Y,0,112,0,0,440,519,Fa,MnPrv,TenC,2000,7,2006,WD,Normal
1423,1424,80,RL,0.0,19690,Pave,missing,IR1,Lvl,AllPub,CulDSac,Gtl,Edwards,Norm,Norm,1Fam,SLvl,6,7,1966,1966,Flat,Tar&Grv,Plywood,Plywood,,0.0,Gd,Gd,CBlock,Gd,TA,Av,Unf,0.0,Unf,0.0,697.0,697.0,GasA,TA,Y,SBrkr,1575,626,0,2201,0.0,0.0,2,0,4,1,Gd,8,Typ,1,Gd,Attchd,1966.0,Unf,2.0,432.0,Gd,Gd,Y,586,236,0,0,0,738,Gd,GdPrv,missing,0,8,2006,WD,Alloca
1974,1975,20,RL,106.0,12720,Pave,missing,Reg,HLS,AllPub,Inside,Mod,NridgHt,Norm,Norm,1Fam,1Story,10,5,2003,2003,Hip,CompShg,MetalSd,MetalSd,Stone,680.0,Ex,TA,PConc,Ex,TA,Gd,GLQ,2257.0,Unf,0.0,278.0,2535.0,GasA,Ex,Y,SBrkr,2470,0,0,2470,2.0,0.0,1,1,1,1,Ex,7,Typ,2,Gd,Attchd,2003.0,Fin,3.0,789.0,TA,TA,Y,154,65,0,0,216,144,Ex,missing,missing,0,2,2008,WD,Normal
2573,2574,20,RL,70.0,18044,Pave,missing,IR1,HLS,AllPub,CulDSac,Gtl,Crawfor,Norm,Norm,1Fam,1Story,8,5,1986,1986,Gable,CompShg,WdShing,Plywood,,0.0,Gd,TA,CBlock,Gd,TA,No,Unf,0.0,Unf,0.0,279.0,279.0,GasA,Gd,Y,SBrkr,2726,0,0,2726,0.0,0.0,2,1,2,1,Gd,6,Typ,1,Gd,Attchd,1986.0,Fin,2.0,691.0,Gd,Gd,Y,216,64,169,0,0,228,Ex,missing,missing,0,8,2007,WD,Normal
2710,2711,80,RL,100.0,14330,Pave,missing,IR1,Low,AllPub,Corner,Gtl,Veenker,Norm,Norm,1Fam,SLvl,7,4,1974,1974,Gable,CompShg,WdShing,Wd Sdng,BrkFace,145.0,Gd,Fa,CBlock,Gd,TA,Gd,ALQ,1023.0,BLQ,497.0,228.0,1748.0,GasA,Gd,Y,SBrkr,2151,495,0,2646,1.0,2.0,2,0,3,1,Gd,9,Mod,4,TA,Attchd,1974.0,RFn,2.0,550.0,TA,TA,Y,641,100,0,0,0,800,Gd,GdPrv,missing,0,1,2006,WD,Normal


In [226]:

answer

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,LotConfig,LandSlope,Neighborhood,Condition1,Condition2,BldgType,HouseStyle,OverallQual,OverallCond,YearBuilt,YearRemodAdd,RoofStyle,RoofMatl,Exterior1st,Exterior2nd,MasVnrType,MasVnrArea,ExterQual,ExterCond,Foundation,BsmtQual,BsmtCond,BsmtExposure,BsmtFinType1,BsmtFinSF1,BsmtFinType2,BsmtFinSF2,BsmtUnfSF,TotalBsmtSF,Heating,HeatingQC,CentralAir,Electrical,1stFlrSF,2ndFlrSF,LowQualFinSF,GrLivArea,BsmtFullBath,BsmtHalfBath,FullBath,HalfBath,BedroomAbvGr,KitchenAbvGr,KitchenQual,TotRmsAbvGrd,Functional,Fireplaces,FireplaceQu,GarageType,GarageYrBlt,GarageFinish,GarageCars,GarageArea,GarageQual,GarageCond,PavedDrive,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition
0,1,60,RL,65.0,8450,Pave,missing,4,4,4,Inside,3,CollgCr,Norm,Norm,1Fam,2Story,7,5,2003,2003,Gable,CompShg,VinylSd,VinylSd,BrkFace,196.0,4,3,PConc,4,3,1,6,706.0,1,0.0,150.0,856.0,GasA,5,1,5,856,854,0,1710,1.0,0.0,2,1,3,1,4,8,8,0,0,Attchd,2003.0,2,2.0,548.0,3,3,3,0,61,0,0,0,0,0,0,missing,0,2,2008,WD,Normal
1,2,20,RL,80.0,9600,Pave,missing,4,4,4,FR2,3,Veenker,Feedr,Norm,1Fam,1Story,6,8,1976,1976,Gable,CompShg,MetalSd,MetalSd,,0.0,3,3,CBlock,4,3,4,5,978.0,1,0.0,284.0,1262.0,GasA,5,1,5,1262,0,0,1262,0.0,1.0,2,0,3,1,3,6,8,1,3,Attchd,1976.0,2,2.0,460.0,3,3,3,298,0,0,0,0,0,0,0,missing,0,5,2007,WD,Normal
2,3,60,RL,68.0,11250,Pave,missing,3,4,4,Inside,3,CollgCr,Norm,Norm,1Fam,2Story,7,5,2001,2002,Gable,CompShg,VinylSd,VinylSd,BrkFace,162.0,4,3,PConc,4,3,2,6,486.0,1,0.0,434.0,920.0,GasA,5,1,5,920,866,0,1786,1.0,0.0,2,1,3,1,4,6,8,1,3,Attchd,2001.0,2,2.0,608.0,3,3,3,0,42,0,0,0,0,0,0,missing,0,9,2008,WD,Normal
3,4,70,RL,60.0,9550,Pave,missing,3,4,4,Corner,3,Crawfor,Norm,Norm,1Fam,2Story,7,5,1915,1970,Gable,CompShg,Wd Sdng,Wd Shng,,0.0,3,3,BrkTil,3,4,1,5,216.0,1,0.0,540.0,756.0,GasA,4,1,5,961,756,0,1717,1.0,0.0,1,0,3,1,4,7,8,1,4,Detchd,1998.0,1,3.0,642.0,3,3,3,0,35,272,0,0,0,0,0,missing,0,2,2006,WD,Abnorml
4,5,60,RL,84.0,14260,Pave,missing,3,4,4,FR2,3,NoRidge,Norm,Norm,1Fam,2Story,8,5,2000,2000,Gable,CompShg,VinylSd,VinylSd,BrkFace,350.0,4,3,PConc,4,3,3,6,655.0,1,0.0,490.0,1145.0,GasA,5,1,5,1145,1053,0,2198,1.0,0.0,2,1,4,1,4,9,8,1,3,Attchd,2000.0,2,3.0,836.0,3,3,3,192,84,0,0,0,0,0,0,missing,0,12,2008,WD,Normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2914,2915,160,RM,21.0,1936,Pave,missing,4,4,4,Inside,3,MeadowV,Norm,Norm,Twnhs,2Story,4,7,1970,1970,Gable,CompShg,CemntBd,CmentBd,,0.0,3,3,CBlock,3,3,1,1,0.0,1,0.0,546.0,546.0,GasA,4,1,5,546,546,0,1092,0.0,0.0,1,1,3,1,3,5,8,0,0,missing,0.0,0,0.0,0.0,0,0,3,0,0,0,0,0,0,0,0,missing,0,6,2006,WD,Normal
2915,2916,160,RM,21.0,1894,Pave,missing,4,4,4,Inside,3,MeadowV,Norm,Norm,TwnhsE,2Story,4,5,1970,1970,Gable,CompShg,CemntBd,CmentBd,,0.0,3,3,CBlock,3,3,1,3,252.0,1,0.0,294.0,546.0,GasA,3,1,5,546,546,0,1092,0.0,0.0,1,1,3,1,3,6,8,0,0,CarPort,1970.0,1,1.0,286.0,3,3,3,0,24,0,0,0,0,0,0,missing,0,4,2006,WD,Abnorml
2916,2917,20,RL,160.0,20000,Pave,missing,4,4,4,Inside,3,Mitchel,Norm,Norm,1Fam,1Story,5,7,1960,1996,Gable,CompShg,VinylSd,VinylSd,,0.0,3,3,CBlock,3,3,1,5,1224.0,1,0.0,0.0,1224.0,GasA,5,1,5,1224,0,0,1224,1.0,0.0,1,0,4,1,3,7,8,1,3,Detchd,1960.0,1,2.0,576.0,3,3,3,474,0,0,0,0,0,0,0,missing,0,9,2006,WD,Abnorml
2917,2918,85,RL,62.0,10441,Pave,missing,4,4,4,Inside,3,Mitchel,Norm,Norm,1Fam,SFoyer,5,5,1992,1992,Gable,CompShg,HdBoard,Wd Shng,,0.0,3,3,PConc,4,3,3,6,337.0,1,0.0,575.0,912.0,GasA,3,1,5,970,0,0,970,0.0,1.0,1,0,3,1,3,6,8,0,0,missing,0.0,0,0.0,0.0,0,0,3,80,32,0,0,0,0,0,3,Shed,700,7,2006,WD,Normal


In [236]:
import pandas as pd

def cat_to_num(df: pd.DataFrame) -> pd.DataFrame:
    m = {
        'LotShape': {'Reg': 4, 'IR1': 3, 'IR2': 2, 'IR3': 1, 'missing': 0},
        'LandContour': {'Lvl': 4, 'Bnk': 3, 'HLS':2,'Low':1, 'missing': 0},
        'Utilities': {'AllPub':4, 'NoSewr':3, 'NoSeWa':2, 'ELO':1, 'missing':0},
        'LandSlope': {'Gtl':3, 'Mod':2, 'Sev':1, 'missing':0},
        'ExterQual': {'Ex': 5, 'Gd': 4, 'TA': 3, 'Fa': 2, 'Po': 1, 'missing':0},
        'ExterCond':{'Ex': 5, 'Gd': 4, 'TA': 3, 'Fa': 2, 'Po': 1, 'missing':0},
        'BsmtQual': {'Ex': 5, 'Gd': 4, 'TA': 3, 'Fa': 2, 'Po': 1, 'missing':0},
        'BsmtCond':{'Ex': 5, 'Gd': 4, 'TA': 3, 'Fa': 2, 'Po': 1, 'missing':0},
        'BsmtExposure':{'Gd':4, 'Av': 3, 'Mn': 2, 'No': 1, 'missing': 0},
        'BsmtFinType1':{'GLQ': 6, 'ALQ': 5, 'BLQ': 4, 'Rec': 3, 'LwQ': 2, 'Unf': 1, 'missing': 0},
        'BsmtFinType2':{'GLQ': 6, 'ALQ': 5, 'BLQ': 4, 'Rec': 3, 'LwQ': 2, 'Unf': 1, 'missing': 0},
        'HeatingQC':{'Ex': 5, 'Gd': 4, 'TA': 3, 'Fa': 2, 'Po': 1, 'missing':0},
        'CentralAir':{'Y':1, 'N':0, 'missing':0},
        'Electrical':{'SBrkr':5, 'FuseA':4, 'FuseF':3, 'FuseP':2, 'Mix':1, 'missing':0},
        'KitchenQual':{'Ex': 5, 'Gd': 4, 'TA': 3, 'Fa': 2, 'Po': 1, 'missing':0},
        'Functional':{'Typ': 8, 'Min1': 7, 'Min2': 6, 'Mod': 5, 'Maj1': 4, 'Maj2': 3, 'Sev': 2, 'Sal': 1, 'missing': 0},
        'FireplaceQu':{'Ex': 5, 'Gd': 4, 'TA': 3, 'Fa': 2, 'Po': 1, 'missing':0},
        'GarageFinish': {'Fin': 3, 'RFn': 2, 'Unf': 1, 'missing': 0},
        'GarageQual':{'Ex': 5, 'Gd': 4, 'TA': 3, 'Fa': 2, 'Po': 1, 'missing':0},
        'GarageCond':{'Ex': 5, 'Gd': 4, 'TA': 3, 'Fa': 2, 'Po': 1, 'missing':0},
        'PavedDrive':{'Y':3, 'P':2, 'N':1, 'missing':0},
        'PoolQC':{'Ex': 5, 'Gd': 4, 'TA': 3, 'Fa': 2, 'Po': 1, 'missing':0},
        'Fence':{'GdPrv': 4, 'MnPrv': 3, 'GdWo': 2, 'MnWw': 1, 'missing': 0},
    }
    df = df.replace(m)
    return df
    

In [237]:
del_nan_df = pd.read_csv('data/del_nan.csv')
answer = pd.read_csv('data/cat_to_num.csv')
######################################################
cat_to_num_df = cat_to_num(del_nan_df)
assert_frame_equal(cat_to_num_df, answer)

categorical_cols = [col for col in cat_to_num_df.columns if cat_to_num_df[col].dtypes == "object"]
assert len(categorical_cols) == 20
######################################################

# 7. One hot encoding

Теперь разберемся с непорядковыми категориальными признаками.

Для начала заметим признак `MSSubClass`, у которого тип `int64`, но если посмотреть в описание `data_description` можно понять, что это - категориальный признак. 

* Измените тип признака `MSSubClass` с `int64` на `object`

Теперь можно сделать `One hot encoding`:

* Найдите все колонки с категориальными признаками и составьте из них отдельный **df_oh** `pd.DataFrame` (индекс сохранить прежний)
* Применить к полученному фрейму **df_oh** функцию [`pd.get_dummies`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html) (Реализует `One Hot Encoding`)
* Удалить категориальные колонки из **df** и добавить справа к **df** фрейм с `One Hot Encoding`
 
Вернуть из функции **df**

# TASK

In [327]:
#hint
# Итого должно получится 238 колонка из них 179 пришли из `One hot encoding` фрейма.
cat_to_num_df = pd.read_csv('data/cat_to_num.csv')
one_hot_ans = pd.read_csv('data/one_hot.csv')


In [328]:
import pandas as pd

def one_hot(df: pd.DataFrame) -> pd.DataFrame:
    df = df.astype({'MSSubClass': object})
    df_oh = df.select_dtypes(include=['object'])
    df = df.select_dtypes(exclude=['object'])
    
    df_oh = pd.get_dummies(df_oh)
    return pd.concat([df, df_oh], axis=1)

In [329]:
# pd.set_option('display.expand_frame_repr', True)
# pd.set_option('display.max_colwidth', 200)
# pd.set_option('display.max_columns', 0)
######################################################
one_hot_df = one_hot(cat_to_num_df)
assert_frame_equal(one_hot_df.astype('float64').reindex(sorted(one_hot_df.columns), axis=1), 
                   one_hot_ans.astype('float64').reindex(sorted(one_hot_ans.columns), axis=1))

assert one_hot_df.shape[1] == 238
######################################################

# 8. Некоррелирующие признаки 

Мы разобрались с категориальными признаками, теперь разберемся с числовыми.
Для числовых признаков можно посчитать корреляцию с правильным ответом. Если признаки слабо коррелируют, то они нам не нужны. Например колонка `Id` явно никак не влияет на стоимость дома.

Вам на вход передается изначальный **df_train** и **df** полученный из предыдущей задачи.

Ваша задача: 

* найти корреляцию всех **числовых** признаков **df_train** с признаком `SalePrice` с помощью `pd.corr`
* если абсолютное значение корреляции признака с `SalePrice` меньше $0.05$ - удалите этот признак из **df**

Верните измененный **df** и столбец корреляции признаков с признаком `SalePrice` упорядоченный по убыванию. Начало столбца корреляции выглядит следующим образом:

|               |SalePrice |
|---------------|----------|
|**SalePrice**  |1.000000  |
|**OverallQual**|0.790982  |
|**GrLivArea**  |0.708624  |
|**GarageCars** |0.640409  |
|**GarageArea** |0.623431  |
|**TotalBsmtSF**|0.613581  |
|**1stFlrSF**   |0.605852  |
|**FullBath**   |0.560664  |

Всего должно получиться 37 числовых признаков.

# TASK

# Solution

In [617]:
import numpy as np
def correlation(df: pd.DataFrame, df_train: pd.DataFrame) -> (pd.DataFrame, pd.DataFrame):
#     df = df.astype({'MSSubClass': object})
    print(df.shape, df_train.shape)
    df_train =df_train.drop(['MSSubClass'], axis=1)
    df_train = df_train.select_dtypes(exclude=['object'])
    cs = df_train.corr()[['SalePrice']]
#     print(cs.shape)
    cs = cs.sort_values(by=['SalePrice'], ascending=False)

    idx = (cs[cs['SalePrice'].abs() < 0.05]).index
    print(cs['SalePrice'])
    print(cs['SalePrice'].abs() < 0.05)
    print(df['1stFlrSF'])
    df = df.drop(filter(lambda x: x != 'SalePrice', idx) ,axis=1)
    print(df['1stFlrSF'])
    return df, cs



# Solution 2

In [644]:
def correlation(df: pd.DataFrame, df_train: pd.DataFrame) -> (pd.DataFrame, pd.DataFrame):
    df_train =df_train.drop(['MSSubClass'], axis=1)
    df_train = df_train.select_dtypes(exclude=['object'])
    cs = df_train.corr()[['SalePrice']]
    cs = cs.sort_values(by=['SalePrice'], ascending=False)

    bad = cs[cs['SalePrice'].abs() < 0.05]
    idx = bad.drop(['SalePrice'], axis=1).index
    df = df.drop(idx ,axis=1)
    return df, cs

    

In [645]:
one_hot_df = pd.read_csv('data/one_hot.csv')
df_train = pd.read_csv("data/train.csv")
ans_corr_df = pd.read_csv('data/corr_df.csv')
ans_corr = pd.read_csv('data/corr.csv').set_index('Unnamed: 0')
######################################################
corr_df, corr = correlation(one_hot_df, df_train)

assert_array_almost_equal(corr.values, ans_corr.values, decimal=4)


assert_frame_equal(corr_df.astype('float64').reindex(sorted(corr_df.columns), axis=1),
                   ans_corr_df.astype('float64').reindex(sorted(ans_corr_df.columns), axis=1))

assert_array_almost_equal(corr.values, ans_corr.values, decimal=4)
######################################################

# 9. Feature Engineering и Scaling

Сразу 2 простые задачки:

1) Давайте нагенерируем несколько фич во входном фрейме **df**:

    * `TotalArea` = `TotalBsmtSF` + `1stFlrSF` + `2ndFlrSF` + `GrLivArea` + `GarageArea`
    * `YearAverage` = (`YearRemodAdd` + `YearBuilt`) / 2
    * `LiveAreaQual` = `OverallQual` * `GrLivArea`

    На выход отправьте **df** c тремя новымим столбиками. столбцы должны идти в том же порядки что указаны в списке в хвосте **df**.

2) У стандартного и нормального масштабирования есть одна проблема: она учитывает все признаки, даже те, которые изначально некорректны (шум, выбросы). Чтобы избавитьться от шумов и выбросов и корректно масштабировать выборку необходимо использовать [RobustScaling](https://scikit-learn.org/0.18/auto_examples/preprocessing/plot_robust_scaling.html).

    Ваша задача - отмасштабировать полученный фрейм с помощью `RobustScaler`. И вернуть отмасштабированный массив (да, скалирование возвращает массив, а не DataFrame).

# TASK

In [664]:
import pandas as pd
from sklearn.preprocessing import StandardScaler, RobustScaler

def feature_en(df: pd.DataFrame) -> pd.DataFrame:
    df['TotalArea'] = df['TotalBsmtSF'] + df['1stFlrSF'] + df['2ndFlrSF'] + df['GrLivArea'] + df['GarageArea']
    df['YearAverage'] = (df['YearRemodAdd'] + df['YearBuilt']) / 2
    df['LiveAreaQual'] = df['OverallQual'] * df['GrLivArea']
    return df

def scaling(df: pd.DataFrame) -> np.array:
    robust_scaler = RobustScaler()
    return robust_scaler.fit_transform(df)

In [665]:
corr_df = pd.read_csv('data/corr_df.csv')
ans_feature_df = pd.read_csv('data/feature_df.csv')
######################################################

feature_df = feature_en(corr_df)

assert_frame_equal(feature_df.astype('float64').reindex(sorted(feature_df.columns), axis=1),
                   ans_feature_df.astype('float64').reindex(sorted(ans_feature_df.columns), axis=1))
######################################################
feature_df = pd.read_csv('data/feature_df.csv')
ans_scale_df = pd.read_csv('data/scale_df.csv').values
######################################################

scale_df = scaling(feature_df)

assert_array_almost_equal(scale_df,
                          ans_scale_df,
                          decimal=6)
######################################################

In [658]:
feature_df

Unnamed: 0,LotFrontage,LotArea,LotShape,LandContour,Utilities,LandSlope,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,ExterQual,ExterCond,BsmtQual,BsmtCond,BsmtExposure,BsmtFinType1,BsmtFinSF1,BsmtFinType2,BsmtUnfSF,TotalBsmtSF,HeatingQC,CentralAir,Electrical,1stFlrSF,2ndFlrSF,GrLivArea,BsmtFullBath,FullBath,HalfBath,BedroomAbvGr,KitchenAbvGr,KitchenQual,TotRmsAbvGrd,Functional,Fireplaces,FireplaceQu,GarageYrBlt,GarageFinish,GarageCars,...,Foundation_Slab,Foundation_Stone,Foundation_Wood,Heating_Floor,Heating_GasA,Heating_GasW,Heating_Grav,Heating_OthW,Heating_Wall,GarageType_2Types,GarageType_Attchd,GarageType_Basment,GarageType_BuiltIn,GarageType_CarPort,GarageType_Detchd,GarageType_missing,MiscFeature_Gar2,MiscFeature_Othr,MiscFeature_Shed,MiscFeature_TenC,MiscFeature_missing,SaleType_COD,SaleType_CWD,SaleType_Con,SaleType_ConLD,SaleType_ConLI,SaleType_ConLw,SaleType_New,SaleType_Oth,SaleType_WD,SaleType_missing,SaleCondition_Abnorml,SaleCondition_AdjLand,SaleCondition_Alloca,SaleCondition_Family,SaleCondition_Normal,SaleCondition_Partial,LiveAreaQual,TotalArea,YearAverage
0,65.0,8450,4,4,4,3,7,5,2003,2003,196.0,4,3,4,3,1,6,706.0,1,150.0,856.0,5,1,5,856,854,1710,1.0,2,1,3,1,4,8,8,0,0,2003.0,2,2.0,...,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,11970,4824.0,2003.0
1,80.0,9600,4,4,4,3,6,8,1976,1976,0.0,3,3,4,3,4,5,978.0,1,284.0,1262.0,5,1,5,1262,0,1262,0.0,2,0,3,1,3,6,8,1,3,1976.0,2,2.0,...,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,7572,4246.0,1976.0
2,68.0,11250,3,4,4,3,7,5,2001,2002,162.0,4,3,4,3,2,6,486.0,1,434.0,920.0,5,1,5,920,866,1786,1.0,2,1,3,1,4,6,8,1,3,2001.0,2,2.0,...,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,12502,5100.0,2001.5
3,60.0,9550,3,4,4,3,7,5,1915,1970,0.0,3,3,3,4,1,5,216.0,1,540.0,756.0,4,1,5,961,756,1717,1.0,1,0,3,1,4,7,8,1,4,1998.0,1,3.0,...,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,12019,4832.0,1942.5
4,84.0,14260,3,4,4,3,8,5,2000,2000,350.0,4,3,4,3,3,6,655.0,1,490.0,1145.0,5,1,5,1145,1053,2198,1.0,2,1,4,1,4,9,8,1,3,2000.0,2,3.0,...,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,17584,6377.0,2000.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2914,21.0,1936,4,4,4,3,4,7,1970,1970,0.0,3,3,3,3,1,1,0.0,1,546.0,546.0,4,1,5,546,546,1092,0.0,1,1,3,1,3,5,8,0,0,0.0,0,0.0,...,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,4368,2730.0,1970.0
2915,21.0,1894,4,4,4,3,4,5,1970,1970,0.0,3,3,3,3,1,3,252.0,1,294.0,546.0,3,1,5,546,546,1092,0.0,1,1,3,1,3,6,8,0,0,1970.0,1,1.0,...,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,4368,3016.0,1970.0
2916,160.0,20000,4,4,4,3,5,7,1960,1996,0.0,3,3,3,3,1,5,1224.0,1,0.0,1224.0,5,1,5,1224,0,1224,1.0,1,0,4,1,3,7,8,1,3,1960.0,1,2.0,...,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,6120,4248.0,1978.0
2917,62.0,10441,4,4,4,3,5,5,1992,1992,0.0,3,3,4,3,3,6,337.0,1,575.0,912.0,3,1,5,970,0,970,0.0,1,0,3,1,3,6,8,0,0,0.0,0,0.0,...,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,4850,2852.0,1992.0


In [659]:
ans_scale_df


array([[ 0.05714286, -0.24511241,  0.        , ...,  0.54896142,
         0.27028555,  0.63414634],
       [ 0.48571429,  0.03592375,  0.        , ..., -0.1760633 ,
        -0.05654509, -0.02439024],
       [ 0.14285714,  0.43914956, -1.        , ...,  0.63666337,
         0.42635001,  0.59756098],
       ...,
       [ 2.77142857,  2.57746823,  0.        , ..., -0.41543027,
        -0.05541419,  0.02439024],
       [-0.02857143,  0.24144673,  0.        , ..., -0.62479393,
        -0.84478372,  0.36585366],
       [ 0.31428571,  0.04252199,  0.        , ...,  0.88361358,
         0.73508623,  0.40243902]])

# 10. Смешанная модель

Отлично, теперь мы готовы обучать модель! Осталось изучить последний интересный трюк - смешанные модели.

Возьмем [2 регрессии](https://towardsdatascience.com/ridge-and-lasso-regression-a-complete-guide-with-python-scikit-learn-e20e34bcbf0b):

* Ridge
* Lasso
 
Найдем оптимальные значения $\alpha$ для обеих регрессий с помощью GridSearch.

Теперь отправим обе модели с наилучшими параметрами в класс указанный снизу. Это класс смешения моделей. В нем параметр $\beta \in [0,1]$ - это коэффициент, с которым берется ответ одного классификаторв, а ответ второго - с коэффициентом $(1 - \beta)$. Такая техника нередко позволяет добиться лучших результатов, чем одна модель.

Теперь найдем наилучшее $\beta$ для смешенной модели также с помощью GridSearch. Осталось получить **y_pred** с помощью наилучшей смешанной модели.

На вход вы получаете **X_scaled** из предыдущей задачи и **df_train** начальный. Мы подготовили за вас **X_train**, **y_train** и **X_test**. 

В задаче необходимо минимизировать метрику `neg_mean_squared_log_error`. Для удобства мы возьмем `np.log1p(y_train)` и будем минимизировать метрику `neg_mean_squared_error`. Эту метрику необходимо минимизировать у всех 3-х GridSearch.

На выход отправьте GridSearch объект смешанной модели, а также результат **y_test**. (Не забудьте его проэкспоненциировать).

Мы выдаем вам ориентировачные параметры для каждого GridSearch. Вы можете увеличить перебор, чтобы получить лучшую модель.
```python
params_ridge = {'alpha': np.arange(1, 20)}
params_lasso = {'alpha': np.logspace(-4, 3, num=8, base=10)}
params_blend = {'beta': np.linspace(0, 1, 11)}
```

Первые 2 GridSearch **не нужно** писать в функции: они могут работать достаточно долго и превысят лимит работы задачи на сервере. Найдите у себя локально наилучшие параметры и уже с этими параметрами создайте смешанную модель внутри функции. 

Также не нужно сильно увеличивать перебор для $\beta$ - того, что есть, более чем достаточно.

P.S. Осталось сохранить файл с **y_test** и отправить его в [соревнование](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/submit). 

Улучшайте свои результы пробуя другие модели и другие параметры. Уберите больше ненужных признаков, добавьте новые фичи. Экспериментируйте и дерзайте!


# TASK

In [20]:
from sklearn.base import BaseEstimator
from sklearn.model_selection import GridSearchCV
class BlendRegressor(BaseEstimator): # предок класса классификаторов, чтобы можно было засунуть в GridSearch
    def __init__(self, clf1, clf2, beta=0.5):
        self.clf1 = clf1 
        self.clf2 = clf2
        self.beta = beta #параметр смешивания

    def fit(self, X, y): #обучаем классификатор
        self.X_ = X
        self.y_ = y 
        self.clf1.fit(X, y)
        self.clf2.fit(X, y)
        return self

    def predict(self, X): #возвращаем значения 
        return self.clf1.predict(X) * self.beta + self.clf2.predict(X) * (1 - self.beta)

    
def learning(X_scaled: np.array, df_train: pd.DataFrame) -> (GridSearchCV, np.array):
    X_train = X_scaled[0: len(df_train),]
    X_test  = X_scaled[len(df_train): len(X_scaled)]
    y_train = np.log1p(df_train['SalePrice'])
    
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    
    return blend_gs, np.exp(y_test) - 1