In [2]:
import numpy as np
import pandas as pd
import sklearn
import warnings
warnings.filterwarnings('ignore')
from numpy.testing import assert_array_equal, assert_array_almost_equal, assert_equal, assert_almost_equal
from pandas.testing import assert_frame_equal

# SLIDE (1) Основы метрик классификации

На вход подаются 2 массива $y_{real}$ - реальные значения бинарных классов и $y_{pred}$ - предсказанные значения бинарных классов. Вам необходимо посчитать, не используя стандартные функции, метрики: 
* $accuracy$
* $precision$
* $recall$
* $F_1$

Возвращать числа нужно именно в данном порядке.

### Sample 1
#### Input:
```python
y_real = np.array([0, 1, 0, 0, 1, 1, 1, 1])
y_pred = np.array([0, 1, 1, 0, 1, 1, 0, 0])
```
#### Output:
```python
0.625, 0.75, 0.6, 0.66
```

In [136]:
def main_metrics(y_real, y_pred) -> (float, float, float, float):
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [6]:
def main_metrics(y_real, y_pred) -> (float, float, float, float):
    tp = (y_real * y_pred).sum()
    fp = y_pred.sum() - tp
    tn = ((1 - y_real) * (1 - y_pred)).sum()
    fn = (1 - y_pred).sum() - tn
    
    accuracy = (tp + tn)/(tp + tn + fp + fn)
    recall = tp / (tp + fn)
    precision = tp / (tp + fp)
    F1 = 2 * precision * recall / (precision + recall)
    
    return accuracy, precision, recall, F1

In [26]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
######################################################
y_real = np.array([0, 1, 0, 0, 1, 1, 1, 1])
y_pred = np.array([0, 1, 1, 0, 1, 1, 0, 0])


acc, pre, rec, f1 = main_metrics(y_real, y_pred)

assert np.abs(acc - accuracy_score(y_real, y_pred)) < 0.001
assert np.abs(pre - precision_score(y_real, y_pred)) < 0.001
assert np.abs(rec - recall_score(y_real, y_pred)) < 0.001
assert np.abs(f1  - f1_score(y_real, y_pred)) < 0.001
######################################################
y_real = np.random.choice(2, 1000)
y_pred = np.random.choice(2, 1000)

acc, pre, rec, f1 = main_metrics(y_real, y_pred)

assert np.abs(acc - accuracy_score(y_real, y_pred)) < 0.001
assert np.abs(pre - precision_score(y_real, y_pred)) < 0.001
assert np.abs(rec - recall_score(y_real, y_pred)) < 0.001
assert np.abs(f1  - f1_score(y_real, y_pred)) < 0.001
######################################################

# SLIDE (1) Основы метрик регрессии

Решаем задачу регрессии. На вход подаются 2 массива $y_{real}$ - реальные значения функции и $y_{pred}$ - предсказанные значения функции. Вам необходимо посчитать, не используя стандартные функции, метрики: 
* $R^2score$
* $MAE$ - `mean_absolute_error`
* $MSE$ - `mean_squared_error`
* $MSLE$ - `mean_squared_log_error`

Возвращать числа нужно именно в данном порядке.

Формулы для метрик - ищите в интернете, это часть задания. Можете сверяться с реальными метриками в `sklearn.metrics`.

Все числа в тестах больше 0, поэтому $MSLE$ будет считаться корректно
### Sample 1
#### Input:
```python
y_real = np.array([1, 2, 3, 4, 6])
y_pred = np.array([1, 3, 2, 4, 5])
```
#### Output:
```python
0.797297, 0.6, 0.6, 0.037856
```

In [136]:
def reg_metrics(y_real, y_pred) -> (float, float, float, float):
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [105]:
def reg_metrics(y_real, y_pred) -> (float, float, float, float):
    R2 = 1 - np.sum((y_real - y_pred)**2) / np.sum((y_real - y_real.mean())**2)
    MAE = np.mean(np.abs(y_real- y_pred))
    MSE = np.mean((y_real- y_pred)**2)
    MSLE = np.mean((np.log(y_real + 1) - np.log(y_pred + 1))**2)
    return R2, MAE, MSE, MSLE

In [104]:
from sklearn.metrics import r2_score as R2, mean_absolute_error as MAE, mean_squared_log_error as MSLE, mean_squared_error as MSE 
######################################################
y_real = np.array([1,2,3,4,6])
y_pred = np.array([1,3,2,4,5])


r2, mae, mse, msle = reg_metrics(y_real, y_pred)

assert np.abs(r2 - R2(y_real, y_pred)) < 0.001
assert np.abs(mae - MAE(y_real, y_pred)) < 0.001
assert np.abs(mse - MSE(y_real, y_pred)) < 0.001
assert np.abs(msle  - MSLE(y_real, y_pred)) < 0.001
######################################################
y_real = np.random.choice(1000, 1000)
y_pred = np.random.choice(1000, 1000)

r2, mae, mse, msle = reg_metrics(y_real, y_pred)

assert np.abs(r2 - R2(y_real, y_pred)) < 0.001
assert np.abs(mae - MAE(y_real, y_pred)) < 0.001
assert np.abs(mse - MSE(y_real, y_pred)) < 0.001
assert np.abs(msle  - MSLE(y_real, y_pred)) < 0.001
######################################################

# SLIDE (1) LogLoss

Реализуйте свой LogLoss метрику.

В результат $y_{real}$ - передаются значения бинарных классов. В $y_{prob}$ - передаются вероятности $P(y_{pred}=1)$. Чтобы обработать краевые случаи в $y_{prob}$: 
* $0$ нужно заменить на `eps`
* $1$ нужно заменить на ($1$ - `eps`).
### Sample 1
#### Input:
```python
y_real = np.array([  1,   1,   0,   0,   1,   0,   1,   0])
y_prob = np.array([  1, 0.8, 0.2, 0.2, 0.4, 0.4, 0.6,   0])
```
#### Output:
``` python
    0.325921
```

In [107]:
def logloss(y_real, y_pred, eps=1e-15):
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass


In [191]:
def logloss(y_real, y_prob, eps=1e-15):
    np.place(y_prob, np.abs(y_prob - 0.) < eps, eps)
    np.place(y_prob, np.abs(y_prob - 1.) < eps, 1 - eps)
    return - np.mean(y_real*np.log(y_prob) + (1 - y_real)*np.log(1 - y_prob))

In [199]:
from sklearn.metrics import log_loss
######################################################
y_real = np.array([  1,   1,   0,   0,   1,   0,   1,   0])
y_prob = np.array([  1, 0.8, 0.2, 0.2, 0.4, 0.4, 0.6,   0])

assert logloss(y_real, y_prob) - sklearn.metrics.log_loss(y_real, y_prob) < 0.001 
######################################################
y_real = np.random.choice(2, 1000)
y_prob = np.random.choice(1000, 1000) / 1000

assert logloss(y_real, y_prob) - sklearn.metrics.log_loss(y_real, y_prob) < 0.001 
######################################################

# SLIDE (2) Нахождение Roc-curve

Вам на вход даны $y_{real}$ и массив вероятностей $P(y_{pred}=1)$ необходимо реализовать функцию `roc-curve`, которая вернет 2 массива различных значений fpr и tpr, для дальнейшего построения Roc кривой.

Можно считать, что все вероятности ограничены $decimal=2$ (у каждого числа не более 2-х знаков после запятой)

### Sample
#### Input:
```python
y_real = np.array([  1,   1,   0,   0,   0,   1,   0,   1,   0])
y_prob = np.array([0.8, 0.8, 0.2, 0.2, 0.6, 0.4, 0.6, 0.6, 0.4])
```
#### Output:
```python
array([0.,  0.,  0.4, 0.6, 1. ]), #fpr
array([0., 0.5, 0.75,  1., 1. ])  #tpr
```

### Sample 2
#### Input:
```python
y_real = np.array([  1,   1,   0,   0,   1,   0,   1,   0])
y_prob = np.array([0.8, 0.8, 0.2, 0.2, 0.4, 0.4, 0.6, 0.6])
```
#### Output:
```python
array([0.,  0., 0.25, 0.5, 1. ]), #fpr
array([0., 0.5, 0.75,  1., 1. ])  #tpr

или 

array([0.,  0., 0.5, 1. ]), #fpr
array([0., 0.5,  1., 1. ])  #tpr
```

Обратите внимание на 2 пример: roc кривая, которая задается ими - одинаковая. Точка, которая уходит, находится на прямой между двумя соседними, в целом такие точки можно убирать, но будут приниматься оба варианта. Функция `sklearn.metrics.roc_curve` возвращает второй вариант.

In [135]:
def roc_curve(y_real, y_prob) -> (np.array, np.array):
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [17]:
def roc(y_real, y_prob):
    fpr=[]
    tpr=[]
    yprob1 = y_prob[y_real==1] 
    yprob0 = y_prob[y_real==0]
    for border in np.arange(1.01, -0.01, -0.01):
        tp = (yprob1 >= border).sum()
        fp = (yprob0 >= border).sum()
        tn = (yprob0 < border).sum()
        fn = (yprob1 < border).sum()
        _tpr = tp / (tp + fn)
        _fpr = fp / (tn + fp)
        if len(fpr) == 0 or np.abs(fpr[-1] - _fpr) > 0.001 or np.abs(tpr[-1] - _tpr) > 0.001:
            fpr.append(_fpr)
            tpr.append(_tpr)
    
    return np.array(fpr), np.array(tpr)

In [22]:
from sklearn.metrics import auc, roc_curve
######################################################
y_real = np.array([  1,   1,   0,   0,   0,   1,   0,   1,   0])
y_prob = np.array([0.8, 0.8, 0.2, 0.2, 0.6, 0.4, 0.6, 0.6, 0.4])
fpr_true, tpr_true, _ = roc_curve(y_real, y_prob)
fpr, tpr = roc(y_real, y_prob)

assert auc(fpr, tpr) - auc(fpr_true, tpr_true) < 0.01
######################################################
y_real = np.array([  1,   1,   0,   0,   1,   0,   1,   0])
y_prob = np.array([0.8, 0.8, 0.2, 0.2, 0.4, 0.4, 0.6, 0.6])
fpr_true, tpr_true, _  = roc_curve(y_real, y_prob)
fpr, tpr = roc(y_real, y_prob)

assert auc(fpr, tpr) - auc(fpr_true, tpr_true) < 0.01
######################################################
y_real = np.random.choice(2, 1000) 
y_prob = np.random.choice(101, 1000) / 100

fpr_true, tpr_true, _  = roc_curve(y_real, y_prob)
fpr, tpr = roc(y_real, y_prob)

assert auc(fpr, tpr) - auc(fpr_true, tpr_true) < 0.01
######################################################

# SLIDE (1) Кросс-валидация

На вход падаются [данные](https://yadi.sk/d/6pUM_Ko-RtqiZg) и $k$ - число фолдов в кросс-валидации. Верните значения кросс-валидации по $k$ фолдам алгоритма `LogisticRegression` с метрикой `neg_log_loss`. 

В итоге должны получиться значения не ниже $-1$.

### Sample
#### Input:
```python
X = pd.read_csv('resources/train.csv').drop(columns=['y']).values
Y = pd.read_csv('resources/train.csv')['y']
k = 3
```
#### Output:
```python
array([-0.45456358, -0.41684932, -0.49260998])
```

In [297]:
def crossvalidate(X, y, k):
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [387]:
from sklearn.model_selection import cross_val_score
def crossvalidate(X, y, k):
    return cross_val_score(LogisticRegression(), X, y, cv = k, scoring='neg_log_loss')

In [441]:
X = pd.read_csv('resources/train.csv').drop(columns=['y']).values
Y = pd.read_csv('resources/train.csv')['y']
######################################################
assert crossvalidate(X, Y, 3).min() > -1
assert crossvalidate(X, Y, 4).min() > -1
assert crossvalidate(X, Y, 5).min() > -1
assert crossvalidate(X, Y, 6).min() > -1
assert crossvalidate(X, Y, 7).min() > -1
assert crossvalidate(X, Y, 8).min() > -1
assert crossvalidate(X, Y, 9).min() > -1

######################################################

In [444]:
crossvalidate(X, Y, 3)

array([-0.45456358, -0.41684932, -0.49260998])

# SLIDE (1) GridSearch

C помощью [GridSearch](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) найдите лучшие коэффициенты гиперпараметров `max_depth` и `min_samples_leaf` для классификатора [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html) и верните обученный grid_search. 

* Пределы `max_depth` $(1, 10)$ 
* Пределы `min_samples_leaf` $(1, 10)$  
* Входные данные по [ссылке](https://yadi.sk/d/6pUM_Ko-RtqiZg)
* scoring - `precision`
* cv - $5$
* Другие параметры в `DecisionTreeClassifier` не указывать.

Не нужно Shuffl-ить данные, это может повлиять на ответ и в итоге задача не зачтется.

In [455]:
import numpy as np
from sklearn.model_selection import GridSearchCV

def fit_gs(X: np.ndarray, y: np.ndarray) ->  GridSearchCV:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [468]:
import numpy as np
from sklearn.model_selection import GridSearchCV

def fit_gs(X: np.ndarray, y:np.ndarray) ->  GridSearchCV:
    params = {'max_depth': np.arange(1, 10), 
              'min_samples_leaf': np.arange(1, 10)}

    gs = GridSearchCV(
            estimator = DTC(), #классификатор
            param_grid = params, # перебираемый параметр
            scoring='precision',
            cv = 5
         )
    gs.fit(X, y)
    return gs

In [472]:
X = pd.read_csv('resources/train.csv').drop(columns=['y']).values
Y = pd.read_csv('resources/train.csv')['y']
######################################################
gs = fit_gs(X,Y)

assert gs.best_params_['max_depth'] == 4
assert gs.best_params_['min_samples_leaf'] == 3
assert np.abs(gs.best_score_ - 0.7829244) < 0.001
######################################################

# SLIDE (1) RandomSearch

C помощью [RandomSearch](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html) найдите лучшие коэффициенты гиперпараметров `max_depth` и `min_samples_leaf` для классификатора [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html). 

Обучите $2$ `DTC`. Один с количеством итераций - $10$, другой с количеством итераций $50$. Верните обе обученные модели в соответствующем порядке.

* Пределы `max_depth` $(1, 10)$ 
* Пределы `min_samples_leaf` $(1, 10)$  
* Входные данные по [ссылке](https://yadi.sk/d/6pUM_Ko-RtqiZg)
* scoring - `precision`
* cv - $5$
* Другие параметры в `DecisionTreeClassifier` не указывать.

Не нужно Shuffl-ить данные, это может повлиять на ответ и в итоге задача не зачтется.

In [455]:
import numpy as np
from sklearn.model_selection import  RandomizedSearchCV

def fit_gs(X: np.ndarray, y: np.ndarray) -> (RandomizedSearchCV, RandomizedSearchCV):
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [512]:
import numpy as np
from sklearn.model_selection import RandomizedSearchCV

def fit_gs(X: np.ndarray, y:np.ndarray) ->  (RandomizedSearchCV, RandomizedSearchCV):
    params = {'max_depth': np.arange(1, 10), 
              'min_samples_leaf': np.arange(1, 10)}

    rs1 = RandomizedSearchCV(
            n_iter = 10,
            estimator = DTC(), #классификатор
            param_distributions= params, # перебираемый параметр
            scoring='precision',
            cv = 5,
            iid=None
         )
    rs1.fit(X, y)
    
    rs2 = RandomizedSearchCV(
            n_iter = 50,
            estimator = DTC(), #классификатор
            param_distributions= params, # перебираемый параметр
            scoring='precision',
            cv = 5,
            iid=None
         )
    rs2.fit(X, y)
    
    return rs1, rs2

In [516]:
X = pd.read_csv('resources/train.csv').drop(columns=['y']).values
Y = pd.read_csv('resources/train.csv')['y']
######################################################
rs1, rs2 = fit_gs(X, Y)

assert rs1.best_params_['min_samples_leaf'] > 2
assert rs2.best_params_['min_samples_leaf'] > 2
assert rs2.best_params_['max_depth'] == 4

assert rs1.best_score_ > 0.75
assert rs2.best_score_ > 0.78
######################################################

# SLIDE (2) Моя Кросс-валидация

Вам необходимо реальзовать собственную функцию кросс-валидации. 

Напоминание, кросс-валидация: 
1. Разбивает, предварительно перемешав, данные на $k$ (заданное) `фолдов` данных (если нацело данные не делятся - хвост отбрасываем).
2. Берет один из фолдов за тестовую выборку, а все остальное за тренировачную.
3. Обучает эстиматор на тренировачных данныx 
4. Cчитает `score` обученной модели.
5. 2-4 шаги повторяются для всех $k$ фолдов 

Она должна принимать на вход: 
* `estimator`, который мы хотим обучить на разных фолдах данных
* $X, y$ - данные 
* `cv` ($k$) - объект разбиения `KFold` или количество фолдов, на которые мы бьем данные (по умолчанию 3)
* `scoring` - функция метрики, по которой оцениваем полученные результаты (замечание: в реальной `cross_val_score` здесь будет стоять объект `scorer`, у нас же будет стоять функция, например `metrics.accuracy_score`)

На выходе мы получаем массив длины $k$ из score значений.

Подсказка: используйте `model_selection.KFold` для разбиения выборки.

Подсказка: не нужно shuffl-ить данные при создании `KFold` из `cv`! 

### Sample
#### Input:
```python
estimator = LinearRegression()
X = np.array([[1],[2],[3],[4],[5]])
y = np.array([1, 2, 4, 4, 6])
cv = 2
scoring = sklearn.metrics.r2_score
```
#### Output:
```python
array([-2.64285714 -0.23611111])
```

In [60]:
from sklearn.metrics import accuracy_score, r2_score

def my_cross_val_score(estimator, X, y, cv=3, scoring=accuracy_score, random_state=42):
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [519]:
from sklearn.model_selection import KFold, StratifiedKFold

def my_cross_val_score(estimator, X, y, cv=3, scoring=accuracy_score):
    if isinstance(cv, int):
        kf = KFold(n_splits=cv)
    else:
        kf = cv
    scores = []
    for train_index, test_index in kf.split(X):
        X_train, X_test = X[train_index], X[test_index]
        y_train, y_test = y[train_index], y[test_index]
        clf = estimator.fit(X_train, y_train)
        y_pred = clf.predict(X_test)
        scores.append(scoring(y_test, y_pred))    
    return np.array(scores)

In [219]:
from sklearn import model_selection
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, r2_score
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import LinearRegression
######################################################
np.random.seed(228)
n = 400
a = np.random.normal(loc=0, scale=1, size=(n, 2)) #первый класс
b = np.random.normal(loc=3, scale=2, size=(n, 2)) #второй класс
X = np.vstack([a, b]) #двумерный количественный признак
y = np.hstack([np.zeros(n), np.ones(n)]) #бинарный признак

cvs = model_selection.cross_val_score(RandomForestClassifier(), X, y, cv=5, scoring='accuracy')
cvs_my = my_cross_val_score(RandomForestClassifier(), X, y, cv=5, scoring=accuracy_score)

assert (np.abs(cvs - cvs_my) < 0.1).all()
######################################################
estimator = LinearRegression()
X = np.array([[1],[2],[3],[4],[5]])
y = np.array([1, 2, 4, 4, 6])

cvs = model_selection.cross_val_score(estimator, X, y, cv=2, scoring='r2')
cvs_my = my_cross_val_score(estimator, X, y, cv=2, scoring=r2_score)
print(cvs)
print(cvs_my)
assert (np.abs(cvs - cvs_my) < 0.01).all()

######################################################

[-2.64285714 -0.23611111]
[-2.64285714 -0.23611111]
