# Метрики и разбиение данных

In [6]:
from sklearn import datasets

# модуль позволяющий оценить качество работы моделей
from sklearn import metrics

from sklearn.linear_model import LogisticRegression 

Попробуем обучить логистическую регрессию на всех данных и посмотреть acuracy (точность) предсказаний

In [8]:
cancer = datasets.load_breast_cancer()
logistic_regression = LogisticRegression()
model = logistic_regression.fit(cancer.data, cancer.target)

print('Acuracy: {:.2f}'.format(model.score(cancer.data, cancer.target)))

Acuracy: 0.95


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


Увеличим параметр `max_iter` до 10000

In [9]:
cancer = datasets.load_breast_cancer()
logistic_regression = LogisticRegression(max_iter=10000)
model = logistic_regression.fit(cancer.data, cancer.target)

print('Acuracy: {:.2f}'.format(model.score(cancer.data, cancer.target)))

Acuracy: 0.96


Качество достаточно неплохое, однако мы обучаемся на всех данных

In [13]:
predictions = model.predict(cancer.data)

print('Acuracy: {:.2f}'.format(metrics.accuracy_score(cancer.target, predictions)))
print('ROC AUC: {:.2f}'.format(metrics.roc_auc_score(cancer.target, predictions)))
print('F1: {:.2f}'.format(metrics.f1_score(cancer.target, predictions)))

Acuracy: 0.96
ROC AUC: 0.95
F1: 0.97


Обучаться на всех данных не очень хорошая практика, так как мы не можем достоверно оценить как модель будет вести себя на каких-то новых данных.  
Для этого нам может помочь модуль `sklearn.model_selection` и функция `train_test_split`. 

In [16]:
from sklearn.model_selection import train_test_split

У нас `x_train, y_train` - это выборки на которых мы обучаемся  
`x_test, y_test` - это выборки на которых мы оцениваем качество модели на объектах новой выборки, которую модель еще не видела чтобы понять как наша модель выучила природную зависимость.   

In [18]:
x_train, x_test, y_train, y_test = train_test_split(
    cancer.data, cancer.target,
    test_size=0.2, random_state=12    
)

# передаем тренировочные объекты (примерно 80% из нашей выборки)
model = logistic_regression.fit(x_train, y_train)

print('Train accuracy: {:.2f}'.format(model.score(x_train, y_train)))
print('Test accuracy: {:.2f}'.format(model.score(x_test, y_test)))

Train accuracy: 0.96
Test accuracy: 0.94


Теперь посмотрим как можно сделать тоже самое, только для задачи регрессии. Посмотрим на другие возможности линейной регрессии. Импортируем из модуля `sklearn.linear_model` три класса `Lasso, Ridge, ElasticNet`, которые представляют из себя линейную регрессию с различными регуляризациями.  

`Lasso` - это L1 регуляризация, когда мы добавляем в функцию ошибки первую норму весов. Т.е. мы добавляем к нашей функции сумму модулей весов.  
`Ridge` - это L2 регуляризация, гребневая регрессия, которая добавляет сумму квадратов весов.  
`ElasticNet` - L1 и L2 регуляризация в одном.

Ниже в цикле мы обучим все три модели и посмотрим на MSE (среднеквадратичную ошибку). Обучаемся на 80% данных и на 20% данных тестируем нашу модель. 

In [19]:
from sklearn.linear_model import Lasso, Ridge, ElasticNet


boston = datasets.load_boston()

lasso = Lasso()
ridge = Ridge()
elastic = ElasticNet()

for model in [lasso, ridge, elastic]:
        x_train, x_test, y_train, y_test = train_test_split(
            cancer.data, cancer.target,
            test_size=0.2
        )
        model.fit(x_train, y_train)
        
        predictions = model.predict(x_test)
        print(model.__class__)
        print('MSE: {:.2f}\n'.format(metrics.mean_squared_error(y_test, predictions)))

<class 'sklearn.linear_model._coordinate_descent.Lasso'>
MSE: 0.14

<class 'sklearn.linear_model._ridge.Ridge'>
MSE: 0.07

<class 'sklearn.linear_model._coordinate_descent.ElasticNet'>
MSE: 0.10



Как видно из результатов - лучше всего предсказывает гребневая регрессия. В данном случае она показала MSE чуть ниже чем остальные функции.  

Так же можно работать с другими функциями из модуля `metrics`, например  
`R2 score` - возвращает коэффициент детерминации


In [23]:
print('R2: {:.2f}'.format(model.score(x_test, y_test)))
print('R2: {:.2f}'.format(metrics.r2_score(y_test, predictions)))

R2: 0.57
R2: 0.57


Есть еще один полезный подход - чтобы не откладывать какой-то набор в черный ящик(для тестирования), а использовать все данные, но при этом знать что наша модель не переобучается. Это называется кросс-валидацией. 

# Кросс-валидация 

`KFold` - класс, который позволяет делать кросс-валидацию.

In [27]:
from sklearn.model_selection import KFold, cross_val_score

iris = datasets.load_iris()
iris.keys()

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])

In [28]:
print(iris.DESCR[:475])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Vi


У нас есть три класса: 
    - Iris-Setosa
    - Iris-Versicolour
    - Iris-Vi

И по характеристикам:
    - sepal length in cm
    - sepal width in cm
    - petal length in cm
    - petal width in cm
    
Нам необходимо предсказать к какому классу относится цветок (0, 1, 2).

Будем решать эту задачу с помощью логистической регрессии, потому что это задача классификации. 

Выборка разбивается на блоки (в данном случае на 5 блоков) и первые 4 блока используются для того чтобы обучить нашу модель, а 5ый блок используется для того чтобы оценить качество нашей модели. Потом следующие 4 + 1 блоков и так далее. В цикле итерируемся по разным разбиениям. 


Посмотрим что представляет из себя `iris.data` (`numpy.ndarray`)

In [33]:
type(iris.data)

numpy.ndarray

In [32]:
iris.data[:10]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [42]:
cv = KFold(n_splits=5) # +StratifiedKFold

for i in cv.split(iris.data[:10]):
    print(i)

(array([2, 3, 4, 5, 6, 7, 8, 9]), array([0, 1]))
(array([0, 1, 4, 5, 6, 7, 8, 9]), array([2, 3]))
(array([0, 1, 2, 3, 6, 7, 8, 9]), array([4, 5]))
(array([0, 1, 2, 3, 4, 5, 8, 9]), array([6, 7]))
(array([0, 1, 2, 3, 4, 5, 6, 7]), array([8, 9]))


In [46]:
logistic_regression = LogisticRegression()
cv = KFold(n_splits=5) # +StratifiedKFold

for split_idx, (train_idx, test_idx) in enumerate(cv.split(iris.data)):
    x_train, x_test = iris.data[train_idx], iris.data[test_idx]
    y_train, y_test = iris.target[train_idx], iris.target[test_idx]
    
    logistic_regression.fit(x_train, y_train)
    score = logistic_regression.score(x_test, y_test)
    print('Split {} Score {:.2f}'.format(split_idx, score))

Split 0 Score 1.00
Split 1 Score 1.00
Split 2 Score 0.87
Split 3 Score 0.93
Split 4 Score 0.83


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


Добавим `max_iter=1000` чтобы не возникало предупреждение

In [49]:
logistic_regression = LogisticRegression(max_iter=1000)
cv = KFold(n_splits=5) # +StratifiedKFold

for split_idx, (train_idx, test_idx) in enumerate(cv.split(iris.data)):
    x_train, x_test = iris.data[train_idx], iris.data[test_idx]
    y_train, y_test = iris.target[train_idx], iris.target[test_idx]
    
    logistic_regression.fit(x_train, y_train)
    score = logistic_regression.score(x_test, y_test)
    print('Split {} Score {:.2f}'.format(split_idx, score))

Split 0 Score 1.00
Split 1 Score 1.00
Split 2 Score 0.87
Split 3 Score 0.93
Split 4 Score 0.83


Есть "хорошие" разбиения, есть "плохие" разбиения. Логичным вариантом будет просто взять усредненное значение всех `score`.  
Теперь посмотрим как сделать кросс-валидацию автоматически без ручного присваивания индексов.

In [52]:
cv_score = cross_val_score(
    logistic_regression, iris.data, iris.target,
    scoring='accuracy', cv=cv
)

print('Cross val scoreL {}'.format(cv_score))

# усредним наши полученные значения
print('Mean cross val score: {:.2f}'.format(cv_score.mean()))

Cross val scoreL [1.         1.         0.86666667 0.93333333 0.83333333]
Mean cross val score: 0.93


То есть наше среднее качество на кросс-валидации = 0.93