In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt


## Загрузим готовый датасет Breast Cancer из библиотеки Sklearn и разделим данные на train/test

In [2]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

X, y = load_breast_cancer(return_X_y = True)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.15, shuffle=True, random_state=42)


### Если вы собираетесь использовать линейные модели (Logistic Regression, LDA, Perceptron, SVM, SGDClassifier), или модели, которые высчитывают расстояния между точками (K-NN, PCA), то перед подачей данных в модели для тренировки их обязательно необходимо либо стандартизировать, либо нормализовать.  

## Нормализация данных

In [3]:
# Нормализация масштабирует данные в диапазоне [0-1]
# Из модуля preprocessing импортируем класс MinMaxScaler.
# По умолчанию в этом классе минимальное значение - 0, максимальное - 1
from sklearn.preprocessing import MinMaxScaler

# Создаем модель для масштабирования и трансформирования данных
norm_scaler = MinMaxScaler()

# В эту модель отправляем данные тренировочной выборки
# Внимание!!! Ваша модель трансформации данных должна видеть только данные для обучения.
# Метод  fit() никогда не должен видеть тестовые данные, иначе у вас может дальше произойти 
# data leakage, когда модели машинного обучения смогут как-то подсмотреть, что происходит 
# с тестовыми данными, которые были использованы для масштабирования.

norm_scaler.fit(X_train)

# Трансформируем обучающие данные используя модель нормализации, обученную на тренировочной выборке
X_train_norm = norm_scaler.transform(X_train)

# Аналогичная команда, которая сразу и отправляет обучающие данные в модель и делает трансформацию 
#X_train_norm = norm_scaler.fit_transform(X_train)

# Трансформируем тестовые данные используя модель нормализации, обученную на тренировочной выборке
X_test_norm = norm_scaler.transform(X_test)

## Стандартизация данных

In [4]:
# Стандартизация делает так, чтобы среднее значение в каждом столбце признаков
# было равно 0, а среднеквадратическое отклонение 1 (mean=0, std = 1)

# Из модуля preprocessing импортируем класс StandardScaler.
from sklearn.preprocessing import StandardScaler

# Создаем модель для масштабирования и трансформирования данных
stand_scaler = StandardScaler()

# В эту модель отправляем данные тренировочной выборки
# Внимание!!! Ваша модель трансформации данных должна видеть только данные для обучения.
# Метод  fit() никогда не должен видеть тестовые данные, иначе у вас может дальше произойти 
# data leakage, когда модели машинного обучения смогут как-то подсмотреть, что происходит 
# с тестовыми данными, которые были использованы для масштабирования.

stand_scaler.fit(X_train)

# Трансформируем обучающие данные используя модель нормализации, обученную на тренировочной выборке
X_train_stand = stand_scaler.transform(X_train)

# Аналогичная команда, которая сразу и отправляет обучающие данные в модель и делает трансформацию 
#X_train_norm = norm_scaler.fit_transform(X_train)

# Трансформируем тестовые данные используя модель нормализации, обученную на тренировочной выборке
X_test_stand = stand_scaler.transform(X_test)

## Используем линейную модель Logistic Regression без масштабирования данных

In [5]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import *

# Создаем объект модели логистической регресии
log_regr = LogisticRegression()

# Тренируем модель на входных данных при помощи метода fit()
log_regr.fit(X_train, y_train)

y_train_pred = log_regr.predict(X_train) 
y_test_pred = log_regr.predict(X_test)
 
print("Train accuracy: ", accuracy_score(y_train,y_train_pred))
print("Test accuracy: ", accuracy_score(y_test,y_test_pred))

# Такая модель будет выдавать предупреждение о том, что она не успела сойтись к оптимальному решению
# за 100 повторений и порекомендует вам сделать стандартизацию/нормализацию данных

Train accuracy:  0.9420289855072463
Test accuracy:  0.9534883720930233


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


## Используем линейную модель Logistic Regression с нормализованными данными

In [6]:
# Создаем новый объект модели логистической регресии
log_regr_norm = LogisticRegression()

# Тренируем модель на входных данных при помощи метода fit()
log_regr_norm.fit(X_train_norm, y_train)

y_train_pred = log_regr_norm.predict(X_train_norm)
y_test_pred = log_regr_norm.predict(X_test_norm)

print("Train accuracy: ", accuracy_score(y_train,y_train_pred))
print("Test accuracy: ", accuracy_score(y_test,y_test_pred))

# Как видно ниже, модель успевает сойтись к оптимальному решению за 100 повторений и
# не выдает нам предупреждений

Train accuracy:  0.968944099378882
Test accuracy:  0.9767441860465116


## Используем линейную модель Logistic Regression со стандартизированными данными

In [7]:
# Создаем новый объект модели логистической регресии
log_regr_stand = LogisticRegression()

# Тренируем модель на входных данных при помощи метода fit()
log_regr_stand.fit(X_train_stand, y_train)

y_train_pred = log_regr_stand.predict(X_train_stand)
y_test_pred = log_regr_stand.predict(X_test_stand)

print("Train accuracy: ", accuracy_score(y_train,y_train_pred))
print("Test accuracy: ", accuracy_score(y_test,y_test_pred))

# Как видно ниже, модель тоже успевает сойтись к оптимальному решению за 100 повторений и
# не выдает нам предупреждений

# Более того, результат предсказаний у модели на стандартизованных данных даже выше, 
# чем на нормализованных данных

Train accuracy:  0.9875776397515528
Test accuracy:  0.9767441860465116


### Масштабирование данных не влияет на результат предсказаний алгоритмов, работа которых НЕ основана на высчитывании расстояния (например, probability-based and rule-based algorithms). Такими алгоритмами являются Naive Bayes, Decision Tree, Random Forest, и другие ансамблевые алгоритмы, которые используют Decision Tree как основную оценочную функцию (base estimator). Например, AdaBoost, XGBoost.

In [8]:
# Посмотрим, что стандартизация/нормализация не влияет на результат предсказаний алгоритма Decision Tree

from sklearn.tree import DecisionTreeClassifier

train_accuracy = []
test_accuracy = []

X_train_data = [X_train, X_train_norm, X_train_stand]
X_test_data = [X_test, X_test_norm, X_test_stand]

for i in range(0, len(X_train_data)):
    tree_clf = DecisionTreeClassifier()
    tree_clf.fit(X_train_data[i], y_train)
    
    y_train_pred = tree_clf.predict(X_train_data[i])
    y_test_pred = tree_clf.predict(X_test_data[i])
    
    train_accuracy.append(accuracy_score(y_train,y_train_pred))
    test_accuracy.append(accuracy_score(y_test,y_test_pred))
    
print("Train accuracy without scaling: ", train_accuracy[0])
print("Test accuracy without scaling: ", train_accuracy[0])
print("-------")

print("Train accuracy with normalization: ", train_accuracy[1])
print("Test accuracy with normalization: ", train_accuracy[1])
print("-------")

print("Train accuracy with standardization: ", train_accuracy[2])
print("Test accuracy with standardization: ", train_accuracy[2])
print("-------")

Train accuracy without scaling:  1.0
Test accuracy without scaling:  1.0
-------
Train accuracy with normalization:  1.0
Test accuracy with normalization:  1.0
-------
Train accuracy with standardization:  1.0
Test accuracy with standardization:  1.0
-------
