<div align="center">

# Приведение признаков к одному масштабу

</div>

---

Масштабирование признаков (feature scaling) — обязательный шаг в предобработке, который улучшает работу большинства алгоритмов (градиентный спуск, kNN, SVM), за исключением некоторых деревьев решений и случайных лесов (они инвариантны к масштабу). Без приведения признаков к единому масштабу весовые обновления или вычисления расстояний будут доминироваться признаками с большими величинами.

Существует два основных подхода:

1. **Нормализация (min–max scaling)**
   Приводит значения каждого признака к диапазону $[0,1]$. Мы применяем минимаксное
масштабирование к каждому столбцу признаков, где новое значение $x^{(i)}_{\text{norm}}$
 записи $x^{(i)}$ можно рассчитать как:

   $$
     x^{(i)}_{\text{norm}}
     = \frac{x^{(i)} - x_{\min}}{x_{\max} - x_{\min}}.
   $$

2. **Стандартизация (z‑scoring)**
   Стандартизация особенно полезна для линейных моделей, таких как логистическая регрессия и SVM, потому что они инициализируют веса с нуля или малыми значениями.

   Когда признаки имеют нулевое среднее и единичную дисперсию, как при стандартизации, это упрощает обучение: градиенты становятся более сбалансированными, и модель быстрее и стабильнее сходится.

   Важно понимать:

   * Стандартизация не меняет форму распределения признаков (не делает данные "нормальными").
   * В отличие от min–max нормализации, она не ограничивает значения, а сохраняет информацию о выбросах, делая модель менее чувствительной к крайним значениям.
   Процедура стандартизации может быть выражена следующим уравнением:

   $$
     x^{(i)}_{\text{std}}
     = \frac{x^{(i)} - \mu_x}{\sigma_x}.
   $$

   Здесь $\mu_x$ - выборочное среднее для столбца признака, а $\sigma_x$ - стандартное отклонение.

   Значения после стандартизации могут быть отрицательными или положительными, потому что данные приводятся к среднему 0 и стандартному отклонению 1. Всё, что меньше среднего — даёт отрицательные значения, больше — положительные.


**Когда что выбирать?**

* Min–max подходит, если нужно жёсткое ограничение диапазона (например, при работе с изображениями).
* Стандартизация чаще предпочтительна для линейных моделей и алгоритмов оптимизации: она сохраняет форму распределения, менее чувствительна к выбросам и упрощает сходимость градиентного спуска.



In [24]:
# Процедура нормализации (минимаксного масштабирования) в scikit-learn
from sklearn.preprocessing import MinMaxScaler
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# Загрузка датасета Wine из репозитория UCI в DataFrame без заголовков
df_wine = pd.read_csv('https://archive.ics.uci.edu/'
                      'ml/machine-learning-databases/'
                      'wine/wine.data', header=None)

# Назначение имен столбцам для лучшей читаемости и удобства
df_wine.columns = ['Class label',        # Класс вина (1, 2 или 3)
                   'Alcohol',            # Содержание алкоголя
                   'Malic acid',         # Яблочная кислота
                   'Ash',                # Зольность
                   'Alcalinity of ash',  # Щелочность золы
                   'Magnesium',          # Магний
                   'Total phenols',      # Общее количество фенолов
                   'Flavanoids',         # Флавоноиды
                   'Nonflavanoid phenols',       # Нефлавоноидные фенолы
                   'Proanthocyanins',             # Проантоцианы
                   'Color intensity',             # Интенсивность цвета
                   'Hue',                         # Оттенок
                   'OD280/OD315 of diluted wines',# Показатель OD280/OD315
                   'Proline']   

#Разделение данных на обучающие и тестовые выборки
X, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 0].values
X_train, X_test, y_train, y_test = \
    train_test_split(X, y,
                     test_size = 0.3,
                     random_state = 0,
                     stratify = y)

scaler = MinMaxScaler()
X_train_norm = scaler.fit_transform(X_train)
X_test_norm = scaler.transform(X_test)

print("X_train_norm (первые 2 строки):")
print(X_train_norm[:2])

print("\nX_test_norm (первые 2 строки):")
print(X_test_norm[:2])

X_train_norm (первые 2 строки):
[[0.64619883 0.83201581 0.4248366  0.46236559 0.27160494 0.35172414
  0.09704641 0.68       0.18987342 0.23623446 0.45744681 0.28571429
  0.19400856]
 [0.6871345  0.15612648 0.65359477 0.43548387 0.7654321  0.67931034
  0.50632911 0.74       0.2943038  0.3250444  0.81914894 0.63369963
  0.68259629]]

X_test_norm (первые 2 строки):
[[0.69005848 0.22924901 0.64052288 0.30645161 0.55555556 0.69655172
  0.51687764 0.52       0.39873418 0.40497336 0.69148936 0.60805861
  0.78245364]
 [0.22222222 0.14031621 0.54248366 0.40860215 0.41975309 0.3137931
  0.29746835 0.64       0.19303797 0.10746004 1.03191489 0.35164835
  0.05492154]]


In [25]:
# Процедура стандартизации
from sklearn.preprocessing import StandardScaler

stdsc = StandardScaler()
X_train_std = stdsc.fit_transform(X_train)
X_test_std = stdsc.fit_transform(X_test)

print("X_train_std (первые 2 строки):")
print(X_train_std[:2])

print("\nX_test_std (первые 2 строки):")
print(X_test_std[:2])

X_train_std (первые 2 строки):
[[ 0.71225893  2.22048673 -0.13025864  0.05962872 -0.50432733 -0.52831584
  -1.24000033  0.84118003 -1.05215112 -0.29218864 -0.20017028 -0.82164144
  -0.62946362]
 [ 0.88229214 -0.70457155  1.17533605 -0.09065504  2.34147876  1.01675879
   0.66299475  1.0887425  -0.49293533  0.13152077  1.33982592  0.54931269
   1.47568796]]

X_test_std (первые 2 строки):
[[ 1.09517886 -0.40674741  1.26476181 -0.52362169  0.94557352  1.20882673
   0.89897451  0.32761624  0.40358313  0.59874588  0.67823753  0.45328836
   2.26479759]
 [-0.97853259 -0.8686148   0.73146818  0.0648075   0.18962376 -0.52667205
  -0.21306092  0.79114314 -0.88304429 -0.92743603  1.99301704 -0.49127063
  -1.30945676]]


Важно помнить: **масштабирование нужно настраивать только на обучающих данных**. То есть `StandardScaler` (или другой масштабировщик) мы обучаем один раз на тренировочном наборе, а затем используем те же параметры для преобразования тестовых данных или новых примеров. Это предотвращает утечку информации.
Это важно, потому что тестовые данные должны оставаться "невидимыми" для модели до оценки. Если вы вычислите среднее и отклонение по всему датасету (включая тест), это приведёт к утечке информации из теста в обучение. В результате модель получит преимущество, которого не будет на реальных данных, и ваша оценка точности будет обманчиво завышена.

Кроме стандартной стандартизации, в `scikit-learn` есть и другие масштабировщики. Один из них — **`RobustScaler`**, который особенно полезен при:

* наличии **выбросов**,
* работе с **небольшими датасетами**,
* склонности модели к **переобучению**.

`RobustScaler` работает по столбцам:
он **вычитает медиану** и масштабирует данные по межквартильному размаху (между 1-м и 3-м квартилем), что делает масштабирование **устойчивым к выбросам**.