# Стандартизация и нормализация данных

In [9]:
# необходимые библиотеки
import pandas as pd
import numpy as np

from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler, normalize, MaxAbsScaler, PowerTransformer, QuantileTransformer
from sklearn.decomposition import PCA, _pca

# Нормализация данных (MinMaxScaler)

In [None]:
# от значения отнимает минимум и делит на максимум минус минимум - x * = (x-min) / (max-min) 
# Недостатки : Чувствительна к выбросам.

scaler_minmax = MinMaxScaler(feature_range = (0, 1))
df_scaled_minmax = scaler_minmax.fit_transform(df)

scaler_minmax = MinMaxScaler(feature_range = (-1, 1))
df_scaled_minmax = scaler_minmax.fit_transform(df)

# Описание : Преобразует данные с использованием логарифма для уменьшения влияния выбросов.
df_log = np.log1p(df)
scaler_minmax = MinMaxScaler(feature_range = (0, 1))
df_scaled_minmax = scaler_minmax.fit_transform(df_log)

# Когда использовать : Когда данные имеют известный диапазон и не содержат выбросов.
# Примеры : Нейронные сети, алгоритмы, основанные на расстоянии (например, KNN).

# Стандартизация данных (StandardScaler)

In [None]:
# (X−μ)/σ
# Недостатки : Чувствительна к выбросам.

scaler_standard = StandardScaler(feature_range = (0, 1))
df_scaled_standard = scaler_minmax.fit_transform(df)

# Когда использовать : Когда данные имеют нормальное распределение и не содержат выбросов.
# Примеры : Линейные модели, SVM.

# RobustScaler

In [None]:
# (X−median(X)) / IQR(X)
# Преимущества : Устойчивость к выбросам.

scaler = RobustScaler()
X_robust = scaler.fit_transform(X)

# Когда использовать : Когда данные содержат выбросы или асимметричное распределение.
# Примеры : Линейные модели, SVM.

# MaxAbsScaler

In [None]:
# X / max(∣X∣)
# Недостатки : Чувствительна к выбросам.

scaler = MaxAbsScaler()
X_maxabs = scaler.fit_transform(X)

# Когда использовать : Когда данные не содержат нуля и не требуют центрирования.
# Примеры : Нейронные сети, алгоритмы, основанные на расстоянии (например, KNN).

# PowerTransformer (Yeo-Johnson или Box-Cox Transformation)

In [None]:
scaler = PowerTransformer(method = 'yeo-johnson')  # или method='box-cox'
X_power_transformed = scaler.fit_transform(X)

# Когда использовать : Когда данные имеют неположительные значения или асимметричное распределение.
# Примеры : Линейные модели, SVM.

# QuantileTransformer

In [None]:
scaler = QuantileTransformer(output_distribution='normal', random_state=42)
X_quantile_transformed = scaler.fit_transform(X)

# Когда использовать : Когда данные имеют асимметричное распределение или требуют улучшения нормальности.
# Примеры : Линейные модели, SVM, нейронные сети.

# L1 нормализация

In [None]:
data_normalized_l1 = normalize(df, norm = 'l1')

# L2 нормализация

In [None]:
data_normalized_l2 = normalize(df, norm = 'l2')

# Логарифмическое преобразование (Log Transformation)

In [None]:
X['area_log'] = np.log1p(X['area']) # добавляет 1 к каждому значению, чтобы исключить 0
X['area_log'] = np.log(X['area'])

# Квадратичное преобразование, квадратный корень (Square Root Transformation)

In [None]:
X['area_sqrt'] = np.sqrt(X['area'])

# Кубическое преобразование, кубический корень (Cube Root Transformation)

In [None]:
X['area_cbrt'] = np.cbrt(X['area'])

# Возведение в квадрат/куб (Quadratic/Cubic Transformation)

In [None]:
X['area_squared'] = X['area'] ** 2
X['area_cubed'] = X['area'] ** 3

# Полиномиальное преобразование (Polynomial Features)

In [None]:
from sklearn.preprocessing import PolynomialFeatures

# Создаём полиномиальные признаки степени 2
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly.fit_transform(X[['area', 'distance_to_metro']])

# Преобразуем массив обратно в DataFrame с соответствующими именами колонок
feature_names = poly.get_feature_names_out(['area', 'distance_to_metro'])
X_poly_df = pd.DataFrame(X_poly, columns=feature_names)

# Объединяем новые признаки с исходными данными
X = pd.concat([X, X_poly_df], axis=1)

# Синусоидальное / Косинусоидальное преобразование (Sine/Cosine Transformation)

In [None]:
X['area_sin'] = np.sin(X['area'])
X['area_cos'] = np.cos(X['area'])

## Обработка категориальных данных

In [None]:
# необходимые библиотеки
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

In [None]:
# переводит переменные в 0 и 1, а также числовые переменные в численные значения другого порядка
encoder = LabelEncoder()
df['CategoricalFare'] = encoder.fit_transform(df[['CategoricalFare']])
df.head()

In [None]:
# переводит переменные в 0 и 1 и создает дополнительные столбцы
enc = OneHotEncoder(handle_unknown='ignore')
enc_df = pd.DataFrame(enc.fit_transform(df[['Embarked']]).toarray())

df = df.join(enc_df)
df = df.drop(['Embarked'], axis = 1)
df.reset_index()
df.head()

In [None]:
Работа с признаками:
1. Label enc, OHE (один столбец убираем, заменяем на -1), mean enc
2. ⁠ln, степень, корень, бок кокс

4. ⁠Перемножение признаков.
5. ⁠бининг или квантование 

Для каких алгоритмов важно преобразование? Древовидные алгоритмы (деревья и бустинги) устойчивы к масштабу.

Изменение размерности:
1. Исключение признаков.
2. ⁠PCA, tsne, NCA
3. ⁠lasso
4. ⁠важность признаков