In [None]:
!git clone https://github.com/stuniy/SPO_PGU.git

Cloning into 'SPO_PGU'...
remote: Enumerating objects: 92, done.[K
remote: Counting objects: 100% (23/23), done.[K
remote: Compressing objects: 100% (23/23), done.[K
remote: Total 92 (delta 6), reused 0 (delta 0), pack-reused 69[K
Unpacking objects: 100% (92/92), done.


# Кодирование качественных признаков

Многие модели Data Mining, например, нейронные сети работают только с числовыми данными. Но в качестве исходных данных часто используются бинарные переменные (возможен только один из вариантов — истина или ложь) и
качественные переменные.

**Переменные качественного типа** — это переменные с конечным числом состояний. Причем нельзя ввести расстояние между состояниями. Примером качественной переменной может служить состояние больного — тяжелое, среднее, легкое. Нельзя сказать, что расстояние от легкого больного до среднего больше, меньше или равно расстоянию от среднего больного до тяжелого. Все качественные признаки можно в свою очередь разбить на:

1. Упорядоченные переменные (ординальные переменные — от англ. Order — порядок).
2. Неупорядоченные переменные (категориальные).

Для любых двух состояний **упорядоченной переменной** можно сказать, что одно из них предшествует другому. Тот факт, что состояние с1 c предшествует состоянию c2 обозначается следующим образом: с1<c2.
Примером упорядоченной переменной может служить состояние больного. Действительно, все состояния можно упорядочить по тяжести заболевания:

`легкий больной < средний больной < тяжелый больной`

Поэтому, упорядоченные частные признаки рекомендуется кодировать в виде двоичных векторов, имеющих стольких компонентов, сколько состояний у переменной. Но, в отличие от неупорядоченных переменных необходимо накапливать число единичных компонентов.

Например, если состояния качественной переменной упорядочены следующим образом:  c1<c2<…<cn, то состоянию c1 соответствует вектор [100...0], состоянию c2 соответствует вектор [110...0], состоянию cn соответствует вектор [111...1].

Переменные называются **неупорядоченными**, если никакие два состояния нельзя cвязать естественным в контексте задачи отношением порядка.

Примером неупорядоченного признака может служить ответ на вопрос "Ваш любимый цвет?". Неупорядоченные переменные обозначают один из классов, являются именами категорий. В нашем примере — это названия цветов. При кодировании бинарных признаков "ложь" кодируется как "-1" или "0", а "истина" — как "1".

Для кодирования n значений неупорядоченной переменной используется двоичный вектор из n компонентов. Первая категория кодируется как [100...0], вторая, соответственно — [010...0] и т. д., вплоть до n -ой категории: [000...1].

Часто характеристики задаются не как непрерывные значения, а как категориальные.

Например, человек может иметь функции [«male», «female»][«from Europe», «from US», «from Asia»], [«uses Firefox», «uses Chrome», «uses Safari», «uses Internet Explorer»]. Такие функции могут быть эффективно закодированы как целые числа, например [«male», «from US», «uses Internet Explorer»], может быть выражена как [0, 1, 3] в то время как [«female», «from Asia», «uses Chrome»] было бы [1, 2, 1].




## OrdinalEncoder

мы  будем работать с выборкой о `переписи взрослого населения`.

Как мы видим в выборке присутствуют и числовые и категораильные переменные, числовая переменная - это величина, представленная действительным или целым числом. Эти переменные могут естественным образом обрабатываться алгоритмами машинного обучения, которые обычно состоят из последовательности арифметических инструкций, таких как сложение и умножение.

Напротив, категориальные переменные имеют дискретные значения, обычно представленные строковыми метками (но не только), взятыми из конечного списка возможных вариантов. Например, переменная `native-country` в нашем наборе данных является категориальной переменной, поскольку она кодирует данные с использованием конечного списка возможных стран (наряду с ? символ, когда эта информация отсутствует):

In [None]:
import pandas as pd

df=pd.read_csv('/content/SPO_PGU/adult.csv')
df

Unnamed: 0,age,workclass,fnlwgt,education,education.num,marital.status,occupation,relationship,race,sex,capital.gain,capital.loss,hours.per.week,native.country,income
0,90,?,77053,HS-grad,9,Widowed,?,Not-in-family,White,Female,0,4356,40,United-States,<=50K
1,82,Private,132870,HS-grad,9,Widowed,Exec-managerial,Not-in-family,White,Female,0,4356,18,United-States,<=50K
2,66,?,186061,Some-college,10,Widowed,?,Unmarried,Black,Female,0,4356,40,United-States,<=50K
3,54,Private,140359,7th-8th,4,Divorced,Machine-op-inspct,Unmarried,White,Female,0,3900,40,United-States,<=50K
4,41,Private,264663,Some-college,10,Separated,Prof-specialty,Own-child,White,Female,0,3900,40,United-States,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,22,Private,310152,Some-college,10,Never-married,Protective-serv,Not-in-family,White,Male,0,0,40,United-States,<=50K
32557,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32558,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32559,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K


In [None]:
df["native.country"].value_counts().sort_index()

?                               583
Cambodia                         19
Canada                          121
China                            75
Columbia                         59
Cuba                             95
Dominican-Republic               70
Ecuador                          28
El-Salvador                     106
England                          90
France                           29
Germany                         137
Greece                           29
Guatemala                        64
Haiti                            44
Holand-Netherlands                1
Honduras                         13
Hong                             20
Hungary                          13
India                           100
Iran                             43
Ireland                          24
Italy                            73
Jamaica                          81
Japan                            62
Laos                             18
Mexico                          643
Nicaragua                   

Выберем объекты на основе их типа данных. Мы будем использовать вспомогательную функцию `scikit-learn` `make_column_selector`, которая позволяет нам выбирать столбцы на основе их типа данных. Мы проиллюстрируем, как использовать этот помощник.

In [None]:
from sklearn.compose import make_column_selector as selector

categorical_columns_selector = selector(dtype_include=object)
categorical_columns = categorical_columns_selector(df)
categorical_columns

['workclass',
 'education',
 'marital.status',
 'occupation',
 'relationship',
 'race',
 'sex',
 'native.country',
 'income']

In [None]:
df_cat = df[categorical_columns] #отберем только те столбцы в которых присутствует категориальная перемнная
df_cat.head()

Unnamed: 0,workclass,education,marital.status,occupation,relationship,race,sex,native.country,income
0,?,HS-grad,Widowed,?,Not-in-family,White,Female,United-States,<=50K
1,Private,HS-grad,Widowed,Exec-managerial,Not-in-family,White,Female,United-States,<=50K
2,?,Some-college,Widowed,?,Unmarried,Black,Female,United-States,<=50K
3,Private,7th-8th,Divorced,Machine-op-inspct,Unmarried,White,Female,United-States,<=50K
4,Private,Some-college,Separated,Prof-specialty,Own-child,White,Female,United-States,<=50K


Наиболее интуитивная стратегия заключается в кодировании каждой категории другим номером. `OrdinalEncoder` преобразует данные таким образом.

Чтобы преобразовать категориальные признаки в такие целочисленные коды, мы можем использовать расширение `OrdinalEncoder`. Этот оценщик преобразует каждую категориальную характеристику в одну новую характеристику целых чисел (от 0 до n_categories — 1).
Мы начнем с кодирования одного столбца, чтобы понять, как работает кодирование.

In [None]:
from sklearn.preprocessing import OrdinalEncoder

education_column = df_cat[["education"]]

print(df_cat['education'].unique()) #посмотрим какие виды образования присутствуют в выборке

encoder = OrdinalEncoder()   # вызываем кодировщик
encoder  = encoder.fit(df_cat[['education']])
df_cat['education'] = encoder.transform(df_cat[['education']])
df_cat


['HS-grad' 'Some-college' '7th-8th' '10th' 'Doctorate' 'Prof-school'
 'Bachelors' 'Masters' '11th' 'Assoc-acdm' 'Assoc-voc' '1st-4th' '5th-6th'
 '12th' '9th' 'Preschool']


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  if __name__ == '__main__':


Unnamed: 0,workclass,education,marital.status,occupation,relationship,race,sex,native.country,income
0,?,11.0,Widowed,?,Not-in-family,White,Female,United-States,<=50K
1,Private,11.0,Widowed,Exec-managerial,Not-in-family,White,Female,United-States,<=50K
2,?,15.0,Widowed,?,Unmarried,Black,Female,United-States,<=50K
3,Private,5.0,Divorced,Machine-op-inspct,Unmarried,White,Female,United-States,<=50K
4,Private,15.0,Separated,Prof-specialty,Own-child,White,Female,United-States,<=50K
...,...,...,...,...,...,...,...,...,...
32556,Private,15.0,Never-married,Protective-serv,Not-in-family,White,Male,United-States,<=50K
32557,Private,7.0,Married-civ-spouse,Tech-support,Wife,White,Female,United-States,<=50K
32558,Private,11.0,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,United-States,>50K
32559,Private,11.0,Widowed,Adm-clerical,Unmarried,White,Female,United-States,<=50K


Мы видим, что каждая категория в разделе "образование" была заменена числовым значением. Мы могли бы проверить соответствие между категориями и числовыми значениями, проверив соответствующий атрибут categories_.

In [None]:
print(encoder.categories_)
print(len(encoder.categories_[0]))
print(df_cat['education'].unique())
df_cat['education'].unique().size

[array(['10th', '11th', '12th', '1st-4th', '5th-6th', '7th-8th', '9th',
       'Assoc-acdm', 'Assoc-voc', 'Bachelors', 'Doctorate', 'HS-grad',
       'Masters', 'Preschool', 'Prof-school', 'Some-college'],
      dtype=object)]
16
[11. 15.  5.  0. 10. 14.  9. 12.  1.  7.  8.  3.  4.  2.  6. 13.]


16

Мы видим, что категории были закодированы для каждого объекта (столбца) независимо. Мы также отмечаем, что количество функций до и после кодирования одинаково.

Однако будьте осторожны при применении этой стратегии кодирования: использование этого целочисленного представления приводит к тому, что нижестоящие прогнозирующие модели предполагают, что значения упорядочены (например, 0 < 1 < 2 < 3 ...).

По умолчанию `OrdinalEncoder` использует лексикографическую стратегию для сопоставления меток строковых категорий с целыми числами. Эта стратегия произвольна и часто бессмысленна.

Например, предположим, что в наборе данных есть категориальная переменная с именем "size" с такими категориями, как “S”, “M”, “L”, “XL”. Мы хотели бы, чтобы целочисленное представление учитывало значение размеров, сопоставляя их с возрастающими целыми числами, такими как 0, 1, 2, 3. Однако лексикографическая стратегия, используемая по умолчанию, сопоставляет метки “S”, “M”, “L”, “XL” с 2, 1, 0, 3, следуя алфавитному порядку.

Класс `OrdinalEncoder `принимает аргумент конструктора `categories` для явной передачи категорий в ожидаемом порядке. При необходимости вы можете найти более подробную информацию в документации scikit-learn.

Если категориальная переменная не содержит какой-либо значимой информации о порядке, то эта кодировка может ввести в заблуждение нижестоящие статистические модели, и вы можете рассмотреть возможность использования вместо этого однократного кодирования.

## OneHotEncoder

OneHotEncoder - это альтернативный кодер, который не позволяет нижестоящим моделям делать ложные предположения о порядке категорий. Для данной функции будет создано столько новых столбцов, сколько существует возможных категорий. Для данной выборки значение столбца, соответствующего категории, будет установлено равным 1, в то время как для всех столбцов других категорий будет установлено значение 0.

Еще одна возможность преобразовать категориальные признаки в признаки, которые можно использовать с оценками `scikit-learn`, — это использовать кодировку «один из K», также известную как одноразовое или фиктивное кодирование. Этот тип кодирования может быть получен с помощью `OneHotEncoder`.
Взгляните на эту диаграмму, чтобы лучше понять:

![img](https://drive.google.com/uc?id=14XiZUQQEX0B6uQWRTWITpeCaDEgAEwvf)

Мы начнем с кодирования одной функции (например, "образование"), чтобы проиллюстрировать, как работает кодирование.

Одно горячее кодирование полезно для данных, не связанных друг с другом. Алгоритмы машинного обучения рассматривают порядок чисел как атрибут значимости. Другими словами, они будут считать большее число лучше или более важным, чем меньшее число.

Хотя это полезно для некоторых порядковых ситуаций, некоторые входные данные не имеют ранжирования для значений категорий, и это может привести к проблемам с прогнозами и низкой производительности. Вот когда одно горячее кодирование спасает положение.

Одно горячее кодирование делает наши обучающие данные более полезными и выразительными, и их можно легко масштабировать. Используя числовые значения, нам легче определить вероятность наших значений. В частности, для наших выходных значений используется одна горячая кодировка, поскольку она обеспечивает более детализированные прогнозы, чем отдельные метки.


In [None]:
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder(sparse=False)
encoder  = encoder.fit(df_cat[['education']])
education_encoded  = encoder.transform(df_cat[['education']])
education_encoded


array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 1.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

Мы видим, что кодирование одного объекта даст массив `NumPy`, полный нулей и единиц. Мы можем получить лучшее представление, используя связанные имена объектов, полученные в результате преобразования.

In [None]:
feature_names = encoder.get_feature_names_out(input_features=["education"]) # получаем виды образования и на их основе создаем столбцы
education_encoded = pd.DataFrame(education_encoded, columns=feature_names)
education_encoded

Unnamed: 0,education_10th,education_11th,education_12th,education_1st-4th,education_5th-6th,education_7th-8th,education_9th,education_Assoc-acdm,education_Assoc-voc,education_Bachelors,education_Doctorate,education_HS-grad,education_Masters,education_Preschool,education_Prof-school,education_Some-college
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
3,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
32557,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
32558,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
32559,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0


In [None]:
df_cat_new=df_cat.join(education_encoded)
df_cat_new=df_cat_new.drop(df_cat_new[['education']],axis=1)
df_cat_new

Unnamed: 0,workclass,marital.status,occupation,relationship,race,sex,native.country,income,education_10th,education_11th,...,education_9th,education_Assoc-acdm,education_Assoc-voc,education_Bachelors,education_Doctorate,education_HS-grad,education_Masters,education_Preschool,education_Prof-school,education_Some-college
0,?,Widowed,?,Not-in-family,White,Female,United-States,<=50K,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
1,Private,Widowed,Exec-managerial,Not-in-family,White,Female,United-States,<=50K,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
2,?,Widowed,?,Unmarried,Black,Female,United-States,<=50K,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
3,Private,Divorced,Machine-op-inspct,Unmarried,White,Female,United-States,<=50K,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,Private,Separated,Prof-specialty,Own-child,White,Female,United-States,<=50K,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,Private,Never-married,Protective-serv,Not-in-family,White,Male,United-States,<=50K,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
32557,Private,Married-civ-spouse,Tech-support,Wife,White,Female,United-States,<=50K,0.0,0.0,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
32558,Private,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,United-States,>50K,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
32559,Private,Widowed,Adm-clerical,Unmarried,White,Female,United-States,<=50K,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0


Этот способ не всегда лучше Ярлычного кодирования (Label Encoding), хотя бы потому, что является низкоэффективным способом хранения данных (число столбцов резко увеличивается). Просто у него своя специализация.

## Label Encoding

Этот подход очень прост и включает в себя преобразование каждого значения в столбце в число.

In [None]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()   # вызываем кодировщик
encoder  = encoder.fit(df_cat[['race']])
df_cat['race'] = encoder.transform(df_cat[['race']])
df_cat

  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """


Unnamed: 0,workclass,education,marital.status,occupation,relationship,race,sex,native.country,income
0,?,HS-grad,Widowed,?,Not-in-family,4,Female,United-States,<=50K
1,Private,HS-grad,Widowed,Exec-managerial,Not-in-family,4,Female,United-States,<=50K
2,?,Some-college,Widowed,?,Unmarried,2,Female,United-States,<=50K
3,Private,7th-8th,Divorced,Machine-op-inspct,Unmarried,4,Female,United-States,<=50K
4,Private,Some-college,Separated,Prof-specialty,Own-child,4,Female,United-States,<=50K
...,...,...,...,...,...,...,...,...,...
32556,Private,Some-college,Never-married,Protective-serv,Not-in-family,4,Male,United-States,<=50K
32557,Private,Assoc-acdm,Married-civ-spouse,Tech-support,Wife,4,Female,United-States,<=50K
32558,Private,HS-grad,Married-civ-spouse,Machine-op-inspct,Husband,4,Male,United-States,>50K
32559,Private,HS-grad,Widowed,Adm-clerical,Unmarried,4,Female,United-States,<=50K


In [None]:
print(encoder.classes_)
print(len(encoder.classes_))
print(df_cat['race'].unique())
df_cat['race'].unique().size

['Amer-Indian-Eskimo' 'Asian-Pac-Islander' 'Black' 'Other' 'White']
5
[4 2 1 3 0]


5

В целом, это и есть кодирование признаков. Но в зависимости от данных это преобразование создаёт новую проблему. Мы перевели набор стран в набор чисел. Но это всего лишь категориальные данные, и между числами на самом деле нет никакой связи.


Проблема здесь в том, что, поскольку разные числа в одном столбце, модель неправильно подумает, что данные находятся в каком-то особом порядке — 0 < 1 < 2 Хотя это, конечно, совсем не так.

# Масштабирование признаков

Ряд методов машинного обучения, например линейная и логистическая регрессии, кластерный анализ,
нейронные сети и SVM, чувствительны к масштабу признаков. Если не привести признаки к единому масштабу, то прогноз будут определять признаки, имеющие наибольшую разрядность и соответственно наибольшую дисперсию.

Поэтому обычной практикой является преобразование признаков, с тем чтобы итоговое представление данных было более подходящим для использования вышеупомянутых алгоритмов. Часто достаточно процедуры приведения признаков к единому масштабу, которую называют масштабированием (scaling) или стандартизацией (standardization).

Для кластерного анализа он помогает сделать признаки равноправными в образовании кластеров. В методе опорных векторов единый масштаб дает признакам одинаковое влияние при вычислении расстояния между разделяющей гиперплоскостью и объектами разделяемых классов. Для регрессионного анализа единый масштаб позволяет сравнивать регрессионные коэффициенты между собой при признаках и
корректно применять регуляризацию.

А вот деревьям решений стандартизация не нужна. Деревья вместо абсолютных значений работают с пороговыми значениями – разделяющими значениями признаков, по которым разбивают выборку наблюдений на два узла (если деревья являются бинарными, например деревья CART, QUEST) и более
(если деревья могут иметь более двух потомков, например CHAID). Допустим, дерево принимает решение разбить выборку по признаку Возраст в значении 60, мы сравниваем все наблюдения с этим порогом, наблюдения <= 60 лет
идут в левый узел, а наблюдения > 60 лет – в правый узел.



Стандартизация наборов данных является общим требованием для многих методов машинного обучения, реализованных в scikit-learn; они могут вести себя плохо, если отдельные показатели не выглядят как стандартные нормально распределенные данные: гауссовские с нулевым средним и единичной дисперсией.


Известны два способа масштабирования: масштабирование по минимаксу (`min max scaling`), или нормализация (`normalization`) и стандартизация (`standardization, StandardScaling`, называемая также `Z-score normalization`). Нормализация — это приведение переменных к одному диапазону. Стандартизация — преобразование переменных к значениям с нулевым математическим ожиданием и единичной дисперсией.

Стандартизированное значение признака рассчитывается следующим образом

![img](https://drive.google.com/uc?id=1vwLIu2t_OikyRemsyfi2IJrI2l7ers1m)

В стандартизации нуждаются лишь количественные переменные. Если речь идет о регрессионном анализе, категориальные переменные будут записаны в виде дамми-переменных со значениями 0 или 1 и дамми-переменные стандартизировать не нужно. В случае присутствия дамми-переменных рекомендуется при выполнении стандартизации количественных переменных делить не на одно, а на два стандартных отклонения, чтобы и дамми-переменные, и количественные переменные имели один и тот же масштаб (и мы могли срав- нивать коэффициенты при них), стандартные отклонения дамми-переменных и
количественных переменных будут примерно равны 0,5, в противном случае стандартные отклонения дамми-переменных будут равны 0,5, а стандартные отклонения количественных переменных – 1.

Обратите внимание: стандартизация не меняет форму распределения и не заменяет собой нормализацию
распределения переменных, если переменная арактеризовалась правосторонней асимметрией, эта асимметрия так останется и после стандартизации. Также следует отметить, что ни один из способов стандартизации не в состоянии удалить выбросы и стандартизация всегда проводится после обработки выбросов.


Модуль` preprocessing` предоставляет `StandardScaler` вспомогательный класс, который является быстрым и простым способом, чтобы выполнить следующую операцию на массив-типа набора данных:


In [None]:
from sklearn.preprocessing import StandardScaler
import numpy as np
X_train = np.array([[ 1., -1.,  2.],
                     [ 2.,  0.,  0.],
                     [ 0.,  1., -1.]])

scaler = StandardScaler()
scaler.fit(X_train)
print('Математическое ожидание')
print(scaler.mean_)

print('Дисперсия')
print(scaler.var_)

print('Преобразованный набор')
print(scaler.transform(X_train))


Математическое ожидание
[1.         0.         0.33333333]
Дисперсия
[0.66666667 0.66666667 1.55555556]
Преобразованный набор
[[ 0.         -1.22474487  1.33630621]
 [ 1.22474487  0.         -0.26726124]
 [-1.22474487  1.22474487 -1.06904497]]


##MinMaxScaler  
Альтернативная стандартизация — это масштабирование функций таким образом, чтобы они находились между заданным минимальным и максимальным значением, часто между нулем и единицей, или так, чтобы максимальное абсолютное значение каждой функции масштабировалось до размера единицы. Этого можно добиться с помощью MinMaxScaler или MaxAbsScaler соответственно.

Мотивация к использованию этого масштабирования включает устойчивость к очень небольшим стандартным отклонениям функций и сохранение нулевых записей в разреженных данных.
Если   — допустимый диапазон изменения масштабируемых признаков, то масштабирование описывается формулой

![img](https://drive.google.com/uc?id=1jCgK2nV0D-fWvrPD1Ib_cQPPqXagOGCV)

In [None]:
from sklearn.preprocessing import MinMaxScaler
X_train = np.array([[ 1., -1.,  2.],
                 [ 2.,  0.,  0.],
                 [ 0.,  1., -1.]])

min_max_scaler = MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train)
X_train_minmax


array([[0.5       , 0.        , 1.        ],
       [1.        , 0.5       , 0.33333333],
       [0.        , 1.        , 0.        ]])

## MaxAbsScaler
Она работает очень похожим образом, но масштабируется таким образом, что обучающие данные лежат в пределах диапазона [-1, 1], путем деления на наибольшее максимальное значение в каждой функции. Он предназначен для данных, которые уже сосредоточены на нуле или разреженных данных.
Вот как использовать данные игрушки из предыдущего примера с этим скейлером:


In [None]:
from sklearn.preprocessing import MaxAbsScaler
X_train = np.array([[ 1., -1.,  2.],
                     [ 2.,  0.,  0.],
                     [ 0.,  1., -1.]])

max_abs_scaler = MaxAbsScaler()
X_train_maxabs = max_abs_scaler.fit_transform(X_train)
X_train_maxabs


array([[ 0.5, -1. ,  1. ],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  1. , -0.5]])

## Нормализация
 это процесс масштабирования отдельных образцов до единичной нормы. Этот процесс может быть полезен, если вы планируете использовать квадратичную форму, такую как скалярное произведение или любое другое ядро, для количественной оценки подобия любой пары образцов.

Это предположение является основой модели векторного пространства, часто используемой в контекстах классификации и кластеризации текста.

Функция normalize обеспечивает быстрый и простой способ для выполнения этой операции на одном массиве, как набор данных, либо с помощью l1, l2 или max нормы:


In [None]:
from sklearn import preprocessing
X = [[ 1., -1.,  2.],
      [ 2.,  0.,  0.],
     [ 0.,  1., -1.]]
X_normalized = preprocessing.normalize(X, norm='l2')
X_normalized

array([[ 0.40824829, -0.40824829,  0.81649658],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

## Домашнее задания

1. Загрузить выборку с сайта Kaggle.com.
2. Провести анализ полученной выборки на наличие категориальных и числовых данных.
3. Провести обработку категориальных признаков
4. Привести числовых категориальных признаков.
