**Вам нужно изменить масштаб значений числового признака, чтобы они находились между двумя значениями.**

In [5]:
import numpy as np
from sklearn import preprocessing
# Create feature
feature = np.array([[-500.5],
                    [-100.1],
                    [0],
                    [100.1],
                    [900.9]])
# Create scaler
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0, 1))
scaled_feature = minmax_scale.fit_transform(feature)
# Show feature
scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

Минимальное-максимальное масштабирование использует
минимальное и максимальное значения объекта для масштабирования значений в пределах диапазона.
В частности, min-max вычисляет:

xi' = (xi-min(x))/(max(x)-min(x))

[0,1,2,3] -> [0, 1/3, 2/3, 1]

scikit-learn MinMaxScaler предлагает два варианта масштабирования объекта. Один из вариантов
- использовать fit для вычисления минимального и максимального значений объекта, а затем использовать transform для изменения масштаба объекта. 
- Второй вариант - использовать fit_transform для выполнения обеих операций одновременно. Математической разницы между этими двумя вариантами нет, но иногда есть практическая выгода в разделении операций, поскольку это позволяет нам применять одни и те же преобразование в различные наборы данных.

**Вы хотите преобразовать объект так, чтобы среднее значение было равно 0, а стандартное отклонение -1**

Стандартное отклонение – это статистическая единица, которая представляет собой вариацию данных, то есть отображает отклонение значений данных от центрального значения (среднего значения данных).

In [12]:
# Create feature
x = np.array([[-1000.1],
[-200.2],
[500.5],
[600.6],
[9000.9]])
# Create scaler
scaler = preprocessing.StandardScaler()
# Transform the feature
standardized = scaler.fit_transform(x)
# Show feature
standardized
#standardized.mean() #4.4408920985006264e-17
#standardized.std()  #1.0

array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

xi' = (xi - <u>x</u>) / σ, где <u>x</u> -среднее

Если наши данные содержат значительные отклонения, это может негативно сказаться на нашей стандартизации, влияя на среднее значение и дисперсию признака. В этом случае часто бывает полезно
вместо этого изменить масштаб объекта, используя медиану и квартильный диапазон.
Квартиль - верхний - ниже - 75% признака; нижний - ниже - 25%

In [13]:
robust_scaler = preprocessing.RobustScaler()
# Transform feature
new = robust_scaler.fit_transform(x)
new

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

**Вы хотите изменить масштаб значений признаков наблюдений, чтобы они имели единичную норму (общая длина равна 1).**

In [33]:
from sklearn.preprocessing import Normalizer
features = np.array([[0.5, 0.5],
[1.1, 3.4],
[1.5, 20.2],
[1.63, 34.4],
[10.9, 3.3]])
# Create normalizer
normalizer = Normalizer(norm="l2")
# Transform feature matrix
normalizer.transform(features)

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

Многие методы масштабирования (например, минимальное-максимальное масштабирование и стандартизация) работают с
объектами; однако мы также можем масштабировать отдельные наблюдения.
Нормализатор масштабирует значения отдельных наблюдений таким образом, чтобы они имели единичную норму
(сумма их длин равна 1). Этот тип масштабирования часто используется, когда у нас есть
много эквивалентных функций (например, классификация текста, когда каждое слово или
группа из n слов является функцией).
Нормализатор предоставляет три варианта нормы с евклидовой нормой (часто называемой L2)
в качестве аргумента по умолчанию:

In [34]:
# Transform feature matrix
features_l1_norm = Normalizer(norm="l1").transform(features)
# Show feature matrix
features_l1_norm

array([[0.5       , 0.5       ],
       [0.24444444, 0.75555556],
       [0.06912442, 0.93087558],
       [0.04524008, 0.95475992],
       [0.76760563, 0.23239437]])

Интуитивно норму L2 можно рассматривать как расстояние между двумя точками в
Нью-Йорк для птицы (т.е. прямая линия), в то время как L1 можно рассматривать как
расстояние для человека, идущего по улице (пройдите один квартал на север, один квартал на восток, один квартал
на север, один квартал на восток и т.д.), вот почему это называется “Manhattan нормой” или “Taxicab norm”.

**Вы хотите создать полиномиальные функции и функции взаимодействия.**

In [36]:
from sklearn.preprocessing import PolynomialFeatures
# Create feature matrix
features = np.array([[1, 3],
[2, 3],
[4, 6]])
# Create PolynomialFeatures object
polynomial_interaction = PolynomialFeatures(degree=2, include_bias=False)
# Create polynomial features
polynomial_interaction.fit_transform(features)

array([[ 1.,  3.,  1.,  3.,  9.],
       [ 2.,  3.,  4.,  6.,  9.],
       [ 4.,  6., 16., 24., 36.]])

Полиномиальные объекты - это те объекты, которые создаются путем возведения существующих объектов в степень.

Например, если набор данных имел один входной объект X, то полиномиальным объектом было бы добавление нового объекта (столбца), значения которого вычислялись путем возведения значений в квадрат в X, например X ^ 2. Этот процесс можно повторить для каждой входной переменной в наборе данных, создав преобразованную версию каждой.

Как таковые, полиномиальные объекты являются одним из видов проектирования объектов, например, создание новых входных объектов на основе существующих объектов.

“Степень” полинома используется для управления количеством добавляемых объектов, например, степень 3 добавит две новые переменные для каждой входной переменной. Обычно используется небольшая степень, например 2 или 3.
Также часто добавляют новые переменные, которые представляют взаимодействие между объектами, например, новый столбец, представляющий одну переменную, умноженную на другую. Это тоже можно повторить для каждой входной переменной, создавая новую переменную “взаимодействия” для каждой пары входных переменных.

Возведенная в квадрат или куб версия входной переменной изменит распределение вероятностей, разделяя малые и большие значения, разделение, которое увеличивается с увеличением размера экспоненты.

Такое разделение может помочь некоторым алгоритмам машинного обучения делать лучшие прогнозы и является общим для задач моделирования с регрессионным прогнозом и, как правило, задач, которые имеют числовые входные переменные.

Обычно линейные алгоритмы, такие как линейная регрессия и логистическая регрессия, хорошо реагируют на использование полиномиальных входных переменных.

*Полиномиальная регрессия расширяет линейную модель за счет добавления дополнительных предикторов, полученных путем возведения каждого из исходных предикторов в степень. Например, кубическая регрессия использует три переменные, X, X2 и X3, в качестве предикторов. Этот подход обеспечивает простой способ обеспечить нелинейную подгонку к данным.*

Параметр degree определяет максимальную степень многочлена.
Например, degree=2 создаст новые функции, возведенные во вторую степень:
x1,x2,x1^2,x2^2

Кроме того, по умолчанию PolynomialFeatures включает в себя функции взаимодействия:

x1x2

Мы можем ограничить созданные функции только функциями взаимодействия, установив значение
interaction_only равным True:

In [37]:
interaction = PolynomialFeatures(degree=2,
interaction_only=True, include_bias=False)
interaction.fit_transform(features)

array([[ 1.,  3.,  3.],
       [ 2.,  3.,  6.],
       [ 4.,  6., 24.]])

Полиномиальные объекты часто создаются, когда мы хотим включить представление о том, что
существует нелинейная взаимосвязь между объектами и целью.
Например, мы могли бы заподозрить, что влияние возраста на вероятность наличия серьезного заболевания не является постоянным с течением времени, а увеличивается с возрастом. 
Мы можем закодировать этот непостоянный эффект в объекте x, сгенерировав формы этого объекта более высокого порядка (x2, x3 и т.д.).

Кроме того, часто мы сталкиваемся с ситуациями, когда эффект одной функции зависит от другой функции. 
Простым примером было бы, если бы мы пытались
предсказать, был ли наш кофе сладким или нет, и у нас были две характеристики: 1) был ли
кофе размешан или нет, и 2) добавили ли мы сахар. По отдельности каждая характеристика
не предсказывает сладость кофе, но комбинация их эффектов предсказывает. То
есть кофе был бы сладким только в том случае, если бы в нем был сахар и он был размешан.
Влияние каждого признака на целевой показатель (сладость) зависит друг от друга. Мы
можем закодировать эту взаимосвязь, включив функцию взаимодействия, которая является
продуктом отдельных функций.

**Вы хотите выполнить пользовательское преобразование для одного или нескольких объектов.**
В scikit-learn используйте FunctionTransformer, чтобы применить функцию к набору
функций:

In [39]:
from sklearn.preprocessing import FunctionTransformer
# Create feature matrix
features = np.array([[2, 3],
[2, 3],
[2, 3]])
# Define a simple function
def add_ten(x):
    return x + 10
# Create transformer
ten_transformer = FunctionTransformer(add_ten)
# Transform feature matrix
ten_transformer.transform(features)

array([[12, 13],
       [12, 13],
       [12, 13]])

Мы можем создать такое же преобразование в pandas, используя apply:

In [40]:
import pandas as pd
# Create DataFrame
df = pd.DataFrame(features, columns=["feature_1", "feature_2"])
# Apply function
df.apply(add_ten)

Unnamed: 0,feature_1,feature_2
0,12,13
1,12,13
2,12,13


Обычно возникает желание внести некоторые пользовательские преобразования в один или несколько
объектов. Например, мы могли бы захотеть создать объект, который является естественным логарифмом
значений другого объекта. Мы можем сделать это, создав функцию и затем
сопоставив ее с функциями, используя либо FunctionTransformer от scikit-learn, либо
apply от pandas. В решении мы создали очень простую функцию add_ten,
которая добавляла 10 к каждому входному сигналу, но нет причин, по которым мы не могли бы определить гораздо
более сложную функцию.

**Вы хотите выявить экстремальные наблюдения (выбросы).**

Обнаружение выбросов, к сожалению, является скорее искусством, чем наукой. Однако
распространенный метод состоит в том, чтобы предположить, что данные распределены нормально, и на основе этого
предположения “нарисовать” эллипс вокруг данных, классифицируя любое наблюдение внутри
эллипса как входное (помеченное как 1), а любое наблюдение за пределами эллипса как
выброс (помеченный как -1):

In [41]:
from sklearn.covariance import EllipticEnvelope
from sklearn.datasets import make_blobs
# Create simulated data

features, _ = make_blobs(n_samples = 10, 
                #Общее количество сэмплов, которые нужно сгенерировать.
n_features = 2, #Количество функций для каждого образца.
                         
centers = 1, #1 выборка or Количество центров выборки 
#(категорий), которые необходимо создать, или определенная центральная точка.
random_state = 1) 
#
# Замените значения первого наблюдения экстремальными значениями
features[0,0] = 10000
features[0,1] = 10000
# Create detector
outlier_detector = EllipticEnvelope(contamination=.1)
# Fit detector
outlier_detector.fit(features)
# Predict outliers
outlier_detector.predict(features)

array([-1,  1,  1,  1,  1,  1,  1,  1,  1,  1])

Основным ограничением этого подхода является необходимость указания
параметра загрязнения, который представляет собой долю наблюдений, являющихся выбросами, — значение, которое мы не знаем. Думайте о загрязнении как о нашей оценке чистоты
наших данных. Если мы ожидаем, что в наших данных будет мало выбросов, мы можем установить загрязнение
на что-то незначительное. Однако, если мы считаем, что данные, скорее всего, содержат
выбросы, мы можем установить для них более высокое значение.

Вместо того чтобы рассматривать наблюдения в целом, мы можем вместо этого рассмотреть отдельные
признаки и определить экстремальные значения в этих признаках, используя межквартильный диапазон
(IQR):

In [None]:
# Create one feature
feature = features[:,0]
# Create a function to return index of outliers
def indicies_of_outliers(x):
q1, q3 = np.percentile(x, [25, 75])
iqr = q3 - q1
lower_bound = q1 - (iqr * 1.5)
upper_bound = q3 + (iqr * 1.5)
return np.where((x > upper_bound) | (x < lower_bound))
# Run function
indicies_of_outliers(feature)

IQR - это разница между первым и третьим квартилем набора данных. Вы можете
думать о IQR как о разбросе основной массы данных, при этом выбросы представляют
собой наблюдения вдали от основной концентрации данных. Выбросы обычно
определяются как любое значение, на 1,5 МКР меньше первого квартиля или на 1,5 МКР больше
третьего квартиля.

Не существует единого наилучшего метода обнаружения выбросов. Вместо этого у нас есть
набор методик, каждая из которых имеет свои преимущества и недостатки. Наша
лучшая стратегия часто заключается в том, чтобы испробовать несколько методов (например, как EllipticEnvelope, так
и обнаружение на основе IQR) и посмотреть на результаты в целом.
Если это вообще возможно, мы должны взглянуть на наблюдения, которые мы обнаруживаем как выбросы, и
попытаться понять их. Например, если у нас есть набор данных о домах и один особенностью является количество комнат, является ли выброс со 100 номерами действительно домом или это
на самом деле отель, который был неправильно классифицирован?

**Обработка выбросов**

Обычно у нас есть три стратегии, которые мы можем использовать для обработки выбросов. Во-первых, мы можем
отбросить их:

In [43]:
# Create DataFrame
houses = pd.DataFrame()
houses['Price'] = [534433, 392333, 293222, 4322032]
houses['Bathrooms'] = [2, 3.5, 2, 116]
houses['Square_Feet'] = [1500, 2500, 1500, 48000]
# Filter observations
houses[houses['Bathrooms'] < 20]


Unnamed: 0,Price,Bathrooms,Square_Feet
0,534433,2.0,1500
1,392333,3.5,2500
2,293222,2.0,1500


Во-вторых, мы можем пометить их как выбросы и включить это в качестве функции:

In [44]:

# Create feature based on boolean condition
houses["Outlier"] = np.where(houses["Bathrooms"] < 20, 0, 1)
# Show data
houses

Unnamed: 0,Price,Bathrooms,Square_Feet,Outlier
0,534433,2.0,1500,0
1,392333,3.5,2500,0
2,293222,2.0,1500,0
3,4322032,116.0,48000,1


Наконец, мы можем преобразовать функцию, чтобы ослабить эффект выброса:

In [45]:
# Log feature
houses["Log_Of_Square_Feet"] = [np.log(x) for x in houses["Square_Feet"]]
# Show data
houses

Unnamed: 0,Price,Bathrooms,Square_Feet,Outlier,Log_Of_Square_Feet
0,534433,2.0,1500,0,7.31322
1,392333,3.5,2500,0,7.824046
2,293222,2.0,1500,0,7.31322
3,4322032,116.0,48000,1,10.778956


Подобно обнаружению выбросов, не существует жесткого правила для их обработки.
То, как мы с ними справляемся, должно основываться на двух аспектах. Во-первых, мы должны рассмотреть, что выделяет их из общей массы.
Если мы считаем, что это ошибки в данных, например,
из-за неисправности датчика или неправильно закодированного значения, тогда мы можем исключить наблюдение
или заменить значения выбросов на NaN, поскольку мы не можем поверить этим значениям. Однако,
если мы считаем, что выбросы являются подлинными экстремальными значениями (например, house [mansion]
с 200 ванными комнатами), затем помечая их как выбросы или изменяя их значения это более уместно.

Во-вторых, то, как мы обрабатываем выбросы, должно основываться на нашей цели машинного
обучения. Например, если мы хотим спрогнозировать цены на жилье на основе характеристик дома
, мы могли бы разумно предположить, что цена на особняки с более чем 100
ванными комнатами определяется иной динамикой, чем на обычные семейные дома.
Более того, если мы разрабатываем модель для использования в рамках онлайн-заявки на получение ипотечного кредита
, мы могли бы предположить, что среди наших потенциальных пользователей не будет
миллиардеров, желающих купить особняк.

Итак, что нам следует делать, если у нас есть выбросы? Подумайте о том, почему они являются выбросами,
имейте в виду конечную цель для данных и, самое главное, помните, что *непринятие решения об устранении выбросов само по себе является решением, имеющим последствия.*

Еще один момент: если у вас действительно есть выбросы, стандартизация может оказаться
неуместной, поскольку выбросы могут сильно влиять на среднее значение и дисперсию
. В этом случае используйте метод масштабирования, более надежный по отношению к выбросам, таким как
RobustScaler.

**Дискретизирующие функции**

**У вас есть числовой признак, и вы хотите разбить его на отдельные ячейки.**

В зависимости от того, как мы хотим разбить данные, мы
можем использовать два метода. Во-первых, мы можем бинаризировать функцию в соответствии с некоторым пороговым значением:

In [53]:
from sklearn.preprocessing import Binarizer
# Create feature
age = np.array([[6],
[12],
[20],
[36],
[65]])
# Create binarizer
binarizer = Binarizer(threshold=18)
# Transform feature
binarizer.fit_transform(age)


array([[0],
       [0],
       [1],
       [1],
       [1]])

Во-вторых, мы можем разбить числовые характеристики в соответствии с несколькими пороговыми значениями:

In [54]:
# Bin feature
np.digitize(age, bins=[20,30,64])

array([[0],
       [0],
       [1],
       [2],
       [3]])

!!! в группах числа меньше порогового значения

Обратите внимание, что аргументы для параметра bins обозначают левый край каждой ячейки.
Например, аргумент 20 не включает элемент со значением 20,
только два значения меньше 20. Мы можем изменить это поведение, установив
для параметра right значение True:

In [55]:
np.digitize(age, bins=[20,30,64], right=True)

array([[0],
       [0],
       [0],
       [2],
       [3]])

Дискретизация может быть плодотворной стратегией, когда у нас есть основания полагать, что
числовой признак должен вести себя больше как категориальный признак. Например,
мы могли бы полагать, что существует очень небольшая разница в привычках тратить деньги у 19- и
20-летних, но значительная разница между 20- и 21-летними (возраст
в Соединенных Штатах, когда молодые люди могут употреблять алкоголь). В этом примере было
бы полезно разделить людей в наших данных на тех, кто может употреблять
алкоголь, и тех, кто не может. Аналогично, в других случаях может оказаться
полезным распределить наши данные по трем или более ячейкам.

**Группировка наблюдений с использованием кластеризации**

**Вы хотите сгруппировать наблюдения таким образом, чтобы похожие наблюдения были сгруппированы
вместе.**

Если известно, что есть к групп, можно сгруппировать похожие наблюдения с помощью кластеризации к-средних

In [58]:
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
# Make simulated feature matrix
features, _ = make_blobs(n_samples = 50,
n_features = 2,
centers = 3,
random_state = 1)
# Create DataFrame
dataframe = pd.DataFrame(features, columns=["feature_1", "feature_2"])
# Make k-means clusterer
clusterer = KMeans(3, random_state=0)
# Fit clusterer
clusterer.fit(features)
# Predict values
dataframe["group"] = clusterer.predict(features)
# View first few observations
dataframe.head(5)

  super()._check_params_vs_input(X, default_n_init=10)


Unnamed: 0,feature_1,feature_2,group
0,-9.877554,-3.336145,2
1,-7.28721,-8.353986,0
2,-6.943061,-7.023744,0
3,-7.440167,-8.791959,0
4,-6.641388,-8.075888,0


**Удаление наблюдений с пропущенными значениями**

In [59]:
# Create feature matrix
features = np.array([[1.1, 11.1],
[2.2, 22.2],
[3.3, 33.3],
[4.4, 44.4],
[np.nan, 55]])
# Keep only observations that are not (denoted by ~) missing
features[~np.isnan(features).any(axis=1)]

array([[ 1.1, 11.1],
       [ 2.2, 22.2],
       [ 3.3, 33.3],
       [ 4.4, 44.4]])

In [60]:
# Load data
dataframe = pd.DataFrame(features, columns=["feature_1", "feature_2"])
# Remove observations with missing values
dataframe.dropna()

Unnamed: 0,feature_1,feature_2
0,1.1,11.1
1,2.2,22.2
2,3.3,33.3
3,4.4,44.4


Большинство алгоритмов машинного обучения не могут обработать какие-либо пропущенные значения в целевых
массивах и массивах объектов. По этой причине мы не можем игнорировать пропущенные значения в наших данных
и должны устранить проблему во время предварительной обработки.
Самое простое решение - удалить каждое наблюдение, содержащее одно или несколько
пропущенных значений, задача, быстро и легко решаемая с помощью NumPy или pandas.
Тем не менее, мы должны очень неохотно удалять наблюдения с пропущенными
значениями. Удаление их является основным вариантом, поскольку наш алгоритм теряет доступ к
информации, содержащейся в не пропущенных значениях наблюдения.

Существует три типа недостающих
данных:

Пропущено совершенно случайным образом (MCAR)
Вероятность того, что значение отсутствует, не зависит ни от чего.
Например, респондентка бросает кубик, прежде чем ответить на вопрос: если она
бросает шестерку, она пропускает этот вопрос.

Пропущенный наугад (МАРТ)
Вероятность того, что значение отсутствует, не является полностью случайной, но
зависит от информации, собранной в других функциях. Например, в ходе опроса
задается вопрос о гендерной идентичности и годовой заработной плате, и женщины с большей вероятностью
пропускают вопрос о зарплате; однако их отсутствие ответа зависит только от информация, которую мы зафиксировали в нашей функции гендерной идентичности.

Пропущенный не случайно (MNAR)
Вероятность того, что значение отсутствует, не случайна и зависит от
информации, не отраженной в наших функциях. Например, в опросе задается вопрос о
гендерной идентичности, и женщины с большей вероятностью пропускают вопрос о зарплате, а
в наших данных нет элемента гендерной идентичности.
Иногда допустимо удалять наблюдения, если они относятся к MCAR или MAR.

Однако, если значение равно MNAR, тот факт, что значение отсутствует, сам
по себе является информацией. Удаление наблюдений MNAR может внести искажение в наши данные, поскольку
мы удаляем наблюдения, вызванные каким-либо ненаблюдаемым систематическим эффектом.

*Identifying the Three Types of Missing Data*

*Missing-Data Imputation*

**Вычисление пропущенных значений**

У вас в данных отсутствуют значения, и вы хотите заполнить или спрогнозировать их значения.

Если у вас небольшой объем данных, спрогнозируйте недостающие значения, используя k-ближайших
соседей (KNN):

In [23]:
# Загрузить библиотеку
from sklearn.impute import KNNImputer
# Make a simulated feature matrix
features, _ = make_blobs(n_samples = 1000,
n_features = 2,
random_state = 1)
scaler = StandardScaler()
standardized_features = scaler.fit_transform(features)
# Заменить первое значение первого признака на пропущенное значение
true_value = standardized_features[0,0]
standardized_features[0,0] = np.nan
features

array([[-3.05837272,  4.48825769],
       [-8.60973869, -3.72714879],
       [ 1.37129721,  5.23107449],
       ...,
       [-1.91854276,  4.59578307],
       [-1.79600465,  4.28743568],
       [-6.97684609, -8.89498834]])

In [24]:
imputer = KNNImputer(n_neighbors=2, weights="uniform")
knn_impost = imputer.fit_transform(standardized_features)

In [25]:
print(true_value)
print(knn_impost[0,0])

0.8730186113995938
1.165654174300821


Класс SimpleImputer предоставляет основные стратегии для восстановления отсутствующих значений. Пропущенные значения могут быть восстановлены с использованием предоставленного постоянного значения или с использованием статистики (среднего, медианного или наиболее частого) каждого столбца, в котором находятся пропущенные значения. Этот класс также допускает различные кодировки пропущенных значений.

Следующий фрагмент демонстрирует, как заменить отсутствующие значения, закодированные как np.nan, с использованием среднего значения столбцов (ось 0), содержащих отсутствующие значения:

In [52]:
# Загрузить библиотеку
# Make a simulated feature matrix
features, _ = make_blobs(n_samples = 1000,
n_features = 2,
random_state = 1)
scaler = StandardScaler()
standardized_features = scaler.fit_transform(features)
# Заменить первое значение первого признака на пропущенное значение
true_value = standardized_features[0,0]
standardized_features[0,0] = np.nan

In [46]:
from sklearn.impute import SimpleImputer
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
imp.fit(features)
X = standardized_features
result = imp.transform(X)
print(true_value)
print(result[0,0])

0.8730186113995938
-6.197770033577906


In [53]:
import numpy as np
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
imp = IterativeImputer(max_iter=10, random_state=0)
imp.fit(features)
X_test = standardized_features
# the model learns that the second feature is double the first
print(true_value)
print(imp.transform(X_test)[0,0])

0.8730186113995938
-4.319738139110626
