In [1]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

# Загрузка данных

In [2]:
%%capture
!wget https://www.dropbox.com/s/64ol9q9ssggz6f1/data_ford_price.xlsx

In [3]:
data = pd.read_excel('data/data_ford_price.xlsx') 

## Предобработка данных

In [None]:
data = data[['price', 'year', 'weather']]
data.dropna(inplace = True)

## Масштабирование

✍ Часто встречаются наборы данных, в которых разные столбцы имеют разные единицы измерения: например, один столбец может быть в килограммах, а другой — в сантиметрах. Кроме того, у нас могут быть такие столбцы, как price, который может варьироваться от 1 до 300 000 и даже больше, в то время как столбец weather изменяется от 29 до 71 (максимум). Таким образом, price примерно в 4000 раз больше, чем weather.

Но как мы можем быть уверены, что модель одинаково обрабатывает обе эти переменные? Когда мы подаём эти признаки в модель как есть, есть все шансы, что price больше повлияет на результат предсказания, например, года выпуска автомобиля, из-за большего значения параметра цены. Но это не обязательно означает, что данный параметр более важен как предиктор. Итак, чтобы придать значение как price, так и weather, нужно масштабирование признаков.

In [5]:
data_scaled = data.copy()
col_names = ['price', 'weather']
x = data_scaled[col_names]

Давайте посмотрим, как StandardScaler, MinMax и RobustScaler справятся с нашими данными. Для наглядности будем использовать три столбца.

In [6]:
scaler = StandardScaler()
 
data_scaled[col_names] = scaler.fit_transform(x.values)
data_scaled

Unnamed: 0,price,year,weather
0,2.558728,2016,0.862068
1,0.067373,2009,-0.017965
2,-1.072197,2002,-0.897998
3,-1.176990,2000,-0.395122
5,-0.677579,2003,-0.269403
...,...,...,...
7012,0.682100,2015,0.862068
7013,-0.767025,2005,-0.269403
7014,-0.414149,2006,0.862068
7015,-0.335138,2011,-0.646560


In [7]:
y = data_scaled['year']
x = data_scaled.drop(columns='year')

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=40)

In [8]:
model = LinearRegression()
model.fit(X_train, y_train)
y_predicted = model.predict(X_test)
 
mae = mean_absolute_error(y_test, y_predicted)
print('MAE: %.3f' % mae)

MAE: 3.041


Задание 5.2

Отмасштабируйте признак price с помощью RobustScaler.
В качестве ответа запишите результат выполнения кода data['price'][1]. Ответ округлите до двух знаков после точки-разделителя.

In [15]:
from sklearn.preprocessing import RobustScaler
scaler_robust = RobustScaler()
 
# Масштабируем признак 'price' 
data['price_scaled'] = scaler_robust.fit_transform(data[['price']])

# Выводим результат выполнения кода для data['price_scaled'][1] 
result = round(data['price_scaled'][1], 2) 
print(result)

0.19


- StandardScaler используется, если признак распределён нормально. В иных случаях используется другой метод масштабированиия.
- У MinMaxScaler есть гиперпараметр feature_range, значение которого можно поменять на нужный диапазон.
- Каждый из данных скейлеров использует такие значения, как среднее, максимальное или минимальное значения столбцов. Все эти значения чувствительны к выбросам. Если в данных слишком много выбросов, они будут влиять на среднее и максимальное или минимальное значение. Таким образом, даже если мы масштабируем эти данные с помощью StandardScaler или MinMaxScaler, мы не можем гарантировать сбалансированные данные с нормальным распределением.
- RobustScaler вычитает медианное значение из данных, что делает его менее чувствительным к выбросам по сравнению со StandardScaler или MinMaxScaler.
- MinMaxScaler и RobustScaler используются для нормализации данных, то есть приводят ненормальные данные к нормальному виду.