## Данные
[Automobile Data Set](https://archive.ics.uci.edu/ml/datasets/Automobile). В данных присутствуют категориальные, целочисленные и вещественнозначные признаки.

In [1]:
# Внес в csv строчку с заголовками из описания датасета. Вместо целочисленных значений.
import numpy as np
import pandas as pd
%matplotlib inline
pd.set_option('display.max_columns',100)
X_raw = pd.read_csv("cars.csv").fillna('?') # Заполняем пустые значения - '?'

In [2]:
original_data = X_raw.head()
original_data

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,width,height,curb-weight,engine-type,num-of-cylinders,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,171.2,65.5,52.4,2823,ohcv,six,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,176.6,66.2,54.3,2337,ohc,four,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,176.6,66.4,54.3,2824,ohc,five,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


## Предобработка данных
Предобработка данных важна при применении любых методов машинного обучения, а в особенности для линейных моделей. В sklearn предобработку удобно делать с помощью модуля [preprocessing](http://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing)

In [3]:
from sklearn import preprocessing

### Преобразование нечисловых признаков
Практически все методы машинного обучения требуют, чтобы на вход функции обучения подавалась вещественная матрица. В процессе обучения используются свойства вещественных чисел, в частности, возможность сравнения и применения арифметических операций. Поэтому, даже если в матрице объекты-признаки записаны числовые значения, нужно всегда анализировать, можно ли относиться к ним как к числам. 

__Пример:__ некоторые признаки могут задаваться целочисленными хешами или id, однако нельзя сложить двух пользователей и получить третьего, исходя из их id (как это может сделать линейная модель).

Это пример категориального признака, принимающего значения из неупорядоченного конечного множества $K$. К таким признакам обычно применяют [one-hot encoding](http://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features) (вместо одного признака создают $K$ бинарных признаков - по одному на каждое возможное значение исходного признака). В sklearn это можно сделать следующим образом:

In [21]:
# для удобства работы с нашим датасетом создаем маску, указывающую на столбцы с категориальными признаками
cat_features_mask = (X_raw.dtypes == "object").values # категориальные признаки имеют тип "object"
categorical_mask = pd.DataFrame(cat_features_mask).T # Транспонируем значения с вертикального на горизонтальное
categorical_mask.columns=X_raw.columns # Добавляем заголовки из X_raw для удобства чтения
categorical_mask

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,width,height,curb-weight,engine-type,num-of-cylinders,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,False,True,True,True,True,True,True,True,True,False,False,False,False,False,True,True,False,True,True,True,False,True,True,False,False,True


In [23]:
# Отчистим данные от строк без знаячений
X_raw = X_raw[X_raw['normalized-losses'] != '?'] #  Убили два значения
X_raw = X_raw[X_raw['num-of-doors'] != '?'] #  Убили два значения
X_raw = X_raw[X_raw['bore'] != '?'] #  Убили четыре значения
X_raw = X_raw[X_raw['horsepower'] != '?'] #  Убили два значения
X_raw = X_raw[X_raw['price'] != '?'] #  Убили четыре значения
X_raw # минус 14 строк

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,width,height,curb-weight,engine-type,num-of-cylinders,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,176.6,66.2,54.3,2337,ohc,four,109,mpfi,3.19,3.40,10.00,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,176.6,66.4,54.3,2824,ohc,five,136,mpfi,3.19,3.40,8.00,115,5500,18,22,17450
6,1,158,audi,gas,std,four,sedan,fwd,front,105.8,192.7,71.4,55.7,2844,ohc,five,136,mpfi,3.19,3.40,8.50,110,5500,19,25,17710
8,1,158,audi,gas,turbo,four,sedan,fwd,front,105.8,192.7,71.4,55.9,3086,ohc,five,131,mpfi,3.13,3.40,8.30,140,5500,17,20,23875
10,2,192,bmw,gas,std,two,sedan,rwd,front,101.2,176.8,64.8,54.3,2395,ohc,four,108,mpfi,3.50,2.80,8.80,101,5800,23,29,16430
11,0,192,bmw,gas,std,four,sedan,rwd,front,101.2,176.8,64.8,54.3,2395,ohc,four,108,mpfi,3.50,2.80,8.80,101,5800,23,29,16925
12,0,188,bmw,gas,std,two,sedan,rwd,front,101.2,176.8,64.8,54.3,2710,ohc,six,164,mpfi,3.31,3.19,9.00,121,4250,21,28,20970
13,0,188,bmw,gas,std,four,sedan,rwd,front,101.2,176.8,64.8,54.3,2765,ohc,six,164,mpfi,3.31,3.19,9.00,121,4250,21,28,21105
18,2,121,chevrolet,gas,std,two,hatchback,fwd,front,88.4,141.1,60.3,53.2,1488,l,three,61,2bbl,2.91,3.03,9.50,48,5100,47,53,5151
19,1,98,chevrolet,gas,std,two,hatchback,fwd,front,94.5,155.9,63.6,52.0,1874,ohc,four,90,2bbl,3.03,3.11,9.60,70,5400,38,43,6295


In [25]:
# кодирование категорий-строк натуральными числами
label_enc = preprocessing.LabelEncoder()
for feature in X_raw.columns[cat_features_mask]: 
    X_raw[feature] = label_enc.fit_transform(X_raw[feature])

In [27]:
coded_data = X_raw.head(50)
coded_data

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,width,height,curb-weight,engine-type,num-of-cylinders,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
3,2,27,0,1,0,0,3,1,0,99.8,176.6,66.2,54.3,2337,2,2,109,4,12,20,10.0,2,15,24,30,22
4,2,27,0,1,0,0,3,0,0,99.4,176.6,66.4,54.3,2824,2,1,136,4,12,20,8.0,8,15,18,22,38
6,1,25,0,1,0,0,3,1,0,105.8,192.7,71.4,55.7,2844,2,1,136,4,12,20,8.5,4,15,19,25,40
8,1,25,0,1,1,0,3,1,0,105.8,192.7,71.4,55.9,3086,2,1,131,4,9,20,8.3,14,15,17,20,56
10,2,31,1,1,0,1,3,2,0,101.2,176.8,64.8,54.3,2395,2,2,108,4,22,4,8.8,1,17,23,29,30
11,0,31,1,1,0,0,3,2,0,101.2,176.8,64.8,54.3,2395,2,2,108,4,22,4,8.8,1,17,23,29,36
12,0,30,1,1,0,1,3,2,0,101.2,176.8,64.8,54.3,2710,2,3,164,4,15,13,9.0,11,2,21,28,50
13,0,30,1,1,0,0,3,2,0,101.2,176.8,64.8,54.3,2765,2,3,164,4,15,13,9.0,11,2,21,28,51
18,2,12,2,1,0,1,2,1,0,88.4,141.1,60.3,53.2,1488,1,4,61,1,1,6,9.5,26,10,47,53,64
19,1,50,2,1,0,1,2,1,0,94.5,155.9,63.6,52.0,1874,2,2,90,1,6,10,9.6,35,14,38,43,74


In [28]:
# применение one-hot encoding
# Вадим, здесь нужно применить one-hot encoding только для категориальных признаков или для всего X-raw?


In [29]:
print(X_cat_pd.shape)
X_cat_pd.head()
## Что это? Откуда взялась переменная ''X_cat_pd''? 
## На этом месте у меня падает код:
## NameError: name 'X_cat_pd' is not defined

NameError: name 'X_cat_pd' is not defined

Следует заметить, что в новой матрице очень много нулевых значений. 
Чтобы не хранить их в памяти, можно задать параметр OneHotEncoder(sparse = True), и метод fit_transform вернет [разреженную матрицу](http://docs.scipy.org/doc/scipy/reference/sparse.html), в которой хранятся только ненулевые значения. Выполнение некоторых операций с такой матрицей может быть неэффективным, однако большинство методов sklearn умеют работать с разреженными матрицами.

In [None]:
# В какой новой матрице?

### Заполнение пропусков
В матрице объекты-признаки могут быть пропущенные значения, и это вызовет исключение при попытке передать такую матрицу в функцию обучения модели. Если пропусков немного, можно удалить объекты с пропусками из обучающей выборки. Заполнить пропуски можно разными способами:
* заполнить средними (mean, median);
* предсказывать пропущенные значения по непропущенным.

Последний вариант сложный и применяется редко. Замена пропусков средними в вещественных признаках:

In [None]:
# тут код заполнения пропусков средним .fillna()
## Не нужно делать. Поскольку данные очищены. Пропусков нет.

Всегда нужно осознавать, случайны ли пропуски в каком-то признаке. Иногда факт отсутствия информации о значении признака может сам быть важным признаком, который необходимо добавить к другим признакам.

__Пример:__ предсказание возраста пользователя по данным с его телефона. Поскольку люди старшего возраста чаще пользуются простыми телефонами, факт отсутствия каких-то данных (например, истории посещенных интернет-страниц), скорее всего, будет хорошим признаком.

Для категориальных признаков рекомендуется создавать отдельную категорию, соответствующую пропущенному значению. В наши данных пропусков в категориальных признаках нет.

### Масштабирование признаков
При начале работы с данными всегда рекомендуется приводить все признаки к одному масштабу.  Это важно по нескольким причинам:
* ускорение обучения модели
* улучшение численной устойчивости при работе с матрицей объекты-признаки (рядом с нулем чисел с плавающей точкой больше, чем с области больших чисел)
* для линейных моделей: интерпретация весов при признаках как меры их значимости.

Популярный способ масштабирования - нормализация: вычитание среднего из каждого признака и деление на стандартное отклонение. Реализация в sklearn (нормировать бинарные признаки не нужно):

In [None]:
normalizer = preprocessing.StandardScaler()
 = normalizer.fit_transform(X_no_mis)
# Выдает ошибку: ? IndentationError: unexpected indent

Второй популярный способ: вычитание минимума из каждого признака, а затем деление на разницу максимального и минимального значения. Реализация в sklearn:

In [None]:
mm_scaler = preprocessing.MinMaxScaler()
...... = mm_scaler.fit_transform()
# Выдает ошибку SyntaxError: invalid syntax

Объдиняем категориальные и вещественные признаки:

In [None]:
X = pd.concat([X_real_norm_pd, X_cat_pd], axis=1)
# Выдает ошибку: NameError: name 'X_real_norm_pd' is not defined

In [None]:
X.head()