# Machine Learning без х*йни

Сначала захреначим кучу всяких макросов

In [1]:
%load_ext autoreload
%autoreload 2

%matplotlib inline

Дальше импортнем библиотеки...

In [2]:

from fastai.imports import *
from fastai.structured import *

from pandas_summary import DataFrameSummary
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
from IPython.display import display

from sklearn import metrics

Создадим переменную, которая будет содержать путь к нашим данным

In [3]:
PATH = "data/bulldozers/"

In [4]:
!ls {PATH}

Train.csv


## Данные 

Для теста берем данные из соревнования Blue Book for Bulldozers Kaggle Competition, цель которого предсказать стоимость оборудования на аукционе на основе данных о его предназначении, конфигурации и использовании. Данные взяты с прошедших аукционов.

### ...Подробнее о данных

Kaggle немного рассказывает о некоторых полях данных. На https://www.kaggle.com/c/bluebook-for-bulldozers/data написано, что данные разбиты на три части:
- **Train.csv** - тренировочный датасет, который содержит данные до 2011
- **Valid.csv** - validation set, это основной датасет, на котором происходит проверка алгоритмов в соревнованиях Kaggle. Предсказания на основе него попадают в таблицу leaderboard.
- **Test.csv** - Датасет загружается за неделю до конца соревнований и на его основе считается твой final rank в таблице результатов.

Ключевые поля в train.csv:
- SalesID: уникальный ID продажи
- MachineID: Уникальный ID машины. Машина может быть продана несколько раз
- saleprice: Цена продажи машины на аукционе (есть только в train.csv)
- saledate: Дата продажи.

Обычно всегда стоит посмотреть на то, как реально выглядят данные,чтобы понимать их структуру, что содержится в полях и т.д. Создадим переменную `df_raw`, в которую загрузим датасет `Train.csv`. `parse_dates` параметр принимает имя столбца и делает его данные типом `datetime`. Об этом мы поговорим чуть позже.

In [5]:
df_raw = pd.read_csv(f'{PATH}Train.csv', low_memory=False, 
                     parse_dates=["saledate"])

Зафигачим быстренько функцию для вывода данных.

In [6]:
def display_all(df):
    with pd.option_context("display.max_rows", 1000):
        with pd.option_context("display.max_columns", 1000):
            display(df)

`.transpose()` инвертирует таблицу так, чтобы заголовки столбцов были слева. 

In [7]:
display_all(df_raw.head(10).transpose())

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
SalesID,1139246,1139248,1139249,1139251,1139253,1139255,1139256,1139261,1139272,1139275
SalePrice,66000,57000,10000,38500,11000,26500,21000,27000,21500,65000
MachineID,999089,117657,434808,1026470,1057373,1001274,772701,902002,1036251,1016474
ModelID,3157,77,7009,332,17311,4605,1937,3539,36003,3883
datasource,121,121,121,121,121,121,121,121,121,121
auctioneerID,3,3,3,3,3,3,3,3,3,3
YearMade,2004,1996,2001,2001,2007,2004,1993,2001,2008,1000
MachineHoursCurrentMeter,68,4640,2838,3486,722,508,11540,4883,302,20700
UsageBand,Low,Low,High,High,Medium,Low,High,High,Low,Medium
saledate,2006-11-16 00:00:00,2004-03-26 00:00:00,2004-02-26 00:00:00,2011-05-19 00:00:00,2009-07-23 00:00:00,2008-12-18 00:00:00,2004-08-26 00:00:00,2005-11-17 00:00:00,2009-08-27 00:00:00,2007-08-09 00:00:00


В нашем случае мы видим дохуя всяких столбцов с кучей непонятных данных. На самом деле, нас интересует только `SalePrice` и она называется dependent variable. То есть, все остальные данные влияют на формирование нашей цены.



Можно обратитться к полю `shape`, чтобы понять размер таблицы...

In [8]:
df_raw.shape

(401125, 53)

Теперь глянем на тип данных, который содержится в таблице. Как видим, они разные. 

In [9]:
df_raw.dtypes

SalesID                              int64
SalePrice                            int64
MachineID                            int64
ModelID                              int64
datasource                           int64
auctioneerID                       float64
YearMade                             int64
MachineHoursCurrentMeter           float64
UsageBand                           object
saledate                    datetime64[ns]
fiModelDesc                         object
fiBaseModel                         object
fiSecondaryDesc                     object
fiModelSeries                       object
fiModelDescriptor                   object
ProductSize                         object
fiProductClassDesc                  object
state                               object
ProductGroup                        object
ProductGroupDesc                    object
Drive_System                        object
Enclosure                           object
Forks                               object
Pad_Type   

Например, мы можем сменить тип данных в таблице. я не буду ничего менять, просто заменю на тот же, чтобы ничего не сломать. :)

In [10]:
df_raw.saledate.apply(pd.to_datetime)

0        2006-11-16
1        2004-03-26
2        2004-02-26
3        2011-05-19
4        2009-07-23
5        2008-12-18
6        2004-08-26
7        2005-11-17
8        2009-08-27
9        2007-08-09
10       2008-08-21
11       2006-08-24
12       2005-10-20
13       2006-01-26
14       2006-01-03
15       2006-11-16
16       2007-06-14
17       2010-01-28
18       2006-03-09
19       2005-11-17
20       2006-05-18
21       2006-10-19
22       2007-10-25
23       2006-10-19
24       2004-05-20
25       2006-03-09
26       2006-03-09
27       2007-02-22
28       2007-08-09
29       2006-06-01
            ...    
401095   2011-12-14
401096   2011-09-15
401097   2011-10-28
401098   2011-08-16
401099   2011-12-14
401100   2011-08-16
401101   2011-12-14
401102   2011-08-16
401103   2011-09-15
401104   2011-08-16
401105   2011-10-25
401106   2011-08-16
401107   2011-09-15
401108   2011-08-16
401109   2011-08-16
401110   2011-09-15
401111   2011-10-25
401112   2011-10-25
401113   2011-10-25


Метод `info()` позволяет получить краткую сводку по нашему набору данных. Посмотреть, где есть нулевые значения в столбцах и тд. Их можно заполнить с помощью метода `fillna()`

In [11]:
df_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 401125 entries, 0 to 401124
Data columns (total 53 columns):
SalesID                     401125 non-null int64
SalePrice                   401125 non-null int64
MachineID                   401125 non-null int64
ModelID                     401125 non-null int64
datasource                  401125 non-null int64
auctioneerID                380989 non-null float64
YearMade                    401125 non-null int64
MachineHoursCurrentMeter    142765 non-null float64
UsageBand                   69639 non-null object
saledate                    401125 non-null datetime64[ns]
fiModelDesc                 401125 non-null object
fiBaseModel                 401125 non-null object
fiSecondaryDesc             263934 non-null object
fiModelSeries               56908 non-null object
fiModelDescriptor           71919 non-null object
ProductSize                 190350 non-null object
fiProductClassDesc          401125 non-null object
state                

Дальше нам стоит глянуть на то, как Kaggle будет оценивать наше решение. На сайте указано RMSLE. Это значит, что недообучение будет штрафоваться больше чем переобучение алгоритма. В формулы я углубляться не буду. Нам похуй.

Case a) : Pi = 600, Ai = 1000 RMSE = 400, RMSLE = 0.5108

Case b) : Pi = 1400, Ai = 1000 RMSE = 400, RMSLE = 0.3365

Самое важное здесь то, что RMSLE в отличие от RMSE использует log. Поэтому нам нужно работать с log данными.

In [12]:
df_raw.SalePrice = np.log(df_raw.SalePrice)

## Random Forest

Теперь приступим непосредственно к ML. Что такое Random forest мы разберем позднее. Сейчас можно просто сделать вид, что это своего рода универсальная ML техника. Которая позволяет предсказывать различные категории данных. Будь то классификация кошек и собак или предсказание цены. Имеет хорошую толерантность к overfit. Мы потом разберем это подробнее. Для него не нужно разделять validation set - он может сказать о том, как хорошо он обобщает/предсказывает/выделяет имея только один набор данных. У него еще много всяких статистических допущений и т.д. Это все очень круто и именно эта техника хорошее место для старта.  

Если ваш первый random forest дает очень мало полезной информации, то проблема сокроее всего в ваших данных. Т.к. он был спроектирован с той целью, чтобы работать "из коробки". 

In [13]:
RandomForestRegressor
RandomForestClassifier

sklearn.ensemble.forest.RandomForestClassifier

Итак, мы видим, что `RandomForestRegressor` идет из библы sklearn. Это один из самых популярных и важных пакетов в сфере ML. Он делает практически все, что угодно. Он не лучший во всем этом, но точно очень хорош. 

Тут есть еще одна фича. Regressor используется для непрерывных величин, таких как цена, например. А Classifier используется для категорий и это называется классификацией.

В нашем случае мы имеем дело с непрерывной величиной - ценой. Поэтому будем использовать регрессию. В целом, в scykit-learn библе используется стандартный подход:
- Создаем объект класса. Здесь n_jobs - это кол-во используемых ядер CPU. -1 означает все доступные ядра.
- Вызываем метод `.fit()`, куда передаем Independent variables на основе которых будем что-то предсказывать и dependent variable - ту, которую необходимо предсказать

В методе `fit()` у датасета `df_raw` я вызываю метод `drop()`, чтобы откинуть ненужный нам столбец с dependent данными. Таким образом в датасете остаются только independent данные.

In [14]:
m = RandomForestRegressor(n_jobs=-1)
m.fit(df_raw.drop('SalePrice', axis=1), df_raw.SalePrice)

ValueError: could not convert string to float: 'Conventional'

Ошибочка! Ничего, сейчас разберемся. Главный лайфхак тут сразу пропускать stacktrace и идти в конец листинга. Там будет описание ошибки. `ValueError: could not convert string to float: 'Conventional'` которая говорит нам о том, что не может конвертировать строковые данные во float. Вообще, большинство ML моделей будут работать с числами, особенно random forest... Поэтому, нам нужно просто все перевести в числовой формат.

Наш датасет содержит два типа данных:
- непрерывные величины (continious variables), такие как цены, например
- категории (categorical variables),которые могут быть как текстовыми("большой", "маленький"), так и числовыми, значение которых может быть не непрерывным - например ZIP коды.

Наша задача получить такой датасет, где ВСЕ данные имеют значение и которые мы можем использовать для построения модели. 
Возьмем кокретный пример. Помните, я уже немного говорил про тип данных `df_raw.saledate`, который является `datetime64`. Нам нужно сделать его числовым. И здесь мы впервые займемся feature engineering'ом

На самом деле внутри даты спрятано очень много интересных данных. Например, выходной это или нет, праздничный ли день, какой день недели, месяц и т.д. Был ли в этот день дождь? Был ли какой-то спортивный евент в этот день? Все это может дать нам дополнительные данные для предсказаний. Ни один алгоритм не скажет нам, играет ли роль дождь в этот день... Это та часть feature engineering, которую мы должны делать сами. 

Мы будем стараться делать упор на автоматизациию, поэтому многие вещи будут заскриптованы. Разберем пример:

In [15]:
add_datepart

<function fastai.structured.add_datepart(df, fldname, drop=True, time=False)>

Это функция из библы fast.ai... Почитаем исходники...

In [None]:
??add_datepart

In [16]:
add_datepart(df_raw, 'saledate')

In [17]:
df_raw.saleDay.head(3)

0    16
1    26
2    26
Name: saleDay, dtype: int64

Как мы видим выше, функция взяла столбец из нашего датасета и распарсила его дату на числовые столбцы, такие как дни, месяцы, выходной-не выходной и т.д. Таким образом мы произвели свой первый простой feature engineering. Но у нас все равно дохуя текстовых данных. Их нужно как-то превратить в категории. Для этого в fast.ai библе есть функция `train_cats`, которая создает категории из сторок.

In [None]:
??train_cats

In [None]:
??apply_cats

In [18]:
train_cats(df_raw)

Проблема здесь в том, что когда у нас будут разные датасеты:
- validation set
- trainig set
то `train_cats()` работать будет неправильно. Поскольку, датасеты разные и категории могут быть тоже разные. Поэтому здесь нам на помощь приходит `apply_cats()`.

Посмотрим, как поменялся наш датасет после `train_cats()`

In [19]:
df_raw.UsageBand.cat.categories

Index(['High', 'Low', 'Medium'], dtype='object')

`UsageBand`, который был строкой стал категорией. Отлично! Но проблема в том, что порядок какой-то непарвильный. Высокий->Низкий->Средний... Для random forest это будет как 1,2,3. Но при этом логика категории сбивается...
Поэтому отсортируем в правильном порядке.

In [20]:
df_raw.UsageBand.cat.set_categories(['High', 'Medium', 'Low'], ordered=True, inplace=True)

In [21]:
df_raw.UsageBand.cat.categories

Index(['High', 'Medium', 'Low'], dtype='object')

Другое дело. Теперь все выглядит правильно. Но мы все равно еще не закончили с подготовкой данных, потому что у нас еще много пустых полей, которые нельзя передавать в random forest

Теперь сохраним файл в бинарный feather формат, который ускорит чтение и запись. Этот формат становится стандартом, так что про него важно знать.

In [22]:
os.makedirs('tmp', exist_ok=True)
df_raw.to_feather('tmp/raw')

# Preprocessing
Дальше необязательно делать все то, что мы делали выше, чтобы считать наш датафрейм. Теперь будет достаточно:

In [23]:
df_raw = pd.read_feather('tmp/raw')

  return feather.read_dataframe(path, nthreads=nthreads)


Теперь все должно работать намного быстрее. Раньше прогрузка датафрейма занимала минуты...

In [None]:
??proc_df

Чистит наши данные. Лучше сразу смотреть в исходники, иначе придется много писать. В целом просто заполняет медианой пустые значения и подменяет -1 на 0 и убирает dependent данные.

In [24]:
df, y, nas = proc_df(df_raw, 'SalePrice')

In [25]:
df.columns

Index(['SalesID', 'MachineID', 'ModelID', 'datasource', 'auctioneerID',
       'YearMade', 'MachineHoursCurrentMeter', 'UsageBand', 'fiModelDesc',
       'fiBaseModel', 'fiSecondaryDesc', 'fiModelSeries', 'fiModelDescriptor',
       'ProductSize', 'fiProductClassDesc', 'state', 'ProductGroup',
       'ProductGroupDesc', 'Drive_System', 'Enclosure', 'Forks', 'Pad_Type',
       'Ride_Control', 'Stick', 'Transmission', 'Turbocharged',
       'Blade_Extension', 'Blade_Width', 'Enclosure_Type', 'Engine_Horsepower',
       'Hydraulics', 'Pushblock', 'Ripper', 'Scarifier', 'Tip_Control',
       'Tire_Size', 'Coupler', 'Coupler_System', 'Grouser_Tracks',
       'Hydraulics_Flow', 'Track_Type', 'Undercarriage_Pad_Width',
       'Stick_Length', 'Thumb', 'Pattern_Changer', 'Grouser_Type',
       'Backhoe_Mounting', 'Blade_Type', 'Travel_Controls',
       'Differential_Type', 'Steering_Controls', 'saleYear', 'saleMonth',
       'saleWeek', 'saleDay', 'saleDayofweek', 'saleDayofyear',
       'saleI

Как видим, теперь dependent данных в датафрейме нет. Он готов для передачи на обучение алгоритму.

In [26]:
df.head()

Unnamed: 0,SalesID,MachineID,ModelID,datasource,auctioneerID,YearMade,MachineHoursCurrentMeter,UsageBand,fiModelDesc,fiBaseModel,...,saleDayofyear,saleIs_month_end,saleIs_month_start,saleIs_quarter_end,saleIs_quarter_start,saleIs_year_end,saleIs_year_start,saleElapsed,auctioneerID_na,MachineHoursCurrentMeter_na
0,1139246,999089,3157,121,3.0,2004,68.0,3,950,296,...,320,False,False,False,False,False,False,1163635200,False,False
1,1139248,117657,77,121,3.0,1996,4640.0,3,1725,527,...,86,False,False,False,False,False,False,1080259200,False,False
2,1139249,434808,7009,121,3.0,2001,2838.0,1,331,110,...,57,False,False,False,False,False,False,1077753600,False,False
3,1139251,1026470,332,121,3.0,2001,3486.0,1,3674,1375,...,139,False,False,False,False,False,False,1305763200,False,False
4,1139253,1057373,17311,121,3.0,2007,722.0,2,4208,1529,...,204,False,False,False,False,False,False,1248307200,False,False


Как видим, теперь у нас только числа. Да, у нас присутствуют не countinious данные, такие как ModelID, но Random forest к ним довольно толерантен. Потом мы еще к этому вернемся. Теперь приступим к random forest!

In [27]:
m = RandomForestRegressor(n_jobs=-1)
m.fit(df, y)
m.score(df,y)

0.9830632387378919

score это R^2, о которой сейчас знать не нужно, поговорим об этом потом. Главное, что 1 - это очень хорошо, а 0 - очень плохо. Мы близки к 1. Но далеко не факт, что мы хорошо справились. Возмжоно это результат переобучения. 
Единственный способ узнать это - взять другой набор данных. 

UPD: Выше я написал, что $R^2$ это хрень, о которой знать не нужно. Сейчас через пару лекций я могу сказать, что хорошо бы просто понимать что она делает и зачем нужна. Сейчас мы поучимся разбирать сложные штуки простыми словами и я покажу, что в математике главное - научиться быстро разбираться в формулах и для чего нужны, нежели просто их учить.

$R^2$ не что иное, как **Коэффициент детерминации** . Обратимся к википедии. Вот наши формулы:

$$SS_{tot} =\sum_{i=1}^n (y_i - \bar y)^2.$$
$$SS_{res} =\sum_{i=1}^n (y_i - f_i)^2.$$
$$R^2 = 1 - \frac{SS_{res}}{SS_{tot}}$$

Выглядит сремно, но сейчас будем разбираться. 1 - что-то деленое на что-то еще.
Итак, что такое что-то еще снизу $SS_{tot}$? Что она говорит, так это то, что у нас есть какие-то данные $y_i$ и потом у нас есть их среднее $\bar y$. И получается, что формула говорит нам, что есть сумма разницы каждой $y_i$ и $\bar y$. Иными словами она говорит нам как сильно данные варьируются! Еще более простыми словами это метрика, котоая показывает нам отклонение от средней величины.

Наверху у нас $SS_{res}$, где $f_i$ это предсказания. И теперь вместо $y_i$ - среднее, мы берем $y_i$ - предсказание, то есть $f_i$. И после этого мы смотрим их отношение. Иными словами, если бы мы были так же эффективны как при отколнении от среднего то верх и низ дроби были бы одинаковыми, что давало бы нам 1, а $ 1 - 1 = 0$ Если бы мы разработали сверхпиздатую модель, то $y_i - f_i$ давало бы нам 0 (разницы между предсказанием и фактической величиной бы не было), а $\frac0{SS_{tot}} = 0$, отсюда следует, что $1 - 0 = 1$ и таким образом $R^2 = 1$ говорит о том, что модель все предсказала идеально!

Рисунки хорошо демонстрируют эффект "переобучения"
<img src="images/overfitting2.png" alt="" style="width: 70%"/>
<center>
[Underfitting and Overfitting](https://datascience.stackexchange.com/questions/361/when-is-a-model-underfitted)
</center>

Суть в том, что алгоритм просто "приспособился" к данным и не прогнозирует, а действует на основе них.

Разобъем наши данные на два датасета, чтобы проверить нашу теорию. А потом напишем простой бенчмарк и протестируем решение.

Второй датасет назывется validation dataset. В практике Machine Learning создание своего validation dataset'a является одной из самых важных задач. Потому что именно результаты работы алгоритма на этом датасете будут показывать как хорошо поведет себя модель в реальном мире.

In [28]:
# функция возвращает копию первой половины датасета и копию второй половины этого же датасета
def split_vals(a,n): return a[:n].copy(), a[n:].copy()

n_valid = 12000         # размер validation датасета - такой же как на Kaggle соревновании
n_trn = len(df)-n_valid # размер тренировочного датасета
raw_train, raw_valid = split_vals(df_raw, n_trn)
X_train, X_valid = split_vals(df, n_trn)
y_train, y_valid = split_vals(y, n_trn)

X_train.shape, y_train.shape, X_valid.shape

((389125, 66), (389125,), (12000, 66))

Отлично, теперь прогоним на бенчмарке.

In [29]:
def rmse(x,y): return math.sqrt(((x-y)**2).mean()) # RMSE бенчмарк

def print_score(m):
    res = [rmse(m.predict(X_train), y_train), rmse(m.predict(X_valid), y_valid),
                m.score(X_train, y_train), m.score(X_valid, y_valid)]
    if hasattr(m, 'oob_score_'): res.append(m.oob_score_)
    print(res)

In [30]:
m = RandomForestRegressor(n_jobs=-1)
%time m.fit(X_train, y_train)
print_score(m)

CPU times: user 1min 4s, sys: 439 ms, total: 1min 5s
Wall time: 19.9 s
[0.09060247627095874, 0.24945753388310485, 0.9828440425154366, 0.8888674644201257]


0.9828440425154366, 0.8888674644201257 это $R^2$ нашего трейнинг датасета и валидейшн датасета. Как видим, у тренировочного результат лучше, что говорит о небольшом эфекте переобучения.

0.248509476724401 - наш результат. Это топ 10% процентов решений на соревновани... Как видите, просто нах*ярив алгоритм без х*йни мы обошли 90% специалистов.