# Machine Learning без х*йни

Сначала захреначим кучу всяких макросов

In [1]:
%load_ext autoreload
%autoreload 2

%matplotlib inline

Дальше импортнем библиотеки...

In [2]:

from fastai.imports import *
from fastai.structured import *

from pandas_summary import DataFrameSummary
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
from IPython.display import display

from sklearn import metrics

Создадим переменную, которая будет содержать путь к нашим данным

In [3]:
PATH = "data/bulldozers/"

In [4]:
!ls {PATH}

ls: data/bulldozers/: No such file or directory


## Данные 

Для теста берем данные из соревнования Blue Book for Bulldozers Kaggle Competition, цель которого предсказать стоимость оборудования на аукционе на основе данных о его предназначении, конфигурации и использовании. Данные взяты с прошедших аукционов.

### ...Подробнее о данных

Kaggle немного рассказывает о некоторых полях данных. На https://www.kaggle.com/c/bluebook-for-bulldozers/data написано, что данные разбиты на три части:
- **Train.csv** - тренировочный датасет, который содержит данные до 2011
- **Valid.csv** - validation set, это основной датасет, на котором происходит проверка алгоритмов в соревнованиях Kaggle. Предсказания на основе него попадают в таблицу leaderboard.
- **Test.csv** - Датасет загружается за неделю до конца соревнований и на его основе считается твой final rank в таблице результатов.

Ключевые поля в train.csv:
- SalesID: уникальный ID продажи
- MachineID: Уникальный ID машины. Машина может быть продана несколько раз
- saleprice: Цена продажи машины на аукционе (есть только в train.csv)
- saledate: Дата продажи.

Обычно всегда стоит посмотреть на то, как реально выглядят данные,чтобы понимать их структуру, что содержится в полях и т.д. Создадим переменную `df_raw`, в которую загрузим датасет `Train.csv`. `parse_dates` параметр принимает имя столбца и делает его данные типом `datetime`. Об этом мы поговорим чуть позже.

In [5]:
df_raw = pd.read_csv(f'{PATH}Train.csv', low_memory=False, 
                     parse_dates=["saledate"])

FileNotFoundError: File b'data/bulldozers/Train.csv' does not exist

Зафигачим быстренько функцию для вывода данных.

In [None]:
def display_all(df):
    with pd.option_context("display.max_rows", 1000):
        with pd.option_context("display.max_columns", 1000):
            display(df)

`.transpose()` инвертирует таблицу так, чтобы заголовки столбцов были слева. 

In [None]:
display_all(df_raw.head(10).transpose())

В нашем случае мы видим дохуя всяких столбцов с кучей непонятных данных. На самом деле, нас интересует только `SalePrice` и она называется dependent variable. То есть, все остальные данные влияют на формирование нашей цены.



Можно обратитться к полю `shape`, чтобы понять размер таблицы...

In [None]:
df_raw.shape

Теперь глянем на тип данных, который содержится в таблице. Как видим, они разные. 

In [None]:
df_raw.dtypes

Например, мы можем сменить тип данных в таблице. я не буду ничего менять, просто заменю на тот же, чтобы ничего не сломать. :)

In [None]:
df_raw.saledate.apply(pd.to_datetime)

Метод `info()` позволяет получить краткую сводку по нашему набору данных. Посмотреть, где есть нулевые значения в столбцах и тд. Их можно заполнить с помощью метода `fillna()`

In [None]:
df_raw.info()

Дальше нам стоит глянуть на то, как Kaggle будет оценивать наше решение. На сайте указано RMSLE. Это значит, что недообучение будет штрафоваться больше чем переобучение алгоритма. В формулы я углубляться не буду. Нам похуй.

Case a) : Pi = 600, Ai = 1000 RMSE = 400, RMSLE = 0.5108

Case b) : Pi = 1400, Ai = 1000 RMSE = 400, RMSLE = 0.3365

Самое важное здесь то, что RMSLE в отличие от RMSE использует log. Поэтому нам нужно работать с log данными.

In [None]:
df_raw.SalePrice = np.log(df_raw.SalePrice)

## Random Forest

Теперь приступим непосредственно к ML. Что такое Random forest мы разберем позднее. Сейчас можно просто сделать вид, что это своего рода универсальная ML техника. Которая позволяет предсказывать различные категории данных. Будь то классификация кошек и собак или предсказание цены. Имеет хорошую толерантность к overfit. Мы потом разберем это подробнее. Для него не нужно разделять validation set - он может сказать о том, как хорошо он обобщает/предсказывает/выделяет имея только один набор данных. У него еще много всяких статистических допущений и т.д. Это все очень круто и именно эта техника хорошее место для старта.  

Если ваш первый random forest дает очень мало полезной информации, то проблема сокроее всего в ваших данных. Т.к. он был спроектирован с той целью, чтобы работать "из коробки". 

In [None]:
RandomForestRegressor
RandomForestClassifier

Итак, мы видим, что `RandomForestRegressor` идет из библы sklearn. Это один из самых популярных и важных пакетов в сфере ML. Он делает практически все, что угодно. Он не лучший во всем этом, но точно очень хорош. 

Тут есть еще одна фича. Regressor используется для непрерывных величин, таких как цена, например. А Classifier используется для категорий и это называется классификацией.

В нашем случае мы имеем дело с непрерывной величиной - ценой. Поэтому будем использовать регрессию. В целом, в scykit-learn библе используется стандартный подход:
- Создаем объект класса. Здесь n_jobs - это кол-во используемых ядер CPU. -1 означает все доступные ядра.
- Вызываем метод `.fit()`, куда передаем Independent variables на основе которых будем что-то предсказывать и dependent variable - ту, которую необходимо предсказать

В методе `fit()` у датасета `df_raw` я вызываю метод `drop()`, чтобы откинуть ненужный нам столбец с dependent данными. Таким образом в датасете остаются только independent данные.

In [None]:
m = RandomForestRegressor(n_jobs=-1)
m.fit(df_raw.drop('SalePrice', axis=1), df_raw.SalePrice)

Ошибочка! Ничего, сейчас разберемся. Главный лайфхак тут сразу пропускать stacktrace и идти в конец листинга. Там будет описание ошибки. `ValueError: could not convert string to float: 'Conventional'` которая говорит нам о том, что не может конвертировать строковые данные во float. Вообще, большинство ML моделей будут работать с числами, особенно random forest... Поэтому, нам нужно просто все перевести в числовой формат.

Наш датасет содержит два типа данных:
- непрерывные величины (continious variables), такие как цены, например
- категории (categorical variables),которые могут быть как текстовыми("большой", "маленький"), так и числовыми, значение которых может быть не непрерывным - например ZIP коды.

Наша задача получить такой датасет, где ВСЕ данные имеют значение и которые мы можем использовать для построения модели. 
Возьмем кокретный пример. Помните, я уже немного говорил про тип данных `df_raw.saledate`, который является `datetime64`. Нам нужно сделать его числовым. И здесь мы впервые займемся feature engineering'ом

На самом деле внутри даты спрятано очень много интересных данных. Например, выходной это или нет, праздничный ли день, какой день недели, месяц и т.д. Был ли в этот день дождь? Был ли какой-то спортивный евент в этот день? Все это может дать нам дополнительные данные для предсказаний. Ни один алгоритм не скажет нам, играет ли роль дождь в этот день... Это та часть feature engineering, которую мы должны делать сами. 

Мы будем стараться делать упор на автоматизациию, поэтому многие вещи будут заскриптованы. Разберем пример:

In [None]:
add_datepart

Это функция из библы fast.ai... Почитаем исходники...

In [None]:
??add_datepart

In [None]:
add_datepart(df_raw, 'saledate')

In [None]:
df_raw.saleDay.head(3)

Как мы видим выше, функция взяла столбец из нашего датасета и распарсила его дату на числовые столбцы, такие как дни, месяцы, выходной-не выходной и т.д. Таким образом мы произвели свой первый простой feature engineering. Но у нас все равно дохуя текстовых данных. Их нужно как-то превратить в категории. Для этого в fast.ai библе есть функция `train_cats`, которая создает категории из сторок.

In [None]:
??train_cats

In [None]:
??apply_cats

In [None]:
train_cats(df_raw)

Проблема здесь в том, что когда у нас будут разные датасеты:
- validation set
- trainig set
то `train_cats()` работать будет неправильно. Поскольку, датасеты разные и категории могут быть тоже разные. Поэтому здесь нам на помощь приходит `apply_cats()`.

Посмотрим, как поменялся наш датасет после `train_cats()`

In [None]:
df_raw.UsageBand.cat.categories

`UsageBand`, который был строкой стал категорией. Отлично! Но проблема в том, что порядок какой-то непарвильный. Высокий->Низкий->Средний... Для random forest это будет как 1,2,3. Но при этом логика категории сбивается...
Поэтому отсортируем в правильном порядке.

In [None]:
df_raw.UsageBand.cat.set_categories(['High', 'Medium', 'Low'], ordered=True, inplace=True)

In [None]:
df_raw.UsageBand.cat.categories

Другое дело. Теперь все выглядит правильно. Но мы все равно еще не закончили с подготовкой данных, потому что у нас еще много пустых полей, которые нельзя передавать в random forest

Теперь сохраним файл в бинарный feather формат, который ускорит чтение и запись. Этот формат становится стандартом, так что про него важно знать.

In [None]:
os.makedirs('tmp', exist_ok=True)
df_raw.to_feather('tmp/raw')

# Preprocessing
Дальше необязательно делать все то, что мы делали выше, чтобы считать наш датафрейм. Теперь будет достаточно:

In [None]:
df_raw = pd.read_feather('tmp/raw')

Теперь все должно работать намного быстрее. Раньше прогрузка датафрейма занимала минуты...

In [None]:
??proc_df

Чистит наши данные. Лучше сразу смотреть в исходники, иначе придется много писать. В целом просто заполняет медианой пустые значения и подменяет -1 на 0 и убирает dependent данные.

In [None]:
df, y, nas = proc_df(df_raw, 'SalePrice')

In [None]:
df.columns

Как видим, теперь dependent данных в датафрейме нет. Он готов для передачи на обучение алгоритму.

In [None]:
df.head()

Как видим, теперь у нас только числа. Да, у нас присутствуют не countinious данные, такие как ModelID, но Random forest к ним довольно толерантен. Потом мы еще к этому вернемся. Теперь приступим к random forest!

In [None]:
m = RandomForestRegressor(n_jobs=-1)
m.fit(df, y)
m.score(df,y)

score это r^2, о которой сейчас знать не нужно, поговорим об этом потом. Главное, что 1 - это очень хорошо, а 0 - очень плохо. Мы близки к 1. Но далеко не факт, что мы хорошо справились. Возмжоно это результат переобучения. Единственный способ узнать это - взять другой набор данных. 

Рисунки хорошо демонстрируют эффект "переобучения"
<img src="images/overfitting2.png" alt="" style="width: 70%"/>
<center>
[Underfitting and Overfitting](https://datascience.stackexchange.com/questions/361/when-is-a-model-underfitted)
</center>

Суть в том, что алгоритм просто "приспособился" к данным и не прогнозирует, а действует на основе них.

Разобъем наши данные на два датасета, чтобы проверить нашу теорию. А потом напишем простой бенчмарк и протестируем решение.

In [None]:
def split_vals(a,n): return a[:n].copy(), a[n:].copy()

n_valid = 12000  # same as Kaggle's test set size
n_trn = len(df)-n_valid
raw_train, raw_valid = split_vals(df_raw, n_trn)
X_train, X_valid = split_vals(df, n_trn)
y_train, y_valid = split_vals(y, n_trn)

X_train.shape, y_train.shape, X_valid.shape

Отлично, теперь прогоним на бенчмарке.

In [None]:
def rmse(x,y): return math.sqrt(((x-y)**2).mean()) # RMSE бенчмарк

def print_score(m):
    res = [rmse(m.predict(X_train), y_train), rmse(m.predict(X_valid), y_valid),
                m.score(X_train, y_train), m.score(X_valid, y_valid)]
    if hasattr(m, 'oob_score_'): res.append(m.oob_score_)
    print(res)

In [None]:
m = RandomForestRegressor(n_jobs=-1)
%time m.fit(X_train, y_train)
print_score(m)

0.248509476724401 - наш результат. Это топ 10% процентов решений на соревновани... Как видите, просто нах*ярив алгоритм без х*йни мы обошли 90% специалистов.