## [Part 3](https://habrahabr.ru/post/236769/) (aslo see [how to markdown](http://assemble.io/docs/Cheatsheet-Markdown.html))

In [71]:
#install.packages("lubridate")
library("lubridate")
#Упрощает работу с датами
                          
# Unable to install - see config.log
#install.packages("e1071")
#library("e1071")
#Дает доступ к алгоритму наивного байесовского классификатора

#install.packages("quantmod")
library("quantmod")
#Позволяет импортировать необходимые данные и рассчитывать технические индикаторы

#install.packages("rpart") 
library("rpart")
#Даёт доступ к деревам решений, которые мы будем использовать.

#install.packages("rpart.plot") 
library("rpart.plot")
#Позволяет легко создать симпатичные диаграммы деревьев

Затем, давайте получим данные и рассчитаем индикаторы.

|Input	|Техническое имя	|Индикатор технического анализа|
|--|--|--|
|I01	|EMA5Cross	|Пересечение EMA5 и цены открытия
|I02	|EMA17Cross	|Пересечение EMA17 и цены открытия
|I03	|EMA5_17Cross	|Пересечение EMA17 и EMA5
|I04	|VolumeROC1	|Rate of Change / Momentum
|I05	|CCI12	|Commodity Channel Index 12
|I06	|MFI14	|Money Flow Index 14
|I07	|MOM	|Momentum 3 / Rate of Change
|I08	|Lag1	|Движение цены на текущем баре (1)
|I09	|Lag2	|Движение цены на текущем баре (2)
|I10	|Lag3	|Движение цены на текущем баре (3)
|I11	|Lag4	|Движение цены на текущем баре (4)
|I12	|Lag5	|Движение цены на текущем баре (5)
|I13	|fastK	|Stochastic Fast %K
|I14	|fastD	|Stochastic Fast %D
|I15	|slowD	|Stochastic Slow %D
|I16	|stochWPR	|William's %R
|I17	|RSI14	|Relative Strength Index (open) 14
|I18	|williamsAD	|Williams Accumulation / Distribution
|I19	|WPR	|William's %R 14
|I20	|AO	|(Awesome Oscillator, AO) SMA5 — SMA34
|I21	|AC	|AO сглаженный 5-периодной средней AO — SMA(AO, 5)
|I22	|MACD	|EMA12 — EMA26
|I23	|MACD_SMA9	|MACD сглаженный 9-периодной скользящей MACD- SMA(MACD, 9)
|I24	|DIp	|The positive Direction Index
|I25	|DIn	|The negative Direction Index.
|I26	|DX	|The Direction Index
|I27	|ADX	|The Average Direction Index (trend strength)
|I28	|ar	|aroon(HL, n) — 1 out (oscillator)
|I29	|chv16	|Chaikin Volatility — chaikinVolatility (HLC,n) — 1 out
|I30	|cmo16	|Chande Momentum Oscillator — CMO(Med, n) — 1 out
|I31	|macd12_26	|MACD Oscillator 12, 26, 9
|I32	|osma	|Moving Average of Oscillator
|I33	|rsi16	|Relative Strength Index med 16
|I34	|fastK14_3_3	|Stochastic Oscillator 14 3 3 fastK
|I35	|fastD14_3_3	|Stochastic Oscillator 14 3 3 fastD
|I36	|slowD14_3_3	|Stochastic Oscillator 14 3 3 slowD
|I37	|smi13_2SMI	|Stochastic Momentum Index SMI 13 2
|I38	|smi13_2signal	|Stochastic Momentum Index signal 13 2
|I39	|vol16	|Volatility 16
|I40	|SMA24Cross	|Логарифм отношения цены открытия и SMA24
|I41	|SMA60Cross	|Логарифм отношения цены открытия и SMA60
|I42	|SMA24_60Cross	|Логарифм отношения SMA24 и SMA60
|I43	|SMA24Trand	|Логарифм отношения SMA24 по сравнению с предыдущим значением
|I44	|SMA60Trand	|Логарифм отношения SMA24 по сравнению с предыдущим значением
|I45	|MOM24	|Momentum 24 / Rate of Change
|I46	|MOM60	|Momentum 60 / Rate of Change
|PCA	|PC1-PC16	|Сжатие признаков I01-I46 методом главных компонент в 16 значений

see [quantmod](https://cran.r-project.org/web/packages/quantmod/quantmod.pdf) and [TTR](https://cran.r-project.org/web/packages/TTR/TTR.pdf) for details

In [72]:
startDate = as.Date("2007-01-01")
#Начало рассматриваемого промежутка

endDate = as.Date("2017-12-31") 
#Конец промежутка

getSymbols("FXPO.L", src = "google", from = startDate, to = endDate) 
#Получаем данные стоимости акций Bank of America

FXPO.L <- na.omit(FXPO.L)

RSI3<-RSI(Op(FXPO.L), n= 3) 
#Рассчитываем 3-х дневный индекс относительной силы (RSI) по цене открытия

EMA5<-EMA(Op(FXPO.L),n=5) 
#Рассчитываем 5-дневную экспоненциальную скользящую среднюю (EMA)
EMAcross<- Op(FXPO.L)-EMA5 
#Давайте посмотрим на разницу между ценой открытия и нашей 5-ти дневной EMA

MACD<-MACD(Op(FXPO.L),fast = 12, slow = 26, signal = 9) 
#Рассчитываем MACD(Схождение/расхождение скользящих средних) со стандартными параметрами

MACDsignal<-MACD[,2] 
#Используем только сигнальную линию в качестве индикатора 

SMI<-SMI(Op(FXPO.L),n=13,slow=25,fast=2,signal=9) 

#Стохастический осциллятор со стандартными параметрами
SMI<-SMI[,1] 
#Используем только осциллятор в качестве индикатора

In [73]:
len <- length(FXPO.L[,1])

## Beginning of [Part 2](https://habrahabr.ru/post/234303/)

Теперь, когда у нас есть все необходимые данные, давайте получим наш индикатор «день недели»:

In [74]:
DayofWeek<-wday(FXPO.L, label=TRUE)
#Находим день недели

То, что мы собираемся спрогнозировать, т.е. движение цены вверх или вниз, и создание финального набора данных:

In [75]:
PriceChange<- Cl(FXPO.L) - Op(FXPO.L)
#Находим разницу между ценой закрытия и ценой открытия.

Class<-ifelse(PriceChange>0, "UP","DOWN")
#Конвертируем в двоичную классификацию. (В наших данных не встречаются дни, когда цена открытия была равна цене закрытия, т. е. изменение было равно нулю, поэтому для упрощения мы не рассматриваем этот случай)

DataSet<-data.frame(DayofWeek,Class)
#Создаем наш набор данных

Теперь мы готовы применить наивный байесовский классификатор:

In [76]:
MyModel<-naiveBayes(DataSet[,1],DataSet[,2])
#Входное значение, или независимая переменная (DataSet[,1]), и то, что мы собираемся предсказывать, зависимая переменная (DataSet[,2]).

ERROR: Error in naiveBayes(DataSet[, 1], DataSet[, 2]): could not find function "naiveBayes"


Улучшаем модель

Очевидно вам захочется использовать более сложную стратегию, нежели просто ориентирование на день недели. Давайте добавим пересечение со скользящей средней в нашу модель (вы можете получить больше информации о добавлении различных индикаторов к вашей модели здесь)
Я предпочитаю использовать экспоненциальные скользящие средние, поэтому давайте рассмотрим 5-ти дневные и 10-дневные экспоненциальные скользящие средние (EMA).
Для начала нам необходимо рассчитать EMA:

In [None]:
EMA5<-EMA(Op(FXPO.L),n = 5)
#Мы рассчитываем 5-периодную EMA по цене открытия

EMA10<-EMA(Op(FXPO.L),n = 10)
#Затем 10-ти периодную EMA, так же по цене открытия

Затем рассчитываем пересечение:

In [None]:
EMACross <- EMA5 - EMA10 
#Положительные значения будут означать что EMA5 расположена на графике выше EMA10

Теперь округляем значения до 2-х знаков после запятой. Это важно, поскольку если попадется значение, которое наивный классификатор байеса не видел во время обучения, он автоматически рассчитает вероятность в 0%. Например, если мы смотрим на пересечение EMA с точностью до 6-ти знаков, и была найдена высокая вероятность движения цены вниз, когда разница была /$2.349181, а затем была представлена новая точка данных, которая имела разницу /$2.349182, будет рассчитана 0/% вероятность повышения или понижения цены. Окрулив до 2-х знаков после запятой, мы снижаем риск столкнуться с неизвестным для модели значением (при условии, что для обучения использовался достаточно большой набор данных, в котором скорее всего встретятся все значения индикатора). Это важное ограничение, о котором нужно помнить, при построении собственных моделей.

In [None]:
EMACross<-round(EMACross,2)

Давайте создадим новый dataset и разделим данные на тренировочный и тестовый набор. Таким образом, мы сможем понять, насколько хорошо работает наша модель на новых данных.

In [None]:
DataSet2<-data.frame(DayofWeek,EMACross, Class)
DataSet2<-DataSet2[-c(1:10),]
#Нам нужно удалить значения, в которых 10-периодная скользящая средняя все еще не рассчитана
TrainingSet<-DataSet2[1:328,]
#Мы используем 2/3 данных для обучения модели
TestSet<-DataSet2[329:492,] 
#И 1/3 для тестирования модели

Теперь построим модель:

In [None]:
EMACrossModel<-naiveBayes(TrainingSet[,1:2],TrainingSet[,3])

Условная вероятность пересечения скользящих средних – число, которое показывает среднее значение для каждого случая ([,1]) и для стандартного отклонения ([,2]). Мы можем видеть, что в среднем разница между 5-дневной EMA и 10-ти дневной EMА для длинных и коротких торгов была $0.54 и -$0.24 соответственно.
Теперь протестируем на новых данных:

In [None]:
table(predict(EMACrossModel,TestSet),TestSet[,3],dnn=list('predicted','actual'))

## End of Part 2

## Cont. of Part 3

Затем рассчитываем переменную, которую мы предсказываем и формируем data sets.

In [None]:
PriceChange<- Cl(FXPO.L) - Op(FXPO.L) 
#Рассчитываем разницу между ценой закрытия и открытия
Class<-ifelse(PriceChange>0,"UP","DOWN") 
#Переменная которую мы хотим предсказать.

DataSet<-data.frame(RSI3,EMAcross,MACDsignal,SMI,Class) 
#Создаем наш data set
colnames(DataSet)<-c("RSI3","EMAcross","MACDsignal","Stochastic","Class") 
#Задаем имена колонкам
#DataSet<-DataSet[-c(1:33),] 
#Избавляемся от данных, на которых происходит первоначальное формирование индикаторов

train <- len/3*2
TrainingSet<-DataSet[1:train,] 
#Используем 2/3 наших данных для построения дерева
TestSet<-DataSet[train:len,]
#И оставляем 1/3 данных для тестирования нашей стратегии

Теперь, когда у нас есть всё, что нужно, давайте построим уже это дерево!

In [None]:
DecisionTree<-rpart(Class~RSI3+EMAcross+MACDsignal+Stochastic,data=TrainingSet, cp=.001)
#Указываем индикаторы, которые мы хотим использовать для предсказания и контролируем рост дерева, указывая минимальное значение параметра сложности (ср), необходимого для организации разделения.

Отлично! У нас есть наше первое дерево решений, посмотрим, что же мы построили.

In [None]:
prp(DecisionTree,type=2,extra=8)
#Отличный графический инструмент, с несколькими параметрами для красивого отображения. 

Маленькая заметка по интерпретации этого дерева: узлы представляют расщепление, где левая ветка отражает ответ «да», а правая ветка ответ «нет». Число в конечном листе – процентное число случаев, которые были корректно классифицированы этим узлом. 
Дерева решений так же могут быть использованы для выбора и оценки индикаторов. Индикаторы, которые ближе к корню (верх) дерева, дают больше разделений и содержат больше информации чем те, что внизу дерева. В нашем случае Стохастический Осциллятор даже не попал в дерево!

Хоть у нас и появился набор правил, которым можно следовать, стоит все-таки убедиться, что мы не переобучили модель, поэтому давайте подрежем дерево. Самый простой способ сделать это – посмотреть на параметр сложности, который является «стоимостью», или снижением производительности. Для этого нужно добавить еще одно разделение и выбрать размер дерева, который минимизирует нашу ошибку перекрестной проверки.

In [None]:
printcp(DecisionTree)
#Вывод минимального cp(параметра сложности) для каждого дерева, каждого размера
plotcp(DecisionTree,upper="splits")
#Чертеж среднего геометрического значения для деревьев каждого размера

Вы можете видеть, что наименьшая ошибка достигается для дерева из 7 разделений. Благодаря режиму перекрестной проверки, который случайным образом выбирает данные для тестирования модели, ваш результат может отличаться от того, который отображен на скриншоте. Один из недостатков дерева решений в том, что они могут быть не стабильными, т.е. малые изменения данных могут привести к большим изменениям в дереве. Поэтому процесс «обрезки» дерева и другие способы предотвратить переобучение столь важны.

Давайте обрежем это дерево и посмотрим, как будет выглядеть наша стратегия.

In [None]:
PrunedDecisionTree<-prune(DecisionTree,cp=0.0061350)
#Я использую параметр сложности (cp), у которого наименьшая ошибка перекрестной проверки (xerror)

Теперь дерево выглядит так:

In [None]:
prp(PrunedDecisionTree, type=2, extra=8)

Так гораздо лучше! Здесь видно, что линия MACD сигнала больше не используется. Мы начали с 4-х индикаторов, из которых только 3-х дневный RSI, разница между ценами, и 5-ти дневный EMA могут быть полезны в предсказании движения цены.

Пришло время проверить модель на тестовых данных.

In [None]:
table(predict(PrunedDecisionTree,TestSet,type="class"),TestSet[,5],dnn=list('predicted','actual'))

В общем не плохо, 52% точность. Что более важно, у вас есть основа стратегии с четко определенными, математическими параметрами. Используя всего 25 команд, мы смогли определить, какие индикаторы полезны и какие специальные условия нам нужны для совершения сделки. Теперь вы можете использовать эти индикаторы для собственной торговли или улучшить дерево.

В следующей статье мы рассмотрим еще один мощный алгоритм машинного обучения, метод опорных векторов, и разберемся, как можно использовать его результаты для еще более здравой стратегии.

In [None]:
459/(423+459)

## Time to work with [Part 4](https://inovancetech.com/machine-learning-feature-selection.html)