**Методы создания повторных выборок лаб раб**

In [1]:
library(ISLR)
library(boot)

# 5.3.1

### Разбвка при `seed = 1`

In [2]:
set.seed(1)
train = sample(392, 196)

Для обучения модели используем только тренировочный набор данных, в этом нам поможет аргумент `subset`

In [3]:
lm.fit = lm(mpg ~ horsepower, data = Auto, subset = train)

Предсказываем и исследуем совойсва полученных выборок

In [4]:
# attach(Auto)
mean((Auto$mpg - predict(lm.fit, Auto))[-train]^2)

Почему-то результаты не те же самые, что в книге, но надеюсь это сосбенности генератора случайных чисел

Далее переходим к более гибким полиномиальным моделям

In [5]:
lm.fit2 = lm(mpg ~ poly(horsepower, 2), data = Auto, subset = train)
mean((Auto$mpg - predict(lm.fit2, Auto))[-train]^2)

In [6]:
lm.fit3 = lm(mpg ~ poly(horsepower, 3), data = Auto, subset = train)
mean((Auto$mpg - predict(lm.fit3, Auto))[-train]^2)

### Разбивка при `seed = 2`

In [7]:
set.seed(2)
train = sample(392, 196)

In [8]:
lm.fit = lm(mpg ~ horsepower, data = Auto, subset = train)

In [9]:
# attach(Auto)
mean((Auto$mpg - predict(lm.fit, Auto))[-train]^2)

In [10]:
lm.fit2 = lm(mpg ~ poly(horsepower, 2), data = Auto, subset = train)
mean((Auto$mpg - predict(lm.fit2, Auto))[-train]^2)

In [11]:
lm.fit3 = lm(mpg ~ poly(horsepower, 3), data = Auto, subset = train)
mean((Auto$mpg - predict(lm.fit3, Auto))[-train]^2)

# 5.3.2 Перекрёстная проверка по отдельным наблюдениям

Здесь для оценки качества модели спользуется `cv.glm` что может быть применена только к результатам функции `glm` потому даже линейную регрессию будем строить с использованием `glm`

In [12]:
glm.fit = glm(mpg ~ horsepower, data = Auto)
cv.err = cv.glm(Auto, glm.fit)
cv.err$delta

Почему результатом стало 2 числа смотри ниже

Теперь прогоним это для разных степеней полинома

In [13]:
cv.error = rep(0, 5)

for (i in 1:5)
{
    glm.fit = glm(mpg ~ poly(horsepower, i), data = Auto)
    cv.error[i] = cv.glm(Auto, glm.fit)$delta[1]
}

cv.error

Вывод следующий сильное улучшение дает использование полинома второй степени, остальные улучшения не дают заметного улучшения.

# k-кратная перекрестная проверка

Для использовани k-кратной перекрестной проверки следует в функцию `cv.glm` установить параметр `K = 10`

In [14]:
cv.error = rep(0, 10)

for (i in 1:10)
{
    glm.fit = glm(mpg ~ poly(horsepower, i), data = Auto)
    cv.error[i] = cv.glm(Auto, glm.fit, K = 10)$delta[1]
}

cv.error

Тперь пробуем разобраться почему возвращаяется 2 числа

In [15]:
glm.fit = glm(mpg ~ horsepower, data = Auto)
cv.err = cv.glm(Auto, glm.fit, K = 10)

cv.err

$call
cv.glm(data = Auto, glmfit = glm.fit, K = 10)

$K
[1] 10

$delta
[1] 24.16929 24.15729

$seed
  [1]       10403         611 -1841273077  1525759315    47929635   690677690
  [7] -1550168536 -2114325559 -2051008552  -391457259    64969008 -1777768219
 [13]  1881134305  2000744421  -319709325  -713411433   843505394   785651777
 [19] -1033394857  -437395076   441834590   693043897 -1948189058  -786884621
 [25]  -755292390 -1826095098  -252048351   349074591   610088716   -40958542
 [31]   996868043  1067670522  1281214058  -156893457  -625132179 -1300857972
 [37]   912804675  -548439931 -2087272573  -135503357   315847418  1399319991
 [43]   799877394  -536699547  2076244938  1179101961  1643700973   284165921
 [49]  2043634828  -742389462  1392321057  -609458835 -1560687289   650917874
 [55]  1161319425  1769335736   133078156  -711681401   904686656  1373283309
 [61]    21518821   801259120  -934556908   673896395  -712048279   783780070
 [67]  1147287947 -2131432285  1898099531 

В данном случае числа заментнее оличаются. Дело в том что в первом случае это просто среднее $MSE$ а во втором это аценка с поправкой на смещение.

# 5.3.4 Бутстреп

### Оценка стандартной ошибки случайной величины

Напомним, что в качестве задачи выступает задача минимизации риска при инвестировании в две компании. Пусть $\alpha$ - доля средств вложенных в первую компанию, тогда $1-\alpha$ доля средств вложенных во вторую компанию.

Можно показать, что минимум риска достигается в точке 

$$\alpha = \frac{\sigma_Y^2 - \sigma_{XY}^2}{\sigma_X^2 + \sigma_Y^2 - 2\sigma_{XY}^2}$$

Где $X,Y$ - доходности от вложения в каждую из стратегий (как случайные величины);<br>
$\sigma_Y^2, \sigma_X^2$ - дисперсии доходностей; <br>
$\sigma_{XY}^2$ - ковариация доходностей.

Понятно, что в реальности мы имеем лишь наблюденный процесс, потому приходится пользоваться лишь оценкой:

$$\hat{\alpha} = \frac{\hat{\sigma}_Y^2 - \hat{\sigma}_{XY}^2}{\hat{\sigma}_X^2 + \hat{\sigma}_Y^2 - 2\hat{\sigma}_{XY}^2}$$

Для того, чтобы оценить насколько точной будет такая оценка и примерятся bootstrap.

Для применения bootstrap в  R надо определить функцию от данных и индексов подвыбокри, которая вернет исследуемую величину.

In [16]:
alpha.fn = function(data, index)
{
    X = data$X[index]
    Y = data$Y[index]
    return(   (var(X) - cov(X,Y))/(var(X) + var(Y) - 2*cov(X,Y) ))
}

# проверочка
alpha.fn(Portfolio, 1:100)

Можно конечно дальше писать циклы с функцией `sample`, но в `R` уже сидит функция `boot`

In [17]:
set.seed(1)
boot(Portfolio, alpha.fn, R = 1000)


ORDINARY NONPARAMETRIC BOOTSTRAP


Call:
boot(data = Portfolio, statistic = alpha.fn, R = 1000)


Bootstrap Statistics :
     original      bias    std. error
t1* 0.4241679 0.001596422  0.09376093

Вывод следующий - величина составляет `0.4241679` а оценка стандартного отклонения `0.09376`.

### Оценивание точности линейной регрессионной модели

Сравним результаты аналитической оценки и оценки методом bootstrap

In [18]:
boot.fn = function(data, index){
    return (coef(lm(mpg ~ horsepower, data = data, subset = index)))
}

boot.fn(Auto, 1:200)

In [23]:
boot(Auto, boot.fn, 1000)


ORDINARY NONPARAMETRIC BOOTSTRAP


Call:
boot(data = Auto, statistic = boot.fn, R = 1000)


Bootstrap Statistics :
      original        bias    std. error
t1* 39.9358610  0.0410207805 0.833147926
t2* -0.1578447 -0.0005119911 0.007217832

Сравним с результатами получаемыми по привычным формулам (они реализованы в функции summary)

In [24]:
summary(lm(mpg ~ horsepower, data = Auto))


Call:
lm(formula = mpg ~ horsepower, data = Auto)

Residuals:
     Min       1Q   Median       3Q      Max 
-13.5710  -3.2592  -0.3435   2.7630  16.9240 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 39.935861   0.717499   55.66   <2e-16 ***
horsepower  -0.157845   0.006446  -24.49   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.906 on 390 degrees of freedom
Multiple R-squared:  0.6059,	Adjusted R-squared:  0.6049 
F-statistic: 599.7 on 1 and 390 DF,  p-value: < 2.2e-16


В целом - блиски к `bootstrap`. Но если вспомнить, что оценка в функции `summary` опирается на ряд допущений, то получается, что от `bootstrap` следует ожидать более правдоподобных оценок! Более того как лего покзать между `mpg` и `horsepower` обычно квадратичная зависимость.
