Приложения к книге "Введение в статистическое обучение с примерами на языке R"
R
Switch branches/tags
Nothing to show
Clone or download
Permalink
Failed to load latest commit information.
Code repository created Apr 30, 2016
Data repository created Apr 30, 2016
README.Rmd changes made on 15_12_2016 Dec 15, 2016
README.html changes made on 15_12_2016 Dec 15, 2016
sample.pdf changes made on 15_12_2016 Dec 15, 2016

README.Rmd

Приложения к книге "Введение в статистическое обучение с примерами на языке R"

Этот репозиторий содержит файлы скриптов на языке R и наборы данных, необходимые для выполнение лабораторных работ из книги "Джеймс Г., Уиттон Д., Хасти Т., Тибширани Р. Введение в статистическое обучение с примерами на языке R. Пер. с англ. С. Э. Мастицкого - М.: ДМК Пресс, 2016. – 449 с.: ил." (оригинальное название "An Introduction to Statistical Learning with Applications in R").

Репозиторий разбит на две директории:

  • Code: примеры кода для каждой главы
  • Data: соответствующие наборы данных

В файле sample.pdf можно ознакомиться с оглавлением и отрывками из первых двух глав книги.

С вопросами и предложениями по поводу содержания этого репозитория обращайтесь, пожалуйста, по электронной почте.

Ошибки, обнаруженные в первом издании книги (список обновлен 15 декабря 2016 г.)

К сожалению, после публикации первого издания (апрель 2016 г.) в книге был найден ряд опечаток и ошибок технического характера (огромное спасибо всем читателям, которые сообщили о них!). С их списком можно ознакомиться ниже. Все эти неточности и ошибки будут учтены в последующих изданиях.

  • Опечатки в матрице, представленной вверху на стр. 23: эта матрица должна выглядеть следующим образом:

  • Лишнее слово в начале 2-го абзаца на стр. 28: вместо "...на образование (years of education; ..." должно быть "на образование (years; ..."

  • Лишнее слово в начале 2-го абзаца на стр. 27: вместо "...тогда как sales - это выходной переменной..." должно быть "тогда как sales - выходной переменной"

  • Пропущено слово в конце 3-го абзаца на стр. 30: вместо "...в зависимости условий производства..." должно быть "...в зависимости от условий производства"

  • Опечатка в первом абзаце на стр. 41: должно быть "...(т.е. переменной с двумя..."

  • Стр. 44-46, рисунки 2.9-2.11 (справа): перепутаны подписи осей. Ось X должна быть подписана как "Гибкость", а ось Y - как "Среднеквадратичная ошибка"

  • Опечатка в 1-м абзаце на стр. 58: должно быть "...при вызове этой функции...", а не "...при вызове этой функций..."

  • Опечатка во 2-м абзаце на стр. 58: должно быть "...воспроизводил один и тот же набор...", а не "...воспроизводил один тот же набор..."

  • Стр. 58: Вместо sd() на поля второй раз ошибочно вынесено mean()

  • Опечатка в последнем предложении на стр. 59: должно быть "...значений y...", а не "...значения y..."

  • Опечатка в конце 2-го абзаца на стр. 60: вместо "?controur" должно быть "?contour"

  • Опечатка в 4-м абзаце на стр. 62: вместо "read.table()" должно быть "read.csv()"

  • Лишнее слово во 2-м абзаце на стр. 65: вместо "...у нас есть имеется..." должно быть "...у нас имеется..."

  • Опечатка в пункте 9(а) на стр. 69: вместо "Какие предикторы явлются..." должно быть "Какие предикторы являются..."

  • Стр. 79, 4-я строка сверху, пропущено слово: вместо "...95-ный доверительный для..." должно быть "...95-ный доверительный интервал для..."

  • Стр. 79, после уравнения (3.13): вместо "...против $H_0:$ ..." должно быть "...против $H_a:$ ..."

  • Опечатка на стр. 84, после уравнения (3.19): вместо "$b_j$" дожно быть "$beta_j$"

  • Опечатки на стр. 92, 3-й абзац сверху: 1) вместо "...при добавлении newspapers в модель..." должно быть "...при добавлении newspaper в модель..."; 2) вместо "...p–значение для radio было незначимым." должно быть "p–значение для newspaper было незначимым."

  • Стр. 92, последний абзац: первое предложение в этом абзаце должно выглядеть следующим образом: "RSE у модели, содержащей в качестве предикторов только TV и radio, составляет 1.681, а у модели, которая включает также newspaper, RSE = 1.686 (табл. 3.6)."

  • Стр. 99: заголовок "Расширения линейной модели" должен быть заголовком подраздела, "3.3.2 Расширения линейной модели"

  • Стр. 100, уравнение (3.32): член "beta_3 X_1 X_2" после первого знака "=" лишний.

  • Стр. 102, уравнение (3.34): это уравнение должно выглядеть следующим образом:

Уравнение 3.34

  • Стр. 105, неверная нумерация подраздела: вместо "3.3.1 Потенциальные проблемы" должно быть "3.3.3 Потенциальные проблемы"

  • Стр. 110, последний абзац: слово "этого" в последнем предложении лишнее.

  • Стр. 111, рисунок 3.11 (справа): опечатка в подписи оси Х. Вместо "Показтель" должно быть "Показатель"

  • Опечатка на стр. 112, 4-я строка снизу: вместо "...этом рисунке..." должно быть "...на этом рисунке..."

  • Опечатка на стр. 114, 2-й абзац снизу: вместо "...для каждого предиктора рассчитывает путем..." должно быть "...для каждого предиктора рассчитывается путем..."

  • Стр. 115, таблица 3.11: эта таблица должна выглядеть следующим образом:

Таблица 3.11

  • Опечатка на стр. 116, 12-я строка сверху: должно быть "минимально" вместо "минимиально"

  • Опечатка на стр. 117, 2-я строка сверху: должно быть "реклама на телевидении" вместо "реклама не телевидении"

  • Опечатка на стр. 117, 2-й абзац: вместо "...с количеством продажам." должно быть "...с количеством продаж."

  • Стр. 122, подпись к рис. 3.19: эта подпись ошибочно была скопирована с подписи к рис. 3.18. Правильная подпись должна выглядеть следующим образом:

"Слева вверху: Приведены KNN–модели с K = 1 (голубая кривая) и K = 9 (красная кривая) для случая со слабой нелинейной зависимостью между X и Y (черная сплошная кривая). Справа вверху: Показаны MSE на контрольной выборке для линейной регрессии по методу наименьших квадратов (горизонтальная черная линия) и для KNN–моделей с разными значениями 1/K (зеленая кривая), подогнанных к данным со слабой нелинейной зависимостью. Слева и справа внизу: То же, что и вверху, но для случая с выраженной нелинейной зависимостью между X и Y"

  • Стр. 127, перед последним блоком кода: вместо "rstudent()" на поле страницы должно быть вынесено "hatvalues()"

  • Стр. 131, абзац после первого блока с кодом: продублирована следующая часть текста: "Здесь модель M1 ... зависимости между medv и lstat." Как следствие, продублировано и примечание к этому тексту и нарушена нумерация всех последующих примечаний в предалах главы 3

  • Ошибки на стр. 135, пункт 3: вместо "Независимой переменной является начальная заработная плата после окончания университете..." должно быть "Зависимой переменной является начальная заработная плата после окончания университета..."

  • Опечатка на стр. 137, пункт 8, подпункт (а) iii: вместо "Каково направление связь..." должно быть "Каково направление связи..."

  • Стр. 138, пункт 10, подпункт (e): слово "было" продублировано

  • Стр. 143, опечатки в первых двух предложениях 1-го абзаца: должно быть "...зависимая переменная Y является..." и "...часто зависимая переменная является...". На той же странице, 2-й абзац: должно быть "...три наиболее широко распространенных классификатора: логистическую регрессиию..."

  • Стр. 146, 5-й абзац сверху: должно быть "...нелегко приспособить для качественных откликов" и "...предназначены для качественных откликов."

  • Опечатка на стр. 148, 3-й абзац сверху: вместо "Для подгонки модели (4.1)..." должно быть "Для подгонки модели (4.2)..."

  • Стр. 152, 5-я строка снизу: слово "предложить" продублировано

  • Стр. 154, в конце первого абзаца: должно быть "...такой подход возможен и программное обеспечение..."

  • Стр. 156, опечатка в начале 3-го раздела: вместо "(Заметьте, что $\pi_k$ в (4.14)..." должно быть "(Заметьте, что $\pi_k$ в (4.12)"

  • Стр. 156, опечатка в уравнении (4.14): "мю" в знаменателе после первого знака "равно" не должны возводиться в квадрат

  • Стр. 156, опечатка в конце 3-го абзаца сверху: вместо "...Таким образом, что LDA хорошо..." должно быть "Таким образом, LDA хорошо..."

  • Стр. 170, пропущено слово в середине 2-го абзаца сверху: вместо "...тогда существенно более гибкий..." должно быть "...тогда как существенно более гибкий..."

  • Стр. 176, опечатка в 1-м абзаце: вместо "...предсказанных случая" должно быть "...предсказанных случаев"

  • Стр. 176, опечатка во 2-м абзаце (6-я строка): вместо "...частоты ошибок на обучающих..." должно быть "...частота ошибок на обучающих..."

  • Стр. 177. 1-й листинг: строки с 4-й по 6-ю должны идти после последней строки во 2-м листинге на той же странице

  • Стр. 191, опечатка в пункте d: вместо "...в объекте по названием..." должно быть "...в объекте под названием..."

  • Опечатка на стр. 198 в термине, вынесенном на поле страницы: должно быть "k-кратная" вместо "k-крантная"

  • Стр. 212, 2-й абзац, пропущено слово: вместо "...в пользу того, полиномы..." должно быть вместо "...в пользу того, что полиномы..."

  • Опечатки на стр. 214, предпоследний абзац: вместо "К обсуждалось в подразделе 3.2.1..." должно быть "Как обсуждалось в подразделе 3.1.2..."

  • Опечатка в 1-м абзаце на стр. 224: вместо "...но прим этом..." должно быть "...но при этом..."

  • Опечатка на стр. 231, первый абзац: должно быть "...пропорциональны друг другу..." вместо "...пропорциональных друг другу..."

  • Опечатка на стр. 237, середина первого абзаца: должно быть "...приводит к существенному..." вместо "...приводит в существенному..."

  • Стр. 239, формула 6.7: у второй и третьей суммы в качестве индекса указано i, а должно быть j

  • Стр. 240, 1-й абзац: неверный порядок перечисления моделей: должно быть "...коэффициентов лассо-модели и гребневой регрессии..."

  • Опечатка на стр. 241, 4-й абзац: вместо "...раны нулю?" должно быть "...равны нулю?"

  • Опечатка на стр. 252 в уравнении (6.19): коэффициент при первом слагаемом должен быть 0.839, а не 0.893

  • После 2-го абзаца на стр. 252 пропущен следующий небольшой абзац:

  • Стр. 256: продублировано слово в "Это связано с тем, что что..."

  • Стр. 260, опечатка в последнем предложении пункта 2: вместо "...намного превышает этого значение" должно быть "намного превышает это значение"

  • Стр. 263, опечатка в первом абзаце: вместо "Рисунок 24..." должно быть "Рисунок 6.24..."

  • Стр. 264, опечатка в конце первого абзаца: вместо "...качественными предсказательным моделям..." должно быть "...качественным предсказательным моделям..."

  • Первый листинг кода на стр. 266: элементы { и > mean(store) не нужны

  • Опечатки на стр. 266, 2-й абзац: в тексте и на полях вместо regsubset() должно быть regsubsets()

  • Опечатка на стр. 270, 1-й абзац: вместо regsubset() должно быть regsubsets()

  • Опечатка на стр. 274, 1-я строка 2-го листинга: вместо ridge.mod$lambda[60] должно быть ridge.mod$lambda[50]

  • Опечатка на стр. 276, в конце 2-го абзаца: вместо "...зернj генератора..." должно быть "...зерно генератора..."

  • Опечатка на стр. 278, 1-й абзац: вместо "...библиотеки pls()." должно быть "...библиотеки pls."

  • Опечатка на стр. 280, 1-й абзац: вместо "...библиотеки pls()." должно быть "...библиотеки pls."

  • Пропущено слово на стр. 288, в конце 1-го абзаца: вместо "...более сложные подходы, такие сплайны..." должно быть "...более сложные подходы, такие как сплайны..."

  • Опечатка на стр. 289, уравнение (7.1): пропущен знак + перед эпсилон

  • Опечатка на стр. 291 в термине, вынесенном на поля: вместо "катетегориальная" должно быть "категориальная"

  • Опечатка в сноске на стр. 292: вместо "...перечисленных в (5.7)..." должно быть "...перечисленных в (7.5)..."

  • Опечатка на стр. 302: вместо "...через всех обучающие..." должно быть "...через все обучающие..."

  • Опечатка на стр. 305, пункт 3 Алгоритма 7.1: вместо "...нахождения $\hat{\beta}_1$ и $\hat{\beta}_2$..." должно быть "...нахождения $\hat{\beta}_0$ и $\hat{\beta}_1$..."

  • Опечатка в формуле (7.15) на стр. 308: в первой строке этого уравнения должно быть $f_j$, а не $f_i$. Кроме того, во второй строке вместо $f_1(x_{ij})$ должно быть $f_1(x_{i1})$

  • Опечатки во 2-м абзаце на стр. 308: и у f, и у X индекс должен обозначаться буквой j, а не i

  • Стр. 308, 3-й абзац: пропущен один из уровней переменной education, т.е. должно быть "...переменной с пятью уровнями - <HS, HS, <Coll, Coll, >Coll..."

  • Стр. 312, опечатка в подписи к рис. 7.13: вместо "...из таблицы I(Wage)." должно быть "...из таблицы Wage."

  • Стр. 313, опечатка в термине, вынесенном на поля: вместо "отогональные полиномы" должно быть "ортогональные полиномы"

  • Стр. 319, опечатка во предпоследнем абзаце: вместо "...ширины окна 0.1 и 0.5..." должно быть "...ширины окна 0.2 и 0.5..."

  • Стр. 321, опечатка во 1-м абзаце: вместо "...которая не вообще не содержит..." должно быть "...которая вообще не содержит..."

  • Стр. 322, продублировано слово во 2-м абзаце: вместо "При построении построении..." должно быть "При построении..."

  • Стр. 323, строки 3, 7 и 11: при перечислении коэффицентов модели пропущен $\beta_3$.

  • Стр. 332, опечатка во 3-м абзаце: вместо "...быстро, особенное когда количество..." должно быть "...быстро, особенно когда количество..."

  • Стр. 351, опечатка в последнем абзаце: вместо "В этом наборе данных Seats..." должно быть "В этом наборе данных Sales..."

  • Стр. 355, опечатка в последнем абзаце: вместо "rm > 7.437" должно быть "rm >= 7.437"

  • Стр. 359, опечатка во 2-м абзаце: вместо "...по контрольной данным:" должно быть "...по контрольным данным:"

  • Стр. 366, опечатка во 2-м абзаце: вместо "...показаны на слева рис. 9.2." должно быть "...показаны на слева на рис. 9.2."

  • Стр. 367, последний абзац: в формуле для $f(x*)$ пропущен коэффициент $\beta_0$

  • Стр. 371, опечатка в названии раздела: должно быть "...на опорных векторах"

  • Стр. 374, формула (9.15): между знаком суммы и знаком "меньше либо равно" не хватает $\epsilon_i$

  • Стр. 375, 4-я строка сверху: между знаком суммы и знаком "меньше либо равно" не хватает $\epsilon_i$

  • Стр. 378, последняя строка уравнения (9.16): у первого знака суммы индексирование должно выполняться по i, а не j

  • Стр. 383, опечатка в 1-м абзаце: вместо "...статистически значимыми" должно быть "... статистически значимым"

  • Стр. 385, 1-й абзац: продублировано слово в "...связи между между SVM..."

  • Стр. 386, опечатка во 2-м абзаце: вместо "...на логистическую регрессии..." должно быть "...на логистическую регрессию..."

  • Стр. 401, опечатка в 1-м абзаце: вместо "...?plot.smv" должно быть "...?plot.svm"

  • Стр. 404. 5-й абзац, "...в виду то обстоятельство, что формула...": в этой формуле знак = перед фи не нужен

  • Стр. 405. 2-й абзац: знак = между занком суммы и фи не нужен

  • Стр. 406. ошибка в последнем абзаце: вместо "...и очень низкий вес переменной Assault" должно быть "...и очень низкий вес переменной UrbanPop"

  • Стр. 408, опечатки в 4-м абзаце: вместо "...максимальной близко к n наблюдениям" должно быть "...расположенную максимально близко к n наблюдениям"

  • Стр. 408, формула (10.5): эта формула должна выглядеть следующим образом:

  • Стр. 409, опечатка в подписи к рис. 10.2: вместо "...до плоскости мнимальна" должно быть "...до плоскости минимальна"

  • Стр. 410, первая строка: должно быть "UrbanPop", а не "UrbabPop"

  • Стр. 426, опечатка в последнем абзаце: вместо "До сих в примерах..." должно быть "До сих пор в примерах..."

  • Стр. 427, опечатка в первом абзаце: вместо "...она рассчитываться..." должно быть "...она рассчитывается..."

  • Стр. 429, 1-й абзац: в "...чтобы их стандартные стали равны 1" пропущено слово "отклонения"

  • Стр. 433, опечатка в 4-м абзаце: вместо "Используя функцию prcom()..." должно быть "Используя функцию prcomp()..."

  • Стр. 437, 1-й абзац": следует читать "Не менее легко мы могли бы выполнить иерархическую кластеризацию на основе среднего или одиночного присоединения:"

  • Стр. 437, 3-й листинг, 1-я строка: эта строка не нужна

  • Опечатка на стр. 440, последний абзац: вместо "...а элементы cumsum(pre)..." должно быть "...а элементы cumsum(pve)..."

  • Стр. 442, рис. 10.17, перепутаны заголовки графиков: Сначала должно идти "Полное присоединение", а затем - "Среднее присоединение". Соответственно, в подписи к этому рисунку должно быть "...на основе полного, среднего и одиночного типов..."