Skip to content

MLMethods/Lectures

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 

Repository files navigation

Методы машинного обучения

С.Ю. Папулин (papulin.study@yandex.ru)

⚠️ Замечание. Если в материалах была обнаружена опачетка или ошыбка 🧐, то просьба сообщить по вышеуказанному email. Для конспектов лекций включена возможность оставлять комментарии

Темы лекций

1. Введение в машинное обучение

Структура и содержание курса. Текущие и промежуточный контроли. Основные обозначения. Классы методов машинного обучения. Обучение с учителем. Обучение без учителя. Обучение с частичным привлечением учителя. Основные задачи машинного обучения. Типы переменных. Регрессия. Классификация. Кластеризация. Уменьшение размерности. Рекомендательные системы. Ансамбли методов. Параметрические и непараметрические методы. Предсказание и статистический вывод. Точность против интерпретируемости. Основные этапы построения модели

Семинары:

Теория вероятностей. Вероятности. Плотность вероятности. Математическое ожидание и ковариация. Нормальное распределение. Статистика. Генеральная совокупность. Выборка. Выборочное распределение. Центральная предельная теорема. Оценка параметров генеральной совокупности. Доверительный интервал. Проверка гипотез. Проверка гипотез со средним значением

Семинары:

3. Линейная регрессия. Метод наименьших квадратов. Статистический вывод

Постановка задачи регрессии. Линейная регрессия. Метод наименьших квадратов. Условия применимости метода наименьших квадратов. Компоненты ошибки предсказания. Смещение и дисперсия. Переобучение. Статистический вывод. Доверительные интервалы параметров и среднего предсказания. Интервал предсказания. Оценка влияния признаков. Проверка гипотез. t-критерий и F-критерий для оценки влияния признаков.

Семинары:

Оптимизация. Безусловная оптимизация. Линейный поиск (Line Search). Метод градиентного спуска. Выбор значения параметра шага. Критерии остановки алгоритмов поиска минимального значения целевой функции. Стохастический градиентный спуск. Градиентный спуск для линейная регрессия. Стохастический градиентный спуск для линейной регрессии.

Семинары:

Метод максимального правдоподобия. Распределение Бернулли. Классификация. Логистическая регрессия. Градиентный спуск и стохастический градиентный спуск для логистической регрессии. Многоклассовая классификация. Полиномиальная логистическая регрессия (softmax регрессия). Подходы one-vs-rest и one-vs-one.

Семинары:

Регуляризация. L1 и L2 регуляризация в линейной регрессии. Масштабирование значений признаков. Формулировка регуляризации через ограничение. Регуляризация логистической регрессии. Байесовская интерпретация регуляризации посредством метода апостериорного максимума (MAP).

Семинары:

Повторные выборки. Оценка качества предсказания и выбор моделей. Отложенное множество. Кросс-валидация c leave-one-out (LOOCV). Кросс-валидация c k-Folds. Кросс-валидация для задачи классификации. Виды k-folds кросс-валидации. Выбор гиперпараметров и оценка качества модели. Вложенная кросс-валидация. Бутстреп (Bootstrap).

Семинары:

8. Выбор признаков

Постановка задачи выбора признаков. Выбор перебором комбинаций признаков. Пошаговый выбор (stepwise selection) с наращиванием количества признаков (forward selection), с уменьшением количества признаков (backward selection). Выбор сочетанием подходов (mixed selection). L1 регуляризация.

Семинары:

9. Метод опорных векторов

Разделяющая гиперплоскость. Расстояние от точки до гиперплоскости. Опорные векторы и зазор. Метод опорных векторов для линейно разделимой выборки. Максимизация зазора. Прямая задача (primal problem). Двойственная задача (dual problem). Метод опорных векторов для линейно неразделимой выборки. Нелинейный случай. Алгоритмы обучения. Метод опорных векторов для задачи регрессии.

Семинары:

Наивный байесовский классификатор. Наивный байесовский классификатор с распределением Гаусса, Бернулли и полиномиальным распределением.

Семинары:

Деревья решений для задачи регрессии. Построение бинарного дерева решений. Подрезка деревьев (pruning). Деревья решений для задачи классификации. Сравнение с линейными методами. Бэггинг, случайный лес, сверхслучайные деревья, бустинг, стекинг.

Семинары:

Виды нейронных сетей. Многослойная нейронная сеть прямого распространения. Метод обратного распространения ошибки. Рекуррентные нейронные сети. Простая рекуррентная сеть. Сеть долгой краткосрочной памяти. Сверточные нейронные сети.

Семинары:

Постановка задачи кластеризации. Метод k-средних. Минимизация внутрикластерного расстояния. Алгоритм метода k-средних. Иерархическая кластеризация. Агломеративный подход. Алгоритм построения дендрограммы. Способы определения расстояния между двумя кластерами. Меры сходства/различия двух наблюдений. Кластеризация по плотности. Смесь функций гаусовского распределения для задачи кластеризации.

Семинары:

Постановка задачи. Метод главных компонент. Матрица ковариации. Преобразование и диагонализация матрицы. Условия и ограничения метода главных компонент. Уменьшение размерности посредством метода главных компонент. Линейная регрессия с использованием метода главных компонент.

Семинары:

15. Рекомендательные системы

Постановка задачи и основные обозначения. Рекомендации на основе контента. Векторное представление данных и определение сходства. Коллаборативная фильтрация. Способы определения сходства между пользователями и предсказание рейтинга. Способы определения сходства между товарами и предсказание рейтинга. Сравнение подходов коллаборативной фильтрации. Факторизация матрицы рейтингов. Метод наименьших квадратов с чередованием (ALS).

Семинары:

  • TODO

16. Распределенные алгоритмы

Распределенное вычисление основных статистик (среднее значение и стандартное отклонение). Распределенное вычисление косинусного сходства. Распределенный градиентный спуск. Стохастический градиентный спуск. Параллельный стохастический градиентный спуск. Алгоритм HogWild!. Алгоритм стохастического градиентного спуска в системе Spark. Распределенная факторизация матрицы посредством ALS

Примеры распределенных алгоритмов

17. Представление данных

TODO

Основная литература

  • An Introduction to Statistical Learning by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshir. URL: https://www.statlearning.com/
  • The Elements of Statistical Learning by Trevor Hastie, Robert Tibshirani, Jerome Friedman. URL: https://web.stanford.edu/~hastie/ElemStatLearn/ или в переводе: Хасти Т., Тибришани Р. Основы статистического обучения : интеллектуальный анализ данных, логический вывод и прогнозирование
  • Christopher M. Bishop. 2006. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag, Berlin, Heidelberg. URL: https://www.microsoft.com/en-us/research/uploads/prod/2006/01/Bishop-Pattern-Recognition-and-Machine-Learning-2006.pdf
  • Speech and Language Processing. Daniel Jurafsky & James H. Martin URL: https://web.stanford.edu/~jurafsky/slp3/
  • Mining of Massive Datasets by Jure Leskovec, Anand Rajaraman, Jeff Ullman. URL: http://www.mmds.org/
  • Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow by Aurélien Géron
  • Nocedal, Jorge and Wright, Stephen J.. Numerical optimization. 2. ed. New York, NY: Springer, 2006.
  • Introduction to Information Retrieval by Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze, Cambridge University Press. 2008. URL: http://www-nlp.stanford.edu/IR-book/
  • Francesco Ricci, Lior Rokach, Bracha Shapira, and Paul B. Kantor. 2010. Recommender Systems Handbook (1st. ed.). Springer-Verlag, Berlin, Heidelberg

Статистика

Онлайн-курсы, статьи, блоги и пр.

Библиотеки и документация

TODO: extend the list

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •