С.Ю. Папулин (papulin.study@yandex.ru)
email
. Для конспектов лекций включена возможность оставлять комментарии
Структура и содержание курса. Текущие и промежуточный контроли. Основные обозначения. Классы методов машинного обучения. Обучение с учителем. Обучение без учителя. Обучение с частичным привлечением учителя. Основные задачи машинного обучения. Типы переменных. Регрессия. Классификация. Кластеризация. Уменьшение размерности. Рекомендательные системы. Ансамбли методов. Параметрические и непараметрические методы. Предсказание и статистический вывод. Точность против интерпретируемости. Основные этапы построения модели
Семинары:
- Анализ данных и машинное обучение на Python
- Введение в NumPy
- Введение в Matplotlib
- Введение в Pandas
- Пример с общепитом
Теория вероятностей. Вероятности. Плотность вероятности. Математическое ожидание и ковариация. Нормальное распределение. Статистика. Генеральная совокупность. Выборка. Выборочное распределение. Центральная предельная теорема. Оценка параметров генеральной совокупности. Доверительный интервал. Проверка гипотез. Проверка гипотез со средним значением
Семинары:
Постановка задачи регрессии. Линейная регрессия. Метод наименьших квадратов. Условия применимости метода наименьших квадратов. Компоненты ошибки предсказания. Смещение и дисперсия. Переобучение. Статистический вывод. Доверительные интервалы параметров и среднего предсказания. Интервал предсказания. Оценка влияния признаков. Проверка гипотез. t-критерий и F-критерий для оценки влияния признаков.
Семинары:
- Обучение линейной регрессии: МНК, ГС, СГС
- Линейная регрессия и статистический вывод
- Полиномиальная линейная регрессия
- Пример с расходом топлива
Оптимизация. Безусловная оптимизация. Линейный поиск (Line Search). Метод градиентного спуска. Выбор значения параметра шага. Критерии остановки алгоритмов поиска минимального значения целевой функции. Стохастический градиентный спуск. Градиентный спуск для линейная регрессия. Стохастический градиентный спуск для линейной регрессии.
Семинары:
Метод максимального правдоподобия. Распределение Бернулли. Классификация. Логистическая регрессия. Градиентный спуск и стохастический градиентный спуск для логистической регрессии. Многоклассовая классификация. Полиномиальная логистическая регрессия (softmax регрессия). Подходы one-vs-rest и one-vs-one.
Семинары:
Регуляризация. L1 и L2 регуляризация в линейной регрессии. Масштабирование значений признаков. Формулировка регуляризации через ограничение. Регуляризация логистической регрессии. Байесовская интерпретация регуляризации посредством метода апостериорного максимума (MAP).
Семинары:
Повторные выборки. Оценка качества предсказания и выбор моделей. Отложенное множество. Кросс-валидация c leave-one-out (LOOCV). Кросс-валидация c k-Folds. Кросс-валидация для задачи классификации. Виды k-folds кросс-валидации. Выбор гиперпараметров и оценка качества модели. Вложенная кросс-валидация. Бутстреп (Bootstrap).
Семинары:
Постановка задачи выбора признаков. Выбор перебором комбинаций признаков. Пошаговый выбор (stepwise selection) с наращиванием количества признаков (forward selection), с уменьшением количества признаков (backward selection). Выбор сочетанием подходов (mixed selection). L1 регуляризация.
Семинары:
Разделяющая гиперплоскость. Расстояние от точки до гиперплоскости. Опорные векторы и зазор. Метод опорных векторов для линейно разделимой выборки. Максимизация зазора. Прямая задача (primal problem). Двойственная задача (dual problem). Метод опорных векторов для линейно неразделимой выборки. Нелинейный случай. Алгоритмы обучения. Метод опорных векторов для задачи регрессии.
Семинары:
Наивный байесовский классификатор. Наивный байесовский классификатор с распределением Гаусса, Бернулли и полиномиальным распределением.
Семинары:
Деревья решений для задачи регрессии. Построение бинарного дерева решений. Подрезка деревьев (pruning). Деревья решений для задачи классификации. Сравнение с линейными методами. Бэггинг, случайный лес, сверхслучайные деревья, бустинг, стекинг.
Семинары:
- Деревья решений и их ансамбли
- Деревья решений для задачи регрессии
- Распознавание активности (HAR)
- Пример с предсказанием покупок
12. Нейронные сети
Виды нейронных сетей. Многослойная нейронная сеть прямого распространения. Метод обратного распространения ошибки. Рекуррентные нейронные сети. Простая рекуррентная сеть. Сеть долгой краткосрочной памяти. Сверточные нейронные сети.
Семинары:
13. Кластеризация
Постановка задачи кластеризации. Метод k-средних. Минимизация внутрикластерного расстояния. Алгоритм метода k-средних. Иерархическая кластеризация. Агломеративный подход. Алгоритм построения дендрограммы. Способы определения расстояния между двумя кластерами. Меры сходства/различия двух наблюдений. Кластеризация по плотности. Смесь функций гаусовского распределения для задачи кластеризации.
Семинары:
- Основные методы
- Определение количества кластеров
- Кластеризация. Предобработка и обучение с частичным привлечением учителя
Постановка задачи. Метод главных компонент. Матрица ковариации. Преобразование и диагонализация матрицы. Условия и ограничения метода главных компонент. Уменьшение размерности посредством метода главных компонент. Линейная регрессия с использованием метода главных компонент.
Семинары:
Постановка задачи и основные обозначения. Рекомендации на основе контента. Векторное представление данных и определение сходства. Коллаборативная фильтрация. Способы определения сходства между пользователями и предсказание рейтинга. Способы определения сходства между товарами и предсказание рейтинга. Сравнение подходов коллаборативной фильтрации. Факторизация матрицы рейтингов. Метод наименьших квадратов с чередованием (ALS).
Семинары:
TODO
Распределенное вычисление основных статистик (среднее значение и стандартное отклонение). Распределенное вычисление косинусного сходства. Распределенный градиентный спуск. Стохастический градиентный спуск. Параллельный стохастический градиентный спуск. Алгоритм HogWild!. Алгоритм стохастического градиентного спуска в системе Spark. Распределенная факторизация матрицы посредством ALS
Примеры распределенных алгоритмов
- Стохастический градиентный спуск
- Наивный байесовский классификатор: мультиномиальная модель
- Рекомендательные системы: факторизация матрицы
TODO
- An Introduction to Statistical Learning by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshir. URL: https://www.statlearning.com/
- The Elements of Statistical Learning by Trevor Hastie, Robert Tibshirani, Jerome Friedman. URL: https://web.stanford.edu/~hastie/ElemStatLearn/ или в переводе: Хасти Т., Тибришани Р. Основы статистического обучения : интеллектуальный анализ данных, логический вывод и прогнозирование
- Christopher M. Bishop. 2006. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag, Berlin, Heidelberg. URL: https://www.microsoft.com/en-us/research/uploads/prod/2006/01/Bishop-Pattern-Recognition-and-Machine-Learning-2006.pdf
- Speech and Language Processing. Daniel Jurafsky & James H. Martin URL: https://web.stanford.edu/~jurafsky/slp3/
- Mining of Massive Datasets by Jure Leskovec, Anand Rajaraman, Jeff Ullman. URL: http://www.mmds.org/
- Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow by Aurélien Géron
- Nocedal, Jorge and Wright, Stephen J.. Numerical optimization. 2. ed. New York, NY: Springer, 2006.
- Introduction to Information Retrieval by Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze, Cambridge University Press. 2008. URL: http://www-nlp.stanford.edu/IR-book/
- Francesco Ricci, Lior Rokach, Bracha Shapira, and Paul B. Kantor. 2010. Recommender Systems Handbook (1st. ed.). Springer-Verlag, Berlin, Heidelberg
- Machine Learning (для начинающих)
- Учебник по машинному обучению
- MachineLearning.ru
- АНАЛИЗ МАЛЫХ ДАННЫХ. КвазиНаучный блог Александра Дьяконова
- Машинное обучение (курс лекций, К.В.Воронцов)
TODO: extend the list