About the course (in Russian)

Yury Kashnitskiy edited this page Oct 31, 2018 · 35 revisions

ODS stickers

Основной сайт курса - mlcourse.ai. Анонс курса на Хабре. Youtube-канал c онлайн-трансляциями и записями лекций. Курс проводится на английском языке, обсуждается в Slack OpenDataScience в канале #mlcourse_ai. Но также для желающих есть канал #mlcourse_ai_rus и объявления – в группе ВКонтакте.

Цель курса – развить понимание основных концепций машинного обучения (теория) и дать навыки его использования (практика). Поэтому статьи не без математики и поэтому в курсе множество активностей: домашние задания, соревнования на Kaggle Inclass, слушатели сами пишут тьюториалы по интересным темам и выполняют индивидуальные проекты.

Требуются начальные навыки программирования на Python и знание математики (математический анализ, линейная алгебра, теория вероятностей, математическая статистика) на уровне 2 курса технического ВУЗа. Подробнее – в Wiki репозитория.

Статьи на Хабре

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Python
  3. Классификация, деревья решений и метод ближайших соседей
  4. Линейные модели классификации и регрессии
  5. Композиции: бэггинг, случайный лес
  6. Построение и отбор признаков
  7. Обучение без учителя: PCA и кластеризация
  8. Обучаемся на гигабайтах с Vowpal Wabbit
  9. Анализ временных рядов с помощью Python
  10. Градиентный бустинг

Видеолекции

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Seaborn и Matplotlib
  3. [Классификация. Деревья решений]https://www.youtube.com/watch?v=crerhGu3j-8)
  4. Логистическая регрессия + обсуждение соревнования Kaggle
  5. Случайный лес
  6. Регрессия, регуляризация
  7. Обучение без учителя
  8. Признаки, SGD, Vowpal Wabbit
  9. Временные ряды
  10. Градиентный бустинг

Беседы о Data Science

  1. Александр Дьяконов
  2. Константин Воронцов
  3. Евгений Соколов
  4. Дмитрий Ветров
  5. Эмели Драль и Виктор Кантор
  6. Сергей Николенко

Домашние задания

Актуальные задания будут объявляться раз в неделю при очередной сессии курса. Тут вы найдете демо-версии заданий:

  1. Анализ данных по доходу населения UCI Adult, nbviewer
  2. Визуальный анализ данных о публикациях на Хабрахабре, nbviewer
  3. Деревья решений в игрушечной задаче и на данных Adult репозитория UCI, nbviewer
  4. Прогнозирование популярности статей на TechMedia (Хабр) с помощью линейных моделей, nbviewer
  5. Логистическая регрессия и случайный лес в задаче кредитного скоринга, nbviewer
  6. Линейная регрессия, Lasso и RF-регрессия в задаче по определению качества вина, nbviewer
  7. Обучение без учителя: метод главных компонент и кластеризация, nbviewer
  8. Реализация алгоритмов онлайн-обучения, nbviewer
  9. Анализ временных рядов, nbviewer
  10. Прогнозирование задержек вылетов (соревнование Kaggle Inclass), nbviewer

Соревнования Kaggle Inclass

  1. Catch Me If You Can: Intruder Detection through Webpage Session Tracking. Kaggle Inclass
  2. How good is your Medium article? Kaggle Inclass
  3. Категоризация покупок. Kaggle Inclass, ссылка для участия

Wiki-страницы этого репозитория:

  • Из чего состоит курс. Тут собраны активности, за которые можно получить баллы в 3-ей сессии этого курса (с 5 февраля по 20 апреля 2018 г)
  • Prerequisites: Python, математика, DevOps. О том, как лучше подготовиться к прохождению курса, если навыков программирования или знаний математики не хватает.
  • План совместного прохождения курса cs231n c 23.04.2018
  • Авторы статей и лекторы. Вкратце представляем всех, кто поработал над курсом.
  • ПО для прохождения курса и Docker – как настроить все ПО для прохождения курса. В частности, описывается, как запустить у себя Docker-контейнер, в котором уже все установлено.
  • Топ-100 1-ой сессии курса. 1-я сессия курса прошла с 28 февраля по 10 июня 2017 года – с домашними заданими, соревнованиями, тьюториалами, конкурсами по визуализации и общим рейтингом. Более 500 участников.
  • Топ-100 2-ой сессии курса. 2-я сессия курса прошла с 6 сентября по 17 ноября 2017 года – добавились индивидуальные проекты. Более 1300 участников.
  • Топ-100 3-ей сессии курса. 3-я сессия курса прошла с февраля по апрель 2018 года. Более 1800 участников.
  • Тьюториалы и проекты. Одним из заданий в курсе было написать тьюториал на одну из тем вокруг машинного обучения и анализа данных и выполнить индивидуальный проект по предложенному плану.

Поддержать курс можно на краудфандинговой платформе Patreon

You can’t perform that action at this time.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session.
Press h to open a hovercard with more details.