- Адаптационные математические курсы
- Математический анализ
- Линейная алгебра
- Теория вероятностей
- Математическая статистика
- Методы оптимизации
- Основы машинного обучения
- Обучение с учителем. Задачи классификации и регрессии
- Оценка качества алгоритмов машинного обучения
- Обучение без учителя и задача кластеризации
- Поиск выбросов и аномалий в данных
- Индивидуальный проект по анализу данных
- Ваши личные либо общедоступные данные и задачи
- 1.5 месяца работы по четкому плану под руководством преподавателей
- Презентации и обсуждение проектов
- Продвинутые методы машинного обучения
- Ансамбли алгоритмов классификации и регрессии. Градиентный бустинг
- Смешивание моделей классификации и регрессии. Стекинг моделей классификации и регрессии
- Соревнования по анализу данных, обзор решений
- Поиск зависимостей в данных
- Поиск часто покупаемых товаров (Frequent Itemset Mining). Алгоритм Apriori. Алгоритм FP-growth
- Признаковые зависимости в данных. Импликации и ассоциативные правила (Association Rules)
- Компактное представление закономерностей. Замкнутые и максимальные частые множества. Алгоритмы GenMax и Charm (или Close-by-One)
- Анализ частых последовательностей. Примеры из демографии. Библиотека SPMF
- Меры качества закономерностей. Корреляция как мера связи признаков. Статистическая оценка качества
- Анализ социальных сетей
- Введение в анализ социальных сетей. Модели формирования социальных сетей
- Анализ структуры социальных связей. Каскады в сетях
- Сообщества в социальных сетях
- Распространение информации в социальных сетях
- Автоматическая обработка текстов
- Введение в анализ текстов. Частотный анализ текстов
- Морфологический анализ. Выделение ключевых слов и словосочетаний
- Выявление скрытых тем. Введение в корпусную лингвистику
- Синтаксический анализ. Визуализация текстов
- Масштабируемое машинное обучение и анализ больших данных с Apache Spark
- Парадигма MapReduce в машинном обучении
- Онлайн-обучение
- Концепции вычислений в памяти и устойчивых распределенных наборов данных
- Введение в Apache Spark для анализа данных
- Машинное обучение с библиотекой MLLib Apache Spark
- Нейронные сети и глубинное обучение
- Введение в нейронные сети
- Обучение сетей прямого распространения
- Сверточные нейронные сети
- Сети прямого распространения в анализе текстов
- Рекуррентные нейронные сети
- Модели сопоставления последовательностей (sequence to sequence)
Выпускник механико-математического факультета МГУ, кандидат физико-математических наук, доцент кафедры высшей математики НИУ ВШЭ. Лауреат конкурса молодых математиков фонда «Династия». Разработал и прочитал ряд курсов по программированию, в том числе обещуниверситетский факультатив «Программирование на языке Python для сбора и обработки данных».
Преподаватель факультета компьютерных наук НИУ ВШЭ, научный сотрудник Международной научно-учебной лаборатории интеллектуальных систем и структурного анализа. Имеет публикации, представленные на семинарах топовых конференций по искусственному интеллекту (IJCAI и ECAI) и машинному обучению (ECML/PKDD). Преподаватель языка Python и машинного обучения в MLClass. В прошлом — разработчик Hadoop, бизнес-аналитик и Java-программист РДТЕХ.
Кандидат технических наук, преподаватель факультета компьютерных наук НИУ ВШЭ, доцент Департамента анализа данных и искусственного интеллекта, научный сотрудник Международной научно-учебной лаборатории интеллектуальных систем и структурного анализа. Проходил обучение по PhD программе в Техническом университете Дрездена (Германия) в рамках гранта DAAD.
Кандидат социологических наук, научный сотрудник Института институциональных исследований НИУ ВШЭ. Преподает курсы по компьютерному моделированию в социологии, анализу социальных сетей и динамике социальных сетей. Работала в университете Гронингена (Нидерланды) в рамках программы международной мобильности Erasmus Mundus.
Старший преподаватель Департамента анализа данных и искусственного интеллекта факультета компьютерных наук, научный сотрудник Международной научно-учебной лаборатории анализа и выбора решений.
Кандидат технических наук, аналитик больших массивов данных в IQmen - Business Intelligence. Проходил обучение по PhD программе в Техническом университете Ильменау (Германия) в рамках гранта DAAD и научные стажировки в ТУ Брауншвайг и ТУ Дортмунд. Ранее — разработчик систем машинного обучения в сфере сетевой безопасности (ЗАО "Перспективный мониторинг") и младший научный сотрудник ЮРГПУ(НПИ) имени М.И.Платова.
Выпускник факультета компьютерных наук. Data Scientist и программист в alterra.ai
В курсе используется сборка библиотек Anaconda, тетрадки Jupyter, Apache Spark, Xgboost и некоторые другие библиотеки. Все это можно не устанавливать, а использовать Docker-контейнер (требования: около 4 Гб места на диске, 4 Гб RAM). Введение в Docker. Рекомендуется тем, кто использует Windows, c *NIX проще самостоятельно установить необходимое (см. Dockerfile).
Инструкция:
- скачать данный репозиторий
- на Windows скорее всего придется включить в BIOS виртуализацию, если раньше не использовали виртуальные машины или Docker
- установить Docker
- установить Docker Compose
- перейти в командной строке/терминале в скачанный каталог HSE_BigML_AddProfEduc
- выполнить docker-compose up. Это может занять продолжительное время
- открыть localhost:7777 (в файле docker-compose.yml можно поменять порт 7777 на любой другой)
- далее можно выполнить тетрадку check_docker.ipynb и убедиться, что нужные библиотеки подключаются
Контейнеры Docker, как правило, занимают много места на диске.
- docker ps – посмотреть весь список контейнеров
- docker stop $(docker ps -a -q) – остановить все контейнеры
- docker rm $(docker ps -a -q) – удалить все контейнеры
Доступная и понятная документация Docker с примерами