Skip to content

SavelievVV/mlcourse_open

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Открытый курс OpenDataScience по машинному обучению

ODS stickers

Основные темы

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных в Python
  3. Классификация, деревья решений и метод ближайших соседей
  4. Линейные модели классификации и регрессии. Кросс-валидация и оценка модели
  5. Композиции: бэггинг, случайный лес. Кривые валидации и обучения
  6. Обучение без учителя: PCA, кластеризация, поиск аномалий
  7. Искусство построения и отбора признаков. Приложения в задачах обработки текста, изображений и гео-данных

Авторы статей и лекторы (в скобках – ники в OpenDataScience и на Хабрахабре)

Юрий Кашницкий (@yorko)

Программист-исследователь Mail.ru Group, старший преподаватель факультета компьютерных наук ВШЭ, научный сотрудник Международной научно-учебной лаборатории интеллектуальных систем и структурного анализа ВШЭ. В прошлом — разработчик Hadoop, бизнес-аналитик и Java-программист РДТЕХ. Домашняя страница https://yorko.github.io/
Преподаватель в годовой программе дополнительного образования по анализу данных в ВШЭ, автор Capstone проекта специализации Яндекса и МФТИ "Машинное обучение и анализ данных"
У Юрия есть репозиторий с Jupyter-тетрадками по языку Python и основным алгоритмам и структурам данных

Павел Нестеров (@mephistopheies)

Data Scientist в стартапе, который нельзя называть. Раньше - программист-исследователь Mail.Ru Group в департаменте рекламы, позже в департаменте поиска. Преподавал в Техносфере@Mail.Ru на базе МГУ ВМК. Еще раньше - программист-исследователь в сфере компьютерного зрения, до нейросетевой эпохи, в Aspose ltd. Домашняя страница http://pavelnesterov.info/
Павел пишет содержательные статьи на Хабре по нейронным сетям.

Екатерина Демидова (@katya, cotique)

Data Scientist в Segmento, г. Санкт-Петербург. Ментор специализации Яндекса и МФТИ "Машинное обучение и анализ данных"
У Кати есть репозиторий со списком книг/курсов/статей по Data Science

Мария Мансурова (@miptgirl)

Аналитик в Яндексе, г. Москва

Арсений Кравченко (@arsenyinfo)

Дмитрий Сергеев (@dmitryserg)

Виталий Радченко (@vradchenko)

Сергей Королев (@libfun)

Инструкция по установке Docker-контейнера (необходимое ПО)

В курсе используется сборка библиотек Anaconda, тетрадки Jupyter, Xgboost и некоторые другие библиотеки. Все это можно не устанавливать, а использовать Docker-контейнер (требования: около 4 Гб места на диске, 4 Гб RAM). Введение в Docker. Рекомендуется тем, кто использует Windows, c *NIX проще самостоятельно установить необходимое (см. Dockerfile).

Инструкция:

  • скачать данный репозиторий
  • на Windows скорее всего придется включить в BIOS виртуализацию, если раньше не использовали виртуальные машины или Docker
  • установить Docker
  • установить Docker Compose
  • перейти в командной строке/терминале в скачанный каталог mlcourse_open
  • выполнить docker-compose up. Первый раз это займет продолжительное время
  • открыть localhost:7777 (в файле docker-compose.yml можно поменять порт 7777 на любой другой)
  • далее можно выполнить тетрадку check_docker.ipynb и убедиться, что нужные библиотеки подключаются

Контейнеры Docker, как правило, занимают много места на диске.

  • docker ps – посмотреть весь список контейнеров
  • docker stop $(docker ps -a -q) – остановить все контейнеры
  • docker rm $(docker ps -a -q) – удалить все контейнеры
  • docker images - посмотреть весь список образов
  • docker rmi <image_id> – удалить ненужный образ

Доступная и понятная документация Docker с примерами

About

Репозиторий открытого курса OpenDataScience по машинному обучению

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 100.0%