Данный репозиторий содержит реализаию практических заданий по специализации от Яндекса и МФТИ на Coursera "Машинное обучение и анализ данных".
Специализация состоит из 6 курсов:
-
Математика и Python для анализа данных
Первая часть курса о языке программирования Python и работе сбиблиотеками NumPy, SciPy, Matplotlib и Pandas. Вторая часть курса посвящена таким разделам математики как линейная алгебра, математический анализ, методы оптимизации и теория вероятностей. При этом, упор делается на разъяснение математических понятий и их применение на практике, а не на вывод сложных формул и доказательство теорем.
Практические задания -
Обучение на размеченных данных
Курс рассматриает успешно применяемые на практике алгоритмы классификации и регрессии: линейные модели, нейронные сети, решающие деревья и так далее. Особый акцент на построение композиций, в частности случайные леса и метод градиентного бустинга. Кроме этого: оценивание обобщающей способности алгоритмов, подбор параметров модели, выбор и подсчет метрик качества.
Практические задания:- Линейная регрессия и основные библиотеки Python для анализа данных и научных вычислений
- Линейная регрессия и стохастический градиентный спуск
- Линейная регрессия: переобучение и регуляризация
- Предобработка данных и логистическая регрессия для задачи бинарной классификации
- Бэггинг и случайный лес
- Градиентный бустинг своими руками
-
Поиск структуры в данных
Курс об алгоритмах кластеризации данных. Направлен на то, чтобы научить строить матричные разложения и решать задачу тематического моделирования, понижать размерность данных, искать аномалии и визуализировать многомерные данные.
Практические задания: -
Построение выводов по данным
-
Прикладные задачи анализа данных
-
Анализ данных: финальный проект