- Форкаем данный репозиторий (В github)
- Клонируем данный репозиторий на ваш ПК (git clone https://github.com/TevenixLevelUps/ML)
- Жестко чет пишем
- Добавляем изменения в staging (git add .)
- Фиксируем прибыль (изменения) (git commit -m "Some title for commit.")
- Отправляем изменения в удаленный репозиторий (git push -u https://github.com/TevenixLevelUps/ML)
- Создаем PR в вашем удаленном github репозитории. Укажите ФИО и ссылку на ТГ. Будут вопросы - обращайтесь в группу левелапов дабы избежать повторяющихся вопросов. Стесняетесь - @ffandorin
Реализовать алгоритмы градинетного спуска (полный, стохастический, батчевый), протестировать их на нескольких моделях регрессии и сравнить результаты.
В качестве данных для обучения используйте какой-нибдуь небольшой датасет, типа California House Pricing или load_iris. Не забудьте разделить его данные на тренировочные и тестовые.
Поэксперементируйте с настройками. Протестируйте алгоритмы с различными значениями гиперпараметра (величины шага спуска), количествами итераций или критериями остановки, величинами батча.
Продемонстрируйте результаты работы с алгоритмами, например, путем оценки моделей с помощью метрик, построением графиков зависимости значеня функции потерь от количества итераций или количества итераций алгоритма перед срабатыванием критерия остановки и т.д.
Все просто: реализовываем модель бинарной логистической регрессии.
Берем удобный вам набор данных с дискретной величиной, которую хотите предсказывать. Прописываем модель, обучаем ее с помощью LogLoss и любого удобного численного метод (можно градиентный спуск). Тестируем модель на тестовых данных. Из обязательных метрик: Precision, Recall, ROC-кривая и ROC-AUC (метрики реализовывать тоже самому).
Можете проверить на ней L1 и L2 регуляризацию.
Реалзизовать свою модель случайного леса.
Задать модель решающего дерева, написать алгоритм CART для его обучения (для задачи регрессии или классификации, на выбор).
Задать ансамбль деревьев, с помощью бутстрапа дать каждому дереву свою обучающую подвыборку и подпространство признаков, обучить ансамль и агрегировать ответы всех деревьев.
Протестировать ансамбль на каком-нибудь наборе данных, сравнить его производительность с одним решающим деревом.