Skip to content

Latest commit

 

History

History
30 lines (27 loc) · 11.4 KB

README.md

File metadata and controls

30 lines (27 loc) · 11.4 KB

ml_works

В этом репозитории хранятся истории версий менее объемных, но не менее значимых для меня работ, чем в репозитории номинально основных проектов.

Проекты

Название (ссылка) Описание Комментарий
1 Прогноз страховых расходов EDA/ML-проект по предсказанию индивидуальных медицинских расходов по общим биосоциальным данным. Задача из Kaggle. Работа с привычным инструментарием sklearn: полиномиальные регрессии и их регуляризированные модификации.
2 Прогнозирование оттока клиентов банка ML-проект по созданию классификатора, позволяющего своевременно определять уходящих клиентов банка. Работа с привычным инструментарием sklearn: логистическая регрессия, дерево решений и случайный лес.
3 Кластеризация покупателей ML-проект по поиску оптимальной группировки клиентов некоторого торгового центра. Использовались: DBSCAN и алгоритм агломеративной кластеризации.
4 Понижение размерности данных, основанных на рукописном начертании цифр ML-проект по понижению размерности данных с использованием методов PCA и t-SNE. Короткая работа-набросок с претензией на уклон в сторону CV.
5 Валидация данных и оценка модели на примере датасета о качестве воды ML-проект по сравнению методов валидации и обзору методов борьбы с переобучением. Разбор задачи из Kaggle. Работа-экскурс в технические особенности организации работы с ml.
6 Предсказание покупательских намерений клиентов онлайн магазина ML-проект по классификации покупательских сессий. Задача из Kaggle. Работа с несбалансированными классами объектов. Алгоритм случайного леса.
7 Обработка признаков на примере датасета продаж автомобилей Ford ML-проект по исследованию методов предобработки данных: предсказание пропущенных данных с помощью ml, рекурсивное исключение признаков, исключение на основе статистических фильтров. Исследовательский проект-набросок. Работа-экскурс в технические особенности организации работы с ml.
8 Подбор гиперпараметров модели на примере прогнозирования биологического ответа молекул ML-проект по классификации молекул. Задача из Kaggle. Сравнение методов оптимизации гиперпараметров логистической функции и алгоритма случайного леса: GridSearchCV, RandomizedSearchCV, hyperopt, optuna.
9 Прогнозирование выработки газа на скважинах ML-проект по предсказанию объемов добычи газа на скважинах по ряду их параметров. Работа с линейными регрессиями и ее модификациями. Создание собственной модели линейной регрессии по методу наименьших квадратов без sklearn.
10 Исследование зависимости продаж от релкамы ML-проект по предсказанию объемов продаж в зависимости от затрат на рекламу Решение регрессионной задачи методом градиентного спуска. Создание собственных моделей градиентного, координатного и стохастически градиентного спусков.
11 Наивный Байесовский Классификатор для классификации спам-сообщений ML-проект по классификации спам-сообщений с помощью самописного алгоритма наивного байесовского классификатора. Работа с теорией.
12 Классификация текстов с использованием Наивного Байесовского Классификатора ML-проект по классификации спам-сообщений с помощью алгоритма наивного байесовского классификатора. Оптимизация классификатора.
13 Модель определения пола по голосу на алгоритме решающего дерева ML-проект по созданию модели на алгоритме решающего дерева Маленький проект со своими тонкостями. Оптимизация на GridSearchCV.
14 Прогноз дождя на завтра ML-проект по созданию модели прогнозирования дождя на следующий день. В работе рассмотрены 22 модели, построенных на 15 различных алгоримах (включая простой нейросетевой алгоритм MLPClassifier), шести их оптимизированных вариантах (optuna) и на стэкинге из десяти моделей.
15 Предсказание удовлетворенности полетом ML-проект по созданию модели прогнозирования удовлетворенности полетом пассажиров авиарейсов. В работе рассматриваются модели, основанные на бустинг-алгоритмах.
16 Классификация лягушек по песням ML-проект по созданию модели для определения вида лягушки по аккустическим параметрам ее песни. Решается задача мультиклассовой классификации.
17 Кластеризация подростков ML-проект по сегментации молодых пользователей социальной сети на основании частот употребляемых ими слов. k-means и EM-алгоритм.
18 Сегментация клиентов банка ML-проект по кластеризации держателей кредитных карт одного из банков Нью-Йорка. Рассматриваются KMeans, GaussianMixture, DBSCAN, AgglomerativeClustering.
19 Исследование данных Samsung. Кластеризация физической активности пользователей ML-проект по созданию модели для кластеризации типа активноти пользователей смартфонов с использованием данных акселерометра и гироскопа. Рассматриваются те же алгоритмы, что и в 17-й работе.
20 Кластеризация стран для гуманитарной миссии ML-проект по кластериазации стран для выявления наиболее бедствующей с целью оказания гуманитарной помощи. Ничего особенного: PCA и KMeans.
21 Исследование данных Samsung. Классификация физической активности пользователей ML-проект по созданию модели для классификации типа активноти пользователей смартфонов с использованием данных акселерометра и гироскопа. Альтернатива проекту №18. Рассматриваются линейные алгоритмы, алгоритмы опорных векторов, ансамблевые методы (включая Catbosst и XGB), а также классификатор многослойного перцептрона.
22 Анализ эффективности двух вариантов посадочной страницы Анализ данных, полученных при A/B-тестировании. Статистическая оценка конверсии и среднего чека.