ml

Machine learning notes and examples

Теория

Основные термины и определения
Оценка качества/точности моделей
Оптимизаторы
Классические методы машинного обучения
Нейронные сети
Natural language processing
Известные архитектуры и их краткое описание
Алгоритмы проведения исследований
Ссылки

Практика

pandas, numpy, google apps datastore analyze, scipy.polyfit
pyplot
TSNE, KMeans - работа про boston dataset, можно объединить

Google Play Store - reviews analize Kaggle

Категоризация отзывов на положительные, отрицательные и нейтральные. Присутствует небольшая чистка данных, удаление стоп-слов, лемматизация, токенизация, есть визуализация в виде облака слов.
Использованные модели:

нейронная сеть на Keras с регуляризацией через Dropout
LSTM-сеть на Keras (показала лучшее качество)
Можно бы попробовать подобрать параметры и улучшить качество предсказаний, но модель обучается очень долго. При этом, модели еще есть куда расти, коллбэк ранней остановки так и не сработал.

BBC texts categorization Kaggle

Категоризация текстов. Это первая попытка работы с NLP. Присутствует токенизация текстов, модель обучается по принципу BagOfWords.
Использованные модели:

нейросеть на Keras с одним скрытым слоем
TODO:
лемматизация
удаление стоп-слов
LSTM, скорее всего, покажет лучшее качество

Mnist2 - digits recognition Kaggle

Довольно простая работа в CNN по распознаванию чисел. Есть интересные визуализации. Использованные модели:

нейронная сеть на Keras с одним скрытым слоем

Titanic: machine learning for disaster Kaggle

Стандартный и всеми избитый датасет с данными о выживших на Титанике. Задача классификации, необходимо предсказать кто из пассажиров выживет. Задача интересна тем, что необходимо догадаться извлечь из имени пол. Выживаемость пассажиров оказалась очень сильно скоррелированной с полом. Присутствует чистка данных, никакой особой визуализации. Использованные модели:

DecisionTreeClassifier
RandomForestClassifier
KNeighborsClassifier
SVC
Perceptron
XGBClassifier

Большая часть моделей была использована просто для эксперимента, лучшие результаты, как и ожидалось, у XGBClassifier. Также в данной работе присутствует использование ансамбля моделей через VotingClassifier.

TODO:

что там делаетLogisticRegression?
надо бы хоть какую-то виуализацию данных добавить
неплохо бы добавить использование CatBoost
подбор гиперпараметров

Flat prices prediction Kaggle

Задача регрессии. Присутствует исследование датасета, чистка данных, визуализация.
Использованные модели:

LinearRegression
RandomForestRegressor
KNeighborsRegressor
XGBRegressor

Лучший результат оказался у XGBRegressor. К сожалению, отсутствует подбор гиперпараметров.
TODO:

в конце скрипт падает, надо поправить это

Boston house prices Kaggle

Линейная регрессия для предсказания стоимости жилья. Никакого исследования данных, никакой чистки. Прменяется только LinearRegression и RandomForestRegressor. Довольно слабая работа, одна из самых первых.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

ml

Теория

Практика

Google Play Store - reviews analize Kaggle

BBC texts categorization Kaggle

Mnist2 - digits recognition Kaggle

Titanic: machine learning for disaster Kaggle

Flat prices prediction Kaggle

Boston house prices Kaggle

Files

README.md

Latest commit

History

README.md

File metadata and controls

ml

Теория

Практика

Google Play Store - reviews analize Kaggle

BBC texts categorization Kaggle

Mnist2 - digits recognition Kaggle

Titanic: machine learning for disaster Kaggle

Flat prices prediction Kaggle

Boston house prices Kaggle