Skip to content

Latest commit

 

History

History
81 lines (62 loc) · 5.65 KB

README.md

File metadata and controls

81 lines (62 loc) · 5.65 KB

ml

Machine learning notes and examples

Теория

Практика

  1. pandas, numpy, google apps datastore analyze, scipy.polyfit
  2. pyplot
  3. TSNE, KMeans - работа про boston dataset, можно объединить

Google Play Store - reviews analize Kaggle

Категоризация отзывов на положительные, отрицательные и нейтральные. Присутствует небольшая чистка данных, удаление стоп-слов, лемматизация, токенизация, есть визуализация в виде облака слов.
Использованные модели:

  • нейронная сеть на Keras с регуляризацией через Dropout
  • LSTM-сеть на Keras (показала лучшее качество)
    Можно бы попробовать подобрать параметры и улучшить качество предсказаний, но модель обучается очень долго. При этом, модели еще есть куда расти, коллбэк ранней остановки так и не сработал.

BBC texts categorization Kaggle

Категоризация текстов. Это первая попытка работы с NLP. Присутствует токенизация текстов, модель обучается по принципу BagOfWords.
Использованные модели:

  • нейросеть на Keras с одним скрытым слоем
    TODO:
  • лемматизация
  • удаление стоп-слов
  • LSTM, скорее всего, покажет лучшее качество

Mnist2 - digits recognition Kaggle

Довольно простая работа в CNN по распознаванию чисел. Есть интересные визуализации. Использованные модели:

  • нейронная сеть на Keras с одним скрытым слоем

Titanic: machine learning for disaster Kaggle

Стандартный и всеми избитый датасет с данными о выживших на Титанике. Задача классификации, необходимо предсказать кто из пассажиров выживет. Задача интересна тем, что необходимо догадаться извлечь из имени пол. Выживаемость пассажиров оказалась очень сильно скоррелированной с полом. Присутствует чистка данных, никакой особой визуализации. Использованные модели:

  • DecisionTreeClassifier
  • RandomForestClassifier
  • KNeighborsClassifier
  • SVC
  • Perceptron
  • XGBClassifier

Большая часть моделей была использована просто для эксперимента, лучшие результаты, как и ожидалось, у XGBClassifier. Также в данной работе присутствует использование ансамбля моделей через VotingClassifier.

TODO:

  • что там делаетLogisticRegression?
  • надо бы хоть какую-то виуализацию данных добавить
  • неплохо бы добавить использование CatBoost
  • подбор гиперпараметров

Flat prices prediction Kaggle

Задача регрессии. Присутствует исследование датасета, чистка данных, визуализация.
Использованные модели:

  • LinearRegression
  • RandomForestRegressor
  • KNeighborsRegressor
  • XGBRegressor

Лучший результат оказался у XGBRegressor. К сожалению, отсутствует подбор гиперпараметров.
TODO:

  • в конце скрипт падает, надо поправить это

Boston house prices Kaggle

Линейная регрессия для предсказания стоимости жилья. Никакого исследования данных, никакой чистки. Прменяется только LinearRegression и RandomForestRegressor. Довольно слабая работа, одна из самых первых.