# Машинное обучение и анализ данных

**Machine Learning** & **Data Mining**

Имеются *данные* (*примеры*, *прецеденты*, ...).

Хотим заставить машину чему-то научиться по этим данным («*смоделировать данные*»).

* *Машинное обучение*: с помощью полученного знания компьютер решает задачу сам (например, распознает рукописный текст, находит на фотографии предметы и классифицирует их, распознает речь, ставит диагноз пациентам и т.д.). Как правило, не важна возможность интерпретации полученной модели. Главное – *хорошо решать исходную задачу*. Некоторые задачи машинного обучения хорошо решает человек, но плохо компьютер.

* *Анализ данных*: знания, полученные с помощью компьютера, дальше использует сам человек (выделить значимые для той или иной болезни гены, разбить на группы всех клиентов сотового оператора, выделить шаблоны формирования пользовательской корзины и т.д.). Поэтому важна *возможность интерпретации полученной модели*. Человеку сложно было бы получить эту модель без компьютера.

Иногда термины машинное обучение и анализ данных используют (почти) как синонимы – и мы с этим (почти) согласны. Или говорят, например, так: «Анализ данных методами машинного обучения», имея в виду, что «анализ данных» – это содержательные постановки задач, а «машинное обучение» – это алгоритмы их решения.

### Задачи индуктивного машинного обучения:

* Обучение с учителем (Supervised Learning):
    - *Классификация*
    - *Восстановление регрессии*
    - ...
* Обучение без учителя (Unsupervised Learning):
    - *Кластеризация*
    - Понижение размерности
    - Поиск ассоциативных правил
    - ...
* Обучение с подкреплением (Reinforcement Learning)
* ...
    
Для машинного обучения типичны задачи обучения с учителем.
Для анализа данных – обучения без учителя, хотя задачи обучения без учителя могут возникнуть на предварительном этапе обработки данных в машинном обучении.

### Цели курса

1. Познакомить с практическими аспектами использования различных алгоритмов машинного обучения:
    - Метод $k$ ближайших соседей ($k$ Nearest Neighbours – $k$NN)
    - Наивный байесовский классификатор (Naive Bayes Classificator)
    - Логистическая регрессия (Logistic Regression)
    - Линейный и квадратичный дискриминантный анализы 
      (Linear and Quadric Discriminant Analysys – LDA & QDA)
    - Машина опорных векторов (Support Vector Machine)
    - Деревья решений (Decision Trees)
    - Gradient Boosted Trees
    - Random Forest
    - Метод главных компонент (Principal Component Analisys – PCA)
    - Метод средних и метод медоидов ($k$-means, $k$-medoids)
    - Метод «Максимизация–Ожидание» (Expectation–Maximization Algorithm – EM)
    - ...
2. Познакомить с общими аспектами машинного обучения:
    - Что такое переобучение?
    - Как бороться с переобучением?
    - Как выбирать метод?
    - Как отбирать признаки?
    - Как оценивать качество построенной модели?
    - Что такое Bias-Variance Tradeoff?
    - ...    

# Библиотека Scikit-Learn

![Scikit-Learn Logo](sk-logo.png)

Библиотека [Scikit-Learn](http://scikit-learn.org/stable/):

* Алгоритмы для решения задач классификации (SVM, nearest neighbors, random forest, ...)
* Алгоритмы для решения задач восстановления регрессии (SVR, ridge regression, Lasso, ...)
* Алгоритмы кластеризации ($k$-Means, spectral clustering, mean-shift, ...)
* Алгоритмы понижения размерности (PCA, feature selection, non-negative matrix factorization)
* Отбор модели (модули: grid search, cross validation, metrics)
* Предобработка (модули: preprocessing, feature extraction)

![Scikit-Learn Machine Learning Map](ml_map.png)