# MLClass. "Прикладной анализ данных". Курс "Машинное обучение с помощью Python".
<img src="mlclass_logo.jpg" height="240" width="240">
## Автор материала: преподаватель ФКН НИУ ВШЭ Кашницкий Юрий

Приложения машинного обучения: анализ естсетсвенного языка, компьютерное зрение, реклама, робототехника, биоинформатика, физика высоких энергий, кредитный скоринг и др. 

<center><img src="motivation.png" width="100%" /></center>

In [3]:
%matplotlib inline
from matplotlib import pyplot as plt
plt.rcParams["figure.figsize"] = (8, 8)

import numpy as np
np.set_printoptions(precision=3)

Библиотека **Scikit-Learn**
 - написана на языке Python
 - включает множество классических алгоритмов машинного обучения
 - Отличная <a href="http://scikit-learn.org/dev/documentation.html">документация</a> и <a href="http://scikit-learn.org/dev/auto_examples/index.html">примеры</a>
 - разработана с помощью GitHub   

<center> 
<img src="scikit-learn-logo.png" style="max-width: 120px; display: inline" />
<img src="numpy-logo.png" style="max-width: 120px; display: inline" />
<img src="scipy-logo.png" style="max-width: 120px; display: inline" />
<img src="ipython-logo.jpg" style="max-width: 120px; display: inline" />
<img src="matplotlib-logo.png" style="max-width: 120px; display: inline"/>
<img src="pandas-logo.png" style="max-width: 120px; display: inline" />
</center>

- в объединении с библиотеками NumPy, SciPy, ipython, matplotlib и pandas - образует мощное средство анализа данных и машинного обучения

## Алгоритмы

__Обучение с учителем:__

* Линейные модели (Ridge, Lasso, Elastic Net, ...)
* Ансамбли (случайный лес, бэггинг, градиентный бустинг, ...)
* Машина опрных векторов (SVM)
* k ближайших соседей (kNN)

<center><a href="http://scikit-learn.org/dev/auto_examples/classification/plot_classifier_comparison.html"><img src="classifiers.png" width="90%" /></a>
<em>Сравнение некоторых классификаторов Scikit-Learn</em></center><br />

__Обучение без учителя:__

* Кластеризация (KMeans, иерархическая, ...)
* Матричная факторизация (PCA, ICA, ...)
* Плотностные методы
* Обнаружение выбросов и аномалий в данных

__Выбор и оценка модели:__

* Скользящий контроль (Cross-validation)
* Поиск в сетке параметров (Grid-search)
* Множество метрик
* <a href="http://scikit-learn.org/stable/modules/classes.html">и другие</a>

## Обучение с учителем

Цель - построить функцию $\varphi_{\cal L}: {\cal X} \mapsto {\cal Y}$, минимизирующую ошибку

$$
Err(\varphi_{\cal L}) = \mathbb{E}_{X,Y}\{ L(Y, \varphi_{\cal L}(X)) \}.
$$

где $L$ - функция ошибки (например, 0/1 для классификации).

### Дерево решений

Дерево решений - по сути, разбиение пространства на многомерные параллелепипеды, для каждой области соотвествует простая модель - решающее правило. 

<center>
    <img src="tree-partition.png" width="39%" style="display:inline" />
    <img src="tree-simple.png" width="60%" style="display:inline" />
</center>
<small>
<pre>
def build(L):
    create node t
    if the stopping criterion is True:
        assign a predictive model to t
    else:
        Find the best binary split L = L_left + L_right
        t.left = build(L_left)
        t.right = build(L_right)
    return t     
</pre>
</small>

## API Scikit-learn

- `estimator`  - интерфейс создания и обучения моделей
- `predictor` - интерфейс предсказаний
- `transformer` - интерфейс преобразования данных

### Класс Estimator

In [6]:
class Estimator(object):
    def fit(self, X, y=None):
        """Fits estimator to data."""
        # set state of ``self``
        return self
            
    def predict(self, X):
        """Predict response of ``X``."""
        # compute predictions ``pred``
        return pred

In [7]:
# Import the decision tree class
from sklearn.tree import DecisionTreeClassifier  # Change this to try 
                                                 # something else
from sklearn.datasets import load_iris

dataset = load_iris()
X, y = dataset.data, dataset.target
# Set hyper-parameters, for controlling the learning algorithm
clf = DecisionTreeClassifier(criterion="entropy")

# Learn a model from training data
clf.fit(X, y)

DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=None,
            max_features=None, max_leaf_nodes=None, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            random_state=None, splitter='best')

### Предсказания для новых данных

In [22]:
# Make predictions 
new_data = np.array([[5.0,  3.6,  1.6,  0.3],
                  [4.8,  3.1 ,  1.4,  0.3],
                  [5.1,  2.3,  3.1,  1.25]])
print(clf.predict(new_data)) 

[0 0 1]


Также можно считать "вероятности" отнесения к классам. Но дерево решений - не вероятностый метод.

In [23]:
# Compute class probabilities
print(clf.predict_proba(new_data))

[[ 1.  0.  0.]
 [ 1.  0.  0.]
 [ 0.  1.  0.]]
