In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

plt.style.use('ggplot')

%matplotlib inline

# Машинное обучение и майнинг данных

## 02/02/2017 Метрические методы классификации и регрессии

Вспомним, что было на самой первой лекции:




## Машинное обучение - это про что?

Окружающий мир наполнен разного рода закономерностями
* «Очевидные» закономерности
* Законы природы
* Но есть закономерности, которые сложно выразить парой формул..

В широком смысле, **машинное обучение** – набор методов, позволяющий обучать вычислительные системы решать определенную задачу без явного программирования.

## Обучение по прецедентам

* Множество объектов $O$
* Каждому объекту $o \in O$ можно поставить в соответствие набор признаков $(x, y)$ где
    * $x \in X$ - вектор описательных признаков
    * $y \in Y$ - целевой признак
* Существует неизвестная зависимость $f:X \rightarrow Y$

**Задачи:**
1. Используя конечный набор примеров $(x, y)$, найти алгоритм (решающую функцию) $a(x) = (\hat{y})$, аппроксимирующую $f(x)$
2. Применить алгоритм $a(x)$ на новых объектах




## Типы задач

* Обучение с учителем (Supervised Learning)
    * Классификация: $Y=\{−1, +1\}$ (Bad и Good в кредитном скорринге, отток клиентов)
    * Регрессия: $Y \in \mathbb{R}$ (оценка стоимости автомобиля)
    * Ранжирование: Поисковые системы
* Обучение без учителя (Unsupervised Learning)
    * Сегментация клиентов магазина
    * Знание 𝑌 не используется при обучении
* Обучение с подкреплением (Reinforcement Learning)
* Рекомендательные системы (RecSys)
* Semi-supervised Learning
* $\dots$


## Основные вопросы

* Как выбирать/составлять признаковое описание объектов?
* Как строить $a(x)$?
    * LEARNING = REPRESENTATION + EVALUATION + OPTIMIZATION 
* Что делать с предсказанием на основе $a(х)$?
    * Принятие решений, оценка рисков и полезности

#  Метрические методы классификации и регрессии
## Метод k-ближайших соседей

## Гипотеза компактности

Идею, заложенную в метрические методы можно сформулировать так: <br/>

"Для нового объекта $x$ надо найти наиболее похожие объекты из обучающей выборки и выдать соответствующее им значение целего признака $y$"


<center><img src='http://ichef-1.bbci.co.uk/news/624/cpsprodpb/13ED9/production/_87552618_fourupcomp.jpg' width=500></center>

* Объекты: Семьи, индивиды
* Признаки: Адрес проживания, почтовый индекс, популярный супермаркет... $\rightarrow$ координаты `(lat, lon)`
* Предскание: Раса (классификация)

<center><img src='california_house.png' width=500></center>

* Объекты: Недвижимость
* Признаки: Адрес дома... $\rightarrow$ координаты `(lat, lon)`
* Предсказание: Стоимость дома (регрессия)

<center><img src='dna_seq.png' width=900></center>
* Объекты: Строки
* Признаки: ??
* Предсказание: Функциональность гена (класс)

<hr>
<center><img src='text_classify.png' width=600></center>
* Объекты: Тексты статей, постов блогов
* Признаки: Частоты слов
* Предсказание: Категория текста (класс)

# Меры близости

* Как определить похожие объекты?

* Необходимо ввести функцию расстояния (не обязательно метрику)

### Самые популярные

$$ d(a, b) = \sum\limits_{i=1}^{D}(a_i - b_i)^2 \text{: euclidean distance} $$

$$ d(a, b) = \sum\limits_{i=1}^{D}|a_i - b_i| \text{: manhattan distance} $$

$$ d(a, b) = 1 - \frac{\langle a,b \rangle}{||a||_2\cdot||b||_2} \text{: cosine distance} $$



### Близость на строках
* Расстояние Левинштейна
<center><img src='levinstein_dist.png' width=400></center>
* Расстояние [Жаро-Винклера](https://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance)
* ...

### Близость на временных рядах
* Если они одинаковой длинны, то подойдет и евклид
* Если нет - Dynamic Time Warping 
<center><img src='https://i0.wp.com/qusma.com/wp-content/uploads/2013/12/dtw.png' width=500></center>

### Близость на множествах
* Пусть объект описываеться набором категорий, слов, тегов
    * Клиент a: {Картофель фри, биг-мак, кофе, маффин}
    * Клиент b: {Картофель фри, сырный соус, чизбургер, кофе, пирожок}
* Расстояние Жаккара - Jaccard distance:
    * $$d(a,b) = 1 - \frac{|a \cap b|}{|a \cup b|}$$
    * $$d(a,b) = 1 - \frac{2}{7} = \frac{5}{7} $$
* При правильном представлении данных, можно считать и косинус

# Метод k ближайших соседей

Вход: Обучающая выборка $X=(x_i,y_i)$, мера близости $d(\cdot, \cdot)$ и объект $\tilde{x}$<br/>

Найти $k$ ближайших объекта в $X$ c помощью $d(\tilde{x},\cdot)$ 
* (регрессия) вернуть среднее значение* $$\hat{y} = \frac{1}{k}\sum\limits_{j=1}^k y_{(j)}$$
* (классификация) вернуть наиболее частую метку класса $$\hat{y} = \arg \max\limits_{y \in \{-1, 1\}}\sum\limits_{j=1}^k [y_{(j)} == y] $$


In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression

In [None]:
x_true = np.arange(-5, 5, 0.2)
x = x_true + np.random.rand(x_true.shape[0]) - 0.5
y_true = np.sin(x_true)+x_true/3
y = y_true + np.random.rand(x_true.shape[0]) - 0.5

In [None]:
plt.plot(x_true, y_true, c='g', label='$f(x)$')
plt.scatter(x, y, label='actual data')
plt.xlabel('x')
plt.ylabel('y')
plt.legend(loc=2)

In [None]:
def plot_linreg():
    lin_reg = LinearRegression()
    lin_reg.fit(x.reshape(-1,1), y)
    y_hat = lin_reg.predict(x_true.reshape(-1,1))
    
    plt.plot(x_true, y_true, c='g', label='$f(x)$')
    plt.scatter(x, y, label='actual data')
    plt.xlabel('x')
    plt.ylabel('y')
    plt.plot(x_true, y_hat, c='r', label='linear regression')
    plt.legend(loc=2)

In [None]:
plot_linreg()

In [None]:
from ipywidgets import interact, IntSlider

def plot_knn(k=1):
    knn = KNeighborsRegressor(n_neighbors=k)
    knn.fit(x.reshape(-1,1), y)
    y_hat = knn.predict(x_true.reshape(-1,1))
    
    plt.plot(x_true, y_true, c='g', label='$f(x)$')
    plt.scatter(x, y, label='actual data')
    plt.xlabel('x')
    plt.ylabel('y')
    plt.plot(x_true, y_hat, c='r', label='knn, $k=%d$' % k)
    plt.legend(loc=2)
    
    return None

In [None]:
fig = interact(plot_knn, k=IntSlider(min=1, max=10, value=1))

In [None]:
from sklearn.datasets import make_moons
X_moons, y_moons = make_moons(noise=0.3, random_state=1234)

In [None]:
plt.scatter(X_moons[:,0], X_moons[:,1], c=y_moons)
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')

In [None]:
def plot_knn_class(k=1, prob=False):
    
    plt.scatter(X_moons[:,0], X_moons[:,1], c=y_moons)
    plt.xlabel('$x_1$')
    plt.ylabel('$x_2$')
    
    knn = KNeighborsClassifier(n_neighbors=k, metric='minkowski', p=2)
    knn.fit(X_moons, y_moons)
    
    x_range = np.linspace(X_moons.min(), X_moons.max(), 500)
    # ОДЗ значений признаков

    xx1, xx2 = np.meshgrid(x_range, x_range)
    # всевозможные попарные значения признаков
    if prob:
        Y = knn.predict_proba(np.c_[xx1.ravel(), xx2.ravel()])[:,1]
    else:
        Y = knn.predict(np.c_[xx1.ravel(), xx2.ravel()])
    Y = Y.reshape(xx1.shape)

    plt.contourf(xx1, xx2, Y, alpha=0.3)
    plt.scatter(X_moons[:,0], X_moons[:,1],c=y_moons)

In [None]:
fig = interact(plot_knn_class, k=IntSlider(min=1, max=10, value=1))

Проблема - никак не учитывается важность соседей в зависимости от их близости!

## Взвешенный KNN

* (регрессия) вернуть среднее взвешенное значение* $$\hat{y} = \frac{\sum\limits_{j=1}^k w_{(j)} y_{(j)}}{\sum\limits_{j=1}^k w_{(j)}}$$
* (классификация) вернуть наиболее частую метку класса c учетом веса $$\hat{y} = \arg \max\limits_{y \in \{-1, 1\}}\sum\limits_{j=1}^k w_{(j)} [y_{(j)} == y] $$

### Варианты весов
* $w_{(j)} = \frac{k - j + 1}{k}$
* $w_{(j)} = 1/d(\tilde{x},x_{(j)})$
* $w_{(j)} = K(\frac{d(\tilde{x},x_{(j)})}{h}) $ Парзеновское окно (Parzen Window).
    * $K$ - ядро, $h$ - ширина окна


### Ядра
* $K(d, h) \propto \exp(- \frac{d^2}{2h^2})$ - gaussian kernel
* $K(d, h) \propto 1 if x < d$ - tophat kernel
* $K(d, h) \propto 1 - \frac{d^2}{h^2}$ - epanechnikov kernel
* $K(d, h) \propto \exp(-d/h)$ - exponential kernel
* $K(d, h) \propto 1 - d/h if d < h$ - linear kernel
* $K(d, h) \propto \cos(\frac{\pi d}{2h}) if x < h$ - linear kernel

<center><img src='http://scikit-learn.org/stable/_images/sphx_glr_plot_kde_1d_0021.png'></center>

In [None]:
from ipywidgets import FloatSlider



def plot_knn_class_kernel(k=1, h=0.5, prob=False, use_all=False):
    
    def gauss_kernel(d, h=h):
        return np.exp(-(d**2)/(2*h**2))
    
    plt.scatter(X_moons[:,0], X_moons[:,1], c=y_moons)
    plt.xlabel('$x_1$')
    plt.ylabel('$x_2$')
    
    if use_all:
        knn = KNeighborsClassifier(n_neighbors=70, metric='minkowski', p=2, weights=gauss_kernel)
    else:
        knn = KNeighborsClassifier(n_neighbors=k, metric='minkowski', p=2, weights=gauss_kernel)
    knn.fit(X_moons, y_moons)
    
    x_range = np.linspace(X_moons.min(), X_moons.max(), 500)
    # ОДЗ значений признаков

    xx1, xx2 = np.meshgrid(x_range, x_range)
    # всевозможные попарные значения признаков
    if prob:
        Y = knn.predict_proba(np.c_[xx1.ravel(), xx2.ravel()])[:,1]
    else:
        Y = knn.predict(np.c_[xx1.ravel(), xx2.ravel()])
    Y = Y.reshape(xx1.shape)

    plt.contourf(xx1, xx2, Y, alpha=0.3)
    plt.scatter(X_moons[:,0], X_moons[:,1], c=y_moons)

In [None]:
fig = interact(plot_knn_class_kernel, k=IntSlider(min=1, max=10, value=1), 
               h=FloatSlider(min=0.05, max=5, value=1, step=0.05))

# Параметры vs Гиперпараметры

При работе с моделями следует различать понятия **Параметр** и **Гипер-параметр**.

* **Параметр** - составляющая модели, которая определяется в процессе обучения (решения оптимизационной задачи)
    * Веса коэффициентов в модели линейной регрессии
* **Гиперпараметр** - составляющая модели, которая задается перед началом обучения. Может регулировать некоторые свойства модели (скорость оптимизации) или ее сложность
    * Коэффициент регуляризации в линейной регрессии
    
Как дела обстоят у kNN?


#### Гиперпараметры kNN

* Число соседей
* Функция расстояния
* Ядро, ширина окна

# TL;DR

* kNN - "ленивый", непараметрический метод машинного обучения
* При работе с некоторыми мерами сходства надо учитывать масштаб признаков
* Вес соседей можно определять по их близости


## Полезные ссылки
* [A few fact about ML](https://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf)
* [Про проклятье размерности на пальцах](http://www.visiondummy.com/2014/04/curse-dimensionality-affect-classification/)
* [Сравнение методов поиска ближайших соседей](http://jakevdp.github.io/blog/2013/04/29/benchmarking-nearest-neighbor-searches-in-python/)