## Обучение без учителя как задача машинного обучения



__Обучение с учителем__:

* Датасет $\{ (x_i, y_i) \}_{i=1}^N $
* Есть метрика "потерь"
* Зачастую можем интерпретировать решение модели (через размер весов или вероятности)


__Обучение без учителя__:
* Датасет $\{ (x_i) \}_{i=1}^N $ - только признаки
* Отсутствует целевая переменная --> не можем считать качество
* Интерпретация затрудняется, особенно в многомерном пространстве
* Ещё сильнее зависим от особенностей признакового пространства

### Кластеризация -- разновидность обучения без учителя

__Задача__:
* Для некоего набора точек $X$ сформировать кластеры (predefined/not predefined), объединенные некой метрикой (чаще всего близости)

* Формирование кластеров недетерминистично (меняется при переобучении)

* Количество кластеров - субъективный критерий (пальцем в небо)

* Меры близости и обработка признаков - экспертная задача

* Чаще всего применимо для разведовательного анализа данных

### K-Means

Параметры:

    - K - количество центройдов
    - D() - функция расчета растояний между точкой и центройдом

python-like псевдокод для k-means:
```python
def k_means(k, X):
    k = 3
    centroids = random_array(shape=(k, n_features)) 
    done = False

    while not done:
        predictions = []
        for x_i in X:
            # Для каждой точки: считаем ближайший кластер к точке
            pred = argmin(closest(x_i, centroids))
            predictions.append(pred)

        #  Новые центроиды - среднее арифметическое всех точек в каждом кластере
        new_centroids = recalc_centroids(predictions, X)

        # Если центроиды не двигаются, алгоритм сошелся
        if allclose(centroids, new_centroids):
            done = True
        centroids = new_centroids
    
    # Можно вернуть центроиды. Тогда предсказание:
    # argmin(closest(x_new, centroids))
    return centroids
```


## Формулы для k-means

l2 норма (евклидова метрика) $$ D(p, q) = \sqrt{\sum_{i=1}^{n}(p_k - q_k)^2} $$

ищем ближайший кластер $$ argmin_jD(x_i, c_j) $$

перерасчет кластеров $$c_j = \frac{1}{n_j}\sum{X_i}$$

![](http://neerc.ifmo.ru/wiki/images/6/67/Kmeans.jpg)

[kmeans](https://www.naftaliharris.com/blog/visualizing-k-means-clustering/)

## DBScan

Параметры:

    - min_pts - минимальное число вокруг точек для формирования "основных" точек
    - eps - радиус, в котором ищем точки
  

![](https://upload.wikimedia.org/wikipedia/commons/thumb/a/af/DBSCAN-Illustration.svg/600px-DBSCAN-Illustration.svg.png)

    - minPts = 4

    - eps = ...

* Красные точки - основные точки
* Желтые точки - краевые точки
* Синяя точка - выброс

![](https://miro.medium.com/max/1339/0*xu3GYMsWu9QiKNOo.png)

[dbscan](https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/)

### Silhouette Score

Считаем насколько кластеры близки друг к другу

b - среднее попарное расстояние между элементами внутри кластера (intra cluster distance)

a - среднее ближайшее расстояние каждого элемента до соседнего кластера


$$\frac{b - a}{max(a, b)}$$

![](https://miro.medium.com/max/1400/0*DxFrIuHQ45NL-sG5.png)

![](https://miro.medium.com/max/1400/0*MdUUX3ExJ8D8XPyM.png)

![](https://miro.medium.com/max/1400/0*vBw305hy0efDy3YG.png)

```python
sklearn.metrics.silhouette_score(X, predicted_labels, metric='euclidean')
```