# Кластеризация

Цель задачи кластеризации -- разбить объекты на кластеры так, чтобы схожие объекты оказались в одном кластере, а различные -- в разных.

## Алгоритм K-Means

Одним из популярных алгоритмов кластеризации является алгоритм K-Means. Опишем этот алгоритм.
1. Разобьём объекты на кластеры произвольным образом
2. Повторяем до сходимости:
* E-шаг: найдём текущие центы кластеров $\mu_i$;
* M-шаг: переразметим объекты, отнеся каждый объект к кластеру, центр $\mu_i$ которого ближе всех.

### Задание: реализуйте алгоритм K-Means

In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
class EMAlgorithm:
    def __init__(self, points, n_clusters=3):
        self.points = points
        self.n_clusters = n_clusters
        self.labels = np.random.randint(n_clusters, size=points.shape[0])
        
    def e_step(self):
        means = []
        for cluster in range(self.n_clusters):
            cluster_poinst = #ВАШ КОД: выделите точки, принадлежащие кластеру, согласно массиву self.labels
            mean = #ВАШ КОД: вычислите среднее по этим точкам. Если точек нет, верните 0-вектор
            means.append(mean)
        self.means = np.stack(means, axis=0)
    
    def m_step(self):
        labels = []
        for i in range(points.shape[0]):
            label = #ВАШ КОД: вычислите label i-ой точки
            labels.append(label)
        self.labels = np.array(labels)
    
    def visualize(self, title=''):
        plt.figure(figsize=(10,10))
        plt.title('Visualize ' + title)
        plt.scatter(self.means[:, 0], self.means[:, 1], c='red', s=150, label='cluster centers')
        
        lines = [[self.points[i], self.means[self.labels[i]]] for i in range(len(self.labels))]
        
        for i, line in enumerate(lines):
            plt.plot([line[0][0], line[1][0]], [line[0][1], line[1][1]], 
                     color='black', 
                     linestyle='dashed', 
                     linewidth=1)
        plt.scatter(self.points[:, 0], self.points[:, 1], c=self.labels, s=50)
        plt.legend()
        plt.show()

Сгенерируем искусственные данные 

In [None]:
from sklearn.datasets import make_blobs

In [None]:
points = make_blobs(n_samples=40, centers=4)[0]
plt.scatter(points[:, 0], points[:, 1])

Посмотрим, как алгоритм работает на искусственных данных.

In [None]:
from IPython.display import clear_output
import time

In [None]:
alg = EMAlgorithm(points, n_clusters=4)
for i in range(10):
    alg.e_step()
    clear_output()
    alg.visualize('E-step')
    time.sleep(20)
    alg.m_step()
    clear_output()
    alg.visualize('M-step')
    time.sleep(20)

## Выделение сегментов клиентов банка с помощью кластеризации

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
data = pd.read_excel("clust_sample_dev_100k.xlsx")

In [None]:
data.info()

In [None]:
data.describe()

### Нахождение выбросов
Выбросы в данных помешают хорошей кластеризации. Найдите выбросы в графе "Суммарная задолженность по кредитам" и избавьтесь от них.

In [None]:
data_to_cluster = data.copy()

### Анализ признаков
Распределение признаков важно для последующей кластеризации. Найдите признаки, распределение которых вас не устраивает, и преобразуйте их соответственно. Некоторые признаки очень часто равны 0. Бинаризуйте такие вхождения.

### Примените нормировку данных к признакам

In [None]:
from sklearn.preprocessing import scale

### Матрица корреляций

In [None]:
import seaborn as sns

In [None]:
sns.heatmap(data_to_cluster.corr())

### Собственно, кластеризация
Кластеризуйте данные на 9 кластеров. Переменную labels_ обученного кластеризатора передайте в качестве нового столбца датафрейму data.

In [None]:
from sklearn.cluster import KMeans

### Найдём центры кластеров

In [None]:
means = np.stack([data[data['cluster'] == i].describe().values[1] for i in range(9)])

In [None]:
pd.options.display.max_columns = 30

In [None]:
means = pd.DataFrame(means, columns=data.columns)
means