# K Means Clustering


## 주제 - 네트워크 침입 시도들(Network Intrusion Attempts)를 탐지하기 위해 K Means Clustering을 수행 (사이버 보안)
![alt text](http://konukoii.com/blog/wp-content/uploads/2017/01/RunyanKmeans.gif "Logo Title Text 1")


## K Means Clustering이란 무엇인가?

![alt text](https://i.stack.imgur.com/cIDB3.png "Logo Title Text 1")

우리가 이미 공부한 것들은 무엇인가?
- 기계학습의 목적은 목적함수(objective function)을 최적화하는 것이다
- 최적화 방법론으로으로는 1차 미분(first order)을 이용하는 방법, 2차 미분(second order)를 이용하는 방법이 존재한다.
- 위의 두 방법 모두 실제 범주와 해당 실제 범주로 모형이 예측할 확률의 차이를 볼록 최적화(convex optimization)를 이용해 최소화함으로써 손실 함수(loss function)의 값을 최소화한다. (예를 들어, 경사하강법(gradient descent), 뉴튼 방법(newton's method, newton-raphson algorithm)

그러나 데이터에 범주정보가 존재하지 않을 경우는 어떻게 해야할까?

### 비지도학습(Unsupervised learning)을 활용

![alt text](https://s-media-cache-ak0.pinimg.com/736x/8b/23/3e/8b233e2d7f26b00d0c594894917a127b--supervised-learning-variables.jpg "Logo Title Text 1")

![alt text](https://image.slidesharecdn.com/summit2014presentationfinal-141031070327-conversion-gate02/95/set-your-content-straight-28-638.jpg?cb=1414739431 "Logo Title Text 1")

군집화(clustering)는 일반적으로 잘알려진 비지도학습(unsupervised learning)의 유형이다. 군집화 알고리즘은 데이터셋에서 데이터들의 자연스러운 그룹을 찾는다. 유사한 데이터는 같은 그룹에 속하는 것으로 간주된다. 우리는 이 이런 그룹을 군집이라고 칭한다.

K Means Clustering은 단순하고 잘 활용되는 군집화 알고리즘이다. k 값이 주어지면, K Means Clustering 알고리즘은 주어진 데이터셋에서 k개의 군집을 찾는다. 

### 어떻게 작동할까?

![alt text](http://i.imgur.com/nIhdPrS.jpg "Logo Title Text 1")

k 값(군집의 수)가 주어지면 , K Means Clustering 알고리즘은 아래와 같이 작동한다.
1. 임의로 k개의 데이터를 선택하고,(seeds) 이를 맨 처음 각 군집의 centroid로 간주한다.
2. 데이터를 각 군집의 centroid들과 거리를 비교하여. 가장 가까운 centroid의 군집에 데이터를 할당한다.
3. 2번 과정이 끝난 후, 각 군집의 centroid를 다시 계산한다.
4. 수렴 조건을 달성하지 못하면 다시 2번 과정을 진행한다.

최대 시행횟수를 정해놓고, 최대시행횟수에 도달했을 때 군집화 알고리즘을 종료하는 것도 가능하며, 이는 수렴할 때 까지 하는 것봐 비슷한 결과를 산출한다. 이 알고리즘은 초기 centroid 선정에 매우 민감하기 때문에 (데이터가 탐색되는 순서를 결정), 알고리즘을 여러번 실행한 결과를 고려하여 사용하는 것이 좋다.

### 어떻게 최적의 군집 수 k를 결정하는가?

데이터셋이 최적의 군집 수 k를 사전에 알고 있으면, 그냥 그 값을 사용하면 된다.

위의 상황이 아닐 경우, Elbow Method가 일반적인 방법이다.

![alt text](https://qph.ec.quoracdn.net/main-qimg-678795190794dd4c071366c06bf32115-c "Logo Title Text 1")
![alt text](http://i.imgur.com/aLKDhbF.png "Logo Title Text 1")

### 데이터와 각 군집의 centroid들과의 거리는 어떻게 측정되는가?

유클리디언 거리(euclidean distance)를 활용한다. K Means Clustering은 군집 내 분산(within-cluster variance)을 최소화하는 것인데 분산(variance)의 정의를 보면 이 것은 중심으로 부터 유클리디언 거리 제곱합과 동일하다는 것을 알 수 있다. 다른 거리측도를 사용하는 것도 가능하지만, 유클리디언 거리가 가장 많이 활용된다

## 언제 사용해야 할까??

- 가지고 있는 데이터셋의 변수가 수치형일 때 가능하다. 범주형 변수에는 작동하지 않는다. 
- 범주정보가 없는 데이터셋일 때
- K Means Clustering은 단순하고, 실행이 쉬우므로 즉 데이터가 군집을 이루고 있다는 직관이 있을 때, 바로바로 해보면 좋다
- 데이터셋이 다변수로 구성되어 있을 때도, 위와 같은 시도로 활용해보면 좋으나, 데이터셋이 변수가 하나일 경우는 잘 작동하지 않음.
- 가지고 있는 데이터셋이 몇 개의 군집으로 나눠질 지에 대한 직관이 있을 때

## 다른 예제들

- https://github.com/georgymh/ml-fraud-detection (Fraud Detection)
- https://github.com/Datamine/MNIST-K-Means-Clustering/blob/master/Kmeans.ipynb (MNIST without labels (finally)) 


In [1]:
#matrix math
import numpy as np
#graphing
import matplotlib.pyplot as plt
%matplotlib inline
#graphing animation
import matplotlib.animation as animation

In [2]:
#load textfile dataset (2D data points)
# for each user, how many packets are sent per second and what's the size of a packet
#anomalies (DDOS attempts) will have lots of big packets sent in a short amount of time 
def load_dataset(name):
    return np.loadtxt(name)

![alt text](https://wikimedia.org/api/rest_v1/media/math/render/svg/dc0281a964ec758cca02ab9ef91a7f54ac00d4b7 "Logo Title Text 1")


In [3]:
#euclidian distance between 2 data points. For as many data points as necessary. 
def euclidian(a, b):
    return np.linalg.norm(a-b)



O k-means algorithm 
With the above steps, since we needed to build our algorithm, which will receive as parameters:


- K: The number of clusters (required)
- epsilon: The minimum error to be used in the stop condition (optional, default == 0)
- Distance: The method is used to calculate the distance (Optional defalut == 0)
And has the return:
- the centroids
- The evolution history of centroids
- And the membership vector of each instance with its respective centroid


In [4]:
def kmeans(k, epsilon=1e-2, distance='euclidian'):
    history_centroids = []
    if distance == 'euclidian':
        dist_method = euclidian
    dataset = load_dataset('durudataset.txt')
    # dataset = dataset[:, 0:dataset.shape[1] - 1]
    num_instances, num_features = dataset.shape
    prototypes = dataset[np.random.randint(0, num_instances - 1, size=k)]
    history_centroids.append(prototypes)
    prototypes_old = np.zeros(prototypes.shape)
    belongs_to = np.zeros((num_instances, 1))
    norm = dist_method(prototypes, prototypes_old)
    iteration = 0
    while norm > epsilon:
        iteration += 1
        norm = dist_method(prototypes, prototypes_old)
        prototypes_old = prototypes
        for index_instance, instance in enumerate(dataset):
            dist_vec = np.zeros((k, 1))
            for index_prototype, prototype in enumerate(prototypes):
                dist_vec[index_prototype] = dist_method(prototype, instance)

            belongs_to[index_instance, 0] = np.argmin(dist_vec)

        tmp_prototypes = np.zeros((k, num_features))

        for index in range(len(prototypes)):
            instances_close = [i for i in range(len(belongs_to)) if belongs_to[i] == index]
            prototype = np.mean(dataset[instances_close], axis=0)
            # prototype = dataset[np.random.randint(0, num_instances, size=1)[0]]
            tmp_prototypes[index, :] = prototype

        prototypes = tmp_prototypes

        history_centroids.append(tmp_prototypes)
        
        protypes_old = prototypes

    # plot(dataset, history_centroids, belongs_to)

    return prototypes, history_centroids, belongs_to

In [5]:
#lets define a plotting algorithm for our dataset and our centroids
def plot(dataset, history_centroids, belongs_to):
    #we'll have 2 colors for each centroid cluster
    colors = ['r', 'g']

    #split our graph by its axis and actual plot
    fig, ax = plt.subplots()

    #for each point in our dataset
    for index in range(dataset.shape[0]):
        #get all the points assigned to a cluster
        instances_close = [i for i in range(len(belongs_to)) if belongs_to[i] == index]
        #assign each datapoint in that cluster a color and plot it
        for instance_index in instances_close:
            ax.plot(dataset[instance_index][0], dataset[instance_index][1], (colors[index] + 'o'))

    #lets also log the history of centroids calculated via training
    history_points = []
    #for each centroid ever calculated
    for index, centroids in enumerate(history_centroids):
        #print them all out
        for inner, item in enumerate(centroids):
            if index == 0:
                history_points.append(ax.plot(item[0], item[1], 'bo')[0])
            else:
                history_points[inner].set_data(item[0], item[1])
                print("centroids {} {}".format(index, item))

                plt.show()

In [6]:
#main file 
def execute():
    #load dataset
    dataset = load_dataset('durudataset.txt')
    #train the model on the data
    centroids, history_centroids, belongs_to = kmeans(2)
    #plot the results
    plot(dataset, history_centroids, belongs_to)
    return centroids, history_centroids, belongs_to

In [7]:
%matplotlib notebook

#do everything
centroids, history_centroids, belongs_to = execute()

<IPython.core.display.Javascript object>

centroids 1 [ 0.22331067  0.28960446]
centroids 1 [ 1.58058247  1.56897412]
centroids 2 [ 0.22331067  0.28960446]
centroids 2 [ 1.58058247  1.56897412]
centroids 3 [ 0.22331067  0.28960446]
centroids 3 [ 1.58058247  1.56897412]


In [8]:
%matplotlib notebook
def plot_step_by_step(dataset, history_centroids, belongs_to):
    colors = ['r', 'g']

    fig, ax = plt.subplots()

    for index in range(dataset.shape[0]):
        instances_close = [i for i in range(len(belongs_to)) if belongs_to[i] == index]
        for instance_index in instances_close:
            ax.plot(dataset[instance_index][0], dataset[instance_index][1], (colors[index] + 'o'))

    history_points = []
    for index, centroids in enumerate(history_centroids):
        for inner, item in enumerate(centroids):
            if index == 0:
                history_points.append(ax.plot(item[0], item[1], 'bo')[0])
            else:
                history_points[inner].set_data(item[0], item[1])
                print("centroids {} {}".format(index, item))
                
                plt.pause(0.8)

In [9]:
dataset = load_dataset('durudataset.txt')
for item in history_centroids[:3]:
    plot_step_by_step(dataset, [item], belongs_to)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>