In [1]:
import numpy as np
import operator

In [2]:
def createDataSet():
    group = np.array([ [1.0, 2.0], [1.0, 4.0], [4.0, 1.0], [4.0, 2.0] ])
    ## Data 4개를 좌표평면에 표현합니다.
    labels = ['Action', 'Action', 'Romantic', 'Romantic']
    ## 각각의 data들은 순서대로 action action romantic romantic 영화입니다.
    return group, labels

In [3]:
def calcDistance(inX, dataSet, labels, k):
    # shape는 객체의 모양을 튜플로 반환하고
    # shape[0]은 rows의 숫자를 반환합니다.
    dataSetSize = dataSet.shape[0]  # dataSetSize = 4
    
    # numpy의 tile(A, reps) 함수: A가 reps번 반복된 결과를 하나의 행렬로 만들어 준다.
    # reps가 (a,b) 같은 튜플이라면 가로(row)로 a번 반복, 세로(column)로 b번 반복
    # 여기서 tile(inX, (dataSetSize,1))은 [ [2,3] [2,3] [2,3] [2,3] ] 반환함
    # diffMat는 [ [2,3] [2,3] [2,3] [2,3] ]에서 dataSet을 뺀 값으로 [ [1, 1], [1, -1], [-2, 2], [-2, 1] ].
    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
    
    sqDiffMat = diffMat * diffMat
    
    # sqDistances는 x^2 + y^2로 [2,2,8,5]입니다.
    sqDistances = sqDiffMat.sum(axis=1)
    # 거리 공식에 맞게 root를 씌워줍니다.
    distances = sqDistances ** 0.5

    # numpy.argsort()는 작은 순서대로 index가 주는데, 이 경우는 [2,2,8,5]이므로 [0,1,3,2]로 반환됩니다.
    sortedDistIndices = distances.argsort()
    return sortedDistIndices

In [4]:
def findMajorityClass(inX, dataSet, labels, k, sortedDistIndices):
    # 딕셔너리 생성
    classCount = {}

    # k번 반복 (3번)
    for i in range(k):
        voteIlabel = labels[sortedDistIndices[i]]
        # 선택된 label에 1을 증가시켜준다.
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1

    # classCount 딕셔너리 : {'Action': 2, 'Romantic': 1}

    return sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    # 원소가 많은 것을 앞으로 보내도록 reverse를 true로 설정
    # itemgetter가 1인 이유는 {'Action': 2}에서 index가 1인 "2"를 비교대상으로 삼기 위해서

In [5]:
def classify0(inX, dataSet, labels, k):
    # inX와 current point 사이의 거리를 피타고리안 방식으로 구합니다.
    sortedDistIndices = calcDistance(inX, dataSet, labels, k)
    # inX에서 가장 가까운 거리에 있는 k개의 items를 찾고  그 items 중에서 majority인 class를 구합니다.
    sortedClassCount = findMajorityClass(inX, dataSet, labels, k, sortedDistIndices)
    # sortedClassCount는 [('Action', 2)]
    return sortedClassCount[0][0]
    # Action을 return합니다.

In [6]:
group, labels = createDataSet()
result = classify0([2.0, 3.0], group, labels,3)
# (2,3)을 knn을 통해서 어느 집단에 속하는 지 알아볼 것입니다. 이 때, k값은 3입니다.
# k는 작은 홀수값이 좋은데, k가 짝수이면 두 개의 집단의 원소 갯수가 동일한 경우가 있을 수 있습니다.
# 이 경우에 어느 집단에 속할 지 알 수 없습니다.
print(result)

Action
