# Ch.2 Classifying with k-Nearest Neighbors


## 2.1 Classifying with distance measurements

### k-Nearest Neighbors (kNN)
* 장점: 높은 정확성, 이상치(outlier)에 둔감, 데이터에 대한 가정 불필요
* 단점: 계산 비용 높음, 많은 메모리 필요
* 자료: 수치형, 명목형

### $ 교재 p.24~25 설명

### General approach to kNN
1. Collect:
  - 모든 방법
2. Prepare:
  - 수치형 값(거리 계산을 위해), 구조적 데이터가 가장 좋음
3. Analyze:
  - 모든 방법
4. Train:
  - 필요 없음
5. Test:
  - 오류율(error rate) 계산
6. Use:
  - 구조화된 수치 입력 및 출력 데이터 준비
  - 그런 다음 입력에 대해 kNN 알고리즘 적용하여 입력 데이터가 어디에 속하는지 판단
  - 그후 애플리케이션에서 판단된 클래스에 대해 어떤 액션을 취함

## 2.1.1 Prepare: Importing data with Python

In [None]:
import numpy as np

In [None]:
def createDataSet():
    group = np.array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
    labels = ['A', 'A', 'B', 'B']
    return group, labels

In [None]:
group, labels = createDataSet()

In [None]:
group

In [None]:
labels

In [None]:
type(group)

In [None]:
import kNN

In [None]:
group, labels = kNN.createDataSet()

In [None]:
group

In [None]:
labels

In [None]:
group.shape

## 2.1.2 Putting the kNN classification algorithm into action

### $ kNN 알고리즘 의사코드 (교재 p.29)

##### Listing 2.1 k-Nearest Neighbors algorithm for Python 2

In [None]:
import numpy as np

# Python2 버전
def classify0_p2(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]   #1
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet   #2
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndices = distances.argsort()
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndices[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)   #3
    return sortedClassCount[0][0]   # 4

In [None]:
# classify0 함수의 매개변수 설정
# dataSet: numpy.ndarray 타입
inX = [0, 0]
dataSet = group
k = 3

In [None]:
# 데이터 수 (2차원 배열의 행 개수) -- Python3 에선 불필요
dataSetSize = dataSet.shape[0]; dataSetSize

### 두 점 간 거리 구하기
* 피타고라스의 정리: https://ko.wikipedia.org/wiki/피타고라스의_정리 
* 두 점 사이의 거리(선분의 길이): https://www.youtube.com/watch?v=iSInGiiUOhI
* 두 점을 지나는 직선의 기울기: https://www.youtube.com/watch?v=2hKtZXyV-9o

In [None]:
# 분류하고자 하는 점 inX를 데이터 집합의 행 개수만큼 복제한 후 데이터 집합의 점과의 차를 구함
diffMat = inX - dataSet; diffMat

### $ numpy.tile - for Python2
https://docs.scipy.org/doc/numpy/reference/generated/numpy.tile.html

In [None]:
import numpy as np
a = np.array([0, 1, 2]); a

In [None]:
np.tile(a, 2)    # 1차원 배열

In [None]:
np.tile(a, (1, 2))   # 2차원 배열

In [None]:
np.tile(a, (2, 1))   # 2차원 배열

In [None]:
np.tile(a, (2, 1, 2))   # 3차원 배열

In [None]:
np.tile(a, (2, 3, 4))

In [None]:
b = np.array([[0, 1], [2, 3]]); b

In [None]:
np.tile(b, 2)

In [None]:
np.tile(b, (1, 2))

In [None]:
np.tile(b, (2, 1))

In [None]:
np.tile(b, (3, 2, 1))

In [None]:
print(dataSetSize)
np.tile([0, 0], (dataSetSize, 1))

##### -- end of numpy.tile

In [None]:
# 차를 제곱하고
sqDiffMat = diffMat**2; sqDiffMat

In [None]:
# 행 방향으로 더한 후
sqDistances = sqDiffMat.sum(axis=1); sqDistances   # row-wise summation

### $ numpy.ndarry.sum = numpy.sum
* https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.sum.html
* https://docs.scipy.org/doc/numpy/reference/generated/numpy.sum.html#numpy.sum

In [None]:
np.sum([])   # 빈 배열의 합

In [None]:
np.sum([1.1, 0.7, 0.2, 1.5], dtype=np.int32)   # 실수를 32비트 정수형으로 변환한 후 합계

In [None]:
np.sum([0.5, 1.5])   # axis 옵션이 없으면 모든 원소를 더함

In [None]:
print(np.sum([[0, 1], [0, 5]]))
print(np.sum([[0, 1], [0, 5]], axis=0))
print(np.sum([[0, 1], [0, 5]], axis=1))

In [None]:
print(np.ones(5))
print(np.ones((3, 4)))

In [None]:
print(np.ones(5).sum())   # ndarray 객체의 메소드로 사용
print(np.ones((3, 4)).sum(axis=0))
print(np.ones((3, 4)).sum(axis=1))

In [None]:
a = np.array([[2, 3], [8, 4]]); a

In [None]:
print(a.sum())
print(a.sum(0))
print(a.sum(axis=0))
print(a.sum(1))

##### -- end of numpy.ndarray.sum

In [None]:
# 제곱근을 적용하여 inX와 모든 데이터 셋 점간의 거리를 구함
distances = sqDistances**0.5; distances

In [None]:
# 거리가 가까운 순으로 정렬
# 거리를 정렬하되 정렬된 결과의 점이 필요하므로 인덱스 값이 정렬되도록 함
sortedDistIndices = distances.argsort(); sortedDistIndices

### $ numpy.argsort
* 반환값: 배열이 정렬되었을 때의 인덱스 배열(ndarray, int)
* 마지막 축을 기준으로 정렬(기본값)
https://docs.scipy.org/doc/numpy/reference/generated/numpy.argsort.html

In [None]:
# 1차원 배열
x = np.array([3, 1, 2]); print(x)
print(np.argsort(x))
print(x[np.argsort(x)])

In [None]:
# 2차원 배열
x = np.array([[0, 3], [2, 2]]); print(x)
print(np.argsort(x, axis=0))
print(np.argsort(x, axis=1))
print(np.argsort(x, axis=-1))   # 마지막 축을 기준으로 정렬

In [None]:
# 3차원 배열
x = np.array([[[8, 1, 4], [1, 2, 5]], [[4, 2, 7], [6, 5, 4]]]); print(x)
print(np.argsort(x, axis=2))
print(np.argsort(x))
print(np.argsort(x, axis=0))

In [None]:
# 키 값으로 정렬
x = np.array([(1, 0), (0, 1)], dtype=[('x', '<i4'), ('y', '<i4')]); x

#### numpy의 구조적 데이터 타입을 사용한 인자 정렬
* numpy.dtype: https://docs.scipy.org/doc/numpy/reference/generated/numpy.dtype.html

In [None]:
np.argsort(x, order=('x', 'y'))

In [None]:
np.argsort(x, order=('y', 'x'))

##### -- end of numpy.argsort

In [None]:
# 딕셔너리 변수 준비
classCount = {}

for i in range(k):   # k 회수만큼 반복
    voteIlabel = labels[sortedDistIndices[i]]
    classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1

In [None]:
# k번째 가까운 점의 인덱스 값을 구한 후 그 점의 레이블을 저장
# 처음 수행한다면
print(sortedDistIndices[0])
print(labels)
voteIlabel = labels[sortedDistIndices[0]]; print(voteIlabel)

In [None]:
# 레이블을 키, 레이블의 회수를 값으로 하는 딕셔너리 classCount
# classCount 딕셔너리의 키 값에 없는 레이블(처음 나타난 레이블)이면 get 함수가 0을 리턴
print(classCount)
print(classCount.get(voteIlabel, 0))
print(classCount.get(voteIlabel, 0) + 1)

### $ 딕셔너리 함수: get
https://wikidocs.net/16 에서 'get' 검색

In [None]:
# classCount 딕셔너리 갱신하고 이후 k 회수만큼 반복
classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1; print(classCount)

In [None]:
classCount = {}
for i in range(k):   # k 회수만큼 반복
    voteIlabel = labels[sortedDistIndices[i]]
    classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1

In [None]:
classCount

In [None]:
print(classCount)

In [None]:
sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)

##### Listing 2.1 k-Nearest Neighbors algorithm for Python 3

In [None]:
import numpy as np

# Python3 버전
def classify0(inX, dataSet, labels, k):
    diffMat = inX - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndices = distances.argsort()
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndices[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    sortedClassCount = sorted(classCount, key=classCount.get, reverse=True)
    return sortedClassCount[0]

### $ Python3 정렬
https://docs.python.org/3/howto/sorting.html
* sorted() 함수: https://docs.python.org/3/library/functions.html#sorted
    - key 인자: 정렬에 사용될 함수를 받음

In [None]:
sortedClassCount = sorted(classCount, key=classCount.get, reverse=True); sortedClassCount

In [None]:
type(sortedClassCount)

In [None]:
print(sortedClassCount[0])

### kNN 테스트

In [None]:
import kNN

In [None]:
group, labels = kNN.createDataSet()

In [None]:
kNN.classify0([0, 0], group, labels, 3)

In [None]:
kNN.classify0([1, 0.8], group, labels, 3)

# 2.2 Example: improving matches from a dating site with kNN

### 내 친구 헬렌
* 3 types of people she went out with:
    - People she didn't like
    - People she liked in small doses
    - People she liked in large doese

### Example: using kNN on results from a dating site
1. Collect:
  - 텍스트 파일 제공됨
2. Prepare:
  - 파이썬에서 텍스트 파일 파싱
3. Analyze:
  - Matplotlib을 사용하여 데이터의 2차원 플롯 생성
4. Train:
  - kNN 알고리즘에는 훈련이 필요없음
5. Test:
  - 헬렌이 준 데이터 중 일부를 테스트 데이터로 사용하는 함수 작성
  - 테스트 데이터는 비테스트 데이터와 구별
  - 예측된 클래스가 실제 클래스와 일치하지 않으면 오류
6. Use:
  - 헬렌이 입력한 몇몇 값을 바탕으로 헬렌이 좋아하는 상대인지 예측하는 간단한 명령행 프로그램 작성

## 2.2.1 Prepare: parsing data from a text file
* datingTestSet.txt
 - 1,000 entries
 - features
   - Number of frequent flyer miles earned per year
   - Percentage of time spent playing video games
   - Liters of ice cream consumed per week 

### file2matrix 함수
* 텍스트 파일의 데이터를 분류기가 사용할 수 있는 형태로 변환
* 입력: 파일 이름
* 출력: 훈련 데이터(행렬), 클래스 레이블(벡터)

##### Listing 2.2 Text record to NumPy parsing code for Python 2, 3

In [None]:
import numpy as np

# 원본: Python3에서도 실행 가능
def file2matrix_p2(filename):
    fr = open(filename)
    
    # 훈련 데이터(returnMat)와 클래스 레이블(classLabelVector) 변수 준비
    numberOfLines = len(fr.readlines())      # 텍스트 파일의 라인 개수
    returnMat = np.zeros((numberOfLines, 3)) # 텍스트_라인수 X 3 크기의 영행렬 준비
    classLabelVector = []                    # 클래스 레이블 변수 준비
    
    # readlines() 는 파일 끝까지 읽은 뒤 포인터를 파일의 처음으로 돌려놓지 않으므로
    # 파일 내용을 다시 읽으려면 open() 을 사용하여 파일을 다시 읽어야 한다.
    fr = open(filename)
    index = 0            # 반환할 행렬의 로우 인덱스
    
    for line in fr.readlines():
        # 문자열 양 옆 공백 제거
        line = line.strip()
        
        # 문자열을 탭('\t')을 기준으로 단어로 분리하여 리스트로 반환
        listFromLine = line.split('\t')
        
        # returnMat의 인덱스 로우에 위 리스트의 첫 번째부터 세 번째 값을 저장
        returnMat[index, :] = listFromLine[0:3]
        
        # classLabelVector 리스트에 listFromLine 리스트의 마지막 값을 저장
        classLabelVector.append(listFromLine[-1])
        index += 1
        
    return returnMat, classLabelVector

### 원본 file2matrix 함수 설명

In [None]:
filename = 'datingTestSet.txt'
fr = open(filename)    # default file access mode: read

In [None]:
# 훈련 데이터(returnMat)와 클래스 레이블(classLabelVector) 변수 준비
numberOfLines = len(fr.readlines())      # 텍스트 파일의 라인 개수
returnMat = np.zeros((numberOfLines, 3)) # 텍스트_라인수 X 3 크기의 영행렬 준비
classLabelVector = []                    # 클래스 레이블 변수 준비
print(numberOfLines)
print(returnMat)
print(classLabelVector)

In [None]:
# readlines() 는 파일 끝까지 읽은 뒤 포인터를 파일의 처음으로 돌려놓지 않으므로
# 파일 내용을 다시 읽으려면 open() 을 사용하여 파일을 다시 읽어야 한다.
lines = fr.readlines(); lines  # lines는 빈 리스트
fr = open(filename)            # 파일을 다시 읽어야 한다

In [None]:
index = 0    # 반환할 행렬의 로우 인덱스

In [None]:
lines = fr.readlines()
print(lines)

In [None]:
line = lines[index]
print(line)

In [None]:
# 문자열 양 옆 공백 제거
line = line.strip()
print(line)
type(line)

In [None]:
# 문자열을 탭('\t')을 기준으로 단어로 분리하여 리스트로 반환
listFromLine = line.split('\t')
print(line)
type(line)

In [None]:
# returnMat의 인덱스 로우에 위 리스트의 첫 번째부터 세 번째 값을 저장
returnMat[index, :] = listFromLine[0:3]
print(returnMat)

In [None]:
# classLabelVector 리스트에 listFromLine 리스트의 마지막 값을 저장
classLabelVector.append(listFromLine[-1])

In [None]:
# 인덱스 1 증가하고 반복(for 문)
index += 1

##### Listing 2.2 Enhanced text record to NumPy parsing code for Python 3

In [None]:
import numpy as np

# 수정본
#   - 파일을 한 번만 연다
#   - 즉, open(), readlines()를 한 번만 호출
def file2matrix(filename):
    fr = open(filename)
    index = 0                     # 반환할 행렬의 로우 인덱스
    classLabelVec = []            # 클래스 레이블 변수 준비
    for line in fr.readlines():
        # 문자열 양 옆 공백 제거 후 탭('\t')을 기준으로 단어로 분리한 리스트
        lineList = line.strip().split('\t')
        
        # lineList의 마지막 컬럼값(레이블)을 클래스 레이블 변수에 추가
        classLabelVec.append(lineList[-1])
        
        # List Comprehension in Python
        feature = [float(value) for value in lineList[0:3]]
        
        # 처음 읽은 라인이면 returnMat 변수 초기화, 아니면 returnMat 변수에 행 추가
        # 아래 if else 문을 한 문장으로 표현
        returnMat = np.vstack((returnMat, feature)) \
                        if index != 0 else np.array(feature)
        #if (index == 0):
        #    returnMat = np.array(feature)
        #else:
        #    returnMat = np.vstack((returnMat, feature))
        index += 1
    return returnMat, classLabelVec

### 수정된 file2matrix 함수 설명

In [None]:
filename = 'datingTestSet.txt'
fr = open(filename)
lines = fr.readlines()
index = 0

### $ Python List Comprehension
[x for x in iterable]

In [None]:
# List Comprehension in Python
[value for value in lines[index].strip().split('\t')]

In [None]:
lineList = lines[index].strip().split('\t')
feature = [float(value) for value in lineList[0:3]]
print(lineList)
print(feature)

In [None]:
# 처음 읽은 라인이면 returnMat 변수 초기화, 아니면 returnMat 변수에 행 추가
returnMat = np.vstack((returnMat, feature)) if index != 0 else np.array(feature)
print(returnMat)

In [None]:
# 위 문장은 아래의 if ~ else ~ 를 간략히 표현한 것
if (index == 0):
    returnMat = np.array(feature)
else:
    returnMat = np.vstack((returnMat, feature))
print(returnMat)

### $ numpy.vstack
* numpy 배열들을 입력받아 수직으로 쌓은 후 numpy 배열 반환
* 첫 번째 축(차원)을 제외한 모든 축의 크기가 같아야 함
* https://docs.scipy.org/doc/numpy/reference/generated/numpy.vstack.html

In [None]:
a = np.array([1, 2, 3])
b = np.array([2, 3, 4])
c = np.array([3, 4, 5])
np.vstack((a, b, c))

In [None]:
np.vstack((a, b, c, [9, 8, 7]))

In [None]:
a = np.array([[1, 2,], [3, 4]])
b = np.array([[11, 22], [33, 44]])
c = np.array([[4, 5], [5, 4],
              [9, 8], [8, 9]])
d = np.array([[1, 2, 3], [4, 5, 6]])

In [None]:
np.vstack((a, b))

In [None]:
np.vstack((a, c))

In [None]:
np.vstack((a, b, c))

In [None]:
np.vstack((a, d))

In [None]:
a = np.zeros((3, 4, 5)); a

In [None]:
b = np.ones((2, 4, 4)); b

In [None]:
np.vstack((a, b))

In [None]:
b = np.ones((2, 4, 5)); b

In [None]:
np.vstack((a, b))

##### -- end of numpy.vstack()

In [None]:
import kNN
import importlib
importlib.reload(kNN)

In [None]:
datingDataMat, datingLabels = kNN.file2matrix('datingTestSet.txt')

In [None]:
print(datingDataMat)
print(len(datingDataMat))

In [None]:
datingLabels[0:20]

In [None]:
# 원본 테스트
#datingDataMat2, datingLabels2 = file2matrix_p2('datingTestSet.txt')
#print(datingDataMat2)
#print(len(datingDataMat2))
#datingLabels2[0:20]

### !NumPy의 array와 Python의 array를 혼용하지 말자.!

## 2.2.2 Analyze: creating scatter plots with Matplotlib
  - 산포도를 통해 헬렌이 좋아할 사람을 분류할 수 있는 특징들(features)을 찾아보자

In [None]:
import numpy as np
import matplotlib
import matplotlib.pyplot as plt

In [None]:
import kNN
import importlib; importlib.reload(kNN)

In [None]:
datingDataMat, datingLabels = kNN.file2matrix('datingTestSet2.txt')
np.array([int(x) for x in datingLabels[:10]]) * 15.0

In [None]:
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(datingDataMat[:, 1], datingDataMat[:, 2],
           15.0*np.array([int(x) for x in datingLabels]),
           15.0*np.array([int(x) for x in datingLabels]))

In [None]:
plt.show()

In [None]:
datingDataMat, datingLabels = kNN.file2matrix('datingTestSet.txt')
title0 = 'The Number of Frequent Flyer Miles Earned Per Year'
title1 = 'Percentage of Time Spent Playing Video Games'
title2 = 'Liters of Ice Cream Consumed Per Week'
data0, data1, data2 = datingDataMat[:, 0], datingDataMat[:, 1], datingDataMat[:, 2]
legendString = ['Did Not Like', 'Liked in Small Doses', 'Liked in Large Doses']
output = [('b', 20) if x == 'didntLike' else ('g', 30) 
                    if x == 'smallDoses' else ('r', 50) 
                    for x in datingLabels]

In [None]:
colors = [x for (x, y) in output]
markers = [y for (x, y) in output]

In [None]:
#colors = ['blue' if x == 'didntLike' else 'green' if x == 'smallDoses' else 'red' for x in datingLabels]
#markers = [10 if x == 'didntLike' else 30 if x == 'smallDoses' else 50 for x in datingLabels]

In [None]:
fig = plt.figure()

In [None]:
ax = fig.add_subplot(111)

In [None]:
# x axis: Percentage of Time Spent Playing Video Games
# y axis: Liters of Ice Cream Consumed Per Week
ax.scatter(data1, data2, c=colors, s=markers, edgecolors='k')
plt.xlabel(title1)
plt.ylabel(title2)

In [None]:
type1 = ax.scatter([10], [-10], s=20, c='b')
type2 = ax.scatter([10], [-15], s=30, c='g')
type3 = ax.scatter([10], [-20], s=50, c='r')
ax.legend([type1, type2, type3], legendString, loc=1)
minX, maxX = min(data1), max(data1)
minY, maxY = min(data2), max(data2)
marginX, marginY = np.multiply(0.05, [maxX - minX, maxY - minY])
ax.axis([minX - marginX, maxX + marginX, minY - marginY, maxY + marginY])

In [None]:
plt.show()

In [None]:
# x axis: The Number of Frequent Flyer Miles Earned Per Year
# y axis: Liters of Ice Cream Consumed Per Week
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(data0, data2, c=colors, s=markers, edgecolors='k')
plt.xlabel(title0)
plt.ylabel(title2)
ax.legend([type1, type2, type3], legendString, loc=1)
minX, maxX = min(data0), max(data0)
minY, maxY = min(data2), max(data2)
marginX, marginY = np.multiply(0.05, [maxX - minX, maxY - minY])
ax.axis([minX - marginX, maxX + marginX, minY - marginY, maxY + marginY])
plt.show()

In [None]:
# x axis: The Number of Frequent Flyer Miles Earned Per Year
# y axis: Percentage of Time Spent Playing Video Games
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(data0, data1, c=colors, s=markers, edgecolors='k')
plt.xlabel(title0)
plt.ylabel(title1)
ax.legend([type1, type2, type3], legendString, loc='best')
minX, maxX = min(data0), max(data0)
minY, maxY = min(data1), max(data1)
marginX, marginY = np.multiply(0.05, [maxX - minX, maxY - minY])
ax.axis([minX - marginX, maxX + marginX, minY - marginY, maxY + marginY])
plt.show()

### List Comprehension with if else if else

In [None]:
l = [22, 13, 45, 50, 98, 69, 43, 44, 1]
[x+1 if x >= 45 else x+5 for x in l]

In [None]:
l = [1, 2, 3, 4, 5]
['yes' if v == 1 else 'no' if v == 2 else 'idle' for v in l]

### 특징들 간의 관계를 그림으로 분석한 결과:
 * '비디오 게임 시간'과 '연간 비행 마일 수'가 분류에 의미 있는 특징으로 결정됨
 * 즉, 헬렌이 좋아할만한 남자 친구를 찾는(분류하는) 특징으로 '비디오 게임 시간'과 '연간 비행 마일 수'를 선택

## 2.2.3 Prepare: normalizing numeric values

### $ 교재 p.37 설명

#### 헬렌의 예에서 '연간 항공 마일리지 수' 특징이 거리를 계산하는데 있어 큰 영향을 미친다.
#### 원인:
 * 1) 해당 특징의 값 자체가 다른 특징보다 크다
 * 2) 특징 마다 값의 범위가 다르다

#### 정말로 해당 특징이 그만큼의 중요도가 있는가?
#### 헬렌은 세 가지 특징이 다 같은 정도의 중요도를 갖는다고 생각한다.
  - 하지만 연간 항공 마일리지 수는 다른 특징에 비해 값 자체가 크다.
  - 즉, 연간 항공 마일리지 수 특징의 값이 두 점 사이의 거리에 영향을 크게 미친다.
  - 즉, 연간 항공 마일리지 수의 중요도가 높다.

### Normalization (정규화)
 * 값의 범위를 [0, 1] 또는 [-1, 1]로 변환하는 것

#### [0, 1]로 정규화
  newValue = (oldValue - min) / (max - min)

##### Listing 2.3 Data-normailizing code for Python 2

In [None]:
import numpy as np

def autoNorm_p2(dataSet):
    # 각 특징별 최솟값, 최댓값, 범위를 구함
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    
    # 정규화된 배열로 사용할, dataSet과 같은 크기를 갖는 영행렬 준비
    normDataSet = np.zeros(np.shape(dataSet))
    
    # dataSet의 각 행에서 최솟값을 빼기 위해 행 개수 준비
    m = dataSet.shape[0]
    
    # np.tile 함수를 사용하여 최솟값 벡터를 dataSet과 행 개수가 같은 최솟값 배열로 만든 후
    # dataSet 즉 oldValue에서 빼고 그 결과를 범위 배열로 나누어서 정규화된 값을 구함
    normDataSet = dataSet - np.tile(minVals, (m, 1))
    normDataSet = normDataSet / np.tile(ranges, (m, 1))
    
    # ranges와 minVals은 테스트 값에 대해 정규화할 필요가 있으므로 반환해야 함
    return normDataSet, ranges, minVals

In [None]:
import kNN
import importlib; importlib.reload(kNN)
import numpy as np

#datingDataMat, datingLabels = kNN.file2matrix('datingTestSet.txt')
dataSet, dataLabels = kNN.file2matrix('datingTestSet.txt')

##### NumPy array methods
 - https://docs.scipy.org/doc/numpy/reference/arrays.ndarray.html#array-methods

In [None]:
# 각 특징별 최솟값, 최댓값, 범위를 구함
minVals = dataSet.min(0)    # dataSet 배열의 열에 대한 최솟값, 0이 '열'을 의미
maxVals = dataSet.max(0)
ranges = maxVals - minVals; ranges

In [None]:
# 정규화된 배열로 사용할, dataSet과 같은 크기를 갖는 영행렬 준비
normDataSet = np.zeros(np.shape(dataSet)); normDataSet

In [None]:
# dataSet의 각 행에서 최솟값을 빼기 위해 행 개수 준비
m = dataSet.shape[0]; m

In [None]:
# np.tile 함수를 사용하여 최솟값 벡터를 dataSet과 행 개수가 같은 최솟값 배열로 만든 후
# dataSet 즉 oldValue에서 빼고 그 결과를 범위 배열로 나누어서 정규화된 값[0..1]을 구함
normDataSet = dataSet - np.tile(minVals, (m, 1))
normDataSet = normDataSet / np.tile(ranges, (m, 1))

In [None]:
np.tile(minVals, (m, 1))

In [None]:
normDataSet

##### Listing 2.3 Data-normailizing code for Python 3

In [None]:
import kNN
import importlib; importlib.reload(kNN)
import numpy as np

In [None]:
def autoNorm(dataSet):
    # 각 특징별 최솟값, 최댓값, 범위를 구함
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    
    # 정규화된 배열을 구함
    normDataSet = (dataSet - minVals) / ranges
    
    # ranges와 minVals은 테스트 값에 대해 정규화할 필요가 있으므로 반환해야 함
    return normDataSet, ranges, minVals

In [None]:
import kNN
import importlib; importlib.reload(kNN)

#datingDataMat, datingLabels = kNN.file2matrix('datingTestSet.txt')
dataSet, dataLabels = kNN.file2matrix('datingTestSet.txt')

In [None]:
# 각 특징별 최솟값, 최댓값, 범위를 구함
minVals = dataSet.min(0)
maxVals = dataSet.max(0)
ranges = maxVals - minVals; ranges

In [None]:
# 정규화된 배열을 구함
normDataSet = (dataSet - minVals) / ranges; normDataSet

## 2.2.4 Test: testing the classifier as a whole program

### 기계 학습 알고리즘의 정확도
  * 데이터의 90% 정도를 분류기(classifier) 학습에 사용
  * 나머지 10%를 분류기의 정확도를 구하기 위한 테스트 데이터로 사용
  * 이 10% 데이터는 임의로 선택
  * 우리가 사용하는 데이터는 특정 순서로 저장된 것이 아니므로 처음 10% 또는 마지막 10%를 테스트 데이터로 선택하는 것이 임의로 10% 선택하는 것과 다를 바 없음
### 에러율(error rate)
  * error rate = 잘못 분류된 데이터 수 / 전체 데이터 수
  * error rate = 0 ==> 완벽한 분류기
  * error rate = 1.0 ==> 항상 잘못 분류하는 분류기

##### Listing 2.4 Classifier testing code for dating site for Python 2

In [None]:
import kNN
import importlib; importlib.reload(kNN)
import numpy as np

def datingClassTest_p2():
    # 각종 변수 준비
    hoRatio = 0.10                    # 테스트 데이터 비율 (10%)
    datingDataMat, datingLabels = kNN.file2matrix('datingTestSet.txt')
    normMat, ranges, minVals = kNN.autoNorm(datingDataMat)
    m = normMat.shape[0]              # 데이터 총 개수, 로우 수
    numTestVecs = int(m * hoRatio)    # 테스트 데이터 개수
    errorCount = 0.0
        
    for i in range(numTestVecs):
        classifierResult = kNN.classify0(normMat[i, :], normMat[numTestVecs:m, :], \
                                         datingLabels[numTestVecs:m], 3)        
        # 교재에서는 %s 대신 %d, 교재대로 하려면 datingTestSet2.txt 파일을 사용
        print("the classifier came back with: %s, the real answer is: %s"\
                % (classifierResult, datingLabels[i]))
        if (classifierResult != datingLabels[i]):
            errorCount += 1.0
            print("!!!NOT MATCHED!!!")
    print("the total error rate is: %f" % (errorCount/float(numTestVecs)))

In [None]:
import kNN
import importlib; importlib.reload(kNN)
import numpy as np

In [None]:
# 각종 변수 준비
hoRatio = 0.10                    # 테스트 데이터 비율 (10%)
datingDataMat, datingLabels = kNN.file2matrix_p2('datingTestSet.txt')
normMat, ranges, minVals = kNN.autoNorm_p2(datingDataMat)
m = normMat.shape[0]              # 데이터 총 개수, 로우 수
numTestVecs = int(m * hoRatio)    # 테스트 데이터 개수
errorCount = 0.0
print(normMat)
print(ranges)
print(minVals)
print(m)
print(numTestVecs)

In [None]:
i = 0

In [None]:
# i번째 테스트 데이터
normMat[i, :]

In [None]:
# 훈련 데이터
normMat[numTestVecs:m, :].shape

In [None]:
# 레이블 데이터
len(datingLabels[numTestVecs:m])

In [None]:
# kNN 수행: k 값은 3
classifierResult = kNN.classify0(normMat[i, :], normMat[numTestVecs:m, :],
                                datingLabels[numTestVecs:m], 3)
classifierResult

In [None]:
print("the classifier came back with: %s, the real answer is: %s"\
                % (classifierResult, datingLabels[i]))

In [None]:
if (classifierResult != datingLabels[i]):
    errorCount += 1.0
errorCount

In [None]:
# i 값을 변경시켜가며 결과를 확인해 본다.
i = 99

# kNN 수행: k 값은 3
classifierResult = kNN.classify0(normMat[i, :], normMat[numTestVecs:m, :],
                                datingLabels[numTestVecs:m], 3)
print("the classifier came back with: %s, the real answer is: %s"\
                % (classifierResult, datingLabels[i]))
if (classifierResult != datingLabels[i]):
    errorCount += 1.0
errorCount

In [None]:
datingClassTest_p2()

##### Listing 2.4 Classifier testing code for dating site for Python 3

In [None]:
import kNN
import importlib
importlib.reload(kNN)

import numpy as np

"""
file: 테스트 데이터 파일 이름
ratio: 테스트 데이터 비율
k: kNN의 k 값

입력 데이터 중 [0, 총데이터*테스트비율) 범위의 데이터가 테스트 데이터로 사용된다.
"""
def datingClassTest_v1(file, ratio = 0.1, k = 3):
    # 각종 변수 준비
    datingDataMat, datingLabels = kNN.file2matrix(file)
    normMat, ranges, minVals = kNN.autoNorm(datingDataMat)
    numTotal = normMat.shape[0]            # 데이터 총 개수, 로우 수
    numTestVecs = int(numTotal * ratio)    # 테스트 데이터 개수
    errorCount = 0
        
    for i in range(numTestVecs):
        classifierResult = kNN.classify0(normMat[i, :], normMat[numTestVecs:m, :], \
                                         datingLabels[numTestVecs:m], k)        
        # 교재에서는 %s 대신 %d, 교재대로 하려면 datingTestSet2.txt 파일을 사용
        print("the classifier came back with: %s, the real answer is: %s"\
                % (classifierResult, datingLabels[i]))
        if (classifierResult != datingLabels[i]):
            errorCount += 1
            print("!!!NOT MATCHED!!!")
    print("the total error rate is: %f" % (errorCount/float(numTestVecs)))

In [None]:
classifierResult = [kNN.classify0(normMat[i, :], normMat[numTestVecs:m, :], 
                            datingLabels[numTestVecs:m], 3) for i in range(numTestVecs)]

In [None]:
numTestVecs

In [None]:
normMat.shape

In [None]:
a = np.array(classifierResult) != np.array(datingLabels[:numTestVecs])

In [None]:
np.array(datingLabels[:numTestVecs])[a].size

In [None]:
normMat.size

In [None]:
aa

In [None]:
a = [1, 2, 3,4, 5]

In [None]:
np.array(a) > 3

In [None]:
type(ranges)

In [None]:
ranges.size

In [None]:
datingClassTest_v1('datingTestSet.txt')

In [None]:
datingClassTest_v1('datingTestSet.txt', k = 7)

In [None]:
datingClassTest_v1('datingTestSet.txt', k = 9)

In [None]:
datingClassTest_v1('datingTestSet.txt', k = 11)

## 2.2.5 Use: putting together a useful system

In [None]:
import kNN
import importlib
importlib.reload(kNN)

import numpy as np

##### Listing 2.5 Dating site predictor function Python 2

In [None]:
def classifyPerson():
    resultList = ['not at all','in small doses', 'in large doses']
    percentTats = float(raw_input(\
                 "percentage of time spent playing video games?"))
    ffMiles = float(raw_input("frequent flier miles earned per year?"))
    iceCream = float(raw_input("liters of ice cream consumed per year?"))
    datingDataMat,datingLabels = file2matrix('datingTestSet.txt')
    normMat, ranges, minVals = autoNorm(datingDataMat)
    inArr = array([ffMiles, percentTats, iceCream])
    classifierResult = classify0((inArr-minVals)/ranges,
                                 normMat, datingLabels, 3)
    print "You will probably like this person: ",\
                   resultList[classifierResult - 1]

##### Listing 2.5 Dating site predictor function Python 3

In [None]:
def classifyPerson():
    resultList = ['not at all','in small doses', 'in large doses']
    percentTats = float(input(\
                 "percentage of time spent playing video games?"))
    ffMiles = float(input("frequent flier miles earned per year?"))
    iceCream = float(input("liters of ice cream consumed per year?"))
    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')
    normMat, ranges, minVals = autoNorm(datingDataMat)
    inArr = np.array([ffMiles, percentTats, iceCream])
    classifierResult = classify0((inArr-\
                   minVals)/ranges,normMat,datingLabels,3)
    print("You will probably like this person:",
              #classifierResult)    # for datingTestSet.txt
                   resultList[int(classifierResult) - 1])

In [None]:
classifyPerson()

## 2.3 Example: a handwriting recognition system

1. Collect:
  - 텍스트 파일로 제공됨, 2000여개의 샘플
2. Prepare:
  - 이미지 포맷을 리스트 포맷으로 변환하는 함수 작성
  - 이렇게 변환된 리스트는 앞서 작성한 kNN 분류 함수 classify0()에 사용됨
3. Analyze:
  - 리스트 포맷으로 잘 변환되었는지 파이썬 셀에서 확인
4. Train:
  - kNN은 훈련 과정이 없음
5. Test:
  - 데이터 일부를 테스트 예제(샘플)로 사용하는 함수 작성
  - 이 함수를 통해 테스트 데이터와 kNN 데이터로 구분
  - 테스트 데이터의 분류 예측 결과와 실제 클래스가 일치하지 않으면 에러로 처리
6. Use:
  - 여기서는 수행하지 않음
  - 필요하다면 이를 응용한 애플리케이션 작성 가능
    - 우편 봉투 이미지에서 우편 번호를 추출하여 우편물 정리하는데 이용 등
    - 다른 활용예도 생각해 봅시다

### 2.3.1 Prepare: converting images into test vectors

  * 숫자 이미지 크기: 32x32
  * 훈련용 데이터: 2,000 개
    - 번호별 약 200개 표본
    - 번호별 디렉터리에 존재
  * 테스트용 데이터: 약 900 개
  
  
  * 2차원 이미지 데이터를 1차원 벡터로 변환
    - 32x32 ==> 1x1024
    - 이전에 개발한 classify0() 분류기 함수를 사용하기 위해
    - img2vector()

##### Listing Converting number image to vector Python 3

In [None]:
def img2vector(filename):
    returnVect = pd.zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

### 2.3.2 Analyze: looking at the prepared data in the Python shell to make sure it’s correct
  - testDigits/0_13.txt를 편집기로 열어서 아래 testVector의 내용과 일치하는지 확인

In [None]:
testVector = kNN.img2vector('testDigits/0_13.txt')
testVector[0, 0:31]
testVector[0, 32:63]

### 2.3.3 Test: kNN on handwritten digits

##### Listing 2.6 Handwritten digits testing code

In [None]:
def handwritingClassTest():
    hwLabels = []
    trainingFileList = os.listdir('trainingDigits')   
    m = len(trainingFileList)
    trainingMat = np.zeros((m,1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]        
        fileStr = fileNameStr.split('.')[0]             
        classNumStr = int(fileStr.split('_')[0]) 
        hwLabels.append(classNumStr)
        trainingMat[i,:] = kNN.img2vector('trainingDigits/%s' % fileNameStr)
    testFileList = os.listdir('testDigits')
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = kNN.img2vector('testDigits/%s' % fileNameStr)
        classifierResult = kNN.classify0(vectorUnderTest, \
                                trainingMat, hwLabels, 3)
        print "the classifier came back with: %d, the real answer is: %d"\
                                % (classifierResult, classNumStr)
        if (classifierResult != classNumStr): errorCount += 1.0
    print("\nthe total number of errors is: %d" % errorCount)
    print("\nthe total error rate is: %f" % (errorCount/float(mTest)))

In [None]:
kNN.handwritingClassTest()

## 2.4 Summary
  * 특징
    - instance-based learning의 한 예
  * 장점
    - 간단
    - 분류에 효과적
  * 단점
    - 전체 데이터를 다루어야 하므로 큰 데이터 집합을 처리하려면 큰 저장소 필요
    - 모든 데이터에 대해 거리 계산 --> 연산 부담
    - 데이터 구조에 대한 어떠한 정보도 얻을 수 없음
      - 같은 부류의 데이터에 대한 평균, 모범예 등을 알 수 없음    