In [None]:
fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0,
                31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0,
                35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0, 9.8,
                10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]
fish_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0,
                500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0,
                700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0, 6.7,
                7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]

In [None]:
import numpy as np

In [None]:
# column_stack 함수는 전달받은 리스트를 일렬로 세운 다음 차례대로 나란히 연결
# 연결할 리스트는 튜플로 전달
np.column_stack(([1,2,3], [4,5,6]))

In [None]:
fish_data = np.column_stack((fish_length, fish_weight))

In [None]:
print(fish_data[:5])

In [None]:
# zeros, ones 함수로 0, 1로 이루어진 배열 생성
print(np.ones(5))

In [None]:
# concatenate 함수를 사용하여 1차원 형식으로 연결
fish_target = np.concatenate((np.ones(35), np.zeros(14)))

In [None]:
print(fish_target)

In [None]:
# 사이킷런으로 훈련 세트와 테스트 세트 나누기
from sklearn.model_selection import train_test_split

In [None]:
train_input, test_input, train_target, test_target = train_test_split(fish_data, fish_target, random_state=42)

In [None]:
# 위 함수는 기본적으로 25%를 테스트로 분리
# shape함수로 확인
print(train_input.shape, test_input.shape)

In [None]:
print(train_target.shape, test_target.shape)

In [None]:
# 도미와 빙어가 잘 섞였는지 테스트 데이터 출력
print(test_target)

In [None]:
# stratify 매개변수에 타깃 데이터 전달하면 클래스 비율에 맞게 데이터 나눔
train_input, test_input, train_target, test_target = train_test_split(fish_data, fish_target, stratify=fish_target, random_state=42)

In [None]:
print(test_target)

In [None]:
# k-최근접 이웃 모델 훈련
from sklearn.neighbors import KNeighborsClassifier
kn = KNeighborsClassifier()
kn.fit(train_input, train_target)
kn.score(test_input, test_target)

In [None]:
# 도미 데이터 [25, 150] 넣고 예측
kn.predict([[25, 150]])

In [None]:
# 다른 데이터와 위의 샘플을 산점도로 시각화
import matplotlib.pyplot as plt
plt.scatter(train_input[:,0], train_input[:,1])
plt.scatter(25, 150, marker='^')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

In [None]:
# 이상 샘플의 주변 샘플 알아보기
# kneighbors 메서드 사용하여 이웃까지의 거리와 이웃 샘플의 인덱스 반환
distances, indexes = kn.kneighbors([[25, 150]])

In [None]:
plt.scatter(train_input[:,0], train_input[:,1])
plt.scatter(25, 150, marker='^')
plt.scatter(train_input[indexes,0], train_input[indexes,1], marker='D')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

In [None]:
print(train_input[indexes])

In [None]:
print(distances)

In [None]:
# 산점도 그래프에서 x축, y축 범위가 다르기에 거리가 이상하게 보임
# 범위를 동일하게 맞춰줌
plt.scatter(train_input[:,0], train_input[:,1])
plt.scatter(25, 150, marker='^')
plt.scatter(train_input[indexes,0], train_input[indexes,1], marker='D')
plt.xlim((0, 1000))
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

In [None]:
# 두 특성의 값이 놓인 범위가 매우 다르다 => 두 특성의 스케일이 다르다
# 특성값을 일정한 기준으로 맞춰 주는 작업 -> 데이터 전처리
# 가장 널리 사용하는 전처리 방법 중 하나는 표준점수(z-score라고도 부름)
# 표준점수는 각 특성값이 평균에서 표준편차의 몇 배만큼 떨어져 있는지를 나타냄
# 평균을 빼고 표준편차를 나누어 주면 됨
mean = np.mean(train_input, axis=0) # train_input은 (36, 2) 크기의 배열이므로 axis=0을 통해 행을 따라 각 열의 통계 값 계산
std = np.std(train_input, axis=0)

In [None]:
print(mean, std)

In [None]:
# 원본 데이터에서 평균을 빼고 표준편차를 나누기
# 넘파이의 브로드캐스팅 기능을 통해 각 행에서 모두 계산 진행해줌
train_scaled = (train_input - mean) / std

In [None]:
# 전처리한 데이터와 이상 샘플을 산점도로 시각화
plt.scatter(train_scaled[:,0], train_scaled[:,1])
plt.scatter(25, 150, marker='^')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

In [None]:
# 이상 샘플도 전처리 진행
new = ([25, 150] - mean) / std
plt.scatter(train_scaled[:,0], train_scaled[:,1])
plt.scatter(new[0], new[1], marker='^')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

In [None]:
# 모델 다시 훈련
kn.fit(train_scaled, train_target)

In [None]:
# 테스트 세트 스케일 변경
test_scaled = (test_input - mean) / std

In [None]:
kn.score(test_scaled, test_target)

In [None]:
print(kn.predict([new]))

In [None]:
# kneighbors 함수로 이상 샘플의 k-최근접 이웃 구하고 산점도 시각화
distances, indexes = kn.kneighbors([new])
plt.scatter(train_scaled[:,0], train_scaled[:,1])
plt.scatter(new[0], new[1], marker='^')
plt.scatter(train_scaled[indexes,0], train_scaled[indexes,1], marker='D')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()