In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
fish_all = pd.read_csv("Fish.csv")
fish_all

Unnamed: 0,Species,Weight,Length,Height,Width
0,Bream,242.0,25.4,11.5200,4.0200
1,Bream,290.0,26.3,12.4800,4.3056
2,Bream,340.0,26.5,12.3778,4.6961
3,Bream,363.0,29.0,12.7300,4.4555
4,Bream,430.0,29.0,12.4440,5.1340
...,...,...,...,...,...
154,Smelt,12.2,12.2,2.0904,1.3936
155,Smelt,13.4,12.4,2.4300,1.2690
156,Smelt,12.2,13.0,2.2770,1.2558
157,Smelt,19.7,14.3,2.8728,2.0672


In [3]:
print(pd.unique(fish_all['Species']))

['Bream' 'Roach' 'Whitefish' 'Parkki' 'Perch' 'Pike' 'Smelt']


In [4]:
fish_input = fish_all.drop(['Species'], axis = 1)

fish_input = fish_input.to_numpy()
fish_input[:5]

array([[242.    ,  25.4   ,  11.52  ,   4.02  ],
       [290.    ,  26.3   ,  12.48  ,   4.3056],
       [340.    ,  26.5   ,  12.3778,   4.6961],
       [363.    ,  29.    ,  12.73  ,   4.4555],
       [430.    ,  29.    ,  12.444 ,   5.134 ]])

In [5]:
fish_target = fish_all['Species']

fish_target = fish_target.to_numpy()
fish_target[:5]

array(['Bream', 'Bream', 'Bream', 'Bream', 'Bream'], dtype=object)

In [6]:
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(fish_input, fish_target, stratify = fish_target, random_state = 42)

print(train_input.shape, train_target.shape)
print(test_input.shape, test_target.shape)

(119, 4) (119,)
(40, 4) (40,)


In [11]:
from sklearn.preprocessing import StandardScaler

scaler_std = StandardScaler()
scaler_std.fit(train_input)

train_scaled = scaler_std.transform(train_input)
test_scaled = scaler_std.transform(test_input)

print(train_scaled[:5])
print(test_scaled[:5])

[[-0.75628803 -0.66065677 -0.78015159 -0.45043644]
 [-0.45991057 -0.1248453  -0.4293487   0.03516919]
 [ 0.07356886  0.0212851   0.79541208  0.37481797]
 [ 1.54063728  1.0441979   2.29283234  1.34130358]
 [-0.87483902 -0.75807703 -0.80672937 -0.5697143 ]]
[[-0.84520127 -0.75807703 -0.70656438 -0.72566082]
 [-0.81556352 -0.72885095 -0.64263534 -0.58227616]
 [-0.96375225 -0.95291757 -0.82018436 -0.8716775 ]
 [-0.84520127 -0.95291757 -0.16608636 -0.95069758]
 [-0.93411451 -1.07956391 -0.40030299 -1.09731243]]


In [12]:
from sklearn.neighbors import KNeighborsClassifier

model_knc = KNeighborsClassifier(n_neighbors = 7)
model_knc.fit(train_scaled, train_target)

KNeighborsClassifier(n_neighbors=7)

In [17]:
fish_prediction = model_knc.predict(test_scaled[[25]])
print(fish_prediction)

['Perch']


In [18]:
indexes = model_knc.kneighbors(test_scaled[[25]], return_distance = False)
print(train_target[indexes])

[['Perch' 'Whitefish' 'Perch' 'Perch' 'Perch' 'Perch' 'Perch']]


In [20]:
print(model_knc.classes_)

fish_proba = model_knc.predict_proba(test_scaled[[25]])
print(np.round(fish_proba, decimals=2))

['Bream' 'Parkki' 'Perch' 'Pike' 'Roach' 'Smelt' 'Whitefish']
[[0.   0.   0.86 0.   0.   0.   0.14]]


In [25]:
index_input = int(input('번호를 입력하시오 (0~39 사이): '))
print()

fish_proba = model_knc.predict_proba([test_scaled[index_input]])

번호를 입력하시오 (0~39 사이): 26



In [26]:
print(index_input, '번째 테스트 데이터는')

if (fish_proba[0][0] != 0):
    print("도미(Bream)일 확률이 %.2f%%"%(fish_proba[0][0] * 100))
    
if (fish_proba[0][1] != 0):
    print("곤들매기(Parkki)일 확률이 %.2f%%"%(fish_proba[0][1] * 100))
    
if (fish_proba[0][2] != 0):
    print("농어(Perch)일 확률이 %.2f%%"%(fish_proba[0][2] * 100))
    
if (fish_proba[0][3] != 0):
    print("강꼬치고기(Pike)일 확률이 %.2f%%"%(fish_proba[0][3] * 100))
    
if (fish_proba[0][4] != 0):
    print("로치(Roach)일 확률이 %.2f%%"%(fish_proba[0][4] * 100))

if (fish_proba[0][5] != 0):
    print("빙어(Smelt)일 확률이 %.2f%%"%(fish_proba[0][5] * 100))
    
if (fish_proba[0][6] != 0):
    print("송어(Whitefish)일 확률이 %.2f%%"%(fish_proba[0][6] * 100))
    
print("입니다.")

26 번째 테스트 데이터는
농어(Perch)일 확률이 42.86%
로치(Roach)일 확률이 28.57%
송어(Whitefish)일 확률이 28.57%
입니다.


In [27]:
print(index_input, "번째 테스트 데이터의")
print("실제 클래스는 %s 입니다."%(test_target[index_input]))

26 번째 테스트 데이터의
실제 클래스는 Whitefish 입니다.


In [38]:
print('테스트 데이터로 평가한 모델의 정확도는 %.2f입니다.'%(model_knc.score(test_scaled, test_target)))

테스트 데이터로 평가한 모델의 정확도는 0.72입니다.


In [44]:
print('모델이 잘못 분류한 데이터는')

for i in range(0, 40):
    if( (model_knc.predict([test_scaled[i]])) != test_target[i]):
        print('%2d번째'%i)
        
print('테스트 데이터 입니다')

모델이 잘못 분류한 데이터는
 0번째
 5번째
 9번째
10번째
11번째
14번째
16번째
18번째
23번째
26번째
35번째
테스트 데이터 입니다
