<a href="https://colab.research.google.com/github/seohyeon-jeong/basic_machinelearning/blob/main/SMD_BreamAndSmelt_Classfication.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 다중 분류multi-class classfication with K-NN Classifier
: 타깃 데이터에 2개 이상의 클래스가 포함된 문제 

- 이진 분류처럼 양성 클래스와 음성 클래스를 각각 1과 0으로 지정한 것처럼 타깃값을 숫자로 바꾸어 입력할 수 있지만, 사이킷런에서는 문자열로 된 타깃값을 그대로 사용할 수 있다

- KNeighborsClassifier에서 정렬된 타깃값은 classes_속성에 알파벳순으로 들어있음

- predict_proba() 메서드로 클래스별 확률값을 반환한다



In [1]:
import pandas as pd
fish = pd.read_csv('https://bit.ly/fish_csv_data')
fish.head()

Unnamed: 0,Species,Weight,Length,Diagonal,Height,Width
0,Bream,242.0,25.4,30.0,11.52,4.02
1,Bream,290.0,26.3,31.2,12.48,4.3056
2,Bream,340.0,26.5,31.1,12.3778,4.6961
3,Bream,363.0,29.0,33.5,12.73,4.4555
4,Bream,430.0,29.0,34.0,12.444,5.134


In [2]:
# 특정열에서 고유한 값을 추출
print(pd.unique(fish['Species']))

['Bream' 'Roach' 'Whitefish' 'Parkki' 'Perch' 'Pike' 'Smelt']


In [3]:
# Species를 분류하는 문제 -> Species = target data, 나머지 열들 = input data

# 입력데이터가 될 DataFrame의 열들을 선정해서 넘파이 배열로 바꾸어 저장
fish_input = fish[['Weight', 'Length', 'Diagonal', 'Height', 'Width']].to_numpy()
print(fish_input[:5])

[[242.      25.4     30.      11.52     4.02  ]
 [290.      26.3     31.2     12.48     4.3056]
 [340.      26.5     31.1     12.3778   4.6961]
 [363.      29.      33.5     12.73     4.4555]
 [430.      29.      34.      12.444    5.134 ]]


In [4]:
# 타깃데이터를 넘파이 배열로 저장
fish_target = fish['Species'].to_numpy()

In [5]:
from sklearn.model_selection import train_test_split
# 훈련 셋과 테스트 셋을 랜덤하게 섞어서 테스트셋이 25%가 되게 분할
train_input, test_input, train_target, test_target = train_test_split(fish_input, fish_target, random_state=42)

In [6]:
from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
ss.fit(train_input)
train_scaled = ss.transform(train_input)
test_scaled = ss.transform(test_input)

In [7]:
# K-최근접 이웃 분류기의 확률 예측
from sklearn.neighbors import KNeighborsClassifier
kn = KNeighborsClassifier(n_neighbors=3)
kn.fit(train_scaled, train_target)
print(kn.score(train_scaled, train_target))
print(kn.score(test_scaled, test_target))

0.8907563025210085
0.85


In [8]:
# 정렬된 타깃값 출력
print(kn.classes_) # 디폴트 : 알파벳순

['Bream' 'Parkki' 'Perch' 'Pike' 'Roach' 'Smelt' 'Whitefish']


In [10]:
print(kn.predict(test_scaled[:5]))

['Perch' 'Smelt' 'Pike' 'Perch' 'Perch']


In [11]:
import numpy as np
proba = kn.predict_proba(test_scaled[:5])
print(np.round(proba, decimals=4)) # 소수점 넷째 자리까지 표기 (다섯째 자리에서 반올림) : 디폴트는 소수점 첫번째 자리에서 반올림

[[0.     0.     1.     0.     0.     0.     0.    ]
 [0.     0.     0.     0.     0.     1.     0.    ]
 [0.     0.     0.     1.     0.     0.     0.    ]
 [0.     0.     0.6667 0.     0.3333 0.     0.    ]
 [0.     0.     0.6667 0.     0.3333 0.     0.    ]]


In [12]:
# 네번째 샘플의 최근접 이웃의 클래스 확인
distance, indexes = kn.kneighbors(test_scaled[3:4])
print(train_target[indexes])
# 결과) Roach일 확률이 1/3, Perch일 확률이 2/3 

# 하지만, 최근접이웃은 k개의 개수에 따라서 나올 확률이 0/k, 1/k, 2/k, ...,  k/k로 정해지니 정확한 확률이라고 하긴 좀 어색하다.

[['Roach' 'Perch' 'Perch']]


### 로지스틱 회귀 Logisitic Regression

