# Chapter 04 다양한 분류 알고리즘

## 04-1 로지스틱 회귀

### 럭키백의 확률

럭키백에 들어갈 수 있는 생선은 7개이다.

생선의 크기, 무게 등이 주어졌을 때 7개 생선에 대한 확률을 출력해야 한다.

이번에는 길이, 높이, 두께 외에도 대각선 길이와 무게도 사용한다.

확률은 숫자이다. -> 회귀 문제인가? 분류인가?

k-최근접 이웃 분류기도 확률을 계산하여 제공한다. KNN을 사용해 확률을 계산해보자.

#### 데이터 준비하기

In [1]:
import pandas as pd
fish = pd.read_csv('https://bit.ly/fish_csv')
fish.head()

Unnamed: 0,Species,Weight,Length,Diagonal,Height,Width
0,Bream,242.0,25.4,30.0,11.52,4.02
1,Bream,290.0,26.3,31.2,12.48,4.3056
2,Bream,340.0,26.5,31.1,12.3778,4.6961
3,Bream,363.0,29.0,33.5,12.73,4.4555
4,Bream,430.0,29.0,34.0,12.444,5.134


In [2]:
## 어떤 종류의 생선이 있는지 Species 열에서 고유한 값을 추출

print(pd.unique(fish['Species']))

['Bream' 'Roach' 'Whitefish' 'Parkki' 'Perch' 'Pike' 'Smelt']


Species 열 -> 타깃 데이터

나머지 열 -> 입력 데이터

In [10]:
## 데이터프레임에서 여러 열을 선택하면 새로운 데이터프레임으로 반환
## to_numpy()로 넘파이 배열로 바꾸었다.

fish_input = fish[['Weight', 'Length', 'Diagonal', 'Height', 'Width']].to_numpy()

In [8]:
print(fish_input[:5])

[[242.      25.4     30.      11.52     4.02  ]
 [290.      26.3     31.2     12.48     4.3056]
 [340.      26.5     31.1     12.3778   4.6961]
 [363.      29.      33.5     12.73     4.4555]
 [430.      29.      34.      12.444    5.134 ]]


In [11]:
## 동일한 방식으로 타깃 데이터 생성

fish_target = fish['Species'].to_numpy()

In [12]:
from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(
    fish_input, fish_target, random_state=42)

In [13]:
## 훈련 세트와 테스트 세트 표준화 전처리
## 훈련 세트의 통계 값으로 테스트 세트를 변환해야 한다.

from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
ss.fit(train_input)
train_scaled = ss.transform(train_input)
test_scaled = ss.transform(test_input)

#### k-최근접 이웃 분류기의 확률 예측

In [16]:
from sklearn.neighbors import KNeighborsClassifier
kn = KNeighborsClassifier(n_neighbors=3) ## 최근접 이웃의 개숫 k를 3으로 지정
kn.fit(train_scaled, train_target)
print(kn.score(train_scaled, train_target))
print(kn.score(test_scaled, test_target))

0.8907563025210085
0.85


클래스 확률을 배우는 것이 목적이므로 점수는 신경쓰지 말자.

앞서 fish 데이터프레임에 7개의 생선이 있었다.

다킷 데이터를 만들 때 Species 열을 사용했으므로, 훈련 세트와 테스트 세트의 타깃 데이터에도 7개의 생선 종류가 들어있다.

이렇게 타깃 데이터에 2개 이상의 클래스가 포함된 문제를 **다중 분류**라고 한다.

In [17]:
## KNeighborsClassifier에 정렬된 타깃값을 classes_ 속서에서 확인

print(kn.classes_)

['Bream' 'Parkki' 'Perch' 'Pike' 'Roach' 'Smelt' 'Whitefish']


In [18]:
## predict() 는 타깃값으로 예측을 출력
## 테스트 세트에 있는 처음 5개의 샘플의 타깃값을 예측해보자

print(kn.predict(test_scaled[:5]))

['Perch' 'Smelt' 'Pike' 'Perch' 'Perch']
