### 시나리오
* 수산물 시장에서 알바를 하기로 결심
* 물고기의 기본 무게와 길이를 제어주는 기계는 존재한다.
* 물고기의 특징을 보고 물고기의 종류를 구분해야 한다
* 귀차니즘이 발동한 나는 자동으로 물고기를 구분해 주는 프로그램을 구현하기로 했다

### 물고기 종류 분류하기
* 컬럼
    - Species : 물고기 이름
    - weight : 두께
    - length : 길이
    - Diagonal : 대각선 길이
    - Height : 세로 길이
    - Width : 가로 길이

### 데이터 셋 로드

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

df = pd.read_csv('data/fish.csv')
df.head()

Unnamed: 0,Species,Weight,Length,Diagonal,Height,Width
0,Bream,242.0,25.4,30.0,11.52,4.02
1,Bream,290.0,26.3,31.2,12.48,4.3056
2,Bream,340.0,26.5,31.1,12.3778,4.6961
3,Bream,363.0,29.0,33.5,12.73,4.4555
4,Bream,430.0,29.0,34.0,12.444,5.134


In [2]:
df['Species'].unique()

array(['Bream', 'Roach', 'Whitefish', 'Parkki', 'Perch', 'Pike', 'Smelt'],
      dtype=object)

### 데이터 분리
* feature 와 label 나누기

In [3]:
df.columns

Index(['Species', 'Weight', 'Length', 'Diagonal', 'Height', 'Width'], dtype='object')

In [4]:
features = ['Weight', 'Length', 'Diagonal', 'Height', 'Width']
label = 'Species'

X, y = df[features], df[label]

print(X)
y

     Weight  Length  Diagonal   Height   Width
0     242.0    25.4      30.0  11.5200  4.0200
1     290.0    26.3      31.2  12.4800  4.3056
2     340.0    26.5      31.1  12.3778  4.6961
3     363.0    29.0      33.5  12.7300  4.4555
4     430.0    29.0      34.0  12.4440  5.1340
..      ...     ...       ...      ...     ...
154    12.2    12.2      13.4   2.0904  1.3936
155    13.4    12.4      13.5   2.4300  1.2690
156    12.2    13.0      13.8   2.2770  1.2558
157    19.7    14.3      15.2   2.8728  2.0672
158    19.9    15.0      16.2   2.9322  1.8792

[159 rows x 5 columns]


0      Bream
1      Bream
2      Bream
3      Bream
4      Bream
       ...  
154    Smelt
155    Smelt
156    Smelt
157    Smelt
158    Smelt
Name: Species, Length: 159, dtype: object

### train_test_split
* 데이터를 알고리즘에 사용하고자 하는경우 속성(feature)과 정답(label) 구분을 해야 한다.
* 알고리즘에 학습하기 위해 test data 와 train data를 구분하여 사용한다.
    - 70% train(학습)데이터, 30% test 데이터(실제 데이터로 가정하여 확인)
    - 20% test 데이터 , 80% -> 20%(validation)검증, 80% 학습데이터

In [5]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = \
                    train_test_split(X, y, test_size =0.3)

In [6]:
print('총 개수 : ', X.shape, y.shape)
print('train 개수 : ', X_train.shape, y_train.shape )
print('test 개수 : ', X_test.shape, y_test.shape )
# 이게문젠다?
y_train

총 개수 :  (159, 5) (159,)
train 개수 :  (111, 5) (111,)
test 개수 :  (48, 5) (48,)


76      Perch
6       Bream
149     Smelt
122     Perch
67     Parkki
        ...  
77      Perch
34      Bream
93      Perch
148     Smelt
69     Parkki
Name: Species, Length: 111, dtype: object

### 모델 생성 및 학습, 평가

#### Kneighbors(K-최근접 이웃 알고리즘)
* 주위의 가장 가까운 다른 데이터를 보고 현재 데이터를 판단
* 기본 비교 개수는 5개로 되어 있다
* 비교 개수를 변경하고자 할 경우 n_neighbors에 값 지정

!['img'](image/kneighbors.png)

In [7]:
from sklearn.neighbors import KNeighborsClassifier

#모델 생성
kn = KNeighborsClassifier()

#학습
kn.fit(X_train , y_train)

#평가(정확도) : 정확도는 맞춘 개수
kn.score(X_test, y_test)

0.4791666666666667

#### SVM(Support Vector Machine)
* 특정 데이터들을 구분하는 선을 찾고, 이를 기반으로 패턴을 인식하는 방법
* kernel : linear, rbf
* linear : 선형으로 데이터들을 구분지을 수 있는 경우
* rbf : 선형으로 데이터를 구분지을 수 없는 경우

!['img'](image/svm.png)

In [20]:
import sklearn.svm as svm
svm_linear = svm.SVC(kernel = 'linear')
svm_linear.fit(X_train, y_train)
svm_linear.score(X_test, y_test)

0.8541666666666666

##### rbf(비선형)

In [23]:
svm_rbf = svm.SVC(kernel = 'rbf')
svm_rbf.fit(X_train, y_train)
svm_rbf.score(X_test, y_test)

0.5

### DecisionTree
* 특정 조건에 따라 가지치기 과정을 반복하면서 모델을 생성한다

![image.png](image/tree.png)

In [10]:
from sklearn.tree import DecisionTreeClassifier

# 모델 생성
dt_clf = DecisionTreeClassifier()

# 학습
dt_clf.fit( X_train, y_train )

# 평가
dt_clf.score( X_test, y_test )

0.5833333333333334

### Ensemble(앙상블)
* 여러 개의 분류기(알고리즘)를 생성하고 그 예측을 결합함으로써 보다 정확한 분류기 생성
* 앙상블의 대표 알고리즘은 랜덤포레스트와 그래디언트부스팅이 있다
>
* 앙상블 학습의 유형
    - 보팅(Voting) : 서로 다른 알고리즘을 가진 분류기를 결합하여 사용
    - 배깅(Bagging) : 모두 같은 유형의 알고리즘을 가진 분류기를 결합하여 사용
        * 대표적 알고리즘인 랜덤포레스트가 있다
    - 부스팅(Boosting) : 오류를 개선해 나가면서 학습하는 방식(다른 알고리즘에 비해 시간이 더 걸림)

#### Voting(보팅)
* 하드보팅(Hard Voting) : 다수의 결정에 의해 결과값이 선정된다
* 소프트보팅(Soft Voting) : 결정된 값들의 평균을 구하고 가장 높은 값을 선정
* 일반적으로 하드보팅보다 소프트 보팅이 성능이 좋아 소프트 보팅을 많이 사용한다

![image.png](image/보팅.png)

* probability
- 확률값으로 결과를 볼것인지. 기본 False설정되어 있다.
 - 보팅 시 hard 보팅할 경우 결과값을 가지고 다수결을 하기 때문에 probability를 설정할 필요는 없다
 - soft로 보팅할 경우 확률값을 가지고 계산하기 때문에 probabilty를 true로 설정해야 한다.

In [11]:
svm_rbf = svm.SVC(kernel = 'rbf', probability=True)
svm_rbf.fit( X_train, y_train )
kn = KNeighborsClassifier()
kn.fit( X_train, y_train)

dt_clf = DecisionTreeClassifier()
dt_clf.fit( X_train, y_train )

DecisionTreeClassifier()

In [12]:
from sklearn.ensemble import VotingClassifier
vo = VotingClassifier(estimators=[('svc',svm_rbf),('knn',kn),('DecisionTree',dt_clf)], voting='soft')

vo.fit( X_train, y_train )
print('svm : ', svm_rbf.score(X_test, y_test) )
print('knn : ', kn.score(X_test, y_test) )
print('dt_clf : ', dt_clf.score(X_test, y_test) )
print('vo : ', vo.score(X_test, y_test ))


svm :  0.5
knn :  0.4791666666666667
dt_clf :  0.6041666666666666
vo :  0.625


#### RandomForest(랜덤포레스트)
* decision tree 알고리즘을 여러 개의 분류기로 만들어서 보팅(소프트보팅)으로 최종 결정한다

![image.png](image/bagging.png)

In [13]:
from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)
rfc.score( X_test, y_test)

0.6041666666666666

#### 부스팅(Boosting)
* GBM(Gradient Boosting Machine)
    - decision tree를 묶어 강력한 model을 만드는 ensemble기법입니다.
    - 순차적으로 학습-예측하면서 잘못 예측한 데이터의 오류를 개선해 나가면서 학습하는 방법
    - 다른 알고리즘에 비해 처리속도가 느림

![image.png](image/GBM.png)

In [14]:
from sklearn.ensemble import GradientBoostingClassifier

gbc = GradientBoostingClassifier()
gbc.fit(X_train, y_train)
gbc.score(X_train, y_train)

1.0

### 예측
* 특정 물고기를 잡았을 경우 위의 결과 최적의 모델을 이용하여 물고기를 예측한다
* predict : 속성(feature)을 넣으면 결과를 얻을 수 있다

In [15]:
df.head(3)

Unnamed: 0,Species,Weight,Length,Diagonal,Height,Width
0,Bream,242.0,25.4,30.0,11.52,4.02
1,Bream,290.0,26.3,31.2,12.48,4.3056
2,Bream,340.0,26.5,31.1,12.3778,4.6961


In [16]:
svm_linear.predict([[242.0,25.4,30.0,11.5200,4.0200]])

array(['Parkki'], dtype=object)