### 시나리오
* 수산물 시장에서 알바를 하기로 결심
* 물고기의 기본 무게와 길이를 제어주는 기계는 존재
* 물고기의 특징을 보고 물고기의 종류를 구분
* 귀차니즘이 발동한 나는 자동으로 물고기를 구분해 주는 프로그램을 구현

### 물고기 종류 분류하기
* 컬럼
    - Species : 물고기 이름
    - weight : 두께
    - length : 길이
    - Diagonal : 대각선 길이
    - Height : 세로 길이
    - Width : 가로 길이

### 데이터 가져오기

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

In [2]:
df = pd.read_csv("data/fish.csv")
df.head()

Unnamed: 0,Species,Weight,Length,Diagonal,Height,Width
0,Bream,242.0,25.4,30.0,11.52,4.02
1,Bream,290.0,26.3,31.2,12.48,4.3056
2,Bream,340.0,26.5,31.1,12.3778,4.6961
3,Bream,363.0,29.0,33.5,12.73,4.4555
4,Bream,430.0,29.0,34.0,12.444,5.134


- 이름 확인

In [3]:
df['Species'].unique()

array(['Bream', 'Roach', 'Whitefish', 'Parkki', 'Perch', 'Pike', 'Smelt'],
      dtype=object)

In [4]:
df.columns

Index(['Species', 'Weight', 'Length', 'Diagonal', 'Height', 'Width'], dtype='object')

In [5]:
features = ['Weight', 'Length', 'Diagonal', 'Height', 'Width']
label = 'Species'

X, y = df[features], df[label]
X, y

(     Weight  Length  Diagonal   Height   Width
 0     242.0    25.4      30.0  11.5200  4.0200
 1     290.0    26.3      31.2  12.4800  4.3056
 2     340.0    26.5      31.1  12.3778  4.6961
 3     363.0    29.0      33.5  12.7300  4.4555
 4     430.0    29.0      34.0  12.4440  5.1340
 ..      ...     ...       ...      ...     ...
 154    12.2    12.2      13.4   2.0904  1.3936
 155    13.4    12.4      13.5   2.4300  1.2690
 156    12.2    13.0      13.8   2.2770  1.2558
 157    19.7    14.3      15.2   2.8728  2.0672
 158    19.9    15.0      16.2   2.9322  1.8792
 
 [159 rows x 5 columns],
 0      Bream
 1      Bream
 2      Bream
 3      Bream
 4      Bream
        ...  
 154    Smelt
 155    Smelt
 156    Smelt
 157    Smelt
 158    Smelt
 Name: Species, Length: 159, dtype: object)

### train_test_split
- test 데이터 : 30%
- train 데이터 : 70%

In [6]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

In [7]:
print("총 개수 : ", X.shape, y.shape)
print("학습용(train) : ", X_train.shape, y_train.shape)
print("확인용(test) : ", X_test.shape, y_test.shape)

총 개수 :  (159, 5) (159,)
학습용(train) :  (111, 5) (111,)
확인용(test) :  (48, 5) (48,)


### 모델 생성 및 학습, 평가
- Kneighbors(k-최근접 이웃 알고리즘)
    - 주위의 가장 가까운 다른 데이터를 보고 현재 데이터를 판단

![image.png](image/kneighbors.png)

In [10]:
from sklearn.neighbors import KNeighborsClassifier
#모델 생성
kn = KNeighborsClassifier()

#학습, 속성과 정답
kn.fit(X_train, y_train)

In [11]:
#예측 정답을 알려줌. 확인용 속성을 넣어줌(30%)
pred = kn.predict(X_test)

pred

array(['Bream', 'Perch', 'Smelt', 'Perch', 'Pike', 'Perch', 'Bream',
       'Perch', 'Bream', 'Bream', 'Bream', 'Perch', 'Perch', 'Perch',
       'Roach', 'Perch', 'Perch', 'Bream', 'Perch', 'Bream', 'Bream',
       'Roach', 'Perch', 'Bream', 'Perch', 'Smelt', 'Perch', 'Perch',
       'Smelt', 'Roach', 'Bream', 'Bream', 'Perch', 'Perch', 'Parkki',
       'Perch', 'Bream', 'Perch', 'Bream', 'Perch', 'Perch', 'Perch',
       'Parkki', 'Perch', 'Bream', 'Bream', 'Perch', 'Bream'],
      dtype=object)

In [12]:
from sklearn.metrics import accuracy_score

#실제 정답과 예측 정답을 넣어주면 정확도를 알려줌
accuracy_score(y_test, pred)

0.4791666666666667

In [13]:
kn.score(X_test, y_test)

0.4791666666666667

### svm(Support Vector Machine)
* 특정 데이터들을 구분하는 선을 찾고, 이를 기반으로 패턴을 인식
* kernel : linear(선형), rbf(비선형)

![image](image/svm.png)

#### linear (선형 모델)

In [14]:
import sklearn.svm as svm
svm_linear = svm.SVC(kernel='linear')
svm_linear.fit(X_train, y_train)
svm_linear.score(X_test, y_test)

0.9583333333333334

#### rbf(비선형 모델)

In [15]:
svm_rbf = svm.SVC(kernel='rbf')
svm_rbf.fit(X_train, y_train)
svm_rbf.score(X_test, y_test)

0.5

#### Decision Tree
- 특정 조건에 따라 가지치기 과정을 반복하면서 모델을 생성

![img](image/tree.png)

In [16]:
from sklearn.tree import DecisionTreeClassifier
dt_clf = DecisionTreeClassifier()
dt_clf.fit(X_train, y_train)
dt_clf.score(X_test, y_test)

0.6875

#### Ensemble (앙상블)
* 여러 개의 분류기(알고리즘)을 생성하고 예측

##### 보팅(Voting)
* 서로 다른 알고리즘을 가진 분류기를 결합
* 하드보팅(Hard Voting) : 다수의 결정에 의해 결과값이 선정
* 소프트보팅(Soft Voting) : 결정된 값들의 평균을 구하고 가장 높은 값 선정
* 일반적으로 소프트 보팅 선호

![img](image/보팅.png)

In [22]:
# probability : 소프트 보팅 시 확률로 보겠다는 의미
# 기본 False 값이다
svm_rbf = svm.SVC(kernel='rbf', probability=True)
svm_rbf.fit(X_train, y_train)

kn = KNeighborsClassifier();
kn.fit(X_train, y_train)

dt_clf = DecisionTreeClassifier()
dt_clf.fit(X_train, y_train)

In [24]:
from sklearn.ensemble import VotingClassifier

vo = VotingClassifier(estimators=[("svc", svm_rbf), ("knn", kn), 
                                  ("DecisionTree", dt_clf)], voting="soft")

vo.fit(X_train, y_train)

print("svm : ", svm_rbf.score(X_test, y_test))
print("kn : ", kn.score(X_test, y_test))
print("dt_clf : ", dt_clf.score(X_test, y_test))
print("voting : ", vo.score(X_test, y_test))

svm :  0.5
kn :  0.4791666666666667
dt_clf :  0.75
voting :  0.7291666666666666


#### 앙상블 - 배깅(Bagging)
* 같은 알고리즘으로 하나의 알고리즘을 만드는 것
* 랜덤포레스트 : decision tree 알고리즘을 여러 개의 분류기로 만들어 소프트 보팅

![img](image/bagging.png)

In [25]:
from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)
rfc.score(X_test, y_test)

0.7916666666666666

#### 앙상블 - 부스팅(Boosting)
* GBM(Gradient Boosting Machine)
* decision tree를 묶어 만드는 앙상블 기법
* 오류를 개선하는 방식
* 다른 알고리즘에 비해 시간이 오래 걸림

![img](image/GBM.png)

In [26]:
from sklearn.ensemble import GradientBoostingClassifier
gbc = GradientBoostingClassifier()
gbc.fit(X_train, y_train)
gbc.score(X_test, y_test)

0.7083333333333334

In [27]:
df.head()

Unnamed: 0,Species,Weight,Length,Diagonal,Height,Width
0,Bream,242.0,25.4,30.0,11.52,4.02
1,Bream,290.0,26.3,31.2,12.48,4.3056
2,Bream,340.0,26.5,31.1,12.3778,4.6961
3,Bream,363.0,29.0,33.5,12.73,4.4555
4,Bream,430.0,29.0,34.0,12.444,5.134


In [28]:
data = [[242.0, 25.4, 30.0, 11.5200, 4.0200]]
rfc.predict(data)

array(['Bream'], dtype=object)

In [29]:
data = [[290.0, 26.3, 31.2, 12.4800, 4.3056]]
rfc.predict(data)

array(['Bream'], dtype=object)