### 분류(Classifier)
- 대표적인 지도학습 방법 중 하나이며, 다양한 문제와 정답을 학습한 뒤 별도의 테스트에서 정답을 예측한다.
- 주어진 문제를 먼저 학습한 뒤 새로운 문제에 대한 정답을 예측하는 방식이다.
- 이진 분류 (Binary Classification)의 경우 정답은 0(음성, Negative), 1(양성, Positive)과 같이 True, False값을 가진다.
- 다중 분류 (Multiclass Classification)는 정답이 가질 수 있는 값은 3개 이상이다. (ex)0,1,2,3)

#### 피쳐(Featuer)
- 데이터 세트의 일반 컬럼이며, 2차원 이상의 다차원 데이터까지 통틀어 피처라고 한다.
- 타겟을 제외한 나머지 속성을 의미한다.
  
#### 레이블(Label), 클래스(Class), 타겟(Target), 결정(Decision)
- 지도 학습 시, 데이터의 학습을 위해 주어지는 정답을 의미한다.
- 지도 학습 중, 분류의 경우 이를 레이블 또는 클래스라고도 부른다.

<img src="./images/image01.png" width="600px" style= "margin-left:10px">

#### 분류 예측 프로세스

<img src="./images/image02.png" width="600px" style= "margin-left:10px">

In [1]:
import sklearn
print(sklearn.__version__)

1.2.2


In [2]:
import pandas as pd
from sklearn.datasets import load_iris


iris = load_iris()
kesys = pd.DataFrame(iris.keys()).rename(columns={0:'key'}).T

iris_feature = iris.data
iris_target = iris.target
iris_df = pd.DataFrame(data=iris_feature,columns=iris.feature_names)
iris_df['target'] = iris_target
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


#### 데이터 세트 분리
**train_test_split(feature, target, test_size, random_state)**

- 학습 데이터 세트와 테스트 데이터 세트를 분리해준다.
- feature : 전체 데이터 세트 중 feature
- target : 전체 데이터 세트 중 target
- test_size : 테스트 세트의 비율(0 ~ 1)
- random_state : 매번 동일한 결과를 원할 때, 원하는 seed(기준점)를 작성한다.

In [3]:
import numpy as np
# 학습 데이터  세트와 데이터 세트를 분리해주는 라이브러리
from sklearn.model_selection import train_test_split

feature = iris_df.iloc[:, :-1]
target = iris_df.iloc[:,-1]
feature

x_train, x_text, y_train, y_test = train_test_split(feature, target, test_size = 0.2, random_state=124)


#### 모델 학습

**fit(train_feature, train_target)**
- 모델을 학습시킬 때 사용한다.
- train_teature : 훈련 데이터 세트 중 feature
- train_target : 훈련 데이터 세트 중 target

In [4]:
from sklearn.tree import DecisionTreeClassifier

dtc = DecisionTreeClassifier()
# 훈련 시, feature(문제)에 feature_names가 있고 없고에 따라
# predict에 전달할 feature(문제)의 방향성이 달라진다.
dtc.fit(x_train.values, y_train.values)

In [5]:
dtc.predict(x_text.values)

array([1, 0, 1, 2, 2, 2, 1, 0, 2, 1, 2, 2, 1, 2, 2, 0, 1, 2, 1, 2, 0, 0,
       0, 0, 0, 2, 2, 1, 0, 2])

#### 평가
**accuracy_score(y_test, predict(x_test))**
- 모델이 얼마나 잘 예측했는 지를 정확도라는 평가 지표로 평가할 때 사용한다.
- y_test : 실제 정답
- predict(x_test) : 예측한 정답

In [6]:
from sklearn.metrics import accuracy_score

accuracy_score(y_test.values, dtc.predict(x_text.values))

0.9