### 분류 (Classifier)
- 대표적인 지도학습 방법 중 하나이며, 다양한 문제와 정답을 학습한 뒤 별도의 테스트에서 정답을 예측한다.
- 주어진 문제와 정답을 먼저 학습한 뒤 새로운 문제에 대한 정답을 예측하는 방식이다.
- 이진 분류 (Binary Classification)의 경우 정답은 0(음성, Negative)과 1(양성, Positive)과 같이 True, False값을 가진다.
- 다중 분류 (Muticlass Classification)는 정답이 가질 수 있는 값은 3개 이상이다(예: 0, 1, 2, 3).

#### 피처 (Feature) : 독립변수
- 데이터 세트의 일반 컬럼이며, 2차원 이상의 다차원 데이터까지 통들어 피처라고 한다.
- 타겟을 제외한 나머지 속성을 의미한다.
  ※ 컬럼은 전체를 의미, 타겟을 제외한 하나는 피처라고 부름

#### 레이블 (Label), 클래스(Class), 타겟(Target), 결정(Decision) : 종속변수
- 지도 학습 시, 데이터의 학습을 위해 주어지는 정답을 의미한다.
- 지도 학습 중, 분류의 경우 이를 레이블 또는 클레스라고도 부른다.

<img src="./images/feature_target.png" width="600ox" style="margin-left: 10px">

### 분류 예측 프로세스
<img src="./images/classifier_flow.png">

데이터셋 >  데이터 탐색 > 데이터 세트 분리(x>문제, y>정답/학습,테스트) > 모델 학습(학습끼리)

In [1]:
import sklearn
print(sklearn.__version__)

1.2.2


In [2]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris.keys()

keys = pd.DataFrame(iris.keys()).rename(columns={0: 'key'}).T
display(keys)

iris_feature = iris.data
iris_target = iris.target

iris_df = pd.DataFrame(data=iris_feature, columns=iris.feature_names)
iris_df['target'] = iris_target
display(iris_df)

Unnamed: 0,0,1,2,3,4,5,6,7
key,data,target,frame,target_names,DESCR,feature_names,filename,data_module


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


#### 데이터 세트 분리
**tran_test_split(feature, target, test_size, random_state)**

- 학습 데이터 세트와 테스트 데이터 세트를 분리해 준다.
- feature : 전체 데이터 세트 중 feature
- target : 전체 데이터 세트 중 target
- test_size : 테스트 세트의 비율(0 ~ 1) 
- random_state : 매번 동일한 결과를 원할 때, 원하는 seed(기준점)를 작성한다.

In [3]:
import numpy as np
# 학습 데이터 세트와 테스트 데이터 세트를 분리해 주는 라이브러리
from sklearn.model_selection import train_test_split

feature = iris_df.iloc[:, :-1]
target = iris_df.iloc[:, -1]

X_train, X_test, y_train, y_test = train_test_split(feature, target, test_size=0.2, random_state=124)

#### 모델 학습
**fit(train_feature, train_target)**
- 모델을 학습시킬 때 사용한다.
- train_feature: 훈련 데이터 세트 중 feature
- train_target: 훈련 데이터 세트 중 target

In [4]:
X_train

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
131,7.9,3.8,6.4,2.0
143,6.8,3.2,5.9,2.3
75,6.6,3.0,4.4,1.4
14,5.8,4.0,1.2,0.2
29,4.7,3.2,1.6,0.2
...,...,...,...,...
20,5.4,3.4,1.7,0.2
116,6.5,3.0,5.5,1.8
64,5.6,2.9,3.6,1.3
135,7.7,3.0,6.1,2.3


In [5]:
X_train.values

array([[7.9, 3.8, 6.4, 2. ],
       [6.8, 3.2, 5.9, 2.3],
       [6.6, 3. , 4.4, 1.4],
       [5.8, 4. , 1.2, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [6.9, 3.1, 5.1, 2.3],
       [4.9, 2.5, 4.5, 1.7],
       [5.2, 4.1, 1.5, 0.1],
       [5.8, 2.8, 5.1, 2.4],
       [6.9, 3.1, 5.4, 2.1],
       [5.1, 3.5, 1.4, 0.2],
       [5.1, 2.5, 3. , 1.1],
       [6.1, 2.8, 4. , 1.3],
       [5.4, 3.7, 1.5, 0.2],
       [7.7, 3.8, 6.7, 2.2],
       [6.3, 2.5, 5. , 1.9],
       [6.2, 2.2, 4.5, 1.5],
       [4.3, 3. , 1.1, 0.1],
       [7.7, 2.6, 6.9, 2.3],
       [6.1, 3. , 4.9, 1.8],
       [6.3, 2.8, 5.1, 1.5],
       [4.8, 3.4, 1.9, 0.2],
       [5.6, 3. , 4.1, 1.3],
       [6.2, 2.8, 4.8, 1.8],
       [5. , 3.4, 1.6, 0.4],
       [6.7, 3. , 5.2, 2.3],
       [6.4, 3.2, 4.5, 1.5],
       [7. , 3.2, 4.7, 1.4],
       [5. , 3.2, 1.2, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [5.8, 2.6, 4. , 1.2],
       [6.9, 3.2, 5.7, 2.3],
       [6.1, 3. , 4.6, 1.4],
       [4.6, 3.4, 1.4, 0.3],
       [6.5, 3

### 예측

In [6]:
from sklearn.tree import DecisionTreeClassifier

dtc = DecisionTreeClassifier()
dtc.fit(X_train, y_train)
# values 값들만 가져옴, 훈련 및 예측 환경이 정확하게 똑같아야함

In [7]:
dtc.predict([[3.4, 6.3, 1.2, 3.2]])[0]



2

In [8]:
from sklearn.tree import DecisionTreeClassifier

dtc = DecisionTreeClassifier()
# 훈련 시, feature(문제)에 feature_names가 있고 없고에 따라
# predict에 전달할 feature(문제)의 방향성이 달라진다.
dtc.fit(X_train.values, y_train)

In [9]:
dtc.predict(X_test.values)

array([1, 0, 1, 2, 2, 2, 1, 0, 2, 1, 2, 2, 1, 2, 2, 0, 1, 2, 1, 2, 0, 0,
       0, 0, 0, 2, 2, 1, 0, 2])

#### 평가
**accuracy_score(y_test, predict(X_test))**
- 모델이 얼마나 잘 예측했는지를 "정확도"라는 평가 지표로 평가할 때 사용한다.
- y_test: 실제 정답
- predict(X_test): 예측한 정답

In [10]:
# 평가
from sklearn.metrics import accuracy_score

accuracy_score(y_test, dtc.predict(X_test.values))

0.9

In [11]:
dtc.predict([[3.4, 6.3, 1.2, 3.2]])[0]

0