# 분류

분류는 지도학습의 대표적인 유형이다. 분류는 기존 데이터가 어떤 레이블에 속하는지 패턴을 알아낸 후에 새로운 데이터에 대해 레이블을 판별하는 것이다.

분류의 종류: 나이브 베이즈, 로지스틱 회귀, 결정트리, 서포트 벡터 머신, 최소 근접 알고리즘, 신경망, 앙상블

---

### 1. 결정트리

데이터에 있는 규칙을 학습을 통해 찾아내 트리 기반의 분류 규칙을 만드는 것. 알고리즘의 성능은 데이터의 어떤 기준으로 규칙을 만들지에 결정이 된다.

- 규칙 노드: 규칙 조건이 되는 노드
- 리프 노드: 클래스가 결정된 노드

결정 노드는 정보 균일도가 높은 데이터 세트를 먼저 선택할 수 있도록 규칙 조건을 만든다. 

데이터 세트를 구분할 때 정보 균일도가 높게끔 조건을 찾아 서브 데이터 세트를 만들고 서브 데이터 세트에서 균일도가 높은 자식 데이터 세트로 쪼개는 방식이다.

- 정보 이득: 1 - 엔트로피 지수(데이터 집합의 혼잡도)
- 지니 계수: 불평등 지수를 나타낼 때 사용하는 계수로 0이 가장 평등, 1이 가장 불평등

In [30]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')

dt_clf = DecisionTreeClassifier(random_state=0)  # 원하면 min_samples_leaf나 max_depth등의 조건을 추가할 수 있다.
iris_data = load_iris()  # 역시 iris 데이터가 최고다.
print(iris_data)  # iris_data 내에 data와 target이 따로있음을 알 수 있다.

{'data': array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
     

In [29]:
from sklearn.metrics import accuracy_score

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, random_state=0)  # 원하면 test_size = 를 통해 데이터의 비율을 정할 수 있다. radom_state도 설정 가능

dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
accuracy = accuracy_score(y_test, pred)
print(accuracy)

0.9736842105263158


결정트리를 통해 학습데이터를 학습하고 예측한 결과 정확도가 0.97이 나왔다.

In [31]:
### GridSearchCV를 사용한 학습과 예측

from sklearn.model_selection import GridSearchCV

params = {'max_depth' : [6,8,10,12,16,20,24]}

grid_cv = GridSearchCV(dt_clf, param_grid=params, scoring='accuracy', cv=5)  # 예측 성능을 측정할 평가 방법으로 scoring인자를 입력한다. 보통 문자열('accuracy')을 입력한다.
grid_cv.fit(X_train, y_train)
print('정확도 수치:', grid_cv.best_score_)
print('최적의 하이퍼 파라미터:', grid_cv.best_params_)

정확도 수치: 0.9640316205533598
최적의 하이퍼 파라미터: {'max_depth': 6}


GridSearchCV를 통해서 최적 하이퍼 파라미터는 6이라는 결론이 났다. 물론 정확도는 위의 0.97보다 낮아졌으나 이는 GridSearchCV의 목표에 맞게 모델이 학습데이터에 과적합되는 것을 방지해줬다는 것을 의미한다. 오히려 예측력이 높아졌다고 해석해도 무방하다.

### GridSearchCV(교차 검증)이란?
 모델이 학습데이터를 통해 학습하다 보니 학습 데이터에 과도하게 최적화되어, 실제 예측을 다른 데이터로 수행할 경우 예측 성능이 과도하게 떨어지는 것을 과적합이라고 한다. 이러한 문제를 해결해주기 위해 GridSearch(교차검증)을 사용한다.
 
  교차 검증은 데이터의 편중을 막기 위해 여러 여러 개의 학습 데이터 세트와 검증 데이터 세트로 학습과 평가를 수행한다. 각 세트에서 수행한 결과를 바탕으로 모델 최적화를 할 수 있다.
  
- K폴드 교차 검증: K개의 데이터 폴드 세트를 만들어서 학습과 평가를 K번 수행하는 방법이다.
- Stratified K폴드: 데이터가 불균형한 분포도를 가지고 있을 때 사용하는 K폴드 방식.

GridSearchCV의 가장 큰 특징은 인자 중에서 하이퍼 파라미터 그리드(param_grid)에 입력된 모든 파라미터를 순차적으로 적용해 최적의 파라미터를 찾게 해주는 것이다.