# 분류

### 결정 트리(Decision Tree) 
- 학습을 통해 데이터에 있는 규칙을 자동으로 찾아내 트리 기반의 분류 규칙을 만드는 알고리즘
- ML 알고리즘 중 직관적으로 이해하기 쉬운 알고리즘으로 분류와 회귀 문제에서 가장 널리 사용
- 특정기준(질문)에 따라서 데이터를 구분
- 가장 쉬운 규칙 표현 방법 : if/else 기반 (스무고개 게임과 유사)

### 의사결정나무의 타입
- 분류 나무
    - 범주형 목표 변수를 기준으로 마디를 나눔
    - 끝마디에 포함된 자료의 범주가 분류 결과 값이 됨

- 회귀 나무
    - 연속형 목표 변수를 기준으로 마디를 나눔
    - 끝마디에 포함된 자료의 평균값이 각 끝마디의 회귀 값이 됨  

### Tree 구조
- 전체적인 모양이 나무를 뒤집어 놓은 것과 닮았다고 해서 붙여진 이름
- 결정트리에서 질문이나 네모상자를 노드(Node) 라고 함
- 맨 위의 노드(첫 질문)를 Root Node
- 각 질문에 대한 마지막 노드를 Leaf Node : 결정된 클래스 값 
- Decision Node(규칙 노드) : 규칙 조건  
- 새로운 규칙 조건마다 Sub Tree 생성 

![image.png](attachment:image.png)

### 결정트리에서 중요한 이슈
- 데이터 세트의 피처가 결합해 규칙 조건을 만들 때마다 규칙노드가 만들어짐  
- `규칙이 많아지면` 결정 방식이 복잡해지고 `과적합(overfitting)` 발생  
    - 즉, `depth가 길어질수록` 결정트리의 예측 성능이 저하될 가능성이 높음     
    
- 가능한 적은 결정노드로 높은 예측 정확도를 가지려면  
    - 데이터를 분류할 때 최대한 많은 데이터 세트가 해당 분류에 속할 수 있도록 결정 노드의 규칙이 정해져야 함  


- **`어떻게 트리를 분할할 것인가`가 중요**  
    - 최대한 균일한 데이터 세트를 구성할 수 있도록 분할하는 것이 필요    

### 가지치기 (pruning)
- 특정 노드 밑의 하부 트리를 제거하여 일반화 성능을 높이는 방법
- 깊이가 줄어들고 결과의 개수가 줄어듦
- 트리에 가지가 너무 많으면 과적합(overfitting)
- 과적합(overfitting)을 막기 위한 방법

### 결정트리의 장단점

**장점**
- 매우 쉽고 유연하게 적용될 수 있는 알고리즘
- 정보 균일도 룰을 기반으로 알고리즘이 쉽고 직관적이며 명확함
- 데이터 스케일링이나 정규화 등의 전처리 영향이 적음

**단점**
- 규칙이 많아지면 결정 방식이 복잡해지고 과적합(overfit) 발생
- 즉, depth가 길어질수록 결정트리의 예측 성능이 저하될 가능성이 높음


#### 그림23-결정트리구조

![image.png](attachment:image.png)

### 균일도(불순도 : impurity)

- 같은 것(값)끼리 섞여 있는 정도
- 한가지 종류만 있는 경우 균일도 높고
- 여러 가지가 섞여 있는 경우 균일도 낮고, 혼잡도 높음
- 규칙 조건 생성에서 중요한 것
- 정보 균일도가 높은 데이터 세트를 먼저 선택할 수 있도록 규칙 조건을 만드는 것이 중요

### 균일한 데이터 세트
- 데이터 세트의 균일도는 데이터를 구분하는 데 필요한 정보의 양에 영향을 미침

1. A : 하얀공, 검은공 유사하게 섞여 있음. 혼잡도가 높고 균일도가 낮음  
2. B : 일부 하얀공, 대부분 검은 공  
3. C : 모두 검은공. 가장 균일도 높음  

C에서 데이터를 추출했을 때 데이터에 대한 별다른 정보 없이도 '검은공'이라고 쉽게 예측 가능  
A의 경우는 상대적으로 혼잡도가 높고 균일도가 낮기 때문에   
같은 조건에서 데이터를 판단하는 데 더 많은 정보 필요

#### 그림24-균일도

![image.png](attachment:image.png)

### 엔트로피(Entropy)  

- 데이터 분포의 불순도(impurity)를 수치화한 지표
- 서로 다른 데이터가 섞여 있으면 엔트로피가 높고
- 같은 값이 섞여 있으면 엔트로피 낮음
- 엔트로피를 통해 불순도 판단
- 수치 0: 모든 값이 동일 (분류하지 않아도 됨)
- 수치 1: 불순도 최대

### 정보 이득 (Information Gain) 지수  

- 분류를 통해 정보에 대해 얻은 이득
- 1 - 엔트로피 지수
- 결정 트리는 정보 이득 지수로 분할 기준을 정함
- 즉, 정보 이득 지수가 높은 속성을 기준으로 분할

### 지니(Gini)  계수
- 불순도(impurity)를 수치화한 지표
    - 경제학에서 불평등 지수를 나타낼 때 사용하는 계수
    - 0이 가장 평등하고, 1로 갈수록 불평등
- 머신러닝에 적용될 때는 지니 계수가 낮을수록 데이터 균일도가 높은 것으로 해석
- 지니 계수가 낮은 속성을 기준으로 분할
- 지니불순도 = 1-(음성클래스비율**2 + 양성클래스비율**2)

### 결정 트리 알고리즘에서 지니 계수 이용
- 사이킷런의 **`DecisionTreeClassifier `** 클래스는 
- 기본으로 **`지니 계수를 이용`** 해서 데이터 세트 분할
- 데이터 세트를 분할하는 데 가장 좋은 조건
    - 정보 이득이 높거나 지니 계수가 낮은 조건


### 결정 트리 알고리즘에서 분류를 결정하는 과정
- 정보 이득이 높거나 지니 계수가 낮은 조건을 찾아서
- 자식 트리 노드에 걸쳐 반복적으로 분할한 뒤
- 데이터가 모두 특정 분류에 속하게 되면 분할을 멈추고 분류 결정

### 그림25-분류 결정 과정

![image.png](attachment:image.png)

## 사이킷런의 결정트리 알고리즘 클래스

- 분류모델을 위한 **`DecisionTreeClassifier`**
- 회귀모델을 위한 **`DecisionTreeRegressor`**
- 분류와 회귀모델 모두 CART(Classification And Regression Tree) 알고리즘 기반

- 결정 트리를 위한 클래스의 매개변수
    - 분류, 회귀 모두 동일하게 적용
    
    ![image.png](attachment:image.png)

붓꽃 데이터 세트에 결정 트리 적용
- DecisionTreeClassifier 이용해 학습한 뒤 
- 규칙 트리 시각화

결정 트리 하이퍼 파라미터
- 규칙 트리는 규칙 생성 로직을 미리 제어하지 않으면
- 완벽하게 클래스 값을 구별해 내기 위해 
- 트리 노드를 계속해서 만들어가기 때문에
- 매우 복잡한 규칙 트리가 만들어져
- 모델이 쉽게 과적합되는 문제 발생
- 하이퍼 파라미터를 사용하여 복잡한 트리가 생성되지 않도록 제어

결정 트리의 하이퍼 파라미터
- max_depth : 결정 트리의 최대 트리 깊이 제어
- min_samples_split : 자식 규칙 노드를 분할해서 만드는데 필요한 최소 샘플 데이터 개수
    - min_samples_split=4로 설정하는 경우 
    - 최소 샘플 개수가 4개 필요한데
    - 3개만 있는 경우에는 더 이상 자식 규칙 노드를 위한 분할을 하지 않음
    - 트리 깊이도 줄어서 더 간결한 결정 트리 생성
- min_samples_leaf : 리프 노드가 될 수 있는 최소 샘플 개수
    - 리프 노드가 될 수 있는 조건은 디폴트로 1
    - 즉, 다른 클래스 값이 하나도 없이 단독 클래스로만 되어 있거나
    - 단 한 개의 데이터로 되어 있을 경우에 리프 노드가 될 수 있다는 것
    - min_samples_leaf 값을 키우면 더 이상 분할하지 않고, 
    - 리프 노드가 될 수 있는 조건이 완화됨
    - min_samples_leaf=4로 설정하면 
    - 샘플이 최소 4개가 되어야 리프 노드가 되기 때문에
    - 3개, 2개, 1개인 경우에는 리프 노드가 될 수 없으므로
    - 더 이상 자식 규칙 노드를 위한 분할을 하지 않음
    - 지니 계수가 크더라도 샘플이 4인 조건으로 규칙 변경되어
    - 브랜치 노드가 줄어들고 결정 트리가 더 간결하게 됨 

### 결정 트리(Decision TREE) 과적합(Overfitting)

* 과적합(overfitting) : ML에서 학습 데이타를 과하게 학습하는 것  
* 과적합 문제 : 학습(training) 데이터에서는 정확하지만 테스트 데이터에서는 성과가 나쁜 현상  
* 의사결정 트리 과적합 : 나무의 크기가 크거나 가지 수가 많을 때 과적합 문제 발생  