# 분류

- 기존 데이터가 어떤 레이블에 속하는지 패턴을 알고리즘으로 인지한 뒤에 새롭게 관측된 데이터에 대한 레이블을 판별하는 것.

- 분류를 구현하는 다양한 머신러닝 알고리즘
  - 나이브 베이즈
  - 로지스틱 회귀
  - 결정 트리
  - 서포트 벡터 머신
  - 최소 근접 알고리즘
  - 심층 연결 기반의 신경망
  - ### *앙상블*

- 앙상블을 분류에서 가장 각광받는 방법 중 하나
  - 이미지, 영상, 음성, NLP(Natural Language Processing, 자연어 처리) 영역에서 신경망에 기반한 딥러닝이 머신러닝계를 선도하고 있지만, 이를 제외한 `정형 데이터`의 예측 분석 영역에서는 앙상블이 매우 높은 예측 성능으로 인해 애용되고 있음

- 앙상블
  - 서로 다른 또는 같은 알고리즘을 결합하는데, 대부분은 동일한 알고리즘을 결합함. 
  - 앙상블의 기본 알고리즘으로 일반적으로 사용하는 것은 결정트리이다.

> 결정트리

- 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 분류 규칙을 만드는 것.
- 룰 기반의 프로그램에 적용되는 if, else를 자동으로 찾아내 예측을 위한 규칙을 만드는 알고리즘으로 이해하면 됨.
- 따라서 데이터의 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 될 것인가가 알고리즘의 성능을 크게 좌우한다.
- 데이터 세트에 피처가 있고 이러한 피처가 결합해 규칙 조건을 만들 때마다 규칙 노드가 만들어진다.
- 하지만 많은 규칙이 있다는 것은 곧 분류를 결정하는 방식이 더욱 복잡해진다는 의미이고 이는 곧 과적합으로 이어질 수 있다. 
- 즉 트리의 깊이가 깊어질수록 결정 트리의 예측 성능이 저하될 가능성이 높다. 
  - 가능한 한 적은 결정 노드로 높은 예측 정확도를 가지려면 데이터를 분류할 때 `최대한 많은 데이터 세트가 해당 분류에 속할 수 있도록` 결정 노드의 규칙이 정해져야 한다.
  - 어떻게 트리를 분할할 것인가가 중요한데 최대한 균일한 데이터 세트를 구성할 수 있도록 분할하는 것이 필요하다.
    - 균일한 데이터?
      - 만약 공이 검은 공과 흰 공으로만 이루어져 있다면 한 무리에 검은공으로만 이루어져 있을 때 균일도가 높다고 함. 
      - 이러한 데이터 세트의 균일도는 데이터를 구분하는 데 필요한 정보의 양에 영향을 미침
      - 가령, 눈을 가린 채 검은 공으로만 이루어진 무리에서 하나의 공을 뽑았을 때 공에 대한 별다른 정보 없이도 뽑힐 공은 검은 공일 것이라는 것을 알 수 있음
      - 만약 검은공과 흰공으로 균등하게 섞여있다면 이는 혼잡도가 높고 균일도가 낮은 것임
        - 즉, 같은 조건에서 데이터를 판단하는 데 있어 더 많은 정보가 필요하게 된다. 

- 결정 노드는 정보 균일도가 높은 데이터 세트를 먼저 선택할 수 있도록 규칙 조건을 만든다. 
  - 즉, 정보 균일도가 데이터 세트로 쪼개질 수 있도록 조건을 찾아 서브 데이터 세트를 만들고, 다시 이 서브 데잍터 세트에서 균일도가 높은 자식 데이터 세트를 쪼개는 방식으로 자식 트리로 내려가면서 반복하는 방식으로 데이터 값을 예측하게 된다. 
    - 가령, 박스 안에 서른 개의 블록이 있는데 이 중 노란색 블록은 모두 동그라미이고, 빨간색 파란색 블록은 동그라미 네모 세모 골고루 이루어져 있다면 각 레고 블록을 형태와 색 속성으로 분류하고자 할 때 가장 첫 번째로 만들어져야 하는 규칙 조건은 if 색깔 == '노란색' 이 될 것.
    - 왜냐하면 노란색 블록이면 모두 노란 동그라미 블록으로 가장 쉽게 예측할 수 있고 그 다음 나머지 블록에 대해 다시 균일도 조건을 찾아 분류하는 것이 가장 효율적인 방식이기 때문.

- 이러한 정보의 균일도를 측정하는 대표적인 방법은 엔트로피를 이용한 정보이득지수와 지니 계수가 있다.

- DecisionTreeClassifier는 기본적으로 지니 계수를 이용해 데이터 세트를 분할한다. 
  - 결정트리의 일반적인 알고리즘은 데이터 세트를 분할하는 데 가장 좋은 조건, 즉 정보 이득이 높거나 지니 계수가 낮은 조건을 찾아서 자식 트리 노드에 걸쳐 반복적으로 분할한 뒤 데이터가 모두 특정 분류에 속하게 되면 분할을 멈추고 분류를 결정한다. 

- 피처 정보의 균일도에 따른 룰 규칙으로 서브 트리를 계속 만들다 보면 피처가 많고 균일도가 다양하게 존재할수록 트리의 깊이가 커지고 복잡해질 수밖에 없다. 