Skip to content

(장*우) (강의노트 5장) 불균형 데이터 결정 트리 학습 #154

@glok1d

Description

@glok1d

결정 트리는 지니 불순도나 엔트로피를 낮추는 방향으로 데이터를 분할하며 학습한다고 배웠습니다. 그런데 만약 훈련 세트에서 특정 클래스의 샘플 수가 다른 클래스에 비해 압도적으로 많은 경우(데이터가 한쪽으로 쏠려 있는 경우), 모델이 불순도를 낮추기 위해 단순히 샘플이 많은 클래스 위주로만 노드를 분할하게 될 위험은 없는지 궁금합니다.

이런 현상이 모델의 결정 경계를 왜곡하거나 과대적합을 유발하여, 실제 테스트 세트에서의 일반화 성능을 떨어뜨리지는 않는지, 그리고 교재에 나온 하이퍼파라미터 조절만으로도 이런 쏠림 현상을 충분히 제어할 수 있는 것인지 알고 싶습니다.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions