PCA는 데이터를 가장 잘 설명하는 방향을 차례대로 찾는다. 데이터가 가장 넓게 퍼져 있는 방향을 첫째 주성분으로 잡고, 그 다음으로 많이 퍼져 있는 방향을 둘째 주성분으로 잡는 식이다.
고차원의 데이터를 저차원으로 사영할 때는 기존 고차원 데이터셋의 분산이 최대한 유지되도록 해야 한다.
강의노트에서 PCA는 데이터가 가장 넓게 퍼져 있는 방향을 첫째 주성분으로 잡고, 고차원 데이터를 저차원으로 사영할 때도 분산이 최대한 유지되도록 해야 한다고 설명되어 있었습니다. 이를 보면서 분산이 크다는 것이 항상 중요한 정보라고 볼 수 있는지 궁금해졌습니다.
어떤 경우에서는 분산은 크지만 실제 분류나 예측에는 도움이 되지 않는 방향도 있을 것 같은데, PCA는 이런 부분을 따 구분하지 않고 분산 크기를 기준으로 주성분을 선택하는 건지 궁금합니다.
강의노트에서 PCA는 데이터가 가장 넓게 퍼져 있는 방향을 첫째 주성분으로 잡고, 고차원 데이터를 저차원으로 사영할 때도 분산이 최대한 유지되도록 해야 한다고 설명되어 있었습니다. 이를 보면서 분산이 크다는 것이 항상 중요한 정보라고 볼 수 있는지 궁금해졌습니다.
어떤 경우에서는 분산은 크지만 실제 분류나 예측에는 도움이 되지 않는 방향도 있을 것 같은데, PCA는 이런 부분을 따 구분하지 않고 분산 크기를 기준으로 주성분을 선택하는 건지 궁금합니다.