주어진 데이터가 가지고 있는 어려움과 문제점을 파악해서 해결하여 원하는 결과를 만든다.
어려움과 문제점이 대부분 overview에 서술되어 있는 경우가 많으나, 대부분 사람들이 영어로 서술되어 있어 건너뛴다.
- 문제가 무엇인가?
- input과 output이 무엇인가?
- 어디서 어떻게 사용될 모델인가?
데이터를 이해하기 위한 노력이라고 생각하면 좋다. 데이터가 무슨 특징이 있고, 각 특징 별로 무슨 연관성이 있는지, 분포는 어떻게 이루어져 있는지를 골고루 파악하면 할수록 좋다.
사실 무조건 해야만 하는게 있는 것이 아니라 데이터마다 필요하고 맞는 분석법이 필요하다. 궁금한 것, 알고 싶은 것, 데이터 타입의 특성 등 다양하게 궁금한 것들을 많이 해소 할수록 좋다.