Skip to content

Latest commit

 

History

History
44 lines (16 loc) · 1.49 KB

Day1_EDA.md

File metadata and controls

44 lines (16 loc) · 1.49 KB

Competition

주어진 데이터가 가지고 있는 어려움과 문제점을 파악해서 해결하여 원하는 결과를 만든다.

어려움과 문제점

어려움과 문제점이 대부분 overview에 서술되어 있는 경우가 많으나, 대부분 사람들이 영어로 서술되어 있어 건너뛴다.

Problem Definition

  1. 문제가 무엇인가?
  2. input과 output이 무엇인가?
  3. 어디서 어떻게 사용될 모델인가?

각 단계를 차근차근 밟아나가보자!

화면 캡처 2021-08-24 135243

EDA (Exploratory Data Analysis)

데이터를 이해하기 위한 노력이라고 생각하면 좋다. 데이터가 무슨 특징이 있고, 각 특징 별로 무슨 연관성이 있는지, 분포는 어떻게 이루어져 있는지를 골고루 파악하면 할수록 좋다.

화면 캡처 2021-08-24 135715

결과적으로 하면 좋은 것들

사실 무조건 해야만 하는게 있는 것이 아니라 데이터마다 필요하고 맞는 분석법이 필요하다. 궁금한 것, 알고 싶은 것, 데이터 타입의 특성 등 다양하게 궁금한 것들을 많이 해소 할수록 좋다.

화면 캡처 2021-08-24 135949