Skip to content
jjin-choi edited this page Oct 21, 2020 · 29 revisions

https://webcache.googleusercontent.com/search?q=cache:KvDHc7ueugsJ:https://www.holaxprogramming.com/2017/06/28/python-project-structures/+&cd=9&hl=ko&ct=clnk&gl=kr

정리하기

200824

Data Analysis

§ EDA (Exploratory Data Analysis)

  • import data → check data shape → check data type → check NULL → check 종속변수의 분포 → 독립변수 - 명목형 변수 분포 → 독립변수 - 수치형 변수 분포 → 수치형 명목형 변수 간 관계 파악

    • 종속 변수 : 다른 변수들의 관계를 주로 추론하고 최종적으로 예측하고자 하는 변수
    • 명목형 변수 : 카테고리 수가 너무 많거나 종속 변수와 관련성이 적어 보일 경우 제외하고 분석
    • 단변수 탐색 : seaborn - distplot
  • 관련 module : numpy / pandas / matplotlib / seaborn

§ Feature Engineering

// // § Stratified sampling

Performance metrics

§

Clone this wiki locally