Skip to content

GonieAhn/Data-Science-online-course-from-gonie

Repository files navigation

Data Science : Online Course from Gonie

  • Course homepage for "Data Science" @ Gonie Ahn Hits
  • Covers Data Scientist of low level to high level

Notice

Contents

Data Store - [Toy Data]

  • 데이터는 .csv 형태 또는 .pickle 형태로 저장되어 있음
    • .csv 형태의 파일은 브라우저가 열림
    • .pickle 형태의 파일은 다운로드 되어 본인 컴퓨터에 저장 가능
  • Toy Data에 몇가지 트릭을 걸어 놓음
    • 스스로 전처리 잘해야함
  • 주의: pickle의 경우 python 버전이 다르면 error가 날 수 있음
  • 데이터를 저장하지 않고 Github Data Store에서 Python으로 바로 불러오는 법(모든 Tutorial Code에 적용 가능)
import pandas as pd
data = pd.read_csv("https://raw.githubusercontent.com/GonieAhn/Data-Science-online-course-from-gonie/main/Data%20Store/TOY_DATA.csv")

[Class01] Introduction to Data Analytics - [Slide]

  • 전반적인 AI 흐름
  • Data Analytics에 대한 전반적인 내용
  • 기업에서 데이터 분석이 실패하는 이유
  • 데이터 분석 성공 사례
    • Keyword : #Data Analytics #Data Science

[Class02] Data Loading from AWS(S3) - [Slide], [Tutorial Code]

  • Anaconda에서 가상환경 만드는 방법
  • AWS 클라우드 Burket인 S3에서 Python 분석환경으로 데이터 Load 하는 법
    • 보안 ISSUE로 KEY 값들은 삭제함
  • Partitioning 되어 있는 File들을 Multiprocessing을 활용하여 빠르게 불러오는 방법 소개
    • Keyword : #AWS #S3 #Multiprocessing #pickle #Virtual Environment
# Install Package
- conda install -c anaconda boto3 
- conda install -c conda-forge datatable
- conda install -c conda-forge tqdm

[Class03] Basic of Data Analytics - [Slide]

  • 데이터 분석에 앞서 필요한 전반적인 지식
  • 데이터 종류와 변수의 종류 정의
  • Regression & Classification에 대한 정의
    • Keyword : #Bias VS Variance #Overfitting VS Underfitting #Loss Function #K-fold Cross Validation

[Class04] Regression Problem - [Slide], [Tutorial Code]

  • Regression Loss Function
  • 계수 추정
  • Regression Model 평가 및 지표해석
  • 데이터 실습
  • 고려대학교 DMQA Lab. 김성범 교수님 강의 자료를 참고함
    • Keyword : #Linear Regression #R2 #MSE
# Install Package
- pip install regressors
    - Anaconda 지원 안됨, 하지만 이것 만큼 Result Summary 잘해주는 Package 없음
    - 설치 안되시는 분 Class04 Tutorial Code 맨 마지막 Cell 보면 설치 정보 얻을 수 있음 (뻘짓 5시간 경험담)

[Class05] Regularized Linear Models - [Slide], [Tutorial Code]

  • Feature Selection 기법 중 Embedded 기법 소개
  • 계수에 Penalty Term을 주어 분석에 필요하고 중요한 변수만 선택하게 하는 기법
  • 데이터 실습
  • 고려대학교 DMQA Lab. 김성범 교수님 강의 자료를 참고함
    • Keyword : #Ridge #LASSO # ElasticNet

[Class06] Classification Problem - [Slide], [Toturial Code]

  • Classification Loss Function
  • Classification Model 평가 및 지표해석
  • 데이터 실습
    • Keyword : #DecisionTree #ACC #Recall #Precision # F1-score #RuleExtraction

[Class07] Ensemble Learning - [Slide], [Tutorial Code]

  • Ensemble의 정의 및 single model보다 좋은 이유 수식 증명
  • Bagging, Boosting, Stacking에 대한 소개
  • 데이터 실습
  • 고려대학교 DSBA Lab. 강필성 교수님 강의 자료를 참고함
    • Keyword : #RandomForest #Adaboost #Feature Importance Score

[Class08] Gradient Boosting Machine(GBM) Family - [Slide], [Tutorial Code]

# Install Package
- conda install -c conda-forge xgboost
- conda install -c conda-forge lightgbm

[Class09] eXplainable Method For High Complexity Models - [Slide], [Tutorial Code]

# Install Package
- conda install -c conda-forge shap

[Class10] Clustering & Dimensionality Reduction - [Slide], [Tutorial Code]

  • Unsupervised Learning을 활용하여 최적의 X's 조합을 도출하는 방법 소개
  • 복잡한 Supervised Learning을 탈피하여 고효율군을 이루는 X's들의 조합을 찾는 새로운 기법 제시
  • Dimensionality Reduction을 활용하여 cluster의 분포 확인
  • Dimensionality Reduction을 활용한 Anormaly Detection 방법
  • 데이터 실습
    • Keyword : #Distance #K-means #Hierarchical Clustering #HDBSCAN #Spectral #PCA #T-SNE #Autoencoder
  • Reference site
# Install Package
- conda install -c conda-forge hdbscan

Recommended Open Class

Data Visualization Reference Site