ML roadmap : https://www.kaggle.com/discussions/getting-started/211797
키워드 살펴보면 좋을 것 : GitHub - AMAI-GmbH/AI-Expert-Roadmap: Roadmap to becoming an Artificial Intelligence Expert in 2022(https://github.com/AMAI-GmbH/AI-Expert-Roadmap)
강의안은 pdf로 구성되어 있거나 실습파일은 .ipynb입니다. 원본 강의안은 공개가 불가능합니다.
- 빅데이터/인공지능 기초에 대해 강의안이 구성되어 있습니다.
- 선형대수학
- 다변수 미적분학과 최적화
- 확률과 통계
- 소개
- 기본
- 자료형
- 조건문
- 반복문
- 파일 읽기/쓰기
- 함수
- 클래스 모듈
- 예외처리
- 중간중간에 연습문제가 들어있습니다. 수업시간에만 답안을 공개합니다.
- list VS numpy
- Numpy의 장점
- 선형대수학 개념 강의 및 실습
============================Machine Learning============================
- 회귀 분석이란?
- 경사하강법 소개 및 증명
- 회귀의 평가(R^2, adjusted R^2, AIC,BIC)
- P-value
- Ordinary Least Square 증명 및 Ridge,Lasso,Elastics 증명
- Bais VS Variance
- 데이터 변환
- Logistic Regression(증명 및 오즈비 소개)
- Possion Regression 소개
Mixture Model 소개
- Sklearn tutorial with Boston House Dataset -> Kfold도 소개
- sklearn tutorial with load_diabetes
- sklearn tutorial Wisconsin (diagnostic) dataset
- kaggle Titanic dataset
HW : House advanced regression problem
- k-nearest neighbors
- Naive Bayes
- Decison Tree
- Random Forest
- AdaBoosting
- Gradient Boosting
- XGboost
- LightGBM
- Catboost Hyperparamter 자동 : optnua / Imblanced data
- Ensemble learning(bagging,boosting,voting,Stacking)
- Mushroom Classification (https://www.kaggle.com/uciml/mushroom-classification)
- Otto Group Product Classification Challenge (https://www.kaggle.com/c/otto-group-product-classification-challenge)
- Cardiovascular Disease(https://www.kaggle.com/sulianova/cardiovascular-disease-dataset)
- Prudential Life Insurance Assessment(https://www.kaggle.com/c/prudential-life-insurance-assessment)
- Imbalanced Data(Credit Card Fraud Detection(https://www.kaggle.com/mlg-ulb/creditcardfraud))
- Support Vector Machine
- Kernel Method
- Principal component analysis (PCA)
- Linear Discriminant Analysis(LDA)
- singular value decomposition (SVD)
- Non-negative matrix factorization (NMF)
###Clustering
- K-nearest neighbors
- K-means,K-mediean,k-medoids
- Elbow method with k means
- Mean Shift
- Hierarchical Clustering
- Gaussian Mixture Model
- DBSCAN(Density Based Spatial Clustering of Applications with Noise)
- 토큰화
- Clearning and Normalization
- 어간 추출(Stemming) and 표제어 추출(Lemmatization)
- 불용어(StopWord)
- 정규 표현식(Regular Expression)
- 정수 인코딩(integer Encoding)
- 패딩(Padding)
- 원-핫 인코딩(One-hot encdoing)
- 데이터의 분리(data split)
- 한국어 전처리 패키지(Text Proprcessing Tools for Korean Text)
- 확률론적 언어 모형 / 언어 모델 평가(Perplexity)
- BOW(bag of words) / CounterVecorizer
- Document-Term Matrix
- Sparse matrix(COO,CSR format)
- Term Frequenct-Inverse Document Frequency) / 실습 : 20 Newsgroup 분류하기
- 감성 인식(Sentriment Analysis) / SentiWordNet, VADER / 실습 : IMDB 영황 Review에 대한 긍정/부정 예측 / beautifulSoup / 워드 클라우드 이용
- 토픽 모델링(LSA(SVD, Truncated SVD)),LSA
- 문서 군집화
- 벡터의 유사도
- 네이버 영화리뷰 감성인식 / kaggle Mercari Price Suggestion Challenge
- 개요
- 연관분석(Apriori, FP-Growth)
- 컨텐츠 기반 추천시스템(유사도(유클리디안, 코사인, 피어슨, 자카드), 평가함수(Accuracy, F1-score,RMSE,MAP,NDCG,NDCG), TF-IDF,Word2Vec))
- 협업필터링(KNN, SGD,ALS를 이용한 추천시스템)
- 딥러닝을 이용한 추천시스템
- 통계량,가설검정
- 확률과정, 시계열 데이터 처리
- Autocorrleation, Deterministic/Probabilistic model
- t/f 검정, Kullback-Leibeler Divergerence, AIC(Akaike Information Criterion), BIC(Bayesain Information Criterion)
- python statsmodels package
============================Deep Learning============================
- peceptron
- mulit layer perceptron
- Convoluiontal Neural Networks
- Recurrent Neural Networks
- Speech Recongition ->기초적인 것.
- Convolutiaonl Neural Neworks advanced (시각인지) -> RCNN/Faster RCNN
- Recurrent Neural Networks advanced (언어인지) -> transformer
Deep learning advanced
국비과정 프로젝트 결과 : https://github.com/SD-academy