1. Data Handling
2. EDA
- Bar Plot
- Histogram
- Box Plot
- Scatter Plot
- Line Plot _ 수평, 수직, 함수, 회귀, 꺾은선
- 산점도/상관계수 행렬 +) Pandas Profiling
3. Data Preprocessing
- 이상치 확인 및 정제
- 범주형 변수 처리
- 데이터 분할
- 데이터 스케일링
- 차원 축소
- 데이터 불균형 문제 처리
4. Machine Learning Process
- 성능평가 기법
1-1) 회귀분석 (MAE, MSE, RMSE, MSLE, MAPE)
1-2) 분류분석 (정확도, 혼동행렬, 정밀도/재현율, F1 Score, ROC 곡선, AUC 스코어)
- 기초 분석 프로세스 (ex.regression)
5. Machine Learning - Supervised Learning(지도학습)
- Simple Linear Regression Model(단순선형회귀)
- Polynomial Regression(다항회귀)
- Multiple Regression(다중회귀)
6. Statistics Analysis Process
- 개념과 흐름
- 가설검정
7. Statistics Analysis
- t-test
1-1) One Sample t-test(일표본 t-검정)
1-2) Paired Sample t-test(대응표본 t-검정)
1-3) Independent Sample t-test(독립표본 t-test)
- ANOVA (분산분석)
2-1) One-way ANOVA (일원배치 분산분석)
2-2) Two-way ANOVA (이원배치 분산분석)
- chi-square test (교차분석)
3-1) 적합도 검정
3-2) 동질성
- Linear Regression (선형 회귀분석)
4-1) 단순 선형 회귀분석
4-2) 다중 선형 회귀분석
- Cluster Analysis (군집분석)
5-1) 계층적 군집분석(덴드로그램) 5-2) 비계층적 군집분석(K-means, DBSCAN, 혼합분포)
- Association Analysis (연관분석)
- 보완필요, 다른 코드 참고...
- TimeSeries Analysis (시계열분석)
빅데이터분석기사
데이터/참고자료 출처 : https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr?resource=download
ADP
참고자료 출처: https://github.com/ADPclass/ADP_book_ver01