# Supervised Learning

> **classifiaction**  
> : 입력 데이터를 미리 정의된 여러개의 클래스 중 하나로 예측하는 것
>> **binary classification**(=이진 분류)  
>> **multi-class classification**(=다중 분류)

> **regression**  
> : 연속적인 숫자를 예측하는 것

## Supervised Learning Algorithm

> - **Linear Regression** : 선형 회귀
> - **Logistic Regression** : 로지스틱 회귀
> - **Support Vector Machine** : 서포트 벡터 머신 
> - **K-Nearest Neighbor** : k-최근접 이웃
> - **Decision Tree** : 의사결정 나무
> - **Ensemble** : 앙상블
> - **Neural Networks** : 신경망

---

# Unsupervised Learning

: 원하는 출력값 없이 입력 데이터를 사용하여 구조나 패턴을 찾는것이 목표

> **Clustering** : 공간상에서 서로 가깝고 유사한 데이터를 클러스터로 그룹화

> **Dimensionality Reduction**(=차원 축소) : 고차원의 데이터를 최대한 데이터의 손실 없이 데이터를 축소시키는 방법

> **Association Rules**(=연관 규칙) : 데이터의 트성 간 연관성이 있는 규칙을 찾는 방법

## Unsupervised Learning Algorithm

> **Clustering**
> - **K-Means** : k-평균 군집분석
> - **DBSCAN**
> - **Hierarchical Cluster Analysis** : 계층적 군집 분석
> - **Outlier Detection** : 이상치 탐지
> - **Novelty Detection** : 특이값 탐지

> **Dimensionality Reduction**
> - **Principal Component Analysis** : 주성분 분석
> - **Kernel PCA**
> - **t-SNE**

> **Association Rules**
> - **Apriori**
> - **Eclat**

---

# Semi-supervised Learning

: 레이블이 존재하는 것과 존재하지 않는 것이 혼합된 상태의 학습으로  
Supervised_Learning Algorithm과 Unsupervised-Learning Algorithm의 조합으로 구성된다.

---

# Reinforcement Learning

: 레이블의 유무에 상관없이 피드백기반의 학습방식을 사용한다.  
(=에이전트가 동적 환경을 관찰하고 행동을 실행하여 피드백을 받아 자동으로 학습하여 성능을 향상시키는 방식)  

---

# scikit-learn

: 다양한 머신러닝 알고리즘이 구현되어 있는 파이썬 라이브러리

> **Modules**
> - **sklearn.preprocessing** : 데이터 전처리 기능 제공
> - **sklearn.feature_selection** : 특징(=feature)을 선택할 수 있는 기능 제공
> - **sklearn.feature_extraction** : 특징(=feature) 추출에 사용
> - **sklearn.decomposition** : 차원 축소 관련 알고리즘 지원
> - **sklearn.model_selection** : 교차 검증을 위해 데이터를 학습/테스트용으로 분리, 최적 파라미터를 추출하는 API제공
> - **sklearn.metrics** : 분류, 회귀, 클러스터링, Pairwise에 대한 성능 측정 방법을 제공
> - **sklearn.pipeline** : 특징 처리 등의 변환과 ML알고리즘 학습, 예측 등을 묶어서 실행할 수 있는 유틸리티 제공
> - **sklearn.linear_model** : 선형모델 알고리즘을 제공
> - **sklearn.svm** : SVM 알고리즘을 제공
> - **sklearn.neighbors** : 최근접 이웃 알고리즘을 제공
> - **sklearn.naive_bayes** : 나이브 베이즈 알고리즘 제공
> - **sklearn.tree** : 의사결정나무 알고리즘 제공
> - **sklearn.ensemble** : 앙상블 알고리즘 제공
> - **sklearn.cluster** : 비지도 클러스터링 알고리즘 제공

> **workflow**
> 1. 적절한 estimator 클래스를 임포트해서 모델의 클래스 선택
> 2. 클래스를 원하는 값으로 인스턴스화 해서 모델의 하이퍼파라미터를 선택
> 3. 데이터를 특징 배열과 대상 벡터로 배치
> 4. 모델 인스턴스의 **fit()**메서드를 호출해 모델을 데이터에 적합
> 5. 모델을 새 데이터에 대해서 적용  
    - supervised learning : **predict()** 메서드를 사용하여 알려지지 않은 데이터에 대한 레이블을 예측
    - unsupervised learning : **transform()**이나 **predict()** 메서드를 사용하여 데이터의 속성을 변환하거나 추론

## sklearn.model_selection

- **train_test_split()** : 학습/테스트 데이터 세트 분리  
    *parameter = test_size, random_state*
- **cross_val_score()** : 교차 검증    
    *parameter = estimator, X, y, cv*
- **GridSearchCV** :교차 검증과 최적의 하이퍼 파라미터 찾기  
    *parameter* = ?

## sklearn.preprocessing

- 데이터의 feature scaling를 위한 대표적인 방법으로 **표준화**방식과 **정규화**방식을 사용한다.
- sklearn에서는 개별 벡터의 크기를 맞추는 형태로 정규화를 진행한다.

> **StandardScaler**, **MinMaxScaler**  
    을 사용하면 한번에 해결되어지지만, return값이 numpy이기때문에 df로 변환하는 과정이 요구된다.
>    
> **StandardScaler** : 평균이 0과 표준편차가 1이 되도록 변환.  
>  **MinMaxScaler** : 데이터 값을 0과 1사이의 범위 값으로 변환 (음수 존재 시, -1 ~ 1로 변환)

## sklearn.metrics

> **Accuracy(=정확도)**  
> - 전체 예측 데이터 건수 중 예측 결과가 동일한 데이터 건수로 계산된다.
> - 데이터의 분포가 균일하지 못한 경우에도 높게 측정이 될 수 있기 때문에 정확도만으로 판단할 수 없다.
> - sklearn에서는 **accuracy_score**로 사용가능하다.

> **Confusion Matrix(=오차 행렬)**
>> - True Negative(TN) : 예측값을 Negative값 0으로 예측했고, 실제값도 Negative값 0
>> - False Positive(FP) : 예측값을 Positive값 1으로 예측했지만, 실제값은 Negative값 0
>> - False Negative(FN) : 예측값을  Negative값 0으로 예측했지만, 실제값은 Positive 1
>> - True Positive(TP) : 예측값을 Positive값 1으로 예측했고, 실제값도 Positive값 1
> - sklearn에서는 **confusion_matrix**로 사용가능하다.

> **Precision(=정밀도)와 Recall(재현율)**
>> - 정밀도 : TP / (FP + TP)
>> - 재현율 : TP / (FN + TP)
>> - 정확도 : TN + TP / TN + FP +FN +TP
>> - 요류율 = FN + FP / TN + FP + FN + TP  
> - sklearn에서는 **precision_score**와 **recall_score**로 사용 가능하다.

> **F1 Score**
> - 정밀도와 재현율을 결합한 지표로 어느 한쪽으로 치우치지 않을 때 높은 값을 갖는다.
> - sklearn에서는 **f1_score**로 사용가능하다.

> **ROC CURVE와 AUC**  
> - ROC CURVE는 False Positive 비율이 변할 때 True Positive비율이 어떻게 변하는지를 나타내는 곡선이다.
>>- True Positive 비율 : TP / FN + TP == 재현율
>>- False Positive 비율 : FP / FP + TN
> - AUC는 ROC곡선 밑의 면적을 계산한 값으로 1에 가까울수록 좋다.
> - sklearn에서는 **roc_auc_score**로 사용 가능하다. (값)