# Machine Learning Algorithms
## 1. Regression
- Linear Regression (선형 회귀)
- Stochastic Gradient Descent Regression (SGD 회귀)
- SVR, Support Vector Regression (서포트 벡터 회귀)
- Random Forest Regression (랜덤 포레스트 회귀)
- Bayesian Regression (베이지안 회귀)
- Isotonic Regression (등위 회귀)

## 2. Classification
- Logistic Regression (로지스틱 회귀)
- SVM, Support Vector Machine (서포트 ㅂ벡터 머신)
- Random Forest (랜덤 포레스트)
- Decision Tree (의사결정 트리)
- GBT, Gradient Boosting Tree (그레디언트 부스팅 트리)
- SGD Classifier (SGD 분류기)
- AdaBoost

## 3. Clustering
- K-means (K-평균)
- Spectral Clustering (스펙트럼 군집화)
- Gaussian Mixtures (가우시안 혼합)
- Agglomerative Clustering (병합식 군집화)
- Affinity Propagation (친근도 전파)
- Mean Shift (평균 이동)

### 1.1 Linear Regression
데이터를 가장 잘 대표하는 선형 방정식의 기울기(coefficient)와 절편(intercept)를 구하는 것

In [42]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn import metrics
import numpy as np
import pandas as pd

In [45]:
iris = datasets.load_iris()
iris_data_df = pd.DataFrame(iris.data)
iris_data_df.columns = [iris.feature_names]

iris_target_df = pd.DataFrame(iris.target)
iris_target_df.columns = ['species']

x_train, x_test, y_train, y_test = train_test_split(iris_data_df, iris_target_df)

In [46]:
model = LinearRegression()
model.fit(x_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

In [61]:
result = model.predict(x_test)
accuracy = model.score(x_test, y_test)
print(accuracy)

0.9494903032134198


### 1.2 KNN (k-최근접 이웃, K-Nearest Neighbors)

- 거리 측정(DIstance measurement)하여 분류
- 원리 : Label이 없는 데이터가 주어졌을 때, 기존의 모든 데이터와 새로운 데이터를 비교하여 가장 유사한 데이터(=가장 근접한 이웃) 상위 K개의 majority voting
- 장단점 :  높은 정확도 및 outlier잘 견딤, 데이터에 대한 가정이 없는 장점이 있으나, 높은 계산 비용과 메모리 요구 됨
- 사용 : 수치형 값, 명목형 값에 적용


In [106]:
from sklearn.neighbors import NearestNeighbors

model_KNN = KNeighborsClassifier(n_neighbors= 3)
model_KNN.fit(x_train, y_train)

  after removing the cwd from sys.path.


KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=None, n_neighbors=3, p=2,
           weights='uniform')

In [107]:
accuracy = model_KNN.score(x_test, y_test)
accuracy

1.0

### 1.3 Support Vector Machine (SVM)
퍼셉트론 + 가장 안정적인 판별 경계선을 찾기 추가
- 원리 : 구분을 위한 라인이나 평면을 찾는다
- 장단점 : 과적합에 강한 성능을 보이며 성능이 우수하다. 하지만, 모델 생성 시간이 길어질 수 있으며, 모델을 해석하기 어렵다.
- 사용 : 분류

In [110]:
from sklearn.svm import SVC
import numpy as np

model_SVC = SVC()
model_SVC.fit(x_train, y_train)

  y = column_or_1d(y, warn=True)


SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
  kernel='rbf', max_iter=-1, probability=False, random_state=None,
  shrinking=True, tol=0.001, verbose=False)

In [265]:
result = model_SVC.predict(x_test)
accuracy = model_SVC.score(x_test, y_test)
accuracy

0.9736842105263158

### 1.4 Random Forest
- 원리 : 앙상블 학습 방법의 일종으로 다수의 결정 트리로부터 분류 혹은 회귀 분석
- 장단점 :  
- 사용 : 분류

In [124]:
from sklearn.ensemble import RandomForestClassifier

In [125]:
model_RF = RandomForestClassifier()
model_RF.fit(x_train, y_train)

  


RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=None,
            oob_score=False, random_state=None, verbose=0,
            warm_start=False)

In [126]:
accuracy = model_RF.score(x_test, y_test)
accuracy

0.9736842105263158

### 3.1 K-Means Clustering
주어진 데이터를 k개의 클러스터로 묶는 알고리즘
- 원리 : 군집화 알고리즘으로서, 각 군집은 중심을 가지며 같은 중심에 할당 된 데이터들이 하나의 군집을 형성 한다.
(초기 중심 설정에 따라 결과 바뀔 수 있다)
사전에 군집수가 결정이 되어야 알고리즘 실행이 가능하다. 
- 장단점 : 서로 다른 크기와 밀도의 군집 및 지역적 패턴이 존재하는 군집에 취약하다
- 사용 : 군집

In [228]:
from sklearn.cluster import KMeans

In [229]:
model_KM = KMeans(n_clusters=3)

In [262]:
model_KM.fit(x_train)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
    n_clusters=3, n_init=10, n_jobs=None, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)

In [263]:
model_KM.labels_

array([0, 1, 0, 0, 1, 2, 2, 2, 1, 0, 1, 0, 1, 0, 1, 1, 2, 0, 1, 1, 0, 1,
       0, 0, 0, 0, 2, 1, 0, 1, 1, 1, 2, 0, 1, 1, 1, 1, 2, 1, 0, 1, 2, 0,
       2, 1, 2, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 2, 0, 1, 2, 1, 2, 0,
       1, 0, 1, 1, 0, 0, 2, 1, 1, 1, 2, 2, 0, 1, 2, 2, 1, 0, 2, 1, 0, 1,
       2, 1, 1, 2, 1, 2, 2, 1, 1, 2, 2, 0, 2, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       0, 2])

In [264]:
result = model_KM.predict(x_test)
score = metrics.accuracy_score(result, y_test)
score

0.9210526315789473