## 지도학습 
라벨링이 된 데이터를 학습시키는 것을 의미하며, 라벨링이란 데이터에 정답이 표시된 것을 의미한다. 정답 부분을 타깃데이터라고 한다.  

타깃의 형태에 따라 지도학습은 세부적으로 두가지 종류로 나눌 수 있다.  
* 타깃이 범주형인 경우 분류 문제라고 하고 ,연속형 숫자인 경우 회귀문제라고 한다. 타깃이 범주형이라는 말은 해당 데이터를 클래스 별로 구분하는 것을 의미한다.
* 타깃이 연속형 숫자라는 말은 타깃을 특정 종류로 구분하는 것이 아닌 연속형 숫자로 예측하는 것을 의미한다. 타깃 숫자 자체를 예측하는 회귀문제에 해당 

### K-최근접 이웃 알고리즘  

비교대상이 되는 데이터 포인트 주변에 가장 가까이 존재하는 K개의 데이터와 비교해 가장 가까운 데이터 종류로 판별.    

데이터를 분류하는데 K-최근접 이웃 알고리즘을 사용할 때 k=3이라고 설정한다면 새로운 데이터 포인트에서 가장 가까운 데이터 3개와 비교한 후 테스트 데이터를 판별하게 된다. 즉  K-최근접 이웃 알고리즘의 판별 결과는 k값에 따라 달라진다.  


타깃이 연속형 숫자라면 주변 k개의 데이터의 평균값으로 예측하는 방법을 사용함으로써 KNN사용할 수 있다.  


K-최근접 이웃 알고리즘은 학습과정에서 게으른 학습 (Lazy Learning)방법을 사용한다. 트레이닝 전체를 메모리상에 보관하면서 테스트 데이터가 새로 들어왔을때 바로 학습하는 것을 의미한다. 게으른 학습은 트레이닝 데이터 전체를 메모리에 보관하므로 추가적인 학습 시간없이, 곧바로 학습결과를 얻을 수 있다는 장점이 있다. 그러나 예측 시 메모리 상에 학습용 데이터를 항상 보관하고 있어야 하므로 메모리 용량보다 데이터가 지나치게 커서 메모리에 보관할 수 없을 경우에는 사용할 수 없다는 단점이 있다.

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings(action='ignore')

In [2]:
from sklearn import datasets

raw_iris = datasets.load_iris()

In [3]:
# 피쳐, 타깃 데이터 설정 

X = raw_iris.data
y = raw_iris.target

In [4]:
# 트레이닝/테스트 데이터 분할 

from sklearn.model_selection import train_test_split

X_train, X_test , y_train, y_test = train_test_split(X, y, random_state= 42)

In [5]:
# 데이터 표준화 

from sklearn.preprocessing import StandardScaler

std = StandardScaler()
std.fit(X_train)

X_train_std = std.transform(X_train)
X_test_std = std.transform(X_test)

In [6]:
# 데이터 학습 

from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=2)
knn.fit(X_train_std, y_train)

KNeighborsClassifier(n_neighbors=2)

In [7]:
# 데이터 예측 

y_pred = knn.predict(X_test_std)
y_pred

array([1, 0, 2, 1, 1, 0, 1, 2, 1, 1, 2, 0, 0, 0, 0, 1, 2, 1, 1, 2, 0, 2,
       0, 2, 2, 2, 1, 2, 0, 0, 0, 0, 1, 0, 0, 2, 1, 0])

In [8]:
# 정확도 평가 

from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test , y_pred)
accuracy

0.9736842105263158

In [9]:
from sklearn.metrics import confusion_matrix

conf_matrix = confusion_matrix(y_test, y_pred)
conf_matrix

array([[15,  0,  0],
       [ 0, 11,  0],
       [ 0,  1, 11]])

In [10]:
# 분류 리포트 

from sklearn.metrics import classification_report

class_report = classification_report(y_test, y_pred)
print(class_report)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        15
           1       0.92      1.00      0.96        11
           2       1.00      0.92      0.96        12

    accuracy                           0.97        38
   macro avg       0.97      0.97      0.97        38
weighted avg       0.98      0.97      0.97        38



### 선형회귀 분석 

피처데이터와 타깃데이터 간의 선형 관계를 파악하는 알고리즘 이다.   
선형회귀 모형에서 해야할 일은 피처 데이터 x와 타깃데이터 y를 이용해 가중치 w(or 세타) 를 구하는 것이다. 

**Equation: Linear Regression model prediction**

$
\hat{y} = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \dots + \theta_n x_n
$


**Equation : Linear Regression model prediction (vectorized form)**

$
\hat{y} = h_{\boldsymbol{\theta}}(\mathbf{x}) = \boldsymbol{\theta} \cdot \mathbf{x}
$


각 가중치 요소 하나하나가 우리가 구하려는 parameter이며, paremeter 값은 예측값에 영향을 미친다. 즉 parameter 값에 따라 예측값이 달라진다.  
가중치는 트레이닝 데이터로부터 최소제곱법을 사용해 구할 수 있다. 
* 최소제곱법은 오차의 제곱합이 최소되는 추정량을 구하는 방법이다.

### 릿지 회귀분석(L2 제약식) 

기본적인 회귀 분석에는 제약식이 포함될 수 있다. 제약이 없으면 추정하려는 가중치 w가 폭발적으로 커질 수 있으며, 이로 인해 분산이 커지는 문제가 발생할 수 있다. 

$
\text{min}\sum\limits_{i=1}^{n}{(\boldsymbol{y{(i)}}- \mathbf{w}^T\mathbf{x}^{(i)} })^2
$

**Equation: Ridge Regression cost function**

$
J(\boldsymbol{\theta}) = \text{MSE}(\boldsymbol{\theta}) + \alpha \dfrac{1}{2}\sum\limits_{i=1}^{n}{\theta_i}^2
$

피쳐데이터 행렬 X는 표준화 되어 평균이 0이고 분산은 1이며 y는 평균을 0으로 조정한 값이라고 가정



### 라쏘 회귀분석(L1 제약식)

**Equation: Lasso Regression cost function**

$
J(\boldsymbol{\theta}) = \text{MSE}(\boldsymbol{\theta}) + \alpha \sum\limits_{i=1}^{n}\left| \theta_i \right|
$



### 엘라스틱 넷 
릿지 회귀 분석과 라쏘 회귀 분석을 합쳐놓은 형태  

**Equation : Elastic Net cost function**

$
J(\boldsymbol{\theta}) = \text{MSE}(\boldsymbol{\theta}) + r \alpha \sum\limits_{i=1}^{n}\left| \theta_i \right| + \dfrac{1 - r}{2} \alpha \sum\limits_{i=1}^{n}{{\theta_i}^2}
$

In [11]:
from sklearn import datasets

raw_boston = datasets.load_boston()

In [12]:
# 피쳐 타깃 데이터 지정 

X = raw_boston.data
y = raw_boston.target

In [13]:
# 트레이닝/테스트 데이터 분할 

from sklearn.model_selection import train_test_split

X_train, X_test , y_train, y_test = train_test_split(X, y, random_state= 42)

In [14]:
# 데이터 표준화 

from sklearn.preprocessing import StandardScaler

std = StandardScaler()
std.fit(X_train)

X_train_std = std.transform(X_train)
X_test_std = std.transform(X_test)

In [15]:
# 선형 회귀 분석 

from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(X_train_std , y_train)

LinearRegression()

In [16]:
# 계수, 상수항 확인 

print(lr.coef_)

[-1.06546379  0.68154987  0.33928836  0.73726309 -1.93178062  3.14172655
 -0.25586276 -2.95561026  2.21416067 -1.65127265 -2.08714915  1.15235744
 -3.69504236]


In [17]:
print(lr.intercept_)

22.90791556728235


In [18]:
# 데이터 학습 릿지

from sklearn.linear_model import Ridge

rg = Ridge(alpha = 1) # alpha 값은 양수여야 하며 값이 클수록 강한 제약식을 의미 
rg.fit(X_train_std, y_train)

Ridge(alpha=1)

In [19]:
# 계수, 상수항 확인 

print(rg.coef_)

[-1.05413713  0.66437555  0.3128819   0.74118349 -1.89877304  3.14706658
 -0.25666106 -2.91851804  2.1356466  -1.58202618 -2.07557365  1.14929024
 -3.68300256]


In [20]:
print(rg.intercept_)

22.907915567282352


In [21]:
# 데이터 학습 라쏘

from sklearn.linear_model import Lasso 

ls = Lasso(alpha = 0.01) 
ls.fit(X_train_std ,y_train)

Lasso(alpha=0.01)

In [22]:
# 계수, 상수항 확인 

print(ls.coef_)

[-1.03540429  0.63553353  0.25113041  0.73857172 -1.86738302  3.14586145
 -0.23308042 -2.88652149  2.03886087 -1.48155156 -2.06661178  1.1394998
 -3.69565145]


In [23]:
print(ls.intercept_)

22.907915567282352


In [24]:
# 데이터 학습 엘라스틱넷 

from sklearn.linear_model import ElasticNet

# alpha값은 L1제약식의 크기와 L2제약식의 크기의 합, 즉 전체 제약식의 크기 
# l1_ratio는 전체 제약의 크기의 alpha값에서 L1제약이 차지하는 비율 , 0과 1사이의 값을 가지며 
# 만약 l1_ratio =0 이라면 L1제약이 적용되지 않고 L2제약만 적용 
    
el = ElasticNet(alpha = 0.01, l1_ratio= 0.01)
el.fit(X_train_std, y_train)

ElasticNet(alpha=0.01, l1_ratio=0.01)

In [25]:
# 계수, 상수항 확인 

print(ls.coef_)

[-1.03540429  0.63553353  0.25113041  0.73857172 -1.86738302  3.14586145
 -0.23308042 -2.88652149  2.03886087 -1.48155156 -2.06661178  1.1394998
 -3.69565145]


In [26]:
print(ls.intercept_)

22.907915567282352


In [27]:
# 데이터 예측 

pred_lr = lr.predict(X_test_std)
pred_rg = rg.predict(X_test_std)
pred_ls = ls.predict(X_test_std)
pred_el = el.predict(X_test_std)

In [28]:
# 모형 평가 R제곱값 

from sklearn.metrics import r2_score

print(f"{lr} :",r2_score(y_test, pred_lr))
print(f"{rg} :",r2_score(y_test, pred_rg))
print(f"{ls} :",r2_score(y_test, pred_ls))
print(f"{el} :",r2_score(y_test, pred_el))

LinearRegression() : 0.6844267283527132
Ridge(alpha=1) : 0.6841670326524792
Lasso(alpha=0.01) : 0.6841457146539833
ElasticNet(alpha=0.01, l1_ratio=0.01) : 0.683452331563605


In [29]:
# 모형 평가-MSE
from sklearn.metrics import mean_squared_error
print(f"{lr}:",mean_squared_error(y_test, pred_lr))
print(f"{rg}:",mean_squared_error(y_test, pred_rg))
print(f"{ls}:",mean_squared_error(y_test, pred_ls))
print(f"{el}:",mean_squared_error(y_test, pred_el))

LinearRegression(): 22.098694827097976
Ridge(alpha=1): 22.116880575204664
Lasso(alpha=0.01): 22.118373413747758
ElasticNet(alpha=0.01, l1_ratio=0.01): 22.166929051025143
