# 지도 학습

머신러닝의 학습 방법은 크게 지도 학습(supervised learning)과 비지도 학습(unsupervised learning)으로 나눌 수 있다. 
- 지도 학습 : 라벨링이 된 데이터를 학습시키는 것을 의미
- 비지도 학습 : 라벨링이 되지 않은 데이터를 학습 시키는 것을 의미

(여기서 라벨링이란 train data에 정답이 표시된것을 의미한다.)

지도학습은 target data의 형태에 따라 분류(classification)와 회귀(regression)으로 나눌 수 있다.
- 분류 : target data가 categorical/discrete 형태인 경우, 데이터가 속한 그룹을 찾아내는 것을 의미
- 회귀 : target data가 continuous 형태인 경우, feature variable과 target variable의 관계를 찾아내는 것을 의미

<img src='https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbblCkC%2FbtqEq8rEkUa%2FLM1DLkUgBku9ApbkTYX90K%2Fimg.png' width='600' height='300'/>

# 회귀

## 선형 회귀

### 선형 회귀

단순 선형 회귀(Univariate Linear Regression)는 회귀 문제 중에서 제일 기초가 되는 문제다. 단순 선형 회귀란 분석하고 싶은 두 변수의 관계를 가장 잘 설명하는 직선이 무엇인지를 구현하는 기법이다.

여기서 분석하고 두 변수를 input(feature)과 output(target)으로 분류하고, 이 둘의 관계를 나타내는 함수(단순 선형 회귀에서는 직선이다)를 가설(Hypothesis)이라고 부른다. 단순 선형 회귀에서 가설은 다음과 같이 작성한다.

$$\mathrm{Hypothesis :} \; h_{\theta}(x)=\theta_{0}+\theta{1}x$$

y절편이 $\theta_{0}$고, 기울기가 $\theta_{1}$인 우리가 흔히 아는 1차방정식이다. 하지만 모든 input과 output이 가설 함수 상에 존재하기란 불가능에 가깝다.

### 비용 함수와 최소제곱법

여기서 $\theta$들을 parameter라고 하는데, parameter를 조정하면서 데이터를 가장 잘 설명하는 가설 함수를 찾아야 한다. 이 때, 함수와 데이터 간 거리의 제곱의 합을 비용(cost)라고 하고, 비용 함수는 다음과 같이 작성한다.

$$\mathrm{Cost \; function :} \; J(\theta_{0}, \theta_{1})=\frac{1}{2m}\sum\limits_{i=1}^m(\hat{y}^{i}-y^{i})^{2} = \frac{1}{2m}\sum\limits_{i=1}^m(h_{\theta}(x^{i})-y^{i})^{2}$$

이것이 최소제곱법의 아이디어다. 최종적으로 우리는 비용이 작을수록 가설이 데이터를 잘 설명한다고 할 수 있기에, 비용함수를 최소화시키는 것이 선형 회귀에서 우리가 궁극적으로 추구해야 하는 목표라고 할 수 있다.

### 경사하강법

### 예제

회귀 문제는 수치를 예측하는 지도 학습 문제이다. 위에서 설명한 로직을 활용해 회귀 문제를 풀어보도록 하겠다. 아래의 예시는 머신러닝의 기초적인 패키지인 scikit-learn에 있는 캘리포니아 주택 가격 데이터를 활용해 서술했다.

In [8]:
from sklearn.datasets import fetch_california_housing
dataset = fetch_california_housing()

dataset에서 DataFrame을 활용해 구조를 파악한 후, train, target variable을 설정한다.

In [13]:
import pandas as pd
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)
df['target'] = dataset.target
df.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,target
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


In [14]:
x_data = dataset.data
y_data = dataset.target

train data와 test data를 분할한다.

In [15]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.2)

예측 오차를 더 줄이기 위해 데이터 표준화를 진행한다.

In [17]:
from sklearn.preprocessing import StandardScaler
std_scale = StandardScaler()
std_scale.fit(x_train)
x_train_std = std_scale.transform(x_train)
x_test_std = std_scale.transform(x_test)

In [18]:
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(x_train_std, y_train)
print(lr.coef_, lr.intercept_)

[ 0.84159354  0.1197779  -0.29052858  0.3377422  -0.00338839 -0.04034237
 -0.90545472 -0.87633117] 2.074163444767296


Ridge 함수를 통해 L2 제약식을 적용한다. Ridge 함수에서 alpha 값은 양수여야 하며, 값이 클수록 강한 제약식을 의미한다.

In [22]:
from sklearn.linear_model import Ridge
ridge = Ridge(alpha=1)
ridge.fit(x_train_std, y_train)
print(ridge.coef_, ridge.intercept_)

[ 0.8415432   0.1198604  -0.29033486  0.33749691 -0.00336079 -0.04034691
 -0.90467575 -0.87554335] 2.0741634447672963


In [23]:
lr_y_predict = lr.predict(x_test_std)
rid_y_predict = ridge.predict(x_test_std)

In [24]:
from sklearn.metrics import r2_score
print(r2_score(y_test, lr_y_predict))
print(r2_score(y_test, rid_y_predict))

0.6104474265774311
0.6104796673399491


In [25]:
from sklearn.metrics import mean_absolute_error, mean_squared_error
print(mean_absolute_error(y_test, lr_y_predict))
print(mean_squared_error(y_test, rid_y_predict))

0.5160097766047389
0.50876004041679


In [27]:
from sklearn.linear_model import SGDRegressor

sgd = SGDRegressor(max_iter=1000, tol=1e-3, penalty=None)
sgd.fit(x_train_std, y_train)
print(sgd.coef_, sgd.intercept_)

[ 0.83605051  0.09227839 -0.31996728  0.35481588 -0.01672695 -0.10234743
 -0.87758836 -0.85728429] [2.07623527]
