In [5]:
import pandas as pd
from sklearn.linear_model import LinearRegression

## 지도학습 : 선형회귀 

수작업으로 그래프를 그리며 데이터셋에 적합시키는 모델은 시간이 무한정 소요되므로 적합하지 않다.  
더 복잡한 머신러닝/딥러닝 문제들로 들어가면 비선형 관계를 찾기 시작할 것이며  
변수가 많은 복잡한 식을 사용하게 될 것이다. 

여기에서 배우게 될 머신러닝 훈련 기법은 그 문제들에도 동일하게 적용할 수 있다. 

In [2]:
# csv 파일을 읽고 레코드를 출력한다. 
features = pd.read_csv('../data/house_price.csv')

In [3]:
#  처음 8개의 점을 훈련셋으로 분리(0~7)  
x_train = features[['Area', 'Locality']].values[:7]
y_train = features[['Price']].values[:7]

# 마지막 2개의 점을 테스트 셋으로 분할
x_test = features[['Area', 'Locality']].values[7:]
y_test = features[['Price']].values[7:]

훈련 데이터셋은 모델의 가중치 학습에 사용되고   
테스트 데이터셋은 모델이 처음 본 데이터에도 잘 예측하고 테스트하는 지 확인하는 데 사용될 것이다. 

최대한 잘 적합되었다는 것은 어떻게 판단할 수 있을까??  
이를 위해 비용함수가 필요하다.  
비용함수는 기본적으로 모델의 예측값이 실제 값과 얼마나 차이나는가를 측정하는 수단이다. 

비용 함수는 예측값과 실제 값의 차이를 계량해야 한다. 수치값 출력을 예측하는 경우,  
각 훈련 데이터의 예측값과 실제 값의 차이를 합산해 구할 수 있다.  
만일 클래스를 예측하는 경우라면, 분류 오차를 계량화하는 함수를 사용할 수 있을 것이다. 

비용 함수를 오차 함수라고도 하는데, 이는 오차함수가 예측 상의 오차를 계량화하기 때문이다.  
비용함수를 최적화의 목적함수로 사용할 수 있다. 가중치 값을 최적화해 비용 함수의 값을 최소화한다.  
이것은 전통적인 최적화 문제가 된다. 

### 경사하강 최적화 

모든 X들을 모델에 통과시켜 Y를 예측한다.  
예측값들을 실제 값들과 비교해 오차를 구한다.  
비용함수의 각 가중치 및 편향에 대한 경사도를 구한다. 

경사도는 기본적으로 각 가중치/편향에 대한 비용함수의 편도함수(partial derivative)이다. 

이 경사도는 특정한 가중치 및 편향이 비용에 미치는 영향의 크기와 방향을 알려준다.  
이 값을 이용해 비용을 감소시키는 방향으로 가중치와 편향을 보정한다 .

- MAE(평균 절댓값 오차) : mean(abs(y-y'))
- MSE(평균 제곱 오차) : mean((y-y')^2)

가중치를 경사도 방향으로 얼마만큼 보정할 것인지는 학습률이라는 상수 파라미터로 조절한다.  
학습률을 너무 크게 잡으면 최소값을 지나쳐서 곡선의 다른 쪽에 떨어지게 될 수 있다.  
학습률이 너무 작으면 가중치가 충분히 보정되지 않으므로 학습 과정이 너무 느려진다.  
일반적으로 0.05로 시작하는 것이 무난하다. 

In [7]:
# sklearn의 내장함수를 써서 선형 회귀 모델을 적용한다. 
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(x_train, y_train)
print("Model weights are: ", model.coef_)
print("Model intercept is: ", model.intercept_)

# 테스트 데이터셋의 한 샘플에 대한 예측 
print('predicting for ', x_test[0])
print('Expected Value: ', y_test[0])
print("Predicted Value: ", model.predict([[95, 5]]))

Model weights are:  [[ 0.19319908 14.27643887]]
Model intercept is:  [-49.75481457]
predicting for  [225   4]
Expected Value:  [60]
Predicted Value:  [[39.98129196]]


회귀 모델의 평가에는 MSE/MAE 측도가 사용되며, 그 결과값이 높게 나온다면 다른 회귀 모델을 생각해봐야 한다. 

만일 선형 모델을 사용하는 데 오차 값이 계속 나온다면 일반적으로 더 복잡한 비선형 모델을 검토하기 시작해야 한다.  
비선형회귀 방법 중에 가장 유명한 것이 신경망이다. 

신경망으로 데이터 내의 비선형성을 포착할 수 있으며, 오차가 작은 모델을 찾을 수 있다.  
신경망처럼 복잡한 모델에 대해서 실제 값과 예측값 간의 오차를 네트워크로 전파하고  
가중치와 편향에 대한 비용함수의 경사(gradient)를 빠르게 계산할 수 있게 해주는 역전파라고 하는 매우 정교한 알고리즘을 볼 수 있다. 

## 지도학습 - 분류

분류에서 결과 또는 종속변수는 값이 아니라 클래스 멤버십이다.  
결과는 0에서부터 클래스 개수까지의 정수 값을 가질 수 있다.  

선형 회귀의 값을 선형 분류의 값으로 설정할 수 있다.  
