In [1]:
import numpy as np

## Boston Housing Dataset

이번 과제는 보스턴시의 주택 가격과 관련 데이터를 활용하여 보스턴 시의 집값을 예측하는 문제를 푸는 것입니다. Single-layer Neural Network를 활용하여 보스턴의 집값을 예측하는 알고리즘을 구현하세요.

각 컬럼에 대한 설명은 다음과 같습니다. 출처: [ai-times](http://ai-times.tistory.com/431 [ai-times])

  * **CRIM**: 자치 시(town) 별 1인당 범죄율
  * **ZN**: 25,000 평방피트를 초과하는 거주지역의 비율
  * **INDUS**: 비소매상업지역이 점유하고 있는 토지의 비율
  * **CHAS**: 찰스강의 경계에 위치해 있으면 1, 그렇지 않으면 0
  * **NOX**: 10ppm당 농축 일산화질소
  * **RM**: 주택 1가구당 평균 방의 개수
  * **AGE**: 1940년 이전에 건축된 소유주택의 비율
  * **DIS**: 5개의 보스턴 직업센터까지의 접근성 지수
  * **RAD**: 방사형 도로까지의 접근성 지수
  * **TAX**: 10,000 달러 당 재산세율
  * **PTRATIO**: 자치 시(town)별 학생/교사 비율
  * **B**: 1000(Bk-0.63)^2, 여기서 Bk는 자치시별 흑인의 비율을 말함.
  * **LSTAT**: 모집단의 하위계층 비율(%)
  * **MEDV**: 본인 소유의 주택가격(중앙값) (단위: $1,000)
  
** 주의 사항 **
  * **MEDV**가 label(y), 나머지가 feature(X)라고 가정하고 문제를 풀어주세요.
  * **한 번에 너무 잘 풀려는 시도를 하지 마세요.** 처음에는 어떻게든 동작하는 코드를 만드는데 집중하고, 그 다음에 코드를 개성하세요.
  * 현실 데이터는 이전에 우리가 다룬 가상의 데이터와 다르기 때문에, error가 0에 가깝게 내려가지 않을 수도 있습니다. (```error = np.abs(y_predict - y).mean()```) **Boston Housing Dataset에서 error는 5 미만으로 내려가면 충분합니다. ** (=$5,000)
  * error가 수렴하지 않고 발산한다면, **learning_rate를 작게 조정해보세요**.

In [2]:
from sklearn.datasets import load_boston

boston = load_boston()

In [3]:
X = boston["data"]

print(X.shape)
X[0]

(506, 13)


array([  6.32000000e-03,   1.80000000e+01,   2.31000000e+00,
         0.00000000e+00,   5.38000000e-01,   6.57500000e+00,
         6.52000000e+01,   4.09000000e+00,   1.00000000e+00,
         2.96000000e+02,   1.53000000e+01,   3.96900000e+02,
         4.98000000e+00])

In [4]:
y = boston["target"]
print(y.shape)
y[0:10]

(506,)


array([ 24. ,  21.6,  34.7,  33.4,  36.2,  28.7,  22.9,  27.1,  16.5,  18.9])

In [5]:
import pandas as pd

data = pd.DataFrame(X, columns=boston["feature_names"])
data["MEDV"] = y

print(data.shape)
data.head()

(506, 14)


Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


### Gradient Descent

In [6]:
x1 = X[:, 0] # CRIM
x2 = X[:, 1] # ZN
x3 = X[:, 2] # INDUS
x4 = X[:, 3] # CHAS
x5 = X[:, 4] # NOX
x6 = X[:, 5] # RM
x7 = X[:, 6] # AGE
x8 = X[:, 7] # DIS
x9 = X[:, 8] # RAD
x10 = X[:, 9] # TAX
x11 = X[:, 10] # PTRATIO
x12 = X[:, 11] # B
x13 = X[:, 12] # LSTAT

In [7]:
# your code here
# 여기에 Single-layer Neural Network 코드를 작성하여 보스턴 집값 문제를 풀어보세요!

### Gradient Descent (use dot product)

만일 위의 과제가 너무 쉽다는 생각이 들면, **matrix의 [dot product](https://mathinsight.org/dot_product_matrix_notation)를 활용하여 문제를 풀어보세요.** dot product의 사용법은 다음과 같습니다.

In [8]:
X_temp = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

print(X_temp.shape)
X_temp

(3, 3)


array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [9]:
w_temp = np.array([2, 4, 8])

print(w_temp.shape)
w_temp

(3,)


array([2, 4, 8])

In [10]:
b_temp = np.array([0.1])

In [11]:
y_predict = X_temp.dot(w_temp) + b_temp

print(y_predict.shape)
y_predict

(3,)


array([  34.1,   76.1,  118.1])

In [12]:
# your code here
# 여기에 Single-layer Neural Network에 dot product를 활용하여 보스턴 집값 문제를 풀어보세요!