## Selecting Data for Modeling

* dataset의 모든 변수/컬럼 확인

In [14]:
import pandas as pd

melbourne_file_path = '../input/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
melbourne_data.columns
#melbourne_data.Rooms.count() #13580

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

<br>
* dropna(): 값이 없는 데이터를 가진 행(axis=0)/열(axis=1)을 제거
    * na: not available

In [15]:
melbourne_data = melbourne_data.dropna(axis=0)
#melbourne_data.Rooms.count() #6196

## Selecting The Prediction Target

* dot-notation으로 prediction target을 뽑음
* 일반적으로 prediction target을 y로 표현

In [40]:
y = melbourne_data.Price
#y #index value -> 1 1035000.0

## Choosing "Features"

* features: 모델에 입력되는 컬럼들(예측에 사용됨)
* list에 feature로 사용할 컬럼들의 이름을 담아서 사용
* 일반적으로 feature로 사용되는 data를 X로 표현

In [23]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']
X = melbourne_data[melbourne_features]

<br>
* 결과적으로, 집 값 예측에 사용되는 데이터는 다음과 같음

In [24]:
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


<br>
* head(self, n=5): (비어있는 값이 없는)상위 n개 데이터 출력
* tail(self, n=5): (비어있는 값이 없는)하위 n개 데이터 출력

In [35]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


In [36]:
X.tail()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
12205,3,2.0,972.0,-37.51232,145.13282
12206,3,1.0,179.0,-37.86558,144.90474
12207,1,1.0,0.0,-37.85588,144.89936
12209,2,1.0,0.0,-37.85581,144.99025
12212,6,3.0,1087.0,-37.81038,144.89389


<br><br>
## Building Your Model

* scikit-learn은 DataFrame 타입의 데이터를 쉽게 모델링할 수 있는 라이브러리
* 모델 생성 & 사용 순서
    * Define: 모델의 타입 정의(Decision Tree, or ...)
    * Fit: 주어진 데이터에서 패턴 인식(모델링의 핵심)
    * Predict: 예측
    * Evaluate: 모델의 예측 정확도 평가

<br>
* scikit-learn으로 Decision Tree 모델을 정의하고, fitting하는 예제

In [44]:
from sklearn.tree import DecisionTreeRegressor
## Define model. Specify a number for random_state to ensure same results each run
melborune_model = DecisionTreeRegressor(random_state=1)
## Fit mode
melborune_model.fit(X, y)

DecisionTreeRegressor(criterion='mse', max_depth=None, max_features=None,
                      max_leaf_nodes=None, min_impurity_decrease=0.0,
                      min_impurity_split=None, min_samples_leaf=1,
                      min_samples_split=2, min_weight_fraction_leaf=0.0,
                      presort=False, random_state=1, splitter='best')

<br>
* 많은 머신러닝 모델들이 학습할 때 랜덤성을 허용함
* 실행마다 같은 결과를 보장하기 위해 random_state에 특정 값을 줌
* random_state에 어떤 값을 선택해도 모델의 퀄리티에는 크게 영향을 미치지 않음

In [45]:
print("Making predictions for the follwing 5 houses:")
print(X.head())
print("The predictions are")
print(melborune_model.predict(X.head()))

Making predictions for the follwing 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
The predictions are
[1035000. 1465000. 1600000. 1876000. 1636000.]
