## Selecting Data for Modeling

In [17]:
import pandas as pd

melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [20]:
melbourne_data = melbourne_data.dropna(axis=0)

## Selecting The Prediction Target

점 표기법(dot-notation)을 사용해서 변수를 꺼낼 수 있다. 이 단일 열은 하나의 데이터 열만 있는 DataFrame과 대체로 유사한 Series(시계열)에 저장된다. <br><br>
점 표기법을 사용하여 예측할 열을 선택한다. 이를 prediction target이라고 한다.
일반적으로 예측 대상을 y라고 한다.

In [21]:
y = melbourne_data.Price

## Choosing "Features"

모델에 입력되는 columns은 features라고 불린다.

In [22]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

보통 이 데이터를 X 라고 부른다.

In [23]:
X = melbourne_data[melbourne_features]

```describe```메서드와 ```head``` 메서드를 통해 데이터를 쉽게 살펴볼 수 있다.

In [24]:
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [25]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


## Building Your Model

scikit-learn 라이브러리를 사용해 모델을 만든다.scikit-learn은 일반적으로 DataFrame에 저장된 데이터 type을 모델링하는 가장 인기 있는 라이브러리다.
<br><br>

모델을 구축하고 사용하는 단계
- Define : 어떤 모델을 사용할 것인지, 모델의 파라미터들을 선택한다
- Fit : 제공된 데이터의 패턴을 캡처
- Predict : 예측
- Evaluate : 모델의 예측이 얼마나 정확한지

In [28]:
from sklearn.tree import DecisionTreeRegressor

melbourne_model = DecisionTreeRegressor(random_state=1)

melbourne_model.fit(X, y)

DecisionTreeRegressor(random_state=1)

많은 machine learning 모델들은 모델 학습에서 랜덤성을 가진다. ```random_state```를 정해주면 매번 같은 결과를 가져올 수 있다. 이것은 연습할 때 좋다. 모델의 품질이 크게 달라지지는 않는다.

In [29]:
print("Making predictions for the following 5 houses:")
print(X.head())
print("The predictions are")
print(melbourne_model.predict(X.head()))

Making predictions for the following 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
The predictions are
[1035000. 1465000. 1600000. 1876000. 1636000.]
