# 모델링을 위한 데이터 선정
### 데이터에는 수많은 변수가 존재한다. 어떤 변수가 존재할까?

In [1]:
# 판다스 라이브러리 호출
import pandas as pd
melbourne_file_path = './data/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

### 해당 데이터에는 결측치가 존재한다. 해당 결측치를 제거해보자.

In [2]:
melbourne_data = melbourne_data.dropna(axis=0)

### .(dot-notation)으로 Series형태로 어떤 열을 불러오기 가능. 
 - 우리의 Target인 Price를 Series형태로 가져와보자.

In [3]:
y = melbourne_data.Price

### 모델링에 들어가는 Target이 아닌 변수: feature.
 - 여러 feature들을 선택해보자.

In [5]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']
X = melbourne_data[melbourne_features]
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [6]:
'''
데이터를 시각적으로 보는 것은 매우 중요하다. 데이터의 상위 5개를 살펴보자.
'''
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


# sklearn을 활용해 모델링하기

## 절차
 - 1. 모델정의: 어떤 모델을 쓸 것인가?
 - 2. 모델을 훈련
 - 3. test data로 모델 예측
 - 4. test data를 통한 모델 평가

In [7]:
from sklearn.tree import DecisionTreeRegressor
'''
random_state로 모델의 "무작위성" 성질을 고정
'''
melbourne_model = DecisionTreeRegressor(random_state=1) # 1. 모델정의
melbourne_model.fit(X, y) # 2. 모델훈련

DecisionTreeRegressor(random_state=1)

In [8]:
# 모델 Test
print("Making predictions for the following 5 houses:")
print(X.head())
print("The predictions are")
print(melbourne_model.predict(X.head())) # 3. 모델 예측

Making predictions for the following 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
The predictions are
[1035000. 1465000. 1600000. 1876000. 1636000.]
