### Model Validation(모델 검증)

You've built a model. But how good is it?  
모델을 만들었는데 좋은 모델인가요?

In this lesson, you will learn to use model validation to measure the quality of your model. Measuring model quality is the key to iteratively improving your models.
이번 수업에는 모델 검증을 사용하여 모델의 품질을 측정하는 방법을 배울것 입니다. 모델 품질 측정 반복적으로 모델을 개선하는 데에 중요합니다

### What is Model Validation(모델 검증이란)
You'll want to evaluate almost every model you ever build. In most (though not all) applications, the relevant measure of model quality is predictive accuracy. In other words, will the model's predictions be close to what actually happens.   
지금까지 만든 거의 모든 모델을 평가하고 싶을 것입니다. 대부분의 어플리케이션에서(모두는 아니지만) 모델 품질과 관련된 측정값은 예측 정확성입니다.    

Many people make a huge mistake when measuring predictive accuracy. They make predictions with their training data and compare those predictions to the target values in the training data. You'll see the problem with this approach and how to solve it in a moment, but let's think about how we'd do this first.    
예측 정확도를 측정할때 대부분의 사람이 많은 실수를 합니다. 그들은 훈련 데이터로 예측을 하고 훈련 데이터의 목표값과 비교합니다.

You'd first need to summarize the model quality into an understandable way. If you compare predicted and actual home values for 10,000 houses, you'll likely find mix of good and bad predictions. Looking through a list of 10,000 predicted and actual values would be pointless. We need to summarize this into a single metric.   
우선 이해할 수 없는 방식으로 모델 품질을 요약해야 합니다. 만약 예측값과 실제 1만개의 집 값과 비교한다면 좋은 예측과 그렇지 않은것이 뒤섞인걸 찾을 수 있을것입니다.실제 값과 1만개의 예측값을 훑어보는 것은 무의미 하다. 우리는 단일 지표로 요약해야한다.   

There are many metrics for summarizing model quality, but we'll start with one called Mean Absolute Error (also called MAE). Let's break down this metric starting with the last word, error.   
모델 품질 요약하는 법에는 많은 지표가 있지만 우리는 평균절대오차라고 하는 것을 시작해볼것이다, 마지막 단어인 오차부터 지표를 분석해 볼 것입니다

The prediction error for each house is:   
각 집마다의 예측오차:
```
error=actual−predicted
```

So, if a house cost $150,000 and you predicted it would cost $100,000 the error is $50,000.
따라서 집값이 15만이고 당신의 예측한 값이 10만이면 오차는 5만이다

With the MAE metric, we take the absolute value of each error. This converts each error to a positive number. We then take the average of those absolute errors. This is our measure of model quality. In plain English, it can be said as   
MAE지표를 이용해 오차마다의 절대값이 나온다. 오차값을 양수로 변한해준다. 그리고 오차들의 절대값의 평균을 내준다.모델 품질의 측정하는 기준은 다음과 같습니다. 영어로 다음과 같이 말한다.

On average, our predictions are off by about X.   
평균적으로 예측은 약 X만큼 차이가 있다 

To calculate MAE, we first need a model. That is built in a hidden cell below, which you can review by clicking the code button.   
우선 MAE를 계산할려면 모델이 필요하다. 아래 숨겨진 셀에서 만들어진 모델을 이용하여 배워보자.

In [1]:
# Data Loading Code Hidden Here
import pandas as pd

# Load data
melbourne_file_path = r'C:\Users\kr937\Desktop\drive\Kaggle\house price data\melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 

In [2]:
# Filter rows with missing price values
filtered_melbourne_data = melbourne_data.dropna(axis=0)
# Choose target and features
y = filtered_melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = filtered_melbourne_data[melbourne_features]

In [7]:
from sklearn.tree import DecisionTreeRegressor
# Define model
DecisionTreeRegressor().fit(X,y)
# Fit model
melbourne_model.fit(X, y)

DecisionTreeRegressor()

In [10]:
melbourne_model.predict(X)

array([1035000., 1465000., 1600000., ...,  385000.,  560000., 2450000.])

Once we have a model, here is how we calculate the mean absolute error:   
모델이 만들어지면 MAE를 계산하는 방법은 다음과 같습니다.

In [11]:
from sklearn.metrics import mean_absolute_error
predicted_home_prices = melbourne_model.predict(X)
mean_absolute_error(y, predicted_home_prices)

434.71594577146544

### The Problem with "In-Sample" Scores
The measure we just computed can be called an "in-sample" score. We used a single "sample" of houses for both building the model and evaluating(평가하다) it. Here's why this is bad.   
그저 우리가 측정한 계산은 표본 내 점수라고 불립니다. 모델링하고 그것을 평가하기위해 단일 표본을 사용하였습니다.

Imagine that, in the large real estate market, door color is unrelated to home price.   
대형 부동산 시장에서 문의 색깔이 집 값과 무관하다고 생각해보자.

However, in the sample of data you used to build the model, all homes with green doors were very expensive. The model's job is to find patterns that predict home prices, so it will see this pattern, and it will always predict high prices for homes with green doors.    
그러나 당신이 구축한 모델의 데이터 샘플에서는 초록색 문의 집들이 매우 비싸다. 모델이 하는일은 집값을 예측하는 패턴을 찾으므로 초록색문의 집 값을 높게 예측하는 것이다.   

Since this pattern was derived from the training data, the model will appear accurate in the training data.   
이 패턴은 학습 데이터에서 파생되었으므로 학습데이터에서 모델이 정확하게 나타난다

But if this pattern doesn't hold when the model sees new data, the model would be very inaccurate when used in practice.    
모델이 새 데이터를 볼때 이 패턴이 유지되지 않는 경우에 이 모델을 실제로 사용할 경우 매우 부정확할 것이다.
 
Since models' practical value come from making predictions on new data, we measure performance on data that wasn't used to build the model. The most straightforward way to do this is to exclude some data from the model-building process, and then use those to test the model's accuracy on data it hasn't seen before. This data is called validation data.
모델의 실용적 가치는 새로운 데이터에 대한 예측으로부터 가져오기 때문에 우리는 모델구축에 사용되지 않은 데이터의 성능을 측정합니다. 가장 간단한 방법은 모델링 과정에서 일부 데이터를 제외시키는 것이다, 그리고 해당 데이터를 사용하여 이전에 본 적이 없는 데이터에 대한 모델의 정확도를 테스트하는 것입니다.


### Coding It
The scikit-learn library has a function train_test_split to break up the data into two pieces. We'll use some of that data as training data to fit the model, and we'll use the other data as validation data to calculate mean_absolute_error.   
sk-learn 라이브러리에는 데이터를 두 개로 나누는 train_test_split 기능이 있다. 이 데이터 중 일부는 모델에 적합한 교육 데이터로 사용하고 나머지 데이터는 검증 데이터로 사용하여 mean_absolute_error를 계산합니다.
Here is the code:

In [12]:
from sklearn.model_selection import train_test_split

# split data into training and validation data, for both features and target
# The split is based on a random number generator. Supplying a numeric value to
# the random_state argument guarantees we get the same split every time we
# run this script.
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 0)
# Define model
melbourne_model = DecisionTreeRegressor()
# Fit model
melbourne_model.fit(train_X, train_y)

DecisionTreeRegressor()

In [23]:
train_predict = melbourne_model.predict(train_X)
mean_absolute_error(train_y, train_predict)

281.4719173660426

In [22]:
# get predicted prices on validation data
val_predictions = melbourne_model.predict(val_X)
mean_absolute_error(val_y, val_predictions)

263069.2052937379

In [17]:
train_X

Unnamed: 0,Rooms,Bathroom,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude
10385,3,1.0,206.0,110.0,1980.0,-37.87107,145.04991
5805,2,1.0,0.0,73.0,2000.0,-37.85900,144.97670
8488,2,1.0,2701.0,79.0,2011.0,-37.81090,144.86840
6672,3,1.0,670.0,116.0,1940.0,-37.81340,144.87450
776,6,3.0,708.0,275.0,1988.0,-37.91810,145.04400
...,...,...,...,...,...,...,...
9510,3,1.0,118.0,177.0,1890.0,-37.81351,144.98804
6023,5,2.0,661.0,133.0,1960.0,-37.76510,144.82410
2960,4,2.0,453.0,213.0,2007.0,-37.70160,144.89740
4729,2,1.0,90.0,106.0,2007.0,-37.83570,144.93760


In [18]:
val_X

Unnamed: 0,Rooms,Bathroom,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude
4850,2,1.0,96.0,71.0,1880.0,-37.85010,144.99530
2307,2,1.0,0.0,70.0,1965.0,-37.89020,144.99070
10090,2,1.0,136.0,58.0,1892.0,-37.85542,144.99571
3645,3,2.0,205.0,184.0,1995.0,-37.79930,145.02670
4930,2,1.0,400.0,88.0,1955.0,-37.73520,144.98520
...,...,...,...,...,...,...,...
8223,2,1.0,0.0,82.0,2011.0,-37.73240,144.93770
11190,3,2.0,590.0,151.0,1981.0,-37.89628,145.22294
8563,1,1.0,1175.0,35.0,1970.0,-37.78490,144.82720
1867,2,1.0,585.0,97.0,1950.0,-37.87920,145.09480


### Wow!
Your mean absolute error for the in-sample data was about 500 dollars. Out-of-sample it is more than 250,000 dollars.   
in-sample data에서 mse값이 500 달러였지만, out-sample에선느 25만 달러를 넘겼다.

This is the difference between a model that is almost exactly right, and one that is unusable for most practical purposes. As a point of reference, the average home value in the validation data is 1.1 million dollars. So the error in new data is about a quarter of the average home value.   
이렇게 거의 정확히 맞는 모델과 대부분의 실용적인 목적에 사용할 수 없는 모델의 차이점입니다. 참고할 점은 검증 데이터의 평균 집 값이 110만 달러이다. 따라서 새로운 데이터의 오차는 평균 집 값의 1/4 수준입니다.

There are many ways to improve this model, such as experimenting to find better features or different model types.
더 나은 기능이나 다양한 모델 유형을 찾기 위해 실험하는 등 데이터를 향샹시킬 많은 방법이 있습니다.