**This notebook is an exercise in the [Introduction to Machine Learning](https://www.kaggle.com/learn/intro-to-machine-learning) course.  You can reference the tutorial at [this link](https://www.kaggle.com/dansbecker/your-first-machine-learning-model).**

---


## Recap
So far, you have loaded your data and reviewed it with the following code. Run this cell to set up your coding environment where the previous step left off.

### 요약
지금까지 데이터를 로드하고 다음 코드로 검토했습니다. 이 셀을 실행하여 이전 단계가 중단된 코딩 환경을 설정합니다.

In [1]:
# Code you have previously used to load data
import pandas as pd

# Path of the file to read
iowa_file_path = '../input/home-data-for-ml-course/train.csv'

home_data = pd.read_csv(iowa_file_path)

# Set up code checking
from learntools.core import binder
binder.bind(globals())
from learntools.machine_learning.ex3 import *

print("Setup Complete")
home_data

# Exercises

## Step 1: Specify Prediction Target
Select the target variable, which corresponds to the sales price. Save this to a new variable called `y`. You'll need to print a list of the columns to find the name of the column you need.

### 1단계: 예측 대상 지정
판매 가격에 해당하는 대상 변수를 선택합니다. 이것을 y라는 새 변수에 저장합니다. 필요한 열의 이름을 찾으려면 열 목록을 인쇄해야 합니다.

In [2]:
# 데이터 세트의 열 목록을 인쇄하여 예측 대상의 이름을 찾습니다.

In [3]:
#독립변수 설정
y = home_data.SalePrice

# Check your answer
step_1.check()

In [4]:
# The lines below will show you a hint or the solution.
# step_1.hint() 
# step_1.solution()

## Step 2: Create X
Now you will create a DataFrame called `X` holding the predictive features.

Since you want only some columns from the original data, you'll first create a list with the names of the columns you want in `X`.

You'll use just the following columns in the list (you can copy and paste the whole list to save some typing, though you'll still need to add quotes):

이제 예측 기능을 보유하는 X라는 DataFrame을 생성합니다.

원본 데이터의 일부 열만 원하므로 먼저 X에서 원하는 열의 이름으로 목록을 만듭니다.

목록에서 다음 열만 사용할 것입니다(전체 목록을 복사하여 붙여넣어 일부 입력을 저장할 수 있지만 여전히 따옴표를 추가해야 함).

  * LotArea
  * YearBuilt
  * 1stFlrSF
  * 2ndFlrSF
  * FullBath
  * BedroomAbvGr
  * TotRmsAbvGrd

After you've created that list of features, use it to create the DataFrame that you'll use to fit the model.

해당 기능 목록을 만든 후에는 이 목록을 사용하여 모델을 맞추는 데 사용할 DataFrame을 만듭니다.

In [5]:
# Create the list of features below
feature_names = ['LotArea','YearBuilt','1stFlrSF','2ndFlrSF','FullBath','BedroomAbvGr','TotRmsAbvGrd']

# Select data corresponding to features in feature_names
# feature_names의 기능에 해당하는 데이터 선택
X = home_data[feature_names]

# Check your answer
step_2.check()

In [6]:
# step_2.hint()
# step_2.solution()

## Review Data
Before building a model, take a quick look at **X** to verify it looks sensible

모델을 구축하기 전에 X를 간단히 살펴보고 합리적으로 보이는지 확인하십시오.

In [7]:
# Review data
# print description or statistics from X
#print(_)
X.describe()

In [21]:
# print the top few lines
#print(_)
print(X.head())

## Step 3: Specify and Fit Model
Create a `DecisionTreeRegressor` and save it iowa_model. Ensure you've done the relevant import from sklearn to run this command.

Then fit the model you just created using the data in `X` and `y` that you saved above.

### 3단계: 모델 지정 및 피팅

DecisionTreeRegressor를 만들고 iowa_model에 저장합니다. 
이 명령을 실행하기 위해 sklearn에서 관련 가져오기를 수행했는지 확인하십시오.

그런 다음 위에서 저장한 X 및 y의 데이터를 사용하여 방금 생성한 모델을 피팅합니다.

In [16]:
from sklearn.tree import DecisionTreeRegressor
#specify the model. 
#For model reproducibility, set a numeric value for random_state when specifying the model
# 모델 재현성을 위해 모델 지정 시 random_state에 숫자 값을 설정합니다.
iowa_model = DecisionTreeRegressor(random_state=1)

# Fit the model
iowa_model.fit(X,y)

# Check your answer
step_3.check()

**random_state: 호출할 때마다 같은 학습/테스트 용 데이터 세트를 생성하기 위해 주어지는 난수 발생 값**

random_state=1 이라고 하면 바로 이 random 함수의 seed 값을 고정시키기 때문에 여러번 수행하더라도 같은 레코드를 추출. random 함수의 seed값을 random_state라고 생각

random_state를 어떤 값으로 해도 상관없음.  이는 random값을 고정하는 역할만 수행

In [10]:
# step_3.hint()
# step_3.solution()

## Step 4: Make Predictions
Make predictions with the model's `predict` command using `X` as the data. Save the results to a variable called `predictions`.

### 4단계: 예측하기
X를 데이터로 사용하여 모델의 예측 명령으로 예측을 수행합니다. 예측이라는 변수에 결과를 저장합니다.

In [20]:
predictions = iowa_model.predict(X)
print(predictions)

# Check your answer
step_4.check()

In [12]:
# step_4.hint()
# step_4.solution()

## Think About Your Results

Use the `head` method to compare the top few predictions to the actual home values (in `y`) for those same homes. Anything surprising?

### 결과에 대해 생각하기
head 방법을 사용하여 상위 몇 개 예측을 동일한 주택에 대한 실제 주택 가치(y 단위)와 비교합니다. 놀라운 점?

In [13]:
# You can write code in this cell


It's natural to ask how accurate the model's predictions will be and how you can improve that. That will be you're next step.

모델의 예측이 얼마나 정확하고 어떻게 개선할 수 있는지 묻는 것은 자연스러운 일입니다. 그것이 당신이 다음 단계가 될 것입니다.

# Keep Going

You are ready for **[Model Validation](https://www.kaggle.com/dansbecker/model-validation).**


---




*Have questions or comments? Visit the [course discussion forum](https://www.kaggle.com/learn/intro-to-machine-learning/discussion) to chat with other learners.*