# import 및 데이터 load

In [3]:
# 데이터 전처리 패키지
import numpy as np
import pandas as pd

# 기계학습 모델 구축 및 평가 패키지
import scipy as sp
import scipy.stats as stats

import statsmodels.api as sm
from statsmodels.formula.api import ols

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

# 데이터 시각화 패키지
import seaborn as sns
import matplotlib.pyplot as plt

boston = pd.read_csv("house_price.csv") #보스턴 데이터 불러오기

# 데이터 구조 파악 하기!

In [4]:
#데이터 확인
boston

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV,CAT.MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.0900,1,296,15.3,396.90,4.98,24.0,0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.90,9.14,21.6,0
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7,1
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4,1
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.90,5.33,36.2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
501,0.06263,0.0,11.93,0,0.573,6.593,69.1,2.4786,1,273,21.0,391.99,9.67,22.4,0
502,0.04527,0.0,11.93,0,0.573,6.120,76.7,2.2875,1,273,21.0,396.90,9.08,20.6,0
503,0.06076,0.0,11.93,0,0.573,6.976,91.0,2.1675,1,273,21.0,396.90,5.64,23.9,0
504,0.10959,0.0,11.93,0,0.573,6.794,89.3,2.3889,1,273,21.0,393.45,6.48,22.0,0


In [5]:
boston.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 15 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   CRIM      506 non-null    float64
 1   ZN        506 non-null    float64
 2   INDUS     506 non-null    float64
 3   CHAS      506 non-null    int64  
 4   NOX       506 non-null    float64
 5   RM        506 non-null    float64
 6   AGE       506 non-null    float64
 7   DIS       506 non-null    float64
 8   RAD       506 non-null    int64  
 9   TAX       506 non-null    int64  
 10  PTRATIO   506 non-null    float64
 11  B         506 non-null    float64
 12  LSTAT     506 non-null    float64
 13  MEDV      506 non-null    float64
 14  CAT.MEDV  506 non-null    int64  
dtypes: float64(11), int64(4)
memory usage: 59.4 KB


데이터 구조  
- 데이터: 1978년 보스턴 주택 가격  
- 관측치 개수: 506개
- 변수 개수: feature 13개 / target 1개

독립 변수(feature)
- CRIM: 범죄율  
- INDUS: 비소매상업지역 면적 비율  
- NOX: 일산화질소 농도  
- RM: 주택당 방 수  
- LSTAT: 인구 중 하위 계층 비율  
- B: 인구 중 흑인 비율  
- PTRATIO: 학생/교사 비율  
- ZN: 25,000 평방피트를 초과 거주지역 비율  
- CHAS: 찰스강의 경계에 위치한 경우는 1, 아니면 0  
- AGE: 1940년 이전에 건축된 주택의 비율  
- RAD: 방사형 고속도로까지의 거리  
- DIS: 직업센터의 거리  
- TAX: 재산세율  

종속 변수(target)
- MEDV: 주택가격

In [6]:
## CAT.MEDV는 MEDV에서 파생된 컬럼이라서 drop하기

boston.drop(labels="CAT.MEDV",axis=1,inplace=True)

In [7]:
## CHAS, RM도 제외하고 진행

boston.drop(labels=["CHAS", "RM"],axis=1,inplace=True)

# 종속 변수 / 독립 변수로 데이터셋을 나누기!!

In [8]:
# 데이터 프레임 형태로 변환

## 독립변수
X = boston.drop(labels='MEDV',axis=1)

## 종속변수
y = boston["MEDV"]

# 나눠진 데이터셋을 각각 훈련데이터 / 테스트 데이터로 또 나누기!! (train_test_split 활용)

In [9]:
# 8:2 비율로 나누고, random_state는 2021

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=2021)

# sklearn 모듈을 통해 선형 회귀 모델을 선언하고 학습 및 예측까지 해보자

In [11]:
from sklearn.linear_model import LinearRegression
#model 변수에 LinearRegression()을 저장하세요.

model = LinearRegression()

#방금 나눈 데이터중 train데이터를 fit시켜주세요.

model.fit(X_train, y_train)

#이번에는 test데이터를 이용해 predict을 하고 그 결과를 y_pred_skl변수에 저장하세요

y_pred = model.predict(X_test)

#결과 확인
y_pred

array([20.10167123, 15.78323064, 24.19804011, 13.52409229, 36.77477966,
       20.21314403, 27.8426581 , 32.4662449 , 20.23349914, 32.04621612,
       28.91392077, 26.41855909, 17.72185152, 37.75019032, 31.79211506,
       24.3623091 , 22.9948222 ,  7.12753635,  6.12102969, 34.26564987,
       22.87210472, 12.45724513, 13.56561997, 29.8342751 , 17.73256376,
       16.50031858, 23.2038726 , 24.89099343, 22.69426441, 14.56878156,
       20.10616892, 33.58900677, 12.31866992, 24.19586009, 28.15989018,
       15.44335581, 28.97800277, 16.2856917 , 32.07754608, 24.81123272,
       21.52373077, 28.69407673, 29.68382114, 29.23800986,  6.32214331,
       33.38345942, 21.93881894, 22.23399216, 24.58847804, 31.33780126,
       15.43765102, 36.70969182, 21.02505548, 30.96915922, 19.08176957,
       25.48627415, 23.35270973, 22.73405016, 30.55899095, 24.77118978,
       31.03341886, 20.80884899, 11.28692835, 28.26330676, 25.84842529,
       22.34780477, 23.51986165, 27.65068161, 23.15885841,  1.43

# 예측값에 대해 유효한 지 실제값과 비교하여 평가를 해보자!!

In [15]:
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

print(f'MSE 값 : {mean_squared_error(y_pred,y_test)}')
print(f'MAE 값 : {mean_absolute_error(y_pred,y_test)}')
print(f'r2 score 값 : {r2_score(y_pred,y_test)}')

MSE 값 : 26.88990647285992
MAE 값 : 3.8616213631721226
r2 score 값 : 0.4903859832185945


$R^2$ 값이 약 0.49이기 때문에, 선언한 회귀모델 model은 test데이터에 대해 49퍼센트 정도의 설명력을 보여준다고 판별할 수 있다.