## LinearRegression을 이용해 캘리포니아 주택 가격 회귀 구현

### 캘리포니아 주택 가격 불러오기.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from scipy import stats
from sklearn.datasets import fetch_california_housing
import warnings
warnings.filterwarnings('ignore')

%matplotlib inline

# boston 데이터 세트 로드
california = fetch_california_housing()

# boston 데이터 세트 DataFrame 변환
californiaDF = pd.DataFrame(california.data, columns = california.feature_names)

# boston 데이터 세트의 target 배열은 주택 가격임. 이를 PRICE 칼럼으로 DataFrame에 추가함.
californiaDF['PRICE'] = california.target
print('California 데이터 세트 크기 :', californiaDF.shape)
californiaDF.head()

California 데이터 세트 크기 : (20640, 9)


Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,PRICE
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


### 종속변수와 독립변수 분리

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

y_target = californiaDF['PRICE'] # y_target에 종속변수를 넣어주세요.
X_data = californiaDF.drop(['PRICE'], axis = 1, inplace = False) # X_data에 독립변수를 넣어주세요.(힌트 : 종속변수를 제외한 모든 변수가 독립변수가 됩니다!)

X_train, X_test, y_train, y_test = train_test_split(X_data, y_target, test_size=0.3, random_state=2)


### LR 학습 및 예측

In [5]:
# 선형 회귀 OLS로 학습/예측/평가 수행.
lr = LinearRegression()
lr.fit(X_train, y_train)

y_preds = lr.predict(X_test)
mse = mean_squared_error(y_test, y_preds)
rmse = np.sqrt(mse)

print('MSE : {0:.3f}, RMSE : {1:.3F}'.format(mse,rmse))
print('Variance score : {0:.3f}'.format(r2_score(y_test, y_preds)))

MSE : 0.539, RMSE : 0.734
Variance score : 0.602


### 회귀 계수들 Series 작성

In [4]:
# 회귀 계수를 큰 값 순으로 정렬하기 위해 Series로 생성. 인덱스 칼럼명에 유의
coeff = pd.Series(data= lr.coef_, index= X_data.columns)
coeff.sort_values(ascending=False)

AveBedrms     0.611526
MedInc        0.442798
HouseAge      0.009073
Population   -0.000004
AveOccup     -0.003927
AveRooms     -0.115072
Latitude     -0.407213
Longitude    -0.420488
dtype: float64


- 가장 큰 회귀 계수의 변수 : AveBedrms

- 가장 작은 회귀 계수의 변수 : Longitude