In [None]:
import numpy as np # 연산을 위한 numpy
import pandas as pd # 데이터프레임을 위한 pandas

In [None]:
from sklearn.datasets import fetch_california_housing # california_housing 데이터 셋.
from sklearn.model_selection import train_test_split # 데이터셋을 train 데이터와 test 데이터로 나눠주는 함수.
from sklearn.linear_model import Ridge # ridge 회귀 알고리즘을 사용.
from sklearn.metrics import mean_squared_error # 성능 비교를 위한 MSE 함수.

In [None]:
dataset = fetch_california_housing() # california_housing 데이터셋을 불러오는 함수. 데이터셋 변수에 저장.

print(dataset.DESCR) # 해당 데이터셋에 대한 정보를 출력.

.. _california_housing_dataset:

California Housing dataset
--------------------------

**Data Set Characteristics:**

    :Number of Instances: 20640

    :Number of Attributes: 8 numeric, predictive attributes and the target

    :Attribute Information:
        - MedInc        median income in block group
        - HouseAge      median house age in block group
        - AveRooms      average number of rooms per household
        - AveBedrms     average number of bedrooms per household
        - Population    block group population
        - AveOccup      average number of household members
        - Latitude      block group latitude
        - Longitude     block group longitude

    :Missing Attribute Values: None

This dataset was obtained from the StatLib repository.
https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html

The target variable is the median house value for California districts,
expressed in hundreds of thousands of dollars ($100,000).

This dataset was derived

In [None]:
x_data = pd.DataFrame(dataset.data, columns=dataset.feature_names) # 데이터셋의 데이터를 데이터프레임의 형태로 변환하여 져장.
y_data = pd.DataFrame(dataset.target) # 데이터셋의 타겟을 데이터프레임의 형태로 변환하여 저장.

# 데이터 출력.
print(x_data)
print(y_data)

       MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  Latitude  \
0      8.3252      41.0  6.984127   1.023810       322.0  2.555556     37.88   
1      8.3014      21.0  6.238137   0.971880      2401.0  2.109842     37.86   
2      7.2574      52.0  8.288136   1.073446       496.0  2.802260     37.85   
3      5.6431      52.0  5.817352   1.073059       558.0  2.547945     37.85   
4      3.8462      52.0  6.281853   1.081081       565.0  2.181467     37.85   
...       ...       ...       ...        ...         ...       ...       ...   
20635  1.5603      25.0  5.045455   1.133333       845.0  2.560606     39.48   
20636  2.5568      18.0  6.114035   1.315789       356.0  3.122807     39.49   
20637  1.7000      17.0  5.205543   1.120092      1007.0  2.325635     39.43   
20638  1.8672      18.0  5.329513   1.171920       741.0  2.123209     39.43   
20639  2.3886      16.0  5.254717   1.162264      1387.0  2.616981     39.37   

       Longitude  
0        -122.23  
1

In [None]:
# x_data 의 행과 열의 크기를 출력.
print(x_data.shape)

(20640, 8)


In [None]:
# x_data 에서 샘플의 개수, 평균, 표준 편차, 최소값, 샘플 중 25%의 값, 50%의 값, 75%의 값, 최대값 출력.
print(x_data.describe())

             MedInc      HouseAge      AveRooms     AveBedrms    Population  \
count  20640.000000  20640.000000  20640.000000  20640.000000  20640.000000   
mean       3.870671     28.639486      5.429000      1.096675   1425.476744   
std        1.899822     12.585558      2.474173      0.473911   1132.462122   
min        0.499900      1.000000      0.846154      0.333333      3.000000   
25%        2.563400     18.000000      4.440716      1.006079    787.000000   
50%        3.534800     29.000000      5.229129      1.048780   1166.000000   
75%        4.743250     37.000000      6.052381      1.099526   1725.000000   
max       15.000100     52.000000    141.909091     34.066667  35682.000000   

           AveOccup      Latitude     Longitude  
count  20640.000000  20640.000000  20640.000000  
mean       3.070655     35.631861   -119.569704  
std       10.386050      2.135952      2.003532  
min        0.692308     32.540000   -124.350000  
25%        2.429741     33.930000   -1

In [None]:
# train, test 데이터를 8 : 2 로 나눔.
x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.2, random_state=22)

# train 데이터 출력.
print(x_train)
print(y_train)

       MedInc  HouseAge   AveRooms  AveBedrms  Population  AveOccup  Latitude  \
2115   2.3006      23.0   5.081746   1.087302      3573.0  2.835714     36.76   
1985   2.3319      13.0   5.456121   1.120260      2243.0  2.430119     38.70   
4520   1.0333      18.0   3.651376   1.041284       547.0  2.509174     34.04   
15323  2.7386      12.0   5.305160   1.220641      3015.0  2.682384     33.21   
12560  1.8333      48.0   5.720000   1.171429       605.0  3.457143     38.54   
...       ...       ...        ...        ...         ...       ...       ...   
13970  2.6094      19.0  14.740437   3.333333       981.0  2.680328     34.26   
9181   6.7760      21.0   6.753372   1.024085      3331.0  3.209056     34.37   
18911  3.7240      15.0   5.151276   1.068651      5008.0  3.042527     38.14   
15956  3.9167      41.0   5.277592   1.173913      1159.0  3.876254     37.71   
11125  2.9583      35.0   3.863354   1.006211      1603.0  4.978261     33.84   

       Longitude  
2115    

In [None]:
# test 데이터 출력.
print(x_test)
print(y_test)

       MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  Latitude  \
13186  2.7250      28.0  5.484733   1.125954       724.0  2.763359     34.09   
4384   2.9709      44.0  4.234611   1.059233      1783.0  2.070848     34.09   
16198  1.4250      43.0  3.690909   1.018182      1805.0  4.102273     37.96   
7656   3.6477      28.0  4.928364   1.039690      4753.0  4.601162     33.82   
4889   2.2356      39.0  3.061404   1.017544      1046.0  4.587719     34.02   
...       ...       ...       ...        ...         ...       ...       ...   
19042  3.9309      18.0  6.318881   1.156643      2230.0  3.118881     38.49   
14987  3.4784      32.0  5.223881   0.994030       997.0  2.976119     32.73   
13756  1.8152      17.0  4.223660   1.024030      1412.0  2.609982     34.06   
15457  6.2096      14.0  5.365079   0.936508       384.0  3.047619     33.18   
2639   2.1780      17.0  5.111301   1.044521      1544.0  2.643836     40.59   

       Longitude  
13186    -117.69  
4

In [None]:
# ridge 회귀 알고리즘을 사용. alpha(L2 규제 계수, 람다) = 10
estimator = Ridge(alpha=10)

In [None]:
# 인공지능 모델을 학습시킴.
estimator.fit(x_train, y_train)

Ridge(alpha=10)

In [None]:
y_predict = estimator.predict(x_train) # 학습시킨 인공지능 모델에 x_train 데이터를 입력으로 하여 예측.
score = mean_squared_error(y_train, y_predict) # 실제 정답과 인공지능이 예측하여 출력한 답과 비교하여 MSE를 계산.
print(score) # 점수 출력.

0.5286386345562331


In [None]:
y_predict = estimator.predict(x_test) # 학습시킨 인공지능 모델에 x_test 데이터를 입력으로 하여 예측.
score = mean_squared_error(y_test, y_predict) # 실제 정답과 인공지능이 예측하여 출력한 답과 비교하여 MSE를 계산.
print(score) # 점수 출력.

0.5076049204644386
