In [None]:
'''
회기분석(rgressin analysis) : 하나 이상의 독립변수가 종속 변수에 미치는 영향력을 예측하는 분석
회기식(분석결과) : 독립변수와 종속 변수 사이의 구체적인 관계를 나타내는 식
직선의 회귀식을 찾는 회기분석을 선회회기(linear regression)라 함
독립변수 = 특성, 종속변수 = 타깃
'''

In [5]:
# 사이킷런 라이브러리 내 캘리포니아 주택 데이터 세트

from sklearn import datasets

housing = datasets.fetch_california_housing()

print(housing.keys())



dict_keys(['data', 'target', 'frame', 'target_names', 'feature_names', 'DESCR'])


In [13]:
print('데이터:\n',housing['data'])

데이터:
 [[   8.3252       41.            6.98412698 ...    2.55555556
    37.88       -122.23      ]
 [   8.3014       21.            6.23813708 ...    2.10984183
    37.86       -122.22      ]
 [   7.2574       52.            8.28813559 ...    2.80225989
    37.85       -122.24      ]
 ...
 [   1.7          17.            5.20554273 ...    2.3256351
    39.43       -121.22      ]
 [   1.8672       18.            5.32951289 ...    2.12320917
    39.43       -121.32      ]
 [   2.3886       16.            5.25471698 ...    2.61698113
    39.37       -121.24      ]]


In [9]:
print('특성 이름:', housing['feature_names'])

'''
캘리포니아 데이터 세트의 특성
MedInc        블록 그룹의 평균 소득
HouseAge      블록 그룹의 평균 주택 연령
AveRooms      가구당 평균 방 수
AveBedrms     가구당 평균 침실 수
Population    블록 그룹의 인구
AveOccup      평균 가구 구성원 수
Latitude      블록 그룹의 위도
Longitude     블록 그룹의 경도
'''

특성 이름: ['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'Latitude', 'Longitude']


In [14]:
print('타깃:\n', housing['target'])
print('타깃 이름:\n', housing['target_names'])

타깃:
 [4.526 3.585 3.521 ... 0.923 0.847 0.894]
타깃 이름:
 ['MedHouseVal']


In [12]:
print('데이터 크기:', housing['data'].shape)
print('타깃 크기:', housing['target'].shape)

데이터 크기: (20640, 8)
타깃 크기: (20640,)


In [15]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(housing['data'], housing['target'],
                                                    random_state=0)
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)


(15480, 8) (15480,)
(5160, 8) (5160,)


In [17]:
'''
사이킷런의 LinearRegression함수를 사용해 선형 회기 모델 설정
from sklearn.neighbors import LinearRegression
LinearRegression()
'''

from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(X_train, y_train)

In [34]:
pred = lr.predict(X_test)
print('테스트 세트 예측 값 :\n', np.round(pred[:10],3))
print('테스트 세트 실제 타깃 :\n', y_test[:10])

테스트 세트 예측 값 :
 [2.278 2.796 1.909 1.026 2.959 2.097 2.994 3.067 2.986 2.39 ]
테스트 세트 실제 타깃 :
 [1.369 2.413 2.007 0.725 4.6   1.2   2.47  3.369 3.397 2.656]


In [32]:
print(f'훈련 세트 정확도 : {lr.score(X_train,y_train):.3f}')
print(f'테스트 세트 정확도 : {lr.score(X_test,y_test):.3f}')

훈련 세트 정확도 : 0.611
테스트 세트 정확도 : 0.591


In [31]:
# 절편(intercept) : 시작값(intercept_ 변수에 저장)
# 기울기(coefficient) 또는 가중치(weight) (coef_ 변수에 저장)

import numpy as np

print('절편:', lr.intercept_)
print('계수:', np.round(lr.coef_,3))

절편: -36.609593778714334
계수: [ 0.439  0.01  -0.103  0.617 -0.    -0.004 -0.417 -0.431]
