In [1]:
# Regression
# 파이썬의 머신러닝 라이브러리 scikit-learn
# datasets 패키지에 시험용 데이터가 여러개 있는데 그 중 캘리포니아 집값 데이터를 사용

from sklearn.datasets import fetch_california_housing
from sklearn.linear_model import LinearRegression, Ridge, Lasso



## 아래 코드는 어떤 방식의 머신러닝 모델을 사용해도 대부분 동일하게 사용 가능
california = fetch_california_housing()
X = california.data
y = california.target

## 데이터의 상세는 DESCR속성을 이용해 확인 가능
## print(california_housing.DESCR)

In [2]:
## Linear Regression

## 학습 인스턴스 생성
lr1 = LinearRegression()
## 인스턴스에 대해 학습하는 fit 메소드
## 특징 벡터 집합 X, 정답 정보 y를 인수로 넣어줌
lr1.fit(X, y)

print("Linear Regression")

## 선형회귀식이 얻어지므로, 값을 예측하고 싶은 데이터를 인수로 해서 predict 메소드를 불러내면 예측값을 출력해준다.
lr1.predict(X[:4, :])


for f, w in zip(california.feature_names, lr1.coef_):
    print("{0:7s}: {1:6.2f}".format(f, w))

print("coef = {0:4.2f}".format(sum(lr1.coef_**2)))

Linear Regression
MedInc :   0.44
HouseAge:   0.01
AveRooms:  -0.11
AveBedrms:   0.65
Population:  -0.00
AveOccup:  -0.00
Latitude:  -0.42
Longitude:  -0.43
coef = 0.98


In [3]:
## Ridge 회귀
## 동일한 순서를 리지 회귀로 해 본다
lr2 = Ridge(alpha=20)
lr2.fit(X, y)

print("\nRidge Regression")

for f, w in zip(california.feature_names, lr2.coef_):
    print("{0:7s}: {1:6.2f}".format(f, w))

print("coef = {0:4.2f}".format(sum(lr2.coef_**2)))


Ridge Regression
MedInc :   0.43
HouseAge:   0.01
AveRooms:  -0.10
AveBedrms:   0.63
Population:  -0.00
AveOccup:  -0.00
Latitude:  -0.42
Longitude:  -0.43
coef = 0.96


In [4]:
## Lasso 회귀

lr3 = Lasso(alpha=0.01)
lr3.fit(X, y)

print("\nLasso Regression")

for f, w in zip(california.feature_names, lr3.coef_):
    print("{0:7s}: {1:6.2f}".format(f, w))

print("coef = {0:4.2f}".format(sum(lr3.coef_**2)))




Lasso Regression
MedInc :   0.40
HouseAge:   0.01
AveRooms:  -0.04
AveBedrms:   0.27
Population:  -0.00
AveOccup:  -0.00
Latitude:  -0.41
Longitude:  -0.42
coef = 0.58
