In [None]:
from sklearn.datasets import load_boston
boston = load_boston()
print(boston.keys())  # data, feature_names : 학습데이터, target : 목적(label), DESCR : 설명서

In [None]:
# 설명서의 확인
print(boston['DESCR'])
# RM : 방 갯수

In [None]:
# 데이터를 살펴보자.
# 판다스 데이터로 정리해보자.
import pandas as pd
boston_df = pd.DataFrame(boston['data'],  # 학습 데이터
                        columns=boston['feature_names']  # 특징
                        )
boston_df
# 특징 13개 있음

# target이 나와있지 않음. 옆에 붙여주자.
boston_df['TARGET'] = boston['target']
boston_df

In [None]:
# 변수 RM, TARGET의 관계를 파악해보자.
# 시각화
import matplotlib.pyplot as plt
X_rooms = boston['data'][:, 5]  # 학습 데이터의 RM 변수의 전체 행, 5번 열
# 산점도 그리기
plt.scatter(X_rooms, boston['target'])
plt.xlabel("No of rooms")
plt.ylabel("Price/1000 (&)")
plt.show()

In [None]:
# 선형 회귀 모델의 생성
from sklearn.linear_model import LinearRegression
reg = LinearRegression()
# 학습 진행
reg.fit(X_rooms.reshape(-1, 1),  # 학습데이터
        boston['target'])  # 라벨 데이터
# 최종 목적은 회귀 선을 위한 가중치와 절편을 구하는 것
print("모델의 가중치:", reg.coef_)
print("모델의 절편:", reg.intercept_)

In [None]:
# 실제 학습 데이터와 회귀선
import numpy as np
pred_space = np.linspace(
    min(X_rooms), max(X_rooms)
).reshape(-1, 1)

# 산점도 그리기
plt.scatter(X_rooms,  # x축
           boston['target'])  # y축

# 회귀선
plt.plot(pred_space,  # x축
        reg.predict(pred_space),
        color="red"
        )  # 우리 모델의 예측값
plt.show()

In [None]:
# boston 데이터셋 모든 특성을 이용한 예측
# 학습 데이터, 테스트 데이터 분할
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    boston['data'], boston['target'],
    test_size=0.3,   # 테스트 데이터 셋 사이즈 30%
    random_state=42  # 재현성 확보를 위한 랜덤 시드
)

In [None]:
# 학습 진행
reg_all = LinearRegression()
reg_all.fit(X_train, y_train)  # 학습 데이터와 학습 라벨

In [None]:
# 가중치와 절편
print("가중치:", reg_all.coef_)
print("절편:", reg_all.intercept_)

In [None]:
# 모델 검증
print("훈련 세트 점수: {:.2f}".format(reg_all.score(X_train, y_train)))  # 학습 데이터
print("테스트 세트 점수: {:.2f}".format(reg_all.score(X_test, y_test)))  # 테스트 데이터

In [None]:
# 보스턴 데이터셋의 첫번째 데이터와 타겟
print("데이터셋 관측치:", boston['data'][0])
print("데이터셋label:", boston['target'][0])

# 모델이 예측한 예측치
reg_all.predict(boston['data'][0].reshape(1, 13))

In [None]:
# Ridge 회귀
# L2 규제를 사용하여 특성의 계수(기울기)를 최소화하는 모델
from sklearn.linear_model import Ridge
ridge = Ridge(alpha=0.1,  # 알파 계수(규제)
             normalize=True)
ridge.fit(X_train, y_train)

print("Ridge 훈련 세트 점수: {:.2f}".format(ridge.score(X_train, y_train)))  # 학습 데이터
print("Ridge 테스트 세트 점수: {:.2f}".format(ridge.score(X_test, y_test)))  # 테스트 데이터

In [None]:
# Lasso 회귀
# L1 규제를 사용하고 특정 계수를 0으로 만들어서 영향을 없애는 효과(특성 선택)
from sklearn.linear_model import Lasso
lasso = Lasso(alpha=0.1,  # 규제 계수
             normalize=True)
lasso.fit(X_train, y_train)

print("Lasso 훈련 세트 점수: {:.2f}".format(lasso.score(X_train, y_train)))  # 학습 데이터
print("Lasso 테스트 세트 점수: {:.2f}".format(lasso.score(X_test, y_test)))  # 테스트 데이터
print("계수:", lasso.coef_)
# Lasso 회귀는 특정 계수를 0으로 만든다.
print("사용된 특성의 갯수:", np.sum(lasso.coef_ != 0))

In [None]:
# 분류용 선형 모델
# LinearRegression, SVC(서포트 벡터 머신)
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
cancer.keys()

In [None]:
# 데이터셋 분할
X_train, X_test, y_train, y_test = train_test_split(
    cancer['data'], cancer['target'],
    stratify=cancer.target,
    random_state=42
)

from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression().fit(X_train, y_train)
print("LogReg 훈련 세트 점수: {:.2f}".format(logreg.score(X_train, y_train)))
print("LogReg 테스트 세트 점수: {:.2f}".format(logreg.score(X_test, y_test)))

In [None]:
# SVC(서포트 벡터 머신) : 회귀, 분류 양쪽 모두에 사용
from sklearn.svm import LinearSVC
svc = LinearSVC().fit(X_train, y_train)
print("SVC 훈련 세트 점수: {:.2f}".format(svc.score(X_train, y_train)))
print("SVC 테스트 세트 점수: {:.2f}".format(svc.score(X_test, y_test)))

In [None]:
# 규제 강도에 따른 정확도
# 과적합 방지
# 선형 회귀 모델에 규제 강도별 점수
logreg100 = LogisticRegression(C=100).fit(X_train, y_train)    # 규제 C = 100
logreg = LogisticRegression().fit(X_train, y_train)            # 규제 C = 1
logreg001 = LogisticRegression(C=0.01).fit(X_train, y_train)   # 규제 C = 0.01

for c, model in zip([100, 1, 0.01], [logreg100, logreg, logreg001]):
    print("C={}".format(c))
    print("훈련 세트 점수: {:.2f}".format(model.score(X_train, y_train)))
    print("테스트 세트 점수: {:.2f}".format(model.score(X_test, y_test)))
# 기본적으로는 L2규제(Ridge)

In [None]:
# 규제 방식에 따른 정확도 확인
l1lr100 = LogisticRegression(C=100, 
                             solver="saga", 
                             penalty="l1").fit(X_train, y_train)
l1lr = LogisticRegression(solver="saga", 
                          penalty="l1").fit(X_train, y_train)
l1lr001 = LogisticRegression(C=0.01, 
                             solver="saga", 
                             penalty="l1").fit(X_train, y_train)

for c, model in zip([100, 1, 0.01], [l1lr100, l1lr, l1lr001]):
    print("L1 규제={}".format(c))
    print("훈련 세트 점수: {:.2f}".format(model.score(X_train, y_train)))
    print("테스트 세트 점수: {:.2f}".format(model.score(X_test, y_test)))