## 보스턴 집값

In [263]:
# 모듈 로딩 
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression,Ridge,Lasso
from sklearn.preprocessing import StandardScaler,PolynomialFeatures
from sklearn.model_selection import train_test_split

In [264]:
# 데이터 불러오기
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = pd.DataFrame(np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]]))
data.columns=['CRIM','ZN','INDUS','CHAS','NOX','RM','AGE','DIS','RAD','TAX','PTRATIO','B','LSTAT']
target = pd.DataFrame(raw_df.values[1::2, 2])
target.columns=['MEDV']

In [265]:
# 데이터
print(data)

        CRIM    ZN  INDUS  CHAS    NOX     RM   AGE     DIS  RAD    TAX  \
0    0.00632  18.0   2.31   0.0  0.538  6.575  65.2  4.0900  1.0  296.0   
1    0.02731   0.0   7.07   0.0  0.469  6.421  78.9  4.9671  2.0  242.0   
2    0.02729   0.0   7.07   0.0  0.469  7.185  61.1  4.9671  2.0  242.0   
3    0.03237   0.0   2.18   0.0  0.458  6.998  45.8  6.0622  3.0  222.0   
4    0.06905   0.0   2.18   0.0  0.458  7.147  54.2  6.0622  3.0  222.0   
..       ...   ...    ...   ...    ...    ...   ...     ...  ...    ...   
501  0.06263   0.0  11.93   0.0  0.573  6.593  69.1  2.4786  1.0  273.0   
502  0.04527   0.0  11.93   0.0  0.573  6.120  76.7  2.2875  1.0  273.0   
503  0.06076   0.0  11.93   0.0  0.573  6.976  91.0  2.1675  1.0  273.0   
504  0.10959   0.0  11.93   0.0  0.573  6.794  89.3  2.3889  1.0  273.0   
505  0.04741   0.0  11.93   0.0  0.573  6.030  80.8  2.5050  1.0  273.0   

     PTRATIO       B  LSTAT  
0       15.3  396.90   4.98  
1       17.8  396.90   9.14  
2       1

In [266]:
# 타켓
print(target)

     MEDV
0    24.0
1    21.6
2    34.7
3    33.4
4    36.2
..    ...
501  22.4
502  20.6
503  23.9
504  22.0
505  11.9

[506 rows x 1 columns]


In [267]:
# 훈련/테스트 데이트 나누기
train_input,test_input,train_target,test_target=train_test_split(data,target,random_state=42)

In [268]:
# 표준화(평균 0, 표준편차 1)
ss=StandardScaler()
ss.fit(train_input)
train_scaled=ss.transform(train_input)
test_scaled=ss.transform(test_input)

In [269]:
# 모델 객체 생성 및 훈련
model=LinearRegression().fit(train_scaled,train_target)

In [270]:
# 객체 평가
print(f"train 평가 점수 : {model.score(train_scaled,train_target)}")
print(f"train 평가 점수 : {model.score(test_scaled,test_target)}")

train 평가 점수 : 0.748087259862344
train 평가 점수 : 0.6844267283527133


In [271]:
# 모델 객체 생성 및 훈련(릿지)
model=Ridge(alpha=20).fit(train_scaled,train_target)
print(f"train 평가 점수 : {model.score(train_scaled,train_target)}")
print(f"train 평가 점수 : {model.score(test_scaled,test_target)}")

train 평가 점수 : 0.7450045402600405
train 평가 점수 : 0.6799246794498659


In [272]:
# 모델 객체 생성 및 훈련(라쏘)
model=Lasso(alpha=1).fit(train_scaled,train_target)
print(f"train 평가 점수 : {model.score(train_scaled,train_target)}")
print(f"train 평가 점수 : {model.score(test_scaled,test_target)}")

train 평가 점수 : 0.6786122566163196
train 평가 점수 : 0.628616376211253


In [273]:
# 훈련세트로 다중특성 만들기
poly=PolynomialFeatures() # 절편 삭제
poly.fit(train_input) 

train_poly=poly.transform(train_input) # 다중특성을 가진 실제 데이터
test_poly=poly.transform(test_input) # 다중특성을 가진 실제 데이터

In [274]:
# 다중특성을 활용한 모델 객체 생성 및 훈련(릿지)
model=Ridge(alpha=0.1).fit(train_poly,train_target)
print(f"train 평가 점수 : {model.score(train_poly,train_target)}")
print(f"train 평가 점수 : {model.score(test_poly,test_target)}")

train 평가 점수 : 0.9418565360420307
train 평가 점수 : 0.787831759283443


In [275]:
# 알파값이 0.1 1 10일 때 테스트 점수(릿지)
for a in [0.1,1,10]:
    model=Ridge(alpha=a).fit(train_poly,train_target)
    print(f"알파가 {a}일때 test 평가점수는 {model.score(test_poly,test_target)}")

알파가 0.1일때 test 평가점수는 0.787831759283443
알파가 1일때 test 평가점수는 0.7751633327552637
알파가 10일때 test 평가점수는 0.7735821268703043


In [276]:
# 다중특성을 활용한 모델 객체 생성 및 훈련(라쏘)
model=Lasso(alpha=0.1).fit(train_poly,train_target)
print(f"train 평가 점수 : {model.score(train_poly,train_target)}")
print(f"train 평가 점수 : {model.score(test_poly,test_target)}")

train 평가 점수 : 0.9189245627705044
train 평가 점수 : 0.7872061986906579


  model = cd_fast.enet_coordinate_descent(


In [277]:
# 알파값이 0.1 1 10일 때 테스트 점수(라쏘)
for a in [0.1,1,10]:
    model=Lasso(alpha=a).fit(train_poly,train_target)
    print(f"알파가 {a}일때 test 평가점수는 {model.score(test_poly,test_target)}")

  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(


알파가 0.1일때 test 평가점수는 0.7872061986906579
알파가 1일때 test 평가점수는 0.7997588192632024
알파가 10일때 test 평가점수는 0.7691753916262623


In [278]:
ss=StandardScaler()
ss.fit(train_poly)
train_poly_scaled=ss.transform(train_poly)
test_poly_scaled=ss.transform(test_poly)
test_poly_scaled

array([[ 0.        , -0.40670502, -0.50281197, ...,  0.49514985,
        -0.26998241, -0.53563057],
       [ 0.        , -0.41096131,  1.23157471, ...,  0.52252137,
        -1.08393946, -0.83049161],
       [ 0.        , -0.40502371, -0.50281197, ...,  0.39067247,
         1.03053207,  0.50656154],
       ...,
       [ 0.        , -0.40071683, -0.50281197, ...,  0.26204449,
        -0.77459731, -0.73983234],
       [ 0.        , -0.37546815, -0.50281197, ...,  0.52252137,
        -0.46434637, -0.6311278 ],
       [ 0.        , -0.41550665,  3.18275972, ...,  0.43546659,
        -0.67409098, -0.71133634]])

In [279]:
# 다중특성 표준화(평균 0, 표준편차 1) 
ss=StandardScaler()
# ss.fit(train_poly)
train_poly_scaled=ss.fit_transform(train_poly)
test_poly_scaled=ss.fit_transform(test_poly)
test_poly_scaled

array([[ 0.        , -0.42099129, -0.44496424, ...,  0.51542072,
        -0.26221976, -0.58576183],
       [ 0.        , -0.42475396,  1.22324119, ...,  0.53993495,
        -1.160349  , -0.87640478],
       [ 0.        , -0.41950497, -0.44496424, ...,  0.42184968,
         1.17278235,  0.4415214 ],
       ...,
       [ 0.        , -0.41569758, -0.44496424, ...,  0.3066491 ,
        -0.81901744, -0.78704242],
       [ 0.        , -0.39337713, -0.44496424, ...,  0.53993495,
        -0.47668311, -0.67989294],
       [ 0.        , -0.42877215,  3.0999723 , ...,  0.46196777,
        -0.70811764, -0.75895407]])

In [280]:
# 알파값이 0.1 1 10일 때 테스트 점수(릿지)
for a in np.arange(0.0,10.0,0.1):
    model=Ridge(alpha=a).fit(train_poly_scaled,train_target)
    print(f"알파가 {np.round(a,2)}일때 test 평가점수는 {model.score(test_poly_scaled,test_target)}")

알파가 0.0일때 test 평가점수는 0.658038595082539
알파가 0.1일때 test 평가점수는 0.7520748580066157
알파가 0.2일때 test 평가점수는 0.7657459892854604
알파가 0.3일때 test 평가점수는 0.771900911505416
알파가 0.4일때 test 평가점수는 0.7754221028544191
알파가 0.5일때 test 평가점수는 0.7777220519229242
알파가 0.6일때 test 평가점수는 0.7793532836351512
알파가 0.7일때 test 평가점수는 0.7805758372532652
알파가 0.8일때 test 평가점수는 0.7815284959453588
알파가 0.9일때 test 평가점수는 0.7822923685750311
알파가 1.0일때 test 평가점수는 0.7829182145095449
알파가 1.1일때 test 평가점수는 0.7834395389226386
알파가 1.2일때 test 평가점수는 0.7838794213492188
알파가 1.3일때 test 평가점수는 0.7842543239783016
알파가 1.4일때 test 평가점수는 0.7845763350132403
알파가 1.5일때 test 평가점수는 0.7848545515516198
알파가 1.6일때 test 평가점수는 0.7850959652893991
알파가 1.7일때 test 평가점수는 0.7853060486498228
알파가 1.8일때 test 평가점수는 0.7854891537854789
알파가 1.9일때 test 평가점수는 0.7856487909854072
알파가 2.0일때 test 평가점수는 0.7857878272084714
알파가 2.1일때 test 평가점수는 0.7859086304188917
알파가 2.2일때 test 평가점수는 0.7860131763457239
알파가 2.3일때 test 평가점수는 0.7861031286824642
알파가 2.4일때 test 평가점수는 0.7861799001836404
알파

In [281]:
# 알파값이 0.1 1 10일 때 테스트 점수(릿지)
for a in [0.1,1,3,10]:
    model=Lasso(alpha=a).fit(train_poly_scaled,train_target)
    print(f"알파가 {a}일때 test 평가점수는 {model.score(test_poly_scaled,test_target)}")

알파가 0.1일때 test 평가점수는 0.7469401223518608
알파가 1일때 test 평가점수는 0.6635543295913682
알파가 3일때 test 평가점수는 0.5411181019081225
알파가 10일때 test 평가점수는 -0.03189647654769301
