In [1]:
# Lasso, Ridge 모델을 가져오기 위해 LinearRegression 대신 Lasso, Ridge 메소드를 가져온다.
from sklearn.linear_model import Lasso
from sklearn.linear_model import Ridge

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error
import pandas as pd

In [2]:
# Overfitting 파일에서 사용한 코드를 그대로 가져왔다. 일단 입력변수와 목표변수 설정은 동일
admission_df = pd.read_csv('../data/admission_data.csv').drop('Serial No.', axis=1)
X = admission_df.drop(['Chance of Admit '], axis=1)
transformer = PolynomialFeatures(6)
polynomial_features = transformer.fit_transform(X.values)
features = transformer.get_feature_names(X.columns)

X = pd.DataFrame(polynomial_features, columns=features)
y = admission_df[['Chance of Admit ']]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=5)

In [3]:
# Lasso 정규화 모델 적용
# alpha는 람다를 의미. 경사하강을 1000번 수행하고, normalize=True를 통해 자동으로 feature scaling을 해준다
model = Lasso(alpha=0.001, max_iter=1000, normalize=True)
model.fit(X_train, y_train)

Lasso(alpha=0.001, normalize=True)

In [4]:
y_train_prediction = model.predict(X_train)
y_test_prediction = model.predict(X_test)

In [5]:
# 다시 training data와 test data를 비교해보면 정규화가 잘 되어 성능 차이가 크지 않다는 것을 알 수 있음
mse = mean_squared_error(y_train, y_train_prediction) ** 0.5
print('training set에서의 성능:', mse)
mse = mean_squared_error(y_test, y_test_prediction) ** 0.5
print('test set에서의 성능:', mse)

training set에서의 성능: 0.06336620966147144
test set에서의 성능: 0.06007719092689258


In [6]:
# 이번엔 Lasso 모델이 아니라 Ridge 모델을 사용해 보자. 그냥 메소드 이름만 Ridge 로 바꾸면 됨
model = Ridge(alpha=0.001, max_iter=1000, normalize=True)
model.fit(X_train, y_train)

y_train_prediction = model.predict(X_train)
y_test_prediction = model.predict(X_test)

mse = mean_squared_error(y_train, y_train_prediction) ** 0.5
print('training set에서의 성능:', mse)
mse = mean_squared_error(y_test, y_test_prediction) ** 0.5
print('test set에서의 성능:', mse)

training set에서의 성능: 0.05327825805895038
test set에서의 성능: 0.06669588064650585


In [7]:
# 로지스틱 회귀에서는 정규화를 어떻게 적용할 수 있을까?
# LogisticRegression 모델은 자동으로 L2 정규화를 적용한다. penalty 라는 옵셔널 파라미터로 정해줄 수 있다
# LogisticRegression(penalty='none')   정규화 사용 안함
# LogisticRegression(penalty='l1')   L1 정규화 사용
# LogisticRegression(penalty='l2')   L2 정규화 사용
# LogisticRegression()   위와 똑같음: L2 정규화 사용
