사이킷런 LinearRegression 사용

In [None]:
import numpy as np
np.random.seed(42)

In [None]:
X = 2*np.random.rand(100, 1)
y = 4+3*X + np.random.rand(100,1)

In [None]:
X_new = np.array([[0], [2]])

In [None]:
from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()
lin_reg.fit(X, y)
lin_reg.intercept_, lin_reg.coef_

In [None]:
np.sum(np.square(lin_reg.predict(X)-y))

In [None]:
lin_reg.predict(X_new)

In [None]:
lin_reg.score(X, y)

**확률적 경사하강법(SGDRegressor) 사이킷런 함수 매개변수**

**loss:**
의미: 손실 함수(loss function)를 지정합니다. 이 함수는 모델이 예측한 값과 실제 타겟 값 사이의 오차를 계산하는데 사용됩니다. 회귀 모델에서는 주로 최소제곱 오차('squared_loss')를 사용합니다.
기본값: 'squared_loss'

**penalty:**
의미: 규제(regularization) 항을 지정합니다. 규제는 모델의 복잡도를 조절하여 과적합(overfitting)을 방지합니다. L1 규제('l1'), L2 규제('l2'), ElasticNet 규제('elasticnet') 등이 가능합니다.
기본값: None (규제를 적용하지 않음)

**alpha:**
의미: 규제의 강도를 조절하는 하이퍼파라미터입니다. 값이 클수록 강한 규제가 적용됩니다.
기본값: 0.0001

**learning_rate:**
의미: 학습 속도를 결정하는 파라미터입니다. 'constant', 'optimal', 'invscaling', 'adaptive' 등의 값을 선택할 수 있으며, 각각에 따라 학습 속도 조정 방법이 달라집니다.
기본값: 'optimal'

**eta0:**
의미: 학습 속도의 초기값을 설정하는 파라미터입니다. 학습 속도가 'constant'인 경우 사용됩니다.
기본값: 0.01

**max_iter:**
의미: 최대 반복 횟수를 지정합니다. 학습을 위해 데이터를 몇 번 반복해서 사용할지를 결정합니다.
기본값: 1000

**random_state:**
의미: 난수 생성 시드를 지정합니다. 이를 통해 학습 시의 난수를 재현 가능하게 합니다.
기본값: None

**epsilon:**
의미: epsilon 값은 Huber 손실 함수(Huber loss function)를 사용할 때 임계값(threshold)으로 사용됩니다. Huber 손실은 최소제곱 오차와 절댓값 손실(MAE)을 혼합한 손실 함수로, 이상치(outlier)에 더 강건한 모델을 만들기 위해 사용됩니다.
기본값: 0.1

In [None]:
from sklearn.linear_model import SGDRegressor
sgd_reg = SGDRegressor(max_iter=50, penalty=None, eta0 = 0.1, random_state=42)
sgd_reg.fit(X, y.ravel())

In [None]:
sgd_reg.intercept_, sgd_reg.coef_

In [None]:
sgd_reg.score(X, y)

**다항 회귀**

In [None]:
from sklearn.preprocessing import PolynomialFeatures
poly_features = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly_features.fit_transform(X)
print(poly_features.get_feature_names())

In [None]:
X[0]

In [None]:
X_poly[0]

확장된 데이터(X_poly)에 LinearRegression 적용

In [None]:
lin_reg = LinearRegression()
lin_reg.fit(X_poly, y)
lin_reg.intercept_, lin_reg.coef_

In [None]:
lin_reg.score(X_poly, y)

**규제 모델**

과대적합을 감소시키는 방법
- 비용 함수에 alpha 값으로 패널티를 부여해 회귀 계수(θ)의 크기를 감소시켜 과적합 개선

릿지(Ridge) : L2 규제 적용, 모든 특성들이 약간의 가중치를 갖도록 함 <br>
라쏘(Lasso) : L1 규제 적용, 중요하지 않은 특성들의 가중치를 0으로 수렴 <br>
엘라스틱넷(ElasticNet) : L2,  L1 규제를 결합한 모델


In [None]:
# 테스트용
from sklearn.linear_model import SGDRegressor
sgd_reg = SGDRegressor(penalty='l1', random_state=42)
sgd_reg.fit(X, y.ravel())
sgd_reg.score(X, y)

In [None]:
# 테스트용
from sklearn.linear_model import Lasso
lasso_reg = Lasso(alpha=0.0001, random_state=42)
lasso_reg.fit(X,y.ravel())
lasso_reg.score(X,y)