## inear Regression이란? ##
<p>입력 변수 𝑋와 출력 변수 𝑦 사이의 관계를 직선 형태로 모델링하는 방법</p>
<p> y = w1x1 + w2x2 + ... wnxn + b</p> 
    
    -wi: 각 특성의 기울기 -> coef_
    -b: y절편 -> intercept_
    

#### 주요 파라미터 ####
<p>LinearRegression(fit_intercept=True, normalize='deprecated', copy_X=True, n_jobs=None)</p>

    - fit_intercept: 절편 b를 학습할지 여부 (기본: True)
    - copy_X: 원본 X를 복사해서 쓸지 여부
    - n_jobs: 계산에 사용할 CPU 수 (병렬처리)

#### 주요 속성 (학습 후 사용) ####

    -coef_: 각 특성의 계수 (기울기)
    -intercept_: y절편
    -score(X, y): 결정계수 R^2 : 모델의 설명력 평가 (1에 가까울수록 좋음)


In [5]:
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import Ridge

In [2]:
iris = load_iris(as_frame=True)

df = pd.DataFrame(iris.frame)

X = df.drop('target', axis=True)
y = df.target

print("X:", X.shape)
print("y", y.shape)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("X_train:", X_train.shape)
print("y_train", y_train.shape)
print("X_test", X_test.shape)
print("y_test", y_test.shape)

X: (150, 4)
y (150,)
X_train: (120, 4)
y_train (120,)
X_test (30, 4)
y_test (30,)


In [13]:
model = LinearRegression()

model.fit(X_train, y_train)

print("기울기:", model.coef_)
print("절편:", model.intercept_)
print("R2 점수:", model.score(X_test, y_test))

기울기: [-0.11633479 -0.05977785  0.25491375  0.54759598]
절편: 0.25252758981814694
R2 점수: 0.9468960016420045


In [14]:
y_pred = model.predict(X_test)

print("mean_squared_error:", mean_squared_error(y_test, y_pred))

mean_squared_error: 0.03711379440797688


## Ridge Regression & Ridge Classification ##
선형 회귀/분류 모델에서 과적합(overfitting)을 줄이기 위해 고안된 정규화(regularization) 기법  
가중치(w)의 크기를 너무 크게 하지 않도록 제어


### Ridge Regression ###
📌 기본 선형 회귀는 다음을 최소화:  
    <span style="font-size:16px">Loss = ∑(y - y_)^2<span>

Ridge는 여기에 규제 항 (penalty) 를 추가  
    <span style="font-size:16px">Ridge Loss = ∑(y - y_)^2 + λ∑(w)^2<span>

    -다중공선성(피처 간 상관관계)에 강함

    -예측이 더 안정적

    -모든 피처를 사용하지만 계수를 작게 유지

### Ridge Classification ###

Ridge Classification은 Ridge 정규화를 적용한 로지스틱 회귀 기반 분류기  

sklearn.linear_model.RidgeClassifier로 사용 가능  

RidgeClassifier는 내부적으로 loss를 least squares 형태로 계산


---
y_ == y위에 모자 있는거  
y: 실제 정답
y_: 예측값 (wx + b)
w: 각 피처(feature)에 해당하는 회귀 계수 (기울기) == coefficient (계수)
λ: 정규화 강도 (hyperparameter, 사용자가 정함)

In [15]:
# regresion
# Ridge 회귀기(Ridge Regressor)는 분류 버전도 있다: RidgeClassifier
model2 = Ridge(alpha=0.5)

model2.fit(X_train, y_train)

print("기울기:", model2.coef_)
print("절편:", model2.intercept_)
print("R2 점수:", model2.score(X_test, y_test))

기울기: [-0.11850607 -0.05378752  0.27375879  0.50482122]
절편: 0.2271881162576862
R2 점수: 0.945398779823663


In [17]:
y_pred = model2.predict(X_test)

print("mean_squared_error:", mean_squared_error(y_test, y_pred))

mean_squared_error: 0.03816018610101772
