# Wave 데이터셋 회귀 분석 노트북

이 Jupyter Notebook은 `mglearn` 라이브러리의 `make_wave` 데이터셋을 사용하여 **선형 회귀(Linear Regression)**와 **K-최근접 이웃(K-Nearest Neighbors) 회귀** 모델을 학습하고 평가하는 과정을 보여줍니다.

---
## 1. 라이브러리 임포트

필요한 라이브러리들을 임포트합니다.

In [None]:
import mglearn # 사이킷런 책 쓴 사람이 차트 그리기 편하고 가끔 가짜 데이터 만들어보라고 만든 라이브러리
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor

---
## 2. 데이터 로드 및 확인

`mglearn.datasets.make_wave`를 사용하여 200개의 샘플을 가진 가상의 회귀 데이터셋을 생성하고 데이터를 확인합니다.

In [None]:
X, y = mglearn.datasets.make_wave(n_samples=200)
print("X 데이터 샘플 (상위 10개):\n", X[:10])
print("y 데이터 샘플 (상위 10개):\n", y[:10])

---
## 3. 데이터 분할

생성된 데이터를 훈련 세트와 테스트 세트로 분할합니다.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

---
## 4. 선형 회귀 모델

가장 기본적인 회귀 모델인 선형 회귀를 학습하고 훈련 세트와 테스트 세트에서의 성능(결정계수 R-squared)을 평가합니다. 또한 모델의 기울기(`coef_`)와 절편(`intercept_`)을 확인합니다.

In [None]:
model = LinearRegression() # 하이퍼파라미터 없음. 과대/과소 적합 시 데이터셋 늘려주기 밖에 없다.
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("=== Linear Regression Model ===")
print("훈련셋 결정계수:", model.score(X_train, y_train))
print("테스트셋 결정계수:", model.score(X_test, y_test))
print("기울기:", model.coef_)
print("절편:", model.intercept_)

# 수동으로 예측값 계산 (단일 특성인 경우)
y_pred2 = X_test * model.coef_ + model.intercept_
print("\n실제 y_test 값:\n", y_test)
print("모델 예측 y_pred 값:\n", y_pred)
print("수동 계산 y_pred2 값:\n", y_pred2)
# 다중회귀분석의 경우 가중치가 많다. 각 독립변수마다 별도의 가중치를 가져온다.
"""
# (w1,w2,w3,...wn) X (x1,
#                   x2,
#                   x3,
#                   x4, ......
#                   xn)
"""

---
## 5. K-최근접 이웃(KNN) 회귀 모델

K-최근접 이웃 회귀 모델을 학습하고 훈련 세트와 테스트 세트에서의 성능을 평가합니다. `n_neighbors` 파라미터를 통해 이웃의 수를 조절할 수 있습니다.

In [None]:
# Knn 이웃 회귀 알고리즘
model = KNeighborsRegressor(n_neighbors=3)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("=== K-Nearest Neighbors Regressor Model ===")
print("훈련셋 결정계수:", model.score(X_train, y_train))
print("테스트셋 결정계수:", model.score(X_test, y_test))
print("\n실제 y_test 값:\n", y_test)
print("모델 예측 y_pred 값:\n", y_pred)