# 3. Polynomial Regression

### 공부 시간에 따른 시험 점수 (우등생)

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
dataset = pd.read_csv('PolynomialRegressionData.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

## 3-1. 단순 선형 회귀 (Simple Linear Regression)

In [None]:
from sklearn.linear_model import LinearRegression
l_reg = LinearRegression()
l_reg.fit(X, y) # 전체 데이터로 학습

### 데이터 시각화 (전체)

In [None]:
plt.scatter(X, y, color='blue') # 산점도
plt.plot(X, l_reg.predict(X), color='green') # 선 그래프
plt.title('Score by hours (genius)') # 제목
plt.xlabel('hours') # X 축 이름
plt.ylabel('score') # Y 축 이름
plt.show()

In [None]:
l_reg.score(X, y) # 전체 데이터를 통한 모델 평가

In [None]:
from sklearn.metrics import mean_squared_error
mean_squared_error(y, l_reg.predict(X), squared=False) # RMSE

## 3-2. 다항 회귀 (Polynomial Regression)

In [None]:
from sklearn.preprocessing import PolynomialFeatures
poly_obj = PolynomialFeatures(degree=3) # 3차
X_poly = poly_obj.fit_transform(X)
X_poly[:5] # [x] -> [x^0, x^1, x^2] -> x 가 3이라면 [1, 3, 9] 으로 변환

In [None]:
poly_obj.get_feature_names_out()  # 다항식 특성을 생성한 후에, 각 특성의 이름을 반환하는 메서드입니다

In [None]:
X[:5]

In [None]:
poly_reg = LinearRegression()
poly_reg.fit(X_poly, y) # 변환된 X 와 y 를 가지고 모델 생성 (학습)
y_pred = poly_reg.predict(X_poly)

### 데이터 시각화 (변환된 X 와 y)

In [None]:
plt.scatter(X, y, color='blue')
plt.plot(X, poly_reg.predict(X_poly), color='green') # X 에서 X_Poly로 형 변환된 값 대입.
plt.title('Score by hours (genius)') # 제목
plt.xlabel('hours') # X 축 이름
plt.ylabel('score') # Y 축 이름
plt.show()

In [None]:
X_range = np.arange(min(X), max(X), 0.1) # X 의 최소값에서 최대값까지의 범위를 0.1 단위로 잘라서 데이터를 생성
X_range

In [None]:
X_range.shape

In [None]:
X[:5]

In [None]:
X.shape

In [None]:
X_range = X_range.reshape(-1, 1) # row 개수는 자동으로 계산, column 개수는 1개
X_range.shape

In [None]:
X_range[:5]

In [None]:
X_poly_range_ = poly_obj.fit_transform(X_range)
y_pred = poly_reg.predict(X_poly_range_)

In [None]:
plt.scatter(X, y, color='blue')
plt.plot(X_range, y_pred, color='green')
# plt.plot(X_range, poly_reg.predict(poly_obj.fit_transform(X_range)), color='green')
plt.title('Score by hours (genius)') # 제목
plt.xlabel('hours') # X 축 이름
plt.ylabel('score') # Y 축 이름
plt.show()

### 공부 시간에 따른 시험 성적 예측

In [None]:
l_reg.predict([[2]]) # 2시간을 공부했을 때 선형 회귀 모델의 예측

In [None]:
poly_reg.predict(poly_obj.fit_transform([[2]])) # 2시간을 공부했을 때 다항 회귀 모델의 예측

In [None]:
l_reg.score(X, y)

In [None]:
poly_reg.score(X_poly, y)

# ChatGPT Recommend Code

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures

dataset = pd.read_csv('PolynomialRegressionData.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

# make_pipeline을 사용하여 선형 회귀와 다항 회귀를 연결
model = make_pipeline(PolynomialFeatures(degree=3), LinearRegression())
model.fit(X, y)

# 새로운 데이터 포인트 생성
# X_range = np.linspace(min(X), max(X), 100).reshape(-1, 1)

# 시각화
plt.scatter(X, y, color='blue')
# plt.plot(X, model.predict(X), color='green')
plt.plot(X_range, model.predict(X_range), color='green')
plt.title('Score by hours (genius)')  # 제목
plt.xlabel('hours')  # X 축 이름
plt.ylabel('score')  # Y 축 이름
plt.show()

