# 1. Linear Regression
### 공부 시간에 따른 시험 점수

In [None]:
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
df = pd.read_csv('LinearRegressionData.csv')

In [None]:
df.head()

In [None]:
X = df.iloc[:, :-1].values # 처음부터 마지막 컬럼 직전까지의 데이터 (독립 변수 - 원인)
y = df.iloc[:, -1].values # 마지막 컬럼 데이터 (종속 변수 - 결과)

In [None]:
X, y

In [None]:
from sklearn.linear_model import LinearRegression
l_reg = LinearRegression() # 객체 생성
l_reg.fit(X, y) # 학습 (모델 생성)

In [None]:
y_pred = l_reg.predict(X) # X 에 대한 예측 값
y_pred

In [None]:
plt.scatter(X, y, color='blue') # 산점도
plt.plot(X, y_pred, color='green') # 선 그래프
plt.title('Score by hours') # 제목
plt.xlabel('hours') # X 축 이름
plt.ylabel('score') # Y 축 이름
plt.show()

In [None]:
print('9시간 공부했을 때 예상 점수 : ', l_reg.predict([[9]])) 

In [None]:
l_reg.coef_ # 기울기 계수(m)

In [None]:
l_reg.intercept_ # y 절편 (b)

If y = 9: y = mx + b  -> y = 10.4436 x - 0.2184 = 10.443 * 9 - 0.2184 = 93.774

### 데이터 세트 분리

In [None]:
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
df = pd.read_csv('LinearRegressionData.csv')

In [None]:
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0) # 훈련 80 : 테스트 20 으로 분리

In [None]:
X, len(X) # 전체 데이터 X, 개수

In [None]:
X_train, len(X_train) # 훈련 세트 X, 개수

In [None]:
X_test, len(X_test) # 테스트 세트 X, 개수

In [None]:
y, len(y) # 전체 데이터 y

In [None]:
y_train, len(y_train) # 훈련 세트 y

In [None]:
y_test, len(y_test) # 테스트 세트 y

### 분리된 데이터를 통한 모델링

In [None]:
from sklearn.linear_model import LinearRegression
l_reg = LinearRegression()

In [None]:
l_reg.fit(X_train, y_train) # 훈련 세트로 학습

### 데이터 시각화 (훈련 세트)

In [None]:
plt.scatter(X_train, y_train, color='blue') # 산점도
plt.plot(X_train, l_reg.predict(X_train), color='green') # 선 그래프
plt.title('Score by hours (train data)') # 제목
plt.xlabel('hours') # X 축 이름
plt.ylabel('score') # Y 축 이름
plt.show()

### 데이터 시각화 (테스트 세트)

In [None]:
plt.scatter(X_test, y_test, color='blue') # 산점도
plt.plot(X_train, l_reg.predict(X_train), color='green') # 선 그래프
plt.title('Score by hours (test data)') # 제목
plt.xlabel('hours') # X 축 이름
plt.ylabel('score') # Y 축 이름
plt.show()

In [None]:
l_reg.coef_

In [None]:
l_reg.intercept_

### 모델 평가

In [None]:
l_reg.score(X_test, y_test) # 테스트 세트를 통한 모델 평가

In [None]:
l_reg.score(X_train, y_train) # 훈련 세트를 통한 모델 평가

## 경사 하강법 (Gradient Descent)

max_iter : 훈련 세트 반복 횟수 (Epoch 횟수)

eta0 : 학습률 (learning rate)

In [None]:
from sklearn.linear_model import SGDRegressor # SGD : Stochastic Gradient Descent 확률적 경사 하강법

# 지수표기법
# 1e-3 : 0.001 (10^-3)
# 1e-4 : 0.0001 (10^-4)
# 1e+3 : 1000 (10^3)
# 1e+4 : 10000 (10^4)

sgd_reg = SGDRegressor(max_iter=100, eta0=1e-3, random_state=0, verbose=0)
# sr = SGDRegressor()
sgd_reg.fit(X_train, y_train)

In [None]:
plt.scatter(X_train, y_train, color='blue') # 산점도
plt.plot(X_train, sgd_reg.predict(X_train), color='green') # 선 그래프
plt.title('Score by hours (train data, SGD)') # 제목
plt.xlabel('hours') # X 축 이름
plt.ylabel('score') # Y 축 이름
plt.show()

In [None]:
sgd_reg.coef_, sgd_reg.intercept_
# 주의 : SGDRegressor() 객체를 생성할 때 random_state 값을 지정하지 않았으므로 결과가 다르게 나타날 수 있습니다

In [None]:
sgd_reg.score(X_test, y_test) # 테스트 세트를 통한 모델 평가 

In [None]:
sgd_reg.score(X_train, y_train) # 훈련 세트를 통한 모델 평가 