# **Linear Regression**

## **공부 시간에 따른 시험 점수 예측**

### **📍 Linear Regression 기본형**

### 패키지 임포트

In [1]:
import matplotlib.pyplot as plt 
import pandas as pd

### 데이터 불러오기

In [2]:
dataset = pd.read_csv('LinearRegressionData.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'LinearRegressionData.csv'

In [None]:
dataset.head()

### 데이터 분리

In [None]:
# 독립 변수 - 원인
X = dataset.iloc[:, :-1].values

In [None]:
# 종속 변수 - 결과
y = dataset.iloc[:, -1].values

In [None]:
X, y

### 모델링 진행

In [None]:
# 모듈 임포트
from sklearn.linear_model import LinearRegression

In [None]:
# 객체 생성
reg = LinearRegression()

In [None]:
# 학습 실행
reg.fit(X, y)

In [None]:
# 예측 진행
y_pred = reg.predict(X) # X에 대한 예측 값
y_pred

### 시각화

In [None]:
# 시각화
## 산점도 그래프
plt.scatter(X, y, color='blue')
## 선 그래프
plt.plot(X, y_pred, color='green')
## 제목
plt.title('Score by hours')
## X축 이름
plt.xlabel('hours')
## Y축 이름
plt.ylabel('score')

plt.show()

### 9시간을 공부 했을 때 예상되는 점수는?

In [None]:
# 9시간을 공부 했을 때 예상되는 점수
print('9시간 공부했을 때 예상 점수 : ', reg.predict([[9]]))

### Recap

![스크린샷 2023-11-15 오후 11.07.42.png](attachment:6cf58887-3bb4-49b2-9651-74d8094c89b9.png)

- *m* : 기울기 (slope, coefficient)
- *b* : y 절편 (intercept)

In [None]:
# 기울기 (m)
reg.coef_

In [None]:
# y 절편 (b)
reg.intercept_

y = mx + b
<br/>
y = 10.4436x - 0.2184
<br/>
y = 10.4436 * 9시간 - 0.2184
<br/>
y = 93.774

### **📍 데이터 세트 분리하여 모델링 진행**

In [None]:
import matplotlib.pyplot as plt 
import pandas as pd

In [None]:
dataset = pd.read_csv('LinearRegressionData.csv')
dataset.head(5)

In [None]:
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [None]:
X, len(X)

In [None]:
X_train, len(X_train)

In [None]:
X_test, len(X_test)

In [None]:
y, len(y)

In [None]:
y_train, len(y_train)

In [None]:
y_test, len(y_test)

### 분리된 데이터를 통한 모델링

In [None]:
from sklearn.linear_model import LinearRegression
reg = LinearRegression()

In [None]:
# 훈련 세트로 학습
reg.fit(X_train, y_train)

### 데이터 시각화 (훈련 세트)

In [None]:
## 산점도 그래프
plt.scatter(X_train, y_train, color='blue')
## 선 그래프
plt.plot(X_train, reg.predict(X_train), color='green')
## 제목
plt.title('Score by hours (train data)')
## X축 이름
plt.xlabel('hours')
## Y축 이름
plt.ylabel('score')

plt.show()

### 데이터 시각화 (테스트 세트)

In [None]:
## 산점도 그래프
plt.scatter(X_test, y_test, color='blue')
## 선 그래프 - 모델은 train 을 가지고 학습시켰기 때문에 그대로 train 사용
plt.plot(X_train, reg.predict(X_train), color='green')
## 제목
plt.title('Score by hours (test data)')
## X축 이름
plt.xlabel('hours')
## Y축 이름
plt.ylabel('score')

plt.show()

In [None]:
reg.coef_

In [None]:
reg.intercept_

### 모델 평가

In [None]:
reg.score(X_test, y_test) # 테스트 세트를 통한 모델 평가

In [None]:
reg.score(X_train, y_train) # 훈련 세트를 통한 모델 평가

### **📍 경사 하강법 (Gradient Descent) 적용**

#### **기본 params**

In [None]:
from sklearn.linear_model import SGDRegressor # SGD : Stochastic Gradient Descent 확률적 경사 하강법

In [2]:
sr = SGDRegressor()
sr.fit(X_train, y_train)

NameError: name 'X_train' is not defined

In [None]:
## 산점도 그래프
plt.scatter(X_train, y_train, color='blue')
## 선 그래프
plt.plot(X_train, sr.predict(X_train), color='green')
## 제목
plt.title('Score by hours (train data, SGD)')
## X축 이름
plt.xlabel('hours')
## Y축 이름
plt.ylabel('score')
plt.show()

In [None]:
sr.coef_, sr.intercept_

In [None]:
sr.score(X_test, y_test) # 테스트 세트를 통한 모델 평가

In [None]:
sr.score(X_train, y_train) # 훈련 세트를 통한 모델 평가