# 선형회귀 (Linear Regression)

 이 장에서 여러분은 미리 만들어진 데이터셋을 사용해 선형회귀를 배운다. 구체적인 내용은 다음 세 가지이다.

1. 데이터 로딩과 정리
2. 선형회귀 모델 훈련과 사용, 평가
3. 시각화



## 1. 데이터 로딩과 정리

이미 만들어진 데이터를 사용한다. 이 단계는 원래 전처리`preprocessing`라는 단계의 일부지만 아직 이걸 배우기에는 너무 노잼이고 현학적이다. 재밌는걸 먼저 해야 맛 없는 부분을 참고 먹는 법.


### 1.1. 데이터셋 로딩

`seaborn` 라이브러리에서 연습용으로 제공하는 데이터셋을 로딩해본다.

In [None]:
import seaborn as sns

# 데이터 로드
sns.load_dataset('tips')  # DataFrame

#### Practice1. 여러 데이터셋 로드해보고 어떤 값 있는지 확인
`diamonds`, `iris`, `flights`, `penguines`, `planets`를 로드해보고 어떤 속성`features`을 가졌는지 살펴보기

### 1.2. 데이터셋 정리

전체 데이터셋 중 사용할 데이터를 고르고, 학습 데이터`train set`와 테스트 데이터`test set`으로 나눈다. 구체적인 내용은 다음 두 가지이다.

1. 데이터셋에서 X와 Y를 추출하기
2. 추출한 X, Y를 학습용, 테스트용으로 분리하기


In [None]:
tips = sns.load_dataset('tips')
tips

In [None]:
# x 추출. 원하는 열 이름을 여러개 선택해서 쓴다. 이것저것 골라서 바꿔가면서 연습해보자.
# 지금은 숫자로 주어진 것만 x값으로 사용할 것이다.
x = tips[['total_bill', 'size']]  # pandas.DataFrame
x

In [None]:
# y 추출. tip 열이 목표값이다.
y = tips['tip']  # pandas.Series
y

In [None]:
# x, y값 추출
x, y = tips[['total_bill']], tips['tip']

In [None]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)
len(x_train), len(x_test)

#### Practice2. 여러 데이터셋에서 X, Y 정하고 추출하고 분리하기 연습

`diamonds`, `iris`, `flights` 데이터셋에서 각각 X, Y를 정하여 추출하고, 학습용과 테스트용으로 분리하는 연습하기

In [None]:
flights = sns.load_dataset('flights')
x = flights[['year']]
y = flights['passengers']
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)


## 2. 선형회귀 모델 훈련과 사용, 평가

이제 선형회귀 모델을 훈련하고, 예측하고, 평가하는 방법을 배운다. 구체적인 내용은 다음 세 가지이다.

1. 선형회귀 모델 생성과 훈련
2. 선형회귀 모델로 예측값 생성
3. 예측값 vs 실제값 비교하여 평가

### 2.1. 선형회귀 모델 생성과 훈련

비어있는 (훈련 전) 선형회귀 모델을 선언하고, 앞서 추출한 훈련용 X값을 제공하여 모델을 훈련한다.

In [None]:
from sklearn.linear_model import LinearRegression

# 모델 선언
model = LinearRegression()
model.fit(x_train, y_train)
model

#### Practice3. 여러 데이터셋에서 선형회귀 모델을 선언하고 훈련하기

`diamonds`, `flights` 데이터셋에서 적당한 X, Y를 정하여 선형회귀 모델을 선언하고 훈련 시켜보기

*<주의>* x값은 숫자인 데이터만 사용해야 한다. 여러 열을 동시에 사용해도 된다.

### 2.2. 선형회귀 모델로 예측값 생성

훈련을 마친 선형회귀 모델에 테스트용 X값을 제공해 예측Y값을 생성한다.

In [None]:
# tips 데이터셋에서 훈련까지 진행
tips = sns.load_dataset('tips')
x = tips[['total_bill']]
y = tips['tip']
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)
model = LinearRegression()
model.fit(x_train, y_train)

# y 예측값 생성
y_test_pred = model.predict(x_test)
y_test_pred

#### Practice4. 여러 데이터셋에서 선형회귀 모델로 예측값 생성하기

`diamonds` 데이터셋에서 적당한 X, Y를 정하여 선형회귀 모델을 선언하고 훈련 시킨 후, 테스트용 X값으로 예측값을 생성해보기

*<주의>* x값은 숫자인 데이터만 사용해야 한다. 여러 열을 동시에 사용해도 된다.

### 2.3. 예측값 vs 실제값 비교하여 평가

예측값과 실제값을 비교하여 모델의 성능을 평가한다. 여러가지 평가 방법이 있다. 각 평가 방법의 특성을 기억하고 사용법을 아는 것이 목적이다. 자주 쓰이는 네 가지 평가 방법은 `RMSE`, `MAE`, `R2` 정도가 있다.


#### RMSE(Root Mean Squared Error)

1. 해석이 직관적이다. 평가 결과값을 평균적인 오차 값으로 해석해도 됨. 표준편차와 유사한 개념.
2. 원본 데이터와 같은 단위를 가진다.
3. 이상치에 민감하다. 이상치가 있으면 RMSE 값이 다른 검사에 비해 제법 크게 나온다.


#### MAE(Mean Absolute Error)

1. 이상치에 강건(덜 민감)하다. 이상치가 있어도 다소 무시할 수 있다.


#### R2(R-squared; 결정계수)

1. 해석이 직관적이다. 평가 결과값을 "설명력"으로 해석할 수 있다.
2. 0에서 1 사이의 값을 가진다. 1에 가까울수록 모델이 데이터를 잘 설명한다.
3. 여러 모델들 사이의 성능 비교를 할 때 기준으로 쓸 수 있다.
4. 원본 데이터의 단위에 무관하다.


In [None]:
# RMSE, MAE, R2 모듈 임포트
from sklearn.metrics import root_mean_squared_error, mean_squared_error, mean_absolute_error, r2_score

# total_bill 열을 x로 사용한 tips 데이터셋에서 예측값 생성까지 진행
tips = sns.load_dataset('tips')
x = tips[['total_bill']]
y = tips['tip']
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)
model = LinearRegression()
model.fit(x_train, y_train)
y_test_pred = model.predict(x_test)

rmse = root_mean_squared_error(y_test, y_test_pred)  # RMSE
mae = mean_absolute_error(y_test, y_test_pred)  # MAE
r2 = r2_score(y_test, y_test_pred)  # R2

print('RMSE:', rmse, '// MAE:', mae, '// R2:', r2)

## 시각화

제일 중요하다. 그래프를 그릴 줄 알아야 한다. 이번에는 `matplotlib` 라이브러리를 사용해 점 그래프, 선 그래프를 그려본다. 구체적인 내용은 다음 두 가지이다.

1. 그래프 크기 정하기
2. 제목, 축 이름 정하기
3. 점 찍기
4. 선 그리기

In [None]:
import matplotlib.pyplot as plt
import koreanize_matplotlib

# 그래프 크기 정하기
plt.figure(figsize=(10, 6))  # 단위: 인치

# 제목, 축 이름 정하기
plt.title('총 금액 vs 팁', fontsize=16)

# 점, 선 그리기
plt.scatter(x, y, label='실제값')
plt.scatter(x_test, y_test_pred, color='red', label='예측값')
plt.plot(x_test, y_test_pred, color='red', label='예측선')

# 범례 표시
plt.legend()