# Linear Regression
다음의 항목들에 대해서 학습합니다.

* 선형회귀(Linear Regression)
* 회귀모델 평가


## **1.환경준비**

* 라이브러리 로딩

In [1]:
# 데이터 다루는 라이브러리
import numpy as np
import pandas as pd

# 데이터 시각화 라이브러리
import matplotlib.pyplot as plt

# 머신러닝 라이브러리
from sklearn.model_selection import train_test_split  # 데이터 분할
from sklearn.metrics import *          # 모델 평가 함수들 전체(*)

## **2. 데이터 준비**

### (1) data loading

In [2]:
# 데이터 경로
path = 'https://raw.githubusercontent.com/DA4BAM/dataset/master/Carseats.csv'

# 사용할 칼럼
use_cols = ['Sales', 'Price', 'Income', 'Advertising','CompPrice', 'ShelveLoc']

# 데이터 불러와서 저장하기
data = pd.read_csv(path, usecols= use_cols)  # csv 파일을 불러올때, 지정한 칼럼의 데이터만 가져오기

|	변수명	|	설명	|	구분	|
|----|----|----|
|	Sales 	|	 각 지역 판매량(단위 : 1000개)	|	Target	|
|	CompPrice 	|	지역별 경쟁사 판매가격(달러)	|	feature	|
|	Income 	|	가구당 평균 소득액(1000달러)	|	feature	|
|	Advertising 	|	 각 지역, 회사의 광고 예산(1000달러)	|	feature	|
|	Population 	|	 지역 인구수(단위 : 1000명)	|	feature	|
|	Price 	|	 자사 지역별 판매가격(달러)	|	feature	|
|	ShelveLoc 	|	 진열상태(범주 : Bad, Medium, Good)	|	feature	|
|	Age 	|	 지역 인구의 평균 연령	|	feature	|
|	Education 	|	 교육수준(범주 : 10~18)	|	feature	|
|	Urban 	|	 매장이 도심에 있는지 여부(범주 : Yes, No)	|	feature	|
|	US 	|	 매장이 미국에 있는지 여부(범주 : Yes, No)	|	feature	|


* 둘러보기

In [3]:
# 상/하위 몇개 행을 살펴 봅시다.
data.head()

Unnamed: 0,Sales,CompPrice,Income,Advertising,Price,ShelveLoc
0,9.5,138,73,11,120,Bad
1,11.22,111,48,16,83,Good
2,10.06,113,35,10,80,Medium
3,7.4,117,100,4,97,Medium
4,4.15,141,64,3,128,Bad


In [4]:
# 각 칼럼의 타입을 살펴 봅시다.
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Sales        400 non-null    float64
 1   CompPrice    400 non-null    int64  
 2   Income       400 non-null    int64  
 3   Advertising  400 non-null    int64  
 4   Price        400 non-null    int64  
 5   ShelveLoc    400 non-null    object 
dtypes: float64(1), int64(4), object(1)
memory usage: 18.9+ KB


### (2) 데이터분할1 : x, y 나누기

In [35]:
# x는 Label이 될 "Sales" 열을 제외한 나머지 열 전부를 포함하는 DataFrame 객체
# y는 Lable이 될 "Sales" 열만 포함하는 Series 객체

target = 'Sales'
x = data.drop(target, axis=1)
y = data.loc[:, target]
y

0       9.50
1      11.22
2      10.06
3       7.40
4       4.15
       ...  
395    12.57
396     6.14
397     7.41
398     5.94
399     9.71
Name: Sales, Length: 400, dtype: float64

### (3) 가변수화

In [36]:
cat_cols = ['ShelveLoc']

In [37]:
# 전체 가변수 사용
x_cat1 = pd.get_dummies(x, columns=cat_cols)
x_cat1.head()

Unnamed: 0,CompPrice,Income,Advertising,Price,ShelveLoc_Bad,ShelveLoc_Good,ShelveLoc_Medium
0,138,73,11,120,True,False,False
1,111,48,16,83,False,True,False
2,113,35,10,80,False,False,True
3,117,100,4,97,False,False,True
4,141,64,3,128,True,False,False


In [38]:
# 첫번째 가변수 제거 (drop_first= parameter를 True로 설정)
x_cat2 = pd.get_dummies(x, columns=cat_cols, drop_first=True)
x_cat2.head()

Unnamed: 0,CompPrice,Income,Advertising,Price,ShelveLoc_Good,ShelveLoc_Medium
0,138,73,11,120,False,False
1,111,48,16,83,True,False
2,113,35,10,80,False,True
3,117,100,4,97,False,True
4,141,64,3,128,False,False


### (4) 데이터분할2 : train : validation 나누기

In [39]:
x_train, x_val, y_train, y_val = train_test_split(x_cat2, y, test_size = .3, random_state = 20)

## 3.모델링 연습

In [40]:
from sklearn.linear_model import LinearRegression

In [41]:
model = LinearRegression()

In [42]:
model.fit(x_train, y_train)

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [43]:
pred = model.predict(x_val)

In [44]:
print(mean_absolute_error(y_val, pred))

1.1424936251689666


## 4.모델링 : 단순회귀

* 하나의 feature로 tareget 예측
    * Price --> Sales

### (1)학습할 데이터 준비

In [45]:
# 학습에 사용할 변수를 지정합니다.
features = ['Price']

x_train1 = x_train[features]
x_val1 = x_val[features]

In [46]:
x_train1.head()

Unnamed: 0,Price
268,105
108,103
21,109
231,122
33,128


### (2) 모델선언

In [47]:
model1 = LinearRegression()

### (3) 모델링(학습)

In [49]:
model1.fit(x_train1, y_train)

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


* 회귀계수 확인하기

In [50]:
print('회귀계수 : ', model1.coef_)
print('절편 : ', model1.intercept_)

회귀계수 :  [-0.0524425]
절편 :  13.644386014375812


### (4) 검증 : 예측

In [51]:
pred1 = model1.predict(x_val1)

### (5) 검증 : 평가

* 평가용 함수들은 대부분 (실제값, 예측값)

In [52]:
# 평균오차
mean_absolute_error(y_val, pred1)

2.166652749231526

## 5.회귀 모델 평가하기

### (1) 오차의 비로 평가하기 : R2 Score

In [53]:
# r2 score로 평가하고 결과를 해석해 봅시다.
r2_score(y_val, pred1)

0.18003797156441326

### (2)오차의 양과 율로 평가하기

In [54]:
# MSE
mean_squared_error(y_val, pred1)

6.8299260510695206

In [55]:
# RMSE
root_mean_squared_error(y_val, pred1)

2.613412721150167

In [56]:
# MAE
mean_absolute_error(y_val, pred1)

2.166652749231526

In [57]:
# MAPE
mean_absolute_percentage_error(y_val, pred1)

147962928206494.2

## 6.복습 문제
단순회귀 모델을 만들어 봅시다.

|	변수명	|	설명	|	구분	|
|----|----|----|
|	Sales 	|	 각 지역 판매량(단위 : 1000개)	|	Target	|
|	CompPrice 	|	지역별 경쟁사 판매가격(달러)	|	feature	|
|	Income 	|	가구당 평균 소득액(1000달러)	|	feature	|
|	Advertising 	|	 각 지역, 회사의 광고 예산(1000달러)	|	feature	|
|	Population 	|	 지역 인구수(단위 : 1000명)	|	feature	|
|	Price 	|	 자사 지역별 판매가격(달러)	|	feature	|
|	ShelveLoc 	|	 진열상태(범주 : Bad, Medium, Good)	|	feature	|
|	Age 	|	 지역 인구의 평균 연령	|	feature	|
|	Education 	|	 교육수준(범주 : 10~18)	|	feature	|
|	Urban 	|	 매장이 도심에 있는지 여부(범주 : Yes, No)	|	feature	|
|	US 	|	 매장이 미국에 있는지 여부(범주 : Yes, No)	|	feature	|


### (1) 단순회귀 모델1 : Income --> Sales

In [58]:
# 학습에 사용할 변수를 지정합니다.
# Sales는 Label, Income은 Feature
features = ['Income']
x_train1 = x_train[features]
x_val1 = x_val[features]

In [59]:
# 모델 선언
model = LinearRegression()

# 학습
# Income Feature 값과 Label 값을 가지고 회귀선을 fitting
model.fit(x_train1, y_train)

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [61]:
# 예측
# x_val1(평가용 dataset)을 위에서 구한 회귀선에 대입하여 y값을 추출 후 pred에 저장
pred1 = model.predict(x_val1)

In [None]:
# 평가
# 위에서 구한 pred와 실제 label 값과의 평균절대오차를 확인하고 평가
print(f"R2 값: {r2_score(y_val, pred1)}")
print(f"평균제곱오차: {mean_squared_error(y_val, pred1)}")
print(f"평균제곱근오차: {root_mean_squared_error(y_val, pred1)}")
print(f"평균절대오차: {mean_absolute_error(y_val, pred1)}")
print(f"평균절대오차(%): {mean_absolute_percentage_error(y_val, pred1)} %")

R2 값: 0.03254710444404685
평균제곱오차: 8.058460642558055
평균제곱근오차: 2.838742792603454
평균절대오차: 2.3261241999672735
평균절대오차(%): 267436088761723.88


### (2) 단순 회귀 모델3 : Advertising --> Sales

In [63]:
# 학습에 사용할 변수를 지정합니다.
# Sales는 Label, Advertising은 Feature
features = ['Advertising']
x_train3 = x_train[features]
x_val3 = x_val[features]

In [64]:
# 모델 선언
model = LinearRegression()

# 학습
model.fit(x_train3, y_train)

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [65]:
# 예측
pred3 = model.predict(x_val3)

In [69]:
# 평가
print(f"R2 값: {r2_score(y_val, pred3)}")
print(f"평균제곱오차: {mean_squared_error(y_val, pred3)}")
print(f"평균제곱근오차: {root_mean_squared_error(y_val, pred3)}")
print(f"평균절대오차: {mean_absolute_error(y_val, pred3)}")
print(f"평균절대오차(%): {mean_absolute_percentage_error(y_val, pred3)} %")

R2 값: 0.09630899590035225
평균제곱오차: 7.527351897981478
평균제곱근오차: 2.7436019933622804
평균절대오차: 2.2185668514356753
평균절대오차(%): 260092661714167.97 %
