# Linear Regression
- Linear Reagression은 종속 변수 y와 독립 변수 x와의 선형 상관관계를 모델링하는 기법으로 x가 1개이면 단순 회귀, 2개 이상인 경우에는 다중 회귀라고 한다

## 단순 회귀(Simple Regression)
- 단순 회귀는 일차함수 그래프의 모습인 $ y = Wx + b $의 식으로 나타낼 수 있다. 이때 W를 가중치, b를 편향이라고 한다.
- 단순 회귀는 독립변수 하나와 종속변수 하나가 일대일 대응 관계를 갖는 선형 회귀로 최적의 회귀모델은 전체 데이터의 오차 합이 최소가 되는 모델을 의미한다. 즉 오차의 합이 최소가 되는 가중치와 편향을 찾는 것을 의미한다.

## 다중 회귀(Multiple Regression)
- 다중 회귀는 $ y = W_1x_1 + W_2x_2 + W_3x_3 + W_4x_4 + b $의 식으로 나타낼 수 있다. 이때 W를 가중치, b를 편향이라고 한다.
- 다중 회귀는 여러 독립변수가 종속변수에 영향을 미치는 선형 회귀로 y값을 설명하기 위해 여러개의 x값이 필요한 경우이다. 단순 회귀와 마찬가지로 최적의 회귀모델은 전체 데이터의 오차 합이 최소가 되는 모델을 의미한다. 즉 오차의 합이 최소가 되는 가중치와 편향을 찾는 것을 의미한다.

## 실습

In [1]:
# 라이브러리 불러오기
import seaborn as sns
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings(action='ignore')
%config InlineBackend.figure_format='retina'

In [2]:
data = sns.load_dataset('tips')

In [3]:
data.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB


In [5]:
data.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


In [6]:
data.corr()

Unnamed: 0,total_bill,tip,size
total_bill,1.0,0.675734,0.598315
tip,0.675734,1.0,0.489299
size,0.598315,0.489299,1.0


In [8]:
target = 'tip'
x = data.drop([target,'smoker'], axis = 1)
y = data.loc[:, target]

In [9]:
# 가변수화
dumm_col = ['sex', 'day', 'time']
x = pd.get_dummies(x, columns=dumm_col, drop_first=True)

In [10]:
x.head()

Unnamed: 0,total_bill,size,sex_Female,day_Fri,day_Sat,day_Sun,time_Dinner
0,16.99,2,1,0,0,1,1
1,10.34,3,0,0,0,1,1
2,21.01,3,0,0,0,1,1
3,23.68,2,0,0,0,1,1
4,24.59,4,1,0,0,1,1


In [12]:
x.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   total_bill   244 non-null    float64
 1   size         244 non-null    int64  
 2   sex_Female   244 non-null    uint8  
 3   day_Fri      244 non-null    uint8  
 4   day_Sat      244 non-null    uint8  
 5   day_Sun      244 non-null    uint8  
 6   time_Dinner  244 non-null    uint8  
dtypes: float64(1), int64(1), uint8(5)
memory usage: 5.1 KB


In [13]:
# 학습 데이터와 테스트 데이터 분리
from sklearn.model_selection import train_test_split
#train_test_split가 값을 섞어주는데 만약 고정된 값을 가지고 싶다면 random_state= 값을 주면 된다.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3) 

In [14]:
# 모델링
# 순서는 1. 라이브러리 불러오기, 2. 모델 선언, 3. 모델 학습, 4. 모델 예측, 5. 모델 평가

In [15]:
# 라이브러리 불러오기
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_absolute_error

In [17]:
# 모델 선언
model = LinearRegression()

In [18]:
# 모델 학습
model.fit(x_train, y_train)

In [19]:
# 모델 예측
y_pred = model.predict(x_test)

In [20]:
# 모델 평가
print(f'MAE : {mean_absolute_error(y_test, y_pred)}')
print(f'R2-score : {r2_score(y_test, y_pred)}')

MAE : 0.7152785020747232
R2-score : 0.26564830549759033
