## 선형 회귀분석
### 다중 회귀분석
독립변수가 여러개인 회귀분석

### 단순 회귀분석
연속형 종속변수와 독립변수 간 선형관계 및 설명력을 확인하는 기법

종속변수와 독립변수가 하나인 단순 선형 회귀 모형

'설명'력과 더불어 '오차 평가' 지표로 모델의 성능을 평가

#### statsmodels - ols()
선형회귀 분석을 위한 statsmodels의 함수

ols() 함수 내에 종속변수와 독립변수를 선언

ols() 함수의 fit() 메서드로 모델 적합

변수명에 온점 등 특정 특수문자가 있는 경우 오류 발생 (ex. Sepal.Width)

모델 객체의 predict() 메서드로 예측

#### sklearn - LinearRegression()
선형회귀 분석을 위한 sklearn의 함수

LinearRegression() 함수 내 fit_intercept로 절편 적합 여부 설정 가능

LinearRegression() 함수의 fit() 메서드에 학습 데이터 할당 가능

모델 객체의 coef_와 intercept_ 어트리뷰트로 각각 계수와 절편 확인 가능

모델 객체의 predict() 메서드로 예측

#### sklearn - mean_absolute_error()
MAE 연산을 위한 sklearn의 함수

#### sklearn - mean_squared_error()
MSE 연산을 위한 sklearn의 함수

공식 : SSE(Sum of Squeared Error) / n

해당 결과에 제곱근 연산을 하면 RMSE(Root Mean Squared Error) 계산 가능

In [1]:
import pandas as pd
from statsmodels.formula.api import ols

df = pd.read_csv('ex/iris.csv')
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [3]:
# error 발생 (변수명 온점)
# model = ols(formula='Sepal.Length ~ Sepal.Width', data=df).fit()

df.columns = ['SL', 'SW', 'PL', 'PW', 'S']
df.head(2)

Unnamed: 0,SL,SW,PL,PW,S
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [7]:
# error 발생 (model.summary()에서 Prob(F-statistic) 즉, p-value가 0.05보다 큼.)
# formula 쓸 때: ~ 앞은 종속변수, 뒤는 독립변수
model = ols(formula='SL ~ SW', data=df).fit()
model.summary()

0,1,2,3
Dep. Variable:,SL,R-squared:,0.014
Model:,OLS,Adj. R-squared:,0.007
Method:,Least Squares,F-statistic:,2.074
Date:,"Thu, 21 Dec 2023",Prob (F-statistic):,0.152
Time:,23:59:22,Log-Likelihood:,-183.0
No. Observations:,150,AIC:,370.0
Df Residuals:,148,BIC:,376.0
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,6.5262,0.479,13.628,0.000,5.580,7.473
SW,-0.2234,0.155,-1.440,0.152,-0.530,0.083

0,1,2,3
Omnibus:,4.389,Durbin-Watson:,0.952
Prob(Omnibus):,0.111,Jarque-Bera (JB):,4.237
Skew:,0.36,Prob(JB):,0.12
Kurtosis:,2.6,Cond. No.,24.2


In [8]:
# 좋은 모델
model = ols(formula='PL ~ PW', data=df).fit()
model.summary()
# y = 2.2299 * x + 1.0836

0,1,2,3
Dep. Variable:,PL,R-squared:,0.927
Model:,OLS,Adj. R-squared:,0.927
Method:,Least Squares,F-statistic:,1882.0
Date:,"Fri, 22 Dec 2023",Prob (F-statistic):,4.6800000000000005e-86
Time:,00:00:20,Log-Likelihood:,-101.18
No. Observations:,150,AIC:,206.4
Df Residuals:,148,BIC:,212.4
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,1.0836,0.073,14.850,0.000,0.939,1.228
PW,2.2299,0.051,43.387,0.000,2.128,2.332

0,1,2,3
Omnibus:,2.438,Durbin-Watson:,1.43
Prob(Omnibus):,0.295,Jarque-Bera (JB):,1.966
Skew:,0.211,Prob(JB):,0.374
Kurtosis:,3.369,Cond. No.,3.7


### .summary() 에서 중요하게 봐야할 점
#### 1. Prob(F-statistic): p-value, 유의확률, Significance Probability
0.05보다 작아야 함.

귀무가설이 옳다고 가정했을 때, 통계치가 관측될 확률

유의확률(p-값)이 유의수준(α)인 0.05보다 작다면 귀무가설을 기각하고 대립가설을 채택함.

어떤 사건이 우연히 발생할 확률이 0.05보다 작을 가능성은 거의 없으며

만약 발생하더라도 그것은 우연히 일어난 것(귀무가설)이 아니라 유의(대립가설)했기 때문에 일어났다고 해석하기 때문.

ex. F-statistic : 검정통계량 = 1334 && Prob (F-statistic) : P-value = 0.000

유의확률이 0.000이므로 유의수준 0.05에서 회귀모형은 통계적으로 유의하게 타당한 것으로 나타났다.

#### 2. R-squared: 결정계수
1에 가까워야함.

1에 가까울수록 인과관계 높음

#### 3. Adj. R-squared: 조절 결정계수

#### 4. F-statistic: 검정통계량

#### 5. Intercept: 절편
1,2를 만족한다면 coef-Intercept가 절편, coef-{column_name}이 독립변수의 계수

In [9]:
df.iloc[:6,]

Unnamed: 0,SL,SW,PL,PW,S
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa


In [10]:
model.predict(df.iloc[:6,]) # ols.fit()을 통해 생성된 수식에 ()안의 값 대입 결과

0    1.529546
1    1.529546
2    1.529546
3    1.529546
4    1.529546
5    1.975534
dtype: float64

In [11]:
df['pred'] = model.predict(df) # 학습할 때 사용하지 않은 변수와 같이 있어도 자동으로 사용한 변수만 사용
df.head()

Unnamed: 0,SL,SW,PL,PW,S,pred
0,5.1,3.5,1.4,0.2,setosa,1.529546
1,4.9,3.0,1.4,0.2,setosa,1.529546
2,4.7,3.2,1.3,0.2,setosa,1.529546
3,4.6,3.1,1.5,0.2,setosa,1.529546
4,5.0,3.6,1.4,0.2,setosa,1.529546


In [13]:
# LinearRegression
from sklearn.linear_model import LinearRegression

In [26]:
# model = LinearRegression().fit(X=df['PL'], y=df['PW'])
# 그냥 df['PL']은 1차원 배열 (DataFrame이 풀림)
df[['PL']]
df.iloc[:,]
# [] 안에 []는 2차원 배열 (DataFrame이 풀리지 않음)
model = LinearRegression().fit(X=df[['PL']], y=df['PW'])
model

In [28]:
model.coef_
model.intercept_
model.predict(df[['PL']])

array([0.21898206, 0.21898206, 0.17740652, 0.2605576 , 0.21898206,
       0.34370869, 0.21898206, 0.2605576 , 0.21898206, 0.2605576 ,
       0.2605576 , 0.30213314, 0.21898206, 0.09425544, 0.13583098,
       0.2605576 , 0.17740652, 0.21898206, 0.34370869, 0.2605576 ,
       0.34370869, 0.2605576 , 0.0526799 , 0.34370869, 0.42685977,
       0.30213314, 0.30213314, 0.2605576 , 0.21898206, 0.30213314,
       0.30213314, 0.2605576 , 0.2605576 , 0.21898206, 0.2605576 ,
       0.13583098, 0.17740652, 0.21898206, 0.17740652, 0.2605576 ,
       0.17740652, 0.17740652, 0.17740652, 0.30213314, 0.42685977,
       0.21898206, 0.30213314, 0.21898206, 0.2605576 , 0.21898206,
       1.59097494, 1.50782385, 1.67412602, 1.29994614, 1.54939939,
       1.50782385, 1.59097494, 1.00891735, 1.54939939, 1.2583706 ,
       1.09206844, 1.38309723, 1.29994614, 1.59097494, 1.13364398,
       1.46624831, 1.50782385, 1.34152169, 1.50782385, 1.2583706 ,
       1.63255048, 1.29994614, 1.67412602, 1.59097494, 1.42467

In [29]:
# Error Metrics
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error

In [30]:
mean_absolute_error(y_true=df['PL'], y_pred=df['PW'])

2.558666666666667

In [32]:
mean_squared_error(y_true=df['PL'], y_pred=df['PW'])

7.645466666666667

In [33]:
mean_squared_error(y_true=df['PL'], y_pred=df['PW']) ** 0.5

2.76504370067937

In [40]:
#종속변수를 registered, 독립변수를 temp로 했을 때 결정계수는?
from sklearn.model_selection import train_test_split

bike = pd.read_csv('ex/bike.csv')
train_bike, test_bike = train_test_split(bike, train_size=0.7, test_size=0.3, random_state=123)

model = ols(formula='registered ~ temp', data=train_bike).fit()
model.rsquared

0.10589694180512377

In [54]:
# 종속변수를 casual, 독립변수를 atemp로 했을 때 RMSE는?
from statsmodels.formula.api import ols
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

bike = pd.read_csv('ex/bike.csv')
train_bike, test_bike = train_test_split(bike, train_size=0.7, random_state=123)

model = ols(formula='casual ~ atemp', data=train_bike).fit()

pred = model.predict(test_bike)
mean_squared_error(y_true=test_bike['casual'], y_pred=pred) ** 0.5

44.46237010271433

In [65]:
# 종속변수를 casual, 독립변수를 atemp로 했을 때 여름과 겨울의 RMSE 차이는?
from statsmodels.formula.api import ols
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

bike = pd.read_csv('ex/bike.csv')
s2_train_bike, s2_test_bike = train_test_split(bike[bike['season']==2], train_size=0.7, random_state=123)
s4_train_bike, s4_test_bike = train_test_split(bike[bike['season']==4], train_size=0.7, random_state=123)

s2_model = ols(formula='casual~atemp', data=s2_train_bike).fit()
s4_model = ols(formula='casual~atemp', data=s4_train_bike).fit()

s2_pred = model.predict(s2_test_bike)
s2_rmse = mean_squared_error(y_true=s2_test_bike['casual'], y_pred=s2_pred) ** 0.5

s4_pred = model.predict(s4_test_bike)
s4_rmse = mean_squared_error(y_true=s4_test_bike['casual'], y_pred=s4_pred) ** 0.5

abs(s4_rmse-s2_rmse)

8.558302147316923