# 회귀 분석
-----------
    수치형 변수 간의 관계 또는 Input(원인)과 Output(결과) 간의 관계를 추정하거나 예측하는 데 사용한다.
    변수 간의 강도와 방향을 측정하는 방법에는 상관계수가 있다.

#### 01. 상관 계수
----------
    두 변수 간의 선형적인 관계가 어느 정도 강한지를 나타낸다.
    - -1 <= r <= 1
    - r이 1에 가까울수록 강한 양의 선형관계를 의미한다.
    - r이 0에 가까울수록 약한 선형관계를 의미한다.
    - r이 -1에 가까울수록 강한 음의 선형관계를 의미한다.

```python
pandas.DataFrame.corr(method='pearson'.numeric_only=False)
```
- method : 상관 관계 방법
  - pearson : 피어슨(기본값)
  - kendall : 켄달의 타우(Kendall's tau)
  - spearman : 스피어만
- numeric_only : 숫자형 자료만 포함 여부(기본값 False)

-------------
Q. 다음은 학생들의 키와 몸무게 데이터다. 이를 바탕으로 상관계수를 구하라.

| 학생      | 키(cm) | 몸무게(kg)          |
|-----------|------|---------------|
| A    |  150  | 42      |
| B    |  160  | 50      |
| C    |  170  | 70        |
| D    |  175  | 64      |
| E    |  165  | 56        |

In [54]:
import pandas as pd

# 주어진 데이터
data = {
    '키': [150, 160, 170, 175, 165],
    '몸무게': [42, 50, 70, 64, 56]
}
df = pd.DataFrame(data)
print(df)

# 판다스는 기본적으로 피어슨 상관관계
correlation = df.corr()
print('키와 몸무게 상관관계 :',correlation.iloc[0,1])
print(df['키'].corr(df['몸무게']))
print(df['몸무게'].corr(df['키']))
# '스피어만 상관관계',
print(df.corr(method='spearman'))
# 켄달 타우 상관관계
print(df.corr(method='kendall'))

# 두 변수의 상관 계수와 t-검
from scipy import stats
print(stats.pearsonr(df['몸무게'],df['키']))
print(stats.spearmanr(df['몸무게'],df['키']))
print(stats.kendalltau(df['몸무게'],df['키']))

     키  몸무게
0  150   42
1  160   50
2  170   70
3  175   64
4  165   56
키와 몸무게 상관관계 : 0.9195090879163764
0.9195090879163765
0.9195090879163765
       키  몸무게
키    1.0  0.9
몸무게  0.9  1.0
       키  몸무게
키    1.0  0.8
몸무게  0.8  1.0
PearsonRResult(statistic=0.9195090879163766, pvalue=0.027079456895589476)
SignificanceResult(statistic=0.8999999999999998, pvalue=0.03738607346849874)
SignificanceResult(statistic=0.7999999999999999, pvalue=0.08333333333333333)


### 단순 회귀 분석
-------------
    하나의 독립변수로부터 하나의 종속변수와의 관계를 분석하거나 예측하는 방법
    - 독립변수(x) : 원인을 나타내는 변수
    - 종속변수(y) : 결과를 나타내는 변수

#### 01. 단순 회귀 분석과 다중 회귀 분석
----------
    회귀 분석의 유형은 독립변수의 개수에 따라 달라진다.
- 단일 회귀 분석 : 독립변수(원인)가 하나인 경우
      Y=α+βX+ϵ
  - X:독립변수
  - Y:종속변수
  - α:절편
  - β:기울기(x를 1 증가시켰을 때 y의 증가량)
  - ϵ: 오차항(모델이 설명하지 못하는 부분)

- 최소제곱법
      관측된 값과 회귀 모델의 예측값 차이(잔차)의 제곱합을 최소화하는것

- ols 제곱 ( statsmodels의 ols() 함수 )
      종속변수와 하나 이상의 독립변수 간의 선형 관계를 모델링하는데 사용된다.
  ```python
  ols('종속변수 ~ 독립변수',data=df).fit()
  ```
- ### 제곱합 ###
      선형 회귀에서 모델이 데이터를 잘 설명하는가(적합도)를 평가하는데 사용된다.
      - SST : 각 관측치가 평균으로부터 얼마나 떨어져 있는지를 나타냄
      총 제곱합 : SST = SSE + SSR
      - SSR : 회귀선이 평균으로부터 얼마나 떨어져 있는지 나타냄
      - SSE : 관측치가 회귀선으로부터 얼마나 떨어져 있는지를 나타냄

- 결정 계수(R-squared)
      결정 계수는 모델이 그 데이터를 얼마나 잘 설명하느냐를 나타내는 통계값
      R^2 = SSR / SST
      (1에 가까울수록 데이터를 잘 설명한다)
------------------------------------
Q. 다음은 20명의 키과 몸무게에 관한 정보다. 이 데이터를 바탕으로 회귀모델을 구축하고 각 소문제의 값을 구하시오.

In [58]:
import pandas as pd

data = {
    '키': [150, 160, 170, 175, 165, 155, 172, 168, 174, 158,
          162, 173, 156, 159, 167, 163, 171, 169, 176, 161],
    '몸무게': [42, 50, 70, 64, 56, 48, 68, 60, 65, 52,
            54, 67, 49, 51, 58, 55, 69, 61, 66, 53]
}
df = pd.DataFrame(data)
print(df.sample(5))

      키  몸무게
10  162   54
15  163   55
1   160   50
3   175   64
5   155   48


In [60]:
from statsmodels.formula.api import ols
model = ols('키 ~ 몸무게',data=df).fit()
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                      키   R-squared:                       0.892
Model:                            OLS   Adj. R-squared:                  0.886
Method:                 Least Squares   F-statistic:                     148.0
Date:                Fri, 08 Nov 2024   Prob (F-statistic):           4.04e-10
Time:                        07:56:11   Log-Likelihood:                -45.761
No. Observations:                  20   AIC:                             95.52
Df Residuals:                      18   BIC:                             97.51
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    115.0676      4.158     27.671      0.0

In [61]:
print("결정 계수:", model.rsquared)

결정 계수: 0.8915914350087264


In [63]:
print("기울기: ",model.params['몸무게'])
print("절편: ",model.params['Intercept'])

기울기:  0.8658438852380201
절편:  115.06763904471865


In [66]:
print("지수 표기법, p-value:",model.pvalues['몸무게'])
print("일반 표기법, p-value:","{:.10f}".format(model.pvalues['몸무게']))

지수 표기법, p-value: 4.0379325599303615e-10
일반 표기법, p-value: 0.0000000004


In [69]:
new_data = pd.DataFrame({'몸무게':[67]})
result = model.predict(new_data)
print("몸무게가 67일때의 예측 키 :",result[0])

몸무게가 67일때의 예측 키 : 173.07917935566599


In [71]:
df['잔차'] = df['키'] - model.predict(df)
print("잔차 제곱합: ",sum(df['잔차']**2))

df['잔차'] = df['키'] - model.predict(df)
MSE = (df['잔차']**2).mean()
print('MSE: ',MSE)

잔차 제곱합:  113.74226638884431
MSE:  5.687113319442214


In [73]:
# MSE(Mean Squared Error) : 평균 제곱 오차로 잔차의 평균
from sklearn.metrics import mean_squared_error
pred = model.predict(df['몸무게'])
mse = mean_squared_error(df['키'],pred)
print('MSE: ',mse)

MSE:  5.687113319442214


In [74]:
# 몸무게 95% 신뢰 구간을 구하시오
print('신뢰구간 \n',model.conf_int(alpha=0.05).loc['몸무게'])

신뢰구간 
 0    0.716337
1    1.015351
Name: 몸무게, dtype: float64


In [76]:
# 몸무게가 50일 때 예측 키의 신뢰 구간과 예측 구간의 구하시오.
new_data = pd.DataFrame({"몸무게":[50]})
# 예측값과 예측 구간
pred = model.get_prediction(new_data)
# 신뢰구간 95%
result = pred.summary_frame(alpha=0.05)
print("예측값의 신뢰구간 예측구간:\n",result)

예측값의 신뢰구간 예측구간:
          mean   mean_se  mean_ci_lower  mean_ci_upper  obs_ci_lower  \
0  158.359833  0.794986      156.68963     160.030037    152.820798   

   obs_ci_upper  
0    163.898869  
