### **회귀분석 **
-------
    수치형 변수 간의 Input 원인과 Output 간의 관곌르 추정하거나 예측하는데 사용한다.
    변수 간의 강도와 방향을 측정하는 방법에는 상관 계수가 있다.

#### 상관계수의 종류
---
    상관계수 : 두 변수 간의 선형적인 관계가 어느정도 강한지를 나타낸다.
    - -1<= r <= 1
    - r이 1에 가까울수록 양의 선형관계를 의미한다.
    - r이 -1에 가까울수록 음의 선형관계를 의미한다.
    - r이 0 에 가까울수록 약한 선형 관계를 의미한다.


1. 상관계수
```
pandas.DataFrame.corr(method = 'pearson' , numeric_only = False)
```
- 상관관계 method
  - pearson
  - kendall
  - spearman
- numeric_only : 숫자 자료형만 포함(기본값 False)
  

In [97]:
import pandas as pd

# 주어진 데이터
data = {
    '키': [150, 160, 170, 175, 165],
    '몸무게': [42, 50, 70, 64, 56]
}
df = pd.DataFrame(data)

            키       몸무게
키    1.000000  0.919509
몸무게  0.919509  1.000000


In [98]:
# 상관계수 계산
correlation = df.corr()

print(correlation)

            키       몸무게
키    1.000000  0.919509
몸무게  0.919509  1.000000


In [99]:
print(correlation.iloc[0,1])


0.9195090879163764


In [100]:
print(df['키'].corr(df['몸무게']))

0.9195090879163765


In [105]:
print(df.corr(method='spearman'))

       키  몸무게
키    1.0  0.9
몸무게  0.9  1.0


In [109]:
print(stats.pearsonr(df['몸무게'],df['키']))
print(stats.kendalltau(df['몸무게'],df['키']))
print(stats.spearmanr(df['몸무게'],df['키']))

PearsonRResult(statistic=0.9195090879163766, pvalue=0.027079456895589476)
SignificanceResult(statistic=0.7999999999999999, pvalue=0.08333333333333333)
SignificanceResult(statistic=0.8999999999999998, pvalue=0.03738607346849874)


## 단순 선형 회귀 분석
    2개 이상의 변수 간의 관계를 파악하려는 통계적 분석 방법이다.
    그중 단순 선형 회귀 분석은 하나의 독립변수로부터 하나의 종속변수와의 관계를 분석하거나 예측하는 방법이다.
    <예시> 키워드 광고를 많이 하면 판매량이 어떻게 변할까요?
    - 독립변수 : 원인을 나타내는 데이터다. 예) 키워드 광고
    - 종속변수 : 결과를 나타내는 데이터다. 예) 판매량

1. 최소제곱 선형 회귀 모델을 구축
```
ols('종속변수 ~ 독립변수',data=df).fit()
```
2. 제곱합

|   용어         |  | 의미 |
|--------------|------|--------|
| SST    | 총 제곱합   | 각 관측치가 평균으로부터 얼마나 떨어져 있는지를 나타냄     |
| SSR | 회귀 제곱합   | 회귀선이 평균으로부터 얼마나 떨어져 있는지를 나타냄     |
| SSE |오차 제곱합(잔차 제곱합) |관측치가 회귀선으로부터 얼마나 떨어져 있는지를 나타냄 |

3. 결정계수(R-squared)
결정 계수는 모델이 그 데이터를 얼마나 잘 설명하는지 나타내는 통계 값이다.
R^2 = SSR / SST , 이 값이 1에 가까울수록 잘 설명한다.

Q. 다음은 20명의 키와 몸무게에 관한 정보다. 이 데이터를 바탕으로 회귀 모델을 구축하고 각 소문제의 값을 구하시오.

In [110]:
import pandas as pd

data = {
    '키': [150, 160, 170, 175, 165, 155, 172, 168, 174, 158,
          162, 173, 156, 159, 167, 163, 171, 169, 176, 161],
    '몸무게': [42, 50, 70, 64, 56, 48, 68, 60, 65, 52,
            54, 67, 49, 51, 58, 55, 69, 61, 66, 53]
}
df = pd.DataFrame(data)

In [119]:
from statsmodels.formula.api import ols
model = ols('키 ~몸무게',data=df).fit()
print(model.summary())
print("결정계수:",model.rsquared)
print("기울기: ",model.params['몸무게'])
print('절편:',model.params['Intercept'])
print("p-values:",model.pvalues['몸무게'])
new_Data = pd.DataFrame({'몸무게':[67]})
result = model.predict(new_Data)
print('몸무게가 67일때 예측 키',result[0])
# 회귀 모델의 잔차 제곱합
df['잔차'] = df['키'] - model.predict(df)
print("잔차 제곱합 : ",sum(df['잔차']**2))
print("MSE:",(df['잔차']**2).mean())

                            OLS Regression Results                            
Dep. Variable:                      키   R-squared:                       0.892
Model:                            OLS   Adj. R-squared:                  0.886
Method:                 Least Squares   F-statistic:                     148.0
Date:                Tue, 19 Nov 2024   Prob (F-statistic):           4.04e-10
Time:                        08:14:25   Log-Likelihood:                -45.761
No. Observations:                  20   AIC:                             95.52
Df Residuals:                      18   BIC:                             97.51
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    115.0676      4.158     27.671      0.0

In [120]:
from sklearn.metrics import mean_squared_error
pred = model.predict(df['몸무게'])
mse = mean_squared_error(df['키'],pred)
print('MSE : ',mse)

MSE :  5.687113319442214
