# 회귀 분석
- section 01 : 상관 계수
- section 02 : 단순 선형 회귀 분석
- section 03 : 다중 선형 회귀 분석
- section 04 : 범주형 변수


## section 01 : 상관 계수
- 상관 계수(Correlation Coefficient)는 두 변수간의 선형적인 관계가 어느 정도 강한지를 나타낸다
- -1<= r <= 1
    - r이 1에 가까울수록 강한 양의 선형 관계 의미
    - r이 0에 가까울수록 약한 선형 관계를 의미
    - r이 -1에 가까울수록 강한 음의 선형관계를 의미


```python
pandas.DataFrame.corr(method='pearson', numeric_only = True)
``` 


- method : 상관 관계 방법
    - pearson : 피어슨(기본값)
    - kendall : 켄달의 타우
    - spearman : 스피어만
- numeric_only : 숫자 자료형만 포함 여부(기본값 False)

### 문제. 다음은 학생들의 키와 몸무게 데이터다. 이를 바탕으로 상관계수를 구하라.

<table>
  <tr>
    <td>학생</td>
    <td>키(cm)</td>
    <td>몸무게(kg)</td>
  </tr>
  <tr><td>A</td><td>150</td><td>42</td></tr>
  <tr><td>B</td><td>160</td><td>50</td></tr>
  <tr><td>C</td><td>170</td><td>70</td></tr>
  <tr><td>D</td><td>175</td><td>64</td></tr>
  <tr><td>E</td><td>165</td><td>56</td></tr>

</table>

In [1]:
# 판다스 데이터 프레임에서 제공하는 corr() 함수를 활용하면 상관계수를 구할 수 있다.
# corr는 correltaion의 약자다.

import pandas as pd

data = {
    '키' :[150,160,170,175,165],
    '몸무게':[42,50,70,64,56]
}

df = pd.DataFrame(data)

correlation = df.corr()
print(correlation)

            키       몸무게
키    1.000000  0.919509
몸무게  0.919509  1.000000


In [2]:
print(correlation.iloc[0,1])

0.9195090879163764


In [4]:
print(df['키'].corr(df['몸무게']))
print(df['몸무게'].corr(df['키']))

0.9195090879163765
0.9195090879163765


In [5]:
# 판다스에서는 기본적으로 피어슨 상관계수를 계산
# method 파라미터를 활용해 다른 종류의 상관 계수를 계산할 수 있다.
# 스피어만 상관게수나 켄달의 타우를 계산

# 피어슨 상관 계수
print(df.corr())

# 스피어만 상관 계수
print(df.corr(method='spearman'))

# 켄달의 타우 상관 계수
print(df.corr(method ='kendall'))

            키       몸무게
키    1.000000  0.919509
몸무게  0.919509  1.000000
       키  몸무게
키    1.0  0.9
몸무게  0.9  1.0
       키  몸무게
키    1.0  0.8
몸무게  0.8  1.0


### 두 변수의 상관계수와 t-검정
- 두 변수의 상관계수와 t-검정 결과를 확인가능하다.
- 일반적으로 t-검정을 묻는다면 피어슨 상관게수 값이 표준이다.

In [8]:
from scipy import stats

print(stats.pearsonr(df['몸무게'],df['키']))

print(stats.spearmanr(df['몸무게'],df['키']))

print(stats.kendalltau(df['몸무게'],df['키']))

PearsonRResult(statistic=np.float64(0.9195090879163765), pvalue=np.float64(0.027079456895589462))
SignificanceResult(statistic=np.float64(0.8999999999999998), pvalue=np.float64(0.03738607346849875))
SignificanceResult(statistic=np.float64(0.7999999999999999), pvalue=np.float64(0.08333333333333333))


## Section 02 : 단순 선형 회귀 분석
- 회귀 분석은 2개 이상의 변수 간의 관계를 파악하려는 통게적 분석 방법
- 단순 선형 회귀 분석은 하나의 독립변수로 부터 하나의 종속변수와의 관게를 분석, 예측하는 방법
    - 독립변수(X) : 원인을 나타내는 데이터
    - 종속변수(y) : 결과를 나타내는 데이터

- 단순 회귀 분석 : 독립변수(원인)가 하나 일때
- 다중 회귀 분석 : 독립변수(원인)가 여러 개 일때

### 문제. 다음은 20명의 키와 몸무게에 관한 정보.
- 이 데이터를 바탕으로 회귀 모델을 구축하고 각 소문제의 값을 구하라.

1. 주어진 데이터로 최소제곱법을 이용한 단순 선형 회귀 모델을 구축하고 통게적 요약을 출력
2. 회귀 모델의 결정 계수를 구하시오.
3. 회귀 모델에서 회귀 계수(기울기와 절편)을 구하시오.
4. 회귀 모델에서 몸무게의 회귀 계수가 통계적으로 유의한지 검정했을 때의 p-value를 구하시오.
5. 회귀 모델을 사용해 몸무게가 67일 때의 예측 키를 구하시오.
6. 회귀 모델의 잔차 제곱합을 구하시오.
7. 회귀 모델의 MSE를 구하시오.

In [9]:
# 0. 데이터

import pandas as pd

data = {
    '키':[150,160,170,175,165,155,172,168,174,158,
         162,173,156,159,167,163,171,169,176,161],
    '몸무게':[42,50,70,64,56,48,68,60,65,52,
           54,67,49,51,58,55,69,61,66,53]
}
df = pd.DataFrame(data)

In [11]:
# 1. 주어진 데이터로 최소제곱법을 이용한 단순 선형 회귀 모델을 구축하고 통게적 요약을 출력

from statsmodels.formula.api import ols

model = ols('키 ~ 몸무게', data = df).fit()
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                      키   R-squared:                       0.892
Model:                            OLS   Adj. R-squared:                  0.886
Method:                 Least Squares   F-statistic:                     148.0
Date:                Thu, 20 Nov 2025   Prob (F-statistic):           4.04e-10
Time:                        22:34:02   Log-Likelihood:                -45.761
No. Observations:                  20   AIC:                             95.52
Df Residuals:                      18   BIC:                             97.51
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    115.0676      4.158     27.671      0.0

- statsmodels.formula.api에서 ols() 함수를 호출
- 키는 종속변수, 몸무게는 독립변수로 설정하여 선형 회귀 모델을 만듬.
- 몸무게의 기울기 : coef => 0.8658
- 절편(Intercept)의 기울기 : coef => 115.0676
- 결정 계수 : R-squared 0.892
- 몸무게의 p-value : 0.000

In [12]:
# 2. 회귀 모델의 결정 계수를 구하시오

print("결정 계수",model.rsquared)

결정 계수 0.8915914350087262


In [13]:
# 3. 회귀 모델에서 회귀 계수(기울기와 절편)를 구하시오.

print('기울기',model.params['몸무게'])
print('절편', model.params['Intercept'])

기울기 0.865843885238017
절편 115.06763904471865


In [14]:
# 4. 회귀 모델에서 몸무게의 회귀 계수가 통계적으로 유의한지 검정했을 때의 p-value를 구하시오
# 결과가 지수 표기법으로 출력되어 일반 표기법으로 변경

print("pValue",model.pvalues['몸무게'])
print("pValue","{:.10f}".format(model.pvalues['몸무게']))

pValue 4.0379325599306215e-10
pValue 0.0000000004


In [15]:
# 5. 회귀 모델을 사용해 몸무게가 67일 때의 예측 키를 구하시오
# 새로운 데이터를 학습할 때 사용했던 데이터와 동일한 컬럼명으로 데이터 프레임을 만들고 model.predict()함수를 사용해 에측
new_data = pd.DataFrame({'몸무게':[67]})

result = model.predict(new_data)
print("몸무게가 67일 때 예측 키 : " ,result[0])

몸무게가 67일 때 예측 키 :  173.0791793556658


In [16]:
# 6. 회귀 모델의 잔차 제곱합을 구하시오.
# 잔차는 '실제 값 - 모델' 로 예측된 값
# 잔차를 먼저 구하고 모델로 예측된 값을 구할 때 predict(df['몸무게'])를 입력으로 넣지 않고 predict(dt)를 그대로 넣더라도
# 모델이 자동으로 독립변수를 구분한다.

df['잔차'] = df['키'] - model.predict(df)
print('잔차 제곱합: ', sum(df['잔차']**2))

잔차 제곱합:  113.74226638884448


In [17]:
# 7. 회귀 모델의 MSE를 구하시오
# 평균 제곱 오차로 잔차들의 평균을 말한다.

df['잔차'] = df['키'] - model.predict(df)
MSE = (df['잔차']**2).mean()
print('MSE',MSE)

MSE 5.687113319442224


### 심화학습

In [19]:
# 1. 몸무게의 95% 신뢰 구간을 구하시오
# 95%의 신뢰 구간도 model.summary() 함수로 확인할 수 있다.
# alpha의 기본 값은 0,05(95%)이다.

print("신뢰구간:\n", model.conf_int(alpha=0.05).loc['몸무게'])

# 90%
print("신뢰구간:\n", model.conf_int(alpha=0.1).loc['몸무게'])

신뢰구간:
 0    0.716337
1    1.015351
Name: 몸무게, dtype: float64
신뢰구간:
 0    0.742443
1    0.989244
Name: 몸무게, dtype: float64


In [None]:
# 2. 몸무게가 50일 때 예측 키의 신뢰 구간과 예측 구간을 구하시오.

new_data = pd.DataFrame({"몸무게":[50]})
pred = model.get_prediction(new_data)
result = pred.summary_frame(alpha=0.05)
print("예측값의 신뢰 구간과 예측구간 :\n", result)

# get_prediction 함수를 사용해 예측값 및 예측 구간을 구한후
# summary_frame() 함수를 사용해 예측 결과를 요약

# mean_ci_lower     mean_ci_upper -> 예측 키의 95% 신뢰 구간의 하한과 상한의미
# obs_ci_lower      obs_ci_upper  -> 예측 구간의 하한과 상한을 의미

예측값의 신뢰 구간과 예측구간 :
          mean   mean_se  mean_ci_lower  mean_ci_upper  obs_ci_lower  \
0  158.359833  0.794986      156.68963     160.030037    152.820798   

   obs_ci_upper  
0    163.898869  


## section 03 : 다중 선형 회귀 분석
- 다중 선형 회귀 분석은 2개 이상의 독립변수와 하나의 종속변수 간의 관계를 분석하는 방법이다.
- 중선형 회귀 분석이라고도 부른다.



### 문제
- 다음은 매출액,광고비, 직원 수에 관한 데이터다.
- 광고비와 직원 수는 독립변수고, 매출액은 종속변수이다.
- 다중 선형 회귀 모델을 구축하고 각 소문제의 값을 구하시오.



In [31]:
import pandas as pd

data = {
    '매출액':[300,320,250,360,315,328,310,335,326,280,
           290,300,315,328,310,335,300,400,500,600],
    '광고비':[70,75,30,80,72,77,70,82,70,80,
           68,90,72,77,70,82,40,20,75,80],
    '직원수':[15,16,14,20,19,17,16,19,15,20,
           14,5,16,17,16,14,30,40,10,50]
}
df = pd.DataFrame(data)
print(df.head(3))

   매출액  광고비  직원수
0  300   70   15
1  320   75   16
2  250   30   14


In [32]:
# 1. 주어진 데이터로 최소제곱법을 이용한 다중 선형 회귀 모델을 구축하고 통계적 요약을 출력

from statsmodels.formula.api import ols

model = ols('매출액 ~ 광고비 + 직원수',data=df).fit()
print(model.summary())


                            OLS Regression Results                            
Dep. Variable:                    매출액   R-squared:                       0.512
Model:                            OLS   Adj. R-squared:                  0.454
Method:                 Least Squares   F-statistic:                     8.907
Date:                Thu, 20 Nov 2025   Prob (F-statistic):            0.00226
Time:                        23:14:44   Log-Likelihood:                -108.22
No. Observations:                  20   AIC:                             222.4
Df Residuals:                      17   BIC:                             225.4
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    101.0239     71.716      1.409      0.1

In [33]:
# 2. 광고비와 매출액의 상관계수를 구하시오.
# corr() 함수를 활용해 상관계수를 구한다.

print('상관계수:',df['광고비'].corr(df['매출액']))

상관계수: 0.13316981737040343


In [34]:
# 3. 광고비와 매출액의 t-검정의 p-value를 구하시오
# 일반적으로 상관 계수를 묻는 문제라면 피어슨의 상관계수와 t-검정을 말한다.

from scipy import stats
print(stats.pearsonr(df['광고비'],df['매출액']))

PearsonRResult(statistic=np.float64(0.13316981737040343), pvalue=np.float64(0.5756778801904272))


In [35]:
# 4. 회귀 모델의 결정 계수를 구하시오.
print("결정 계수 R-squared", model.rsquared)

결정 계수 R-squared 0.5116964327009044


In [36]:
# 5. 회귀 모델에서 회귀계수(기울기와 절편)를 구하시오

print('회귀 계수\n',round(model.params))

회귀 계수
 Intercept    101.0
광고비            2.0
직원수            6.0
dtype: float64


In [37]:
# 6. 회귀 모델에서 광고비의 회귀 계수가 통계적으로 유의한지 검정했을 때의 p-value를 구하시오.
# 광고비 회귀 계수의 p-value는 model.summary() 함수로도 확인할 수 있다.

print("Value" ,model.pvalues['광고비'])

Value 0.03764350647696029


In [40]:
# 7. 광고비 50, 직원 수 20인 데이터가 있을 때 구축한 회귀 모델에서의 예상 매출액을 구하라
new_data = pd.DataFrame({"광고비":[50],"직원수":[20]})
result = model.predict(new_data)
print('새로운 데이터의 매출액',result)

새로운 데이터의 매출액 0    310.57033
dtype: float64


In [41]:
# 8. 회귀 모델의 잔차의 제곱합을 구하시오

df['잔차'] = df['매출액'] - model.predict(df)
print('잔차 제곱합', sum(df['잔차']**2))

잔차 제곱합 58686.17827156105


In [42]:
# 9. 회귀 모델의 MSE를 구하시오

MSE = (df['잔차']**2).mean()
print("MSE",MSE)

MSE 2934.308913578053


In [45]:
# 10. 각 변수별 95%의 신뢰 구간을 구하시오.

print('95% 신뢰 구간:\n',model.conf_int(alpha=0.05))

95% 신뢰 구간:
                    0           1
Intercept -50.283684  252.331429
광고비         0.116785    3.522069
직원수         2.912406    8.945105


In [48]:
# 11. 광고비 45, 직원수 22일 때 95%의 신뢰 구간과 예측 구간을 구하시오

new_data = pd.DataFrame({'광고비':[45],"직원수":[22]})
pred = model.get_prediction(new_data)
result = pred.summary_frame(alpha=0.05)
print("예측값의 신뢰구간과 예측 구간:\n",result)

예측값의 신뢰구간과 예측 구간:
          mean    mean_se  mean_ci_lower  mean_ci_upper  obs_ci_lower  \
0  313.330707  22.502058     265.855514       360.8059     180.58875   

   obs_ci_upper  
0    446.072663  
