In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
%cd /content/drive/MyDrive/ADP Study/ADP25회 스터디/1. 통계 발표 자료/chapter12/

In [None]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

# 피어슨 상관계수

- 양적데이터(등간척도, 비율척도) 간에 사용
- 두 변수 모두 정규성 만족

$$r = \frac{S_{XY}}{S_{X}S_{Y}} = \frac{\sum_{i=1}^{n}(X_{i}-\bar{X})(Y_{i}-\bar{Y})}
{\sqrt{\sum_{i=1}^{n}(X_{i}-\bar{X})^2\sum_{i=1}^{n}(Y_{i}-\bar{Y})^2}}$$

-> 표본 공분산을 각 변수의 표본표준편차의 곱으로 나눠줌
</br></br>
- 검정
    - t분포를 사용하여 검정(상관계수의 분포가 t분포를 따름)

    - H0 : $r = 0$ -> 상관관계 없음
    - H1 : $r \ne 0$ -> 상관관계 있음


1. 수학점수와 공부시간의 상관관계를 구하여라

|-|1|2|3|4|5|6|7|8|
|-|-|-|-|-|-|-|-|-|
|수학점수|88|91|94|97|87|92|95|100|
|공부시간|2|5|7|9|4|6|8|10|

In [None]:
수학점수 = [88,91,94,97,87,92,95,100]
공부시간 = [2,5,7,9,4,6,8,10]

In [None]:
from scipy import stats

r = stats.pearsonr(수학점수,공부시간)
print(r)

2. 광고비와 판매액의 상관관계를 구하여라(유의수준 0.05)

|회사|1|2|3|4|5|6|7|8|9|10|
|-|-|-|-|-|-|-|-|-|-|-|
|광고비|4|6|6|8|8|9|9|10|12|12|
|판매액|39|42|45|47|50|50|52|55|57|60|

In [None]:
광고비 = [4,6,6,8,8,9,9,10,12,12]
판매액 = [39,42,45,47,50,50,52,55,57,60]

In [None]:
from scipy import stats

r = stats.pearsonr(광고비,판매액)
print(r)

# 스피어만 순위상관계수
1. 서열척도 데이터간에 사용

- 데이터를 순서값으로 변경 후 계산
- 동일한 순서가 없을 때, 순서값의 피어슨 상관계수와 값 같음

$$r = 1 - \frac{6\{(a_{1}-b_{1})^2+(a_{2}-b_{2})^2+ \cdot\cdot\cdot +(a_{n}-b_{n})^2\}}{n(n^2-1)}$$

https://m.blog.naver.com/pmw9440/221955081796

1. 수학점수와 공부시간의 상관관계를 구하여라

In [None]:
수학점수 = [88,91,94,97,87,92,95,100]
공부시간 = [2,5,7,9,4,6,8,10]

a = [7,6,4,2,8,5,3,1]
b = [8,6,4,2,7,5,3,1]

In [None]:
from scipy import stats

r = stats.spearmanr(수학점수,공부시간)
print(r)

r = stats.pearsonr(a,b)
print(r)

2 . 광고비와 판매액의 상관관계를 구하여라

In [None]:
광고비 = [4,6,6,8,8,9,9,10,12,12]
판매액 = [39,42,45,47,50,50,52,55,57,60]

In [None]:
from scipy import stats

r = stats.spearmanr(광고비,판매액)
print(r)

# 히트맵

In [None]:
df = pd.DataFrame({'광고비':광고비,'판매액':판매액})

In [None]:
df_corr = df.corr(method='spearman')
df_corr

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

sns.set(rc = {'figure.figsize':(10,8)})
sns.heatmap(df_corr,vmin=-1,vmax=1,cmap='RdBu',linewidths=.1,annot=True, fmt='.2f')

# 켄달의 순위 상관계수

- 크기가 n인 2변량 데이터 $(x_{n}, y_{n})$ 가 있을 때 n개 중 2개를 골라 이를 $(x_{i},y_{i}), (x_{j},y_{j})$라고 가정하고 다음 조건을 부여

$$\begin{cases} (x_{i}-x_{j})(y_{i}-y_{j})>0, & a_{ij} = 1 \\ (x_{i}-x_{j})(y_{i}-y_{j})<0, & a_{ij}=-1   \end{cases}$$

</br>

- 상관계수 $\tau$를 다음과 같이 계산

$$\tau = \frac{\sum_{i<j}a_{ij}}{_{n}\mathrm{C}_{2}}$$

수학점수와 공부시간을 켄달의 순위상관계수를 구하여라.

In [None]:
수학점수 = [88,91,94,97,87,92,95,100]
공부시간 = [2,5,7,9,4,6,8,10]

In [None]:
print(stats.kendalltau(수학점수, 공부시간))

# 크라메르의 연관계수

- 범주형 변수(2개 이상의 범주를 가짐)간 상관관계

|-|$B_{1}\cdots B_{l}$|합계|
|-|-|-|
|\begin{matrix}A_{1} \\ \vdots \\ A_{k}\end{matrix}|\begin{matrix}
0 & \cdots & 0 \\
\vdots & \ddots & \vdots \\
0 & \cdots & 0
\end{matrix}|\begin{matrix}a_{1} \\ \vdots \\ a_{k}\end{matrix}|
|합계|\begin{matrix} b_{1} \cdots b_{l} \end{matrix}|n|

</br>  

$$V = \sqrt{\frac{\sum_{i,j}\frac{x_{ij}^2}{a_{i}b_{j}}-1}{min(k,l)-1}} = \sqrt{\frac{\chi^2}{n(min(k,l)-1)}}$$

$$ 0 \leqq V \leqq 1$$

https://hyen4110.tistory.com/17

1. 연령에 따라서 지역별 여행 선호지에 상관관계가 있는 지 확인하시오.

|   | 20대 | 30대 | 40대 | 50대 | 합계 |
|---|----------|----------|----------|----------|--------------|
|북아메리카| 9        | 14       | 10       | 55       | 38           |
|유럽   | 5        | 11       | 13       | 6        | 35           |
|아시아   | 6        | 5        | 7        | 9        | 27           |
|합계   | 20       | 30       | 30       | 20       | 100          |

In [None]:
from scipy.stats import chi2_contingency
a = pd.DataFrame(data={'20대':[9,5,6,20],'30대':[14,11,5,30],'40대':[10,13,7,30],'50대':[55,6,9,20],'합계':[38,35,27,100]}, index=['북아메리카','유럽','아시아','합계'])

In [None]:
result=chi2_contingency(observed=a)

row = 3
col = 4
n = 100

c = np.sqrt(result[0]/(n*(min(row,col)-1)))
print(c, result[1])

# 자기상관계수

- 시계열의 평균
$\bar{y} = \frac{1}{T}(y_{1} + y_{2} + \cdots + y_{T})$

- 시간차가 k인 자기공분산 
$\gamma_{k} = Cov[y_{i}, y_{i-k}] = \frac{1}{T}\sum_{i=k+1}^{T}(y_{i}-\bar{y})
(y_{i-k}-\bar{y})$

- 시간차가 k인 자기상관계수
$\rho_{k} = \frac{\gamma_{k}}{\gamma_{0}}$



k를 2 -> 1\~T , 3\~T 

In [None]:
df = pd.read_csv('divvy_daily.csv')
series = df['rides']
series

In [None]:
import matplotlib.pyplot as plt
from statsmodels.graphics.tsaplots import plot_acf
from statsmodels.tsa.stattools import acf

acf = acf(series)
print(acf)

plot_acf(series)
plt.show()

그 외

1. 두 이분형 데이터 간 상관분석 - 파이 상관계수
2. 이분형 데이터와 연속형 데이터 - 점이연, 이연 상관계수 

# 단순회귀분석

- 가정
    - 오차의 등분산성
    - 오차의 독립성
    - 오차의 정규성 (오차의 평균은 0)
    - 가정된 모형은 옳다(선형성)

<br>

- 가정된 모형 : $Y_{i}= \alpha + \beta X_{i} + \epsilon_{i}$

- 적합된 회귀식 : $\hat{Y_{i}} = a + bX_{i}$

- 잔차 : $e_{i} = Y_{i}-\hat{Y_{i}}$ 

=> $e_{i}$의 제곱합(SSE)을 최소화하는 방향으로 추정

$a = \bar{Y} - b\bar{X}$

$b = \frac{s_{XY}}{s_{X}^{2}}$



<br>

- 분산분석

    - SSR = $\sum_{i=1}^{n}(\hat{Y_{i}}-\bar{Y})^2$
    - SSE = $\sum_{i=1}^{n}(Y_{i}-\hat{Y_{i}})^2$
    - SST = $\sum_{i=1}^{n}(Y_{i}-\bar{Y})^2$

|요인|제곱합|자유도|평균제곱|F값|
|-|-|-|-|-|
|처리|SSR|1|MSR=SSR/1|F=MSR/MSE|
|오차|SSE|n-2|MSE=SSE/(n-2)|
|합|SST|n-1|

- 적합도
    - $R^{2} = SSR/SST$

- F검정(모델의 유의성)
    - $H_{0} : \beta = 0$
    - $H_{1} : \beta \ne 0$ 



모수 $\beta$에 관한 추론(T검정)
   - $H_{0} : \beta = 0$
   - $H_{1} : \beta \ne 0$ 

https://hyen4110.tistory.com/50

In [None]:
import statsmodels.api as sm

x = 광고비
y = 판매액
x = sm.add_constant(x)

model = sm.OLS(y,x)
result = model.fit()
print(result.summary())

https://ysyblog.tistory.com/119

# 잔차분석

- 잔차 히스토그램

- 잔차들의 Q-Q 산점도

In [None]:
pred = result.predict(x)

In [None]:
#선형성, 등분산성 검정
sns.set(rc = {'figure.figsize':(10,8)})
sns.regplot(pred, result.resid, lowess=True, line_kws={'color': 'red'})
plt.plot([pred.min(), pred.max()], [0, 0], '--', color='grey')

In [None]:
#정규성 검정
from scipy.stats import probplot
 

fig = plt.figure(figsize=(8,8))
fig.set_facecolor('white')
 
ax = fig.add_subplot()
probplot(result.resid, dist='norm',plot=ax) ## qq plot 출력
plt.show()

# 다중회귀분석

- 가정
    - 오차의 등분산성
    - 오차의 독립성
    - 오차의 정규성 (오차의 평균은 0)
    - 가정된 모형은 옳다(선형성)
    - 다중공선성(변수간의 상관관계 높음)

<br>

- 가정된 모형 : $Y_{i}= \beta_{0} + \beta_{1}X_{i} + \cdot + \beta_{k}X_{k} + \epsilon_{i}$

-> $Y = X\beta + \epsilon$

- 적합된 회귀식 : $\hat{Y_{i}} = X\hat{\beta}$

- 잔차 : $e_{i} = Y-X\hat{\beta}$  

=> $e_{i}$의 제곱합(SSE)을 최소화하는 방향으로 추정

$\hat{\beta} = (X^{T}X)^{-1}X^{T}Y$



<br>

- 분산분석

|요인|제곱합|자유도|평균제곱|F값|
|-|-|-|-|-|
|처리|SSR|k|MSR=SSR/k|F=MSR/MSE|
|오차|SSE|n-k-1|MSE=SSE/(n-k-1)|
|합|SST|n-1|

https://blog.naver.com/jhkang8420/221565825889
    
- F검정(모델의 유의성)
    - $H_{0} : \beta = 0$
    - $H_{1} : \beta \ne 0$ 

- 적합도
    - $R^{2} = SSR/SST$

모수 $\beta$에 관한 추론
   - $H_{0} : \beta = 0$
   - $H_{1} : \beta \ne 0$

In [None]:
지름 = [21.0,21.8,22.3,26.6,27.1,27.4,27.9,27.9,29.7,32.7,32.7,33.7,34.7,35.0,40.6]
높이 = [21.33,19.81,19.20,21.94,24.68,25.29,20.11,22.86,21.03,22.55,25.90,26.21,21.64,19.50,21.94]
부피 = [0.291,0.291,0.288,0.464,0.532,0.557,0.441,0.515,0.603,0.628,0.956,0.775,0.727,0.704,1.084]

In [None]:
import statsmodels.api as sm

df = pd.DataFrame([지름,높이,부피], index=['지름','높이','부피'])
df = df.transpose()

model = sm.OLS.from_formula('부피 ~ 지름 + 높이',data=df)
result = model.fit()
print(result.summary())