# 통계(잡동사니)

### 1. 상관계수

1. 피어슨 상관계수 (Pearson correlation coefficient):

- 피어슨 상관계수는 두 변수 간의 선형 상관 관계를 측정하는 지표입니다. 연속형 변수 간의 상관 관계를 계산하는 데 사용됩니다. 변수 간의 선형성, 정규성, 등분산성 가정을 전제로 합니다.값의 범위는 -1에서 1 사이이며, 0은 상관 관계가 없음을 나타냅니다.

2. 스피어만 상관계수 (Spearman correlation coefficient):

- 스피어만 상관계수는 두 변수 간의 순위 순서에 기반한 상관 관계를 측정하는 지표입니다. 순위 데이터나 비선형적인 관계를 가진 변수 간의 상관 관계를 계산하는 데 사용됩니다.변수의 순위를 비교하여 계산하므로 변수 간의 선형성 가정을 필요로 하지 않습니다. 값의 범위는 -1에서 1 사이이며, 0은 상관 관계가 없음을 나타냅니다.

3. 켄델 상관계수 (Kendall correlation coefficient):

- 켄델 상관계수는 두 변수 간의 순서 관계의 일치도를 측정하는 지표입니다. 순위 데이터나 비선형적인 관계를 가진 변수 간의 상관 관계를 계산하는 데 사용됩니다. 변수 간의 순서 일치 여부를 비교하여 계산하므로 변수 간의 선형성 가정을 필요로 하지 않습니다. 값의 범위는 -1에서 1 사이이며, 0은 상관 관계가 없음을 나타냅니다.


In [1]:
import numpy as np
import scipy.stats as stats


# 예시 데이터
X = np.array([1, 2, 3, 4, 5])
Y = np.array([5, 4, 3, 2, 1])

# 피어슨 상관계수
pearson_corr, pearson_pval = stats.pearsonr(X, Y)
print("Pearson correlation coefficient:", pearson_corr)
print("Pearson p-value:", pearson_pval)

# 스피어만 상관계수
spearman_corr, spearman_pval = stats.spearmanr(X, Y)
print("Spearman correlation coefficient:", spearman_corr)
print("Spearman p-value:", spearman_pval)

# 켄델 상관계수
kendall_corr, kendall_pval = stats.kendalltau(X, Y)
print("Kendall correlation coefficient:", kendall_corr)
print("Kendall p-value:", kendall_pval)


Pearson correlation coefficient: -1.0
Pearson p-value: 0.0
Spearman correlation coefficient: -0.9999999999999999
Spearman p-value: 1.4042654220543672e-24
Kendall correlation coefficient: -0.9999999999999999
Kendall p-value: 0.016666666666666666


### 2. 편상관계수

1. 개념: 두 변수 간의 상관관계를 측정하는 동시에 다른 변수들을 통제하는 방법
2. 사용패키지: pingouin

In [3]:
#!pip install pingouin

In [6]:
import pingouin as pg
import pandas as pd
import warnings
warnings.filterwarnings('ignore')
# 예시 데이터프레임 생성
data = pd.DataFrame({
    'X': [1, 2, 3, 4, 5],
    'Y': [2, 4, 6, 8, 10],
    'Z': [1, 1, 2, 2, 3]
})

# 부분 상관계수 계산
pg.partial_corr(data, x='X', y='Y', covar='Z')


Unnamed: 0,n,r,CI95%,p-val
pearson,5,-1.0,"[-1.0, -1.0]",0.0


#### 결과 해석 방법
n은 사용 데이터의 수, r은 상관계수, CI는 신뢰구간, p-value(귀무가설: 상관관계가 없다)에 대한 유의성

### 3. 피셔의 정확검정

- 만약 사건 발생 수, 빈도 수가 극히 적거나(특히 5개 이하의 빈도가 전체 셀 중 20%이상 존재하는 경우) 서로의 빈도 수의 차이가 많이나는 경우에는 카이제곱 검정의 정확도는 낮아지는데 이를 위해서 fisher_exact를 사용한다.

In [8]:
import numpy as np
import scipy.stats as stats

# 2x2 크로스테이블 데이터
observed = np.array([[10, 5],
                     [3, 8]])

# Fisher's exact test 수행
odds_ratio, p_value = stats.fisher_exact(observed)

print("Odds Ratio:", odds_ratio)
print("p-value:", p_value)


Odds Ratio: 5.333333333333333
p-value: 0.11070130569390246


### 4. 멕니마 검정
- 맥니마 검정은 짝지은 명목형 데이터에서 Column과 Row의 marginal probability가 같은지를 검정하는데에 쓰입니다. 2x2 테이블일 때 적용가능한 방법으로, 즉 변수가 2개일 때 쓸 수 있는 방법입니다. '짝지은' 이라는 말은 두 변수의 값이 서로 연관되어있으며, (동일한 사람에 대해 두 번 측정하거나, 부모-자식 처럼 관련있는 사람들에 대해 측정함) 두 변수의 값을 측정할 때 총 n수가 변하지 않았다는 의미로 볼 수 있습니다. 

In [29]:
import pandas as pd
from statsmodels.stats.contingency_tables import mcnemar
import numpy as np
# 데이터프레임 생성
df = pd.DataFrame({'시식 후 구매의사 유': [23, 17],
            '시식 후 구매의사 무': [8, 12]},
            index = ['시식전 구매유사 유', '시식 전 구매유사 무'])

# 멕니마 검정 수행을 위해 데이터프레임을 array형태로 변환해야 한다.
data = df.to_numpy()

# 멕니마 검정 
print(mcnemar(data))



pvalue      0.10775214433670044
statistic   8.0


### 5.비모수 검정

### (1) 윌 콕슨 순위 합 검정 - 독립표본 t-test의 비모수 버전
- 독립표본 t-test를 검정을 진행해야 되는 문제에서 정규성을 만족하지 못했을 때, 대안으로 사용된다.
- 즉, 두 집단의 성별에 따른 몸무게의 차이, 두 집단의 약물 치료 전후의 결과 등에 사용
- 예) 수컷과 암컷의 몸무게의 차이가 없다. 
- stats.ranksum() 함수를 이용하면 된다.
- 두 표본의 갯수가 달라고 사용가능하다.

In [35]:
# 윌 콕슨 순위 합 검정

# 예제 데이터 
df = pd.read_csv('./data/cats.csv')
female = df.loc[df['Sex']=='F','Bwt']
male = df.loc[df['Sex']=='M', 'Bwt']

# 정규성 검정
print(stats.shapiro(female))
print(stats.shapiro(male))

# female 변수의 경우 p_value가 유의수준 0.05보다 작으므로 귀무가설을 기각한다. 즉, 정규성을 만족하지 않는다.
# 윌 콕슨 순위 합 검정 진행
stats.ranksums(female, male)

ShapiroResult(statistic=0.8909613490104675, pvalue=0.0003754299250431359)
ShapiroResult(statistic=0.9788321852684021, pvalue=0.11895745247602463)


RanksumsResult(statistic=-6.484649068728496, pvalue=8.893855174450822e-11)

### (2) 윌 콕슨 부호 순위 검정 - 대응표본 t-test의 비모수 버전
- 대응표본 t-test를 검정을 진행해야 되는 문제에서 정규성을 만족하지 못했을 때, 대안으로 사용된다.
- 즉, 동일한 개체 또는 집단에 대한 관찰값의 차이를 비교할 때 사용된다. 
- 예) 수면제 복용 전과 후의 수면시간의 차이는 없다.
- stats.wilcoxon() 함수를 이용하면 된다.
- 두 표본의 갯수가 같아야 사용가능하다.

In [32]:
# 윌 콕슨 부호 순위 검정

# 예제 데이터

# 첫 번째 집단의 관측값
group1 = np.random.normal(loc=5, scale=1, size=20)

# 두 번째 집단의 관측값
group2 = np.random.normal(loc=4, scale=1.5, size=20)

print(stats.shapiro(group1))
print(stats.shapiro(group2))

# group1의 경우 p-value가 유의수준 0.05보다 작으므로 귀무가설을 기각한다. 즉, 정규성을 만족하지 않는다.
# 윌 콕슨 부호 순위 검정 진행

stats.wilcoxon(group1, group2)

ShapiroResult(statistic=0.9762222170829773, pvalue=0.8766419887542725)
ShapiroResult(statistic=0.9486709833145142, pvalue=0.3473665118217468)


WilcoxonResult(statistic=9.0, pvalue=6.29425048828125e-05)

### (3) 크루스칼-왈리스 검정 - 일원배치 분산분석의 비모수 버전
- 일원배치 분산분석을 진행할 때, 데이터들이 정규성을 만족하지 못할 때 진행한다.
- 예) 귀무가설: 세 가지 종에 대한 Sepal.width의 평균은 모두 같다.
- stats.kruskal(setosa, versicolor,virginica)

### (4) 프리드만 검정 - 이원배치 분산분석의 비모수 버전
- 이원배치 분산분석을 진행할 때, 데이터들이 정규성을 만족하지 못할 때 진행된다.

In [42]:
import numpy as np
from scipy.stats import friedmanchisquare

# 예시 데이터 생성
method1 = np.random.randint(1, 11, size=30)
method2 = np.random.randint(1, 11, size=30)
method3 = np.random.randint(1, 11, size=30)

# 프리드만 카이제곱 검정 수행
result = friedmanchisquare(method1, method2, method3)

# 결과 출력
print("프리드만 카이제곱 검정 결과:")
print("검정 통계량:", result.statistic)
print("p-value:", result.pvalue)


프리드만 카이제곱 검정 결과:
검정 통계량: 0.4077669902912886
p-value: 0.815557382046586


### 6. 크론바흐 알파계수
- 문항들 간의 일관성이 있는지, 평균을 내어 변수를 생성해도 문제가 없는지를 검증하기 위한 수치
- 즉, 내적 일관성을 판변할 때 사용한다.
- 0.6이상이면 양호, 0.7이상이면 높은 것으로 판단한다.

In [37]:
import pingouin as pg
# 예제데이터 생성
df = pd.DataFrame({'q1': [5,4,2,5,4,4,3,2,4,5],
                  'q2':[4,3,2,3,3,4,2,3,3,4],
                  'q3':[5,3,3,4,3,3,5,3,4,4],
                  'q4':[5,3,2,3,5,4,4,2,3,4],
                  'q5':[4,4,3,4,5,4,4,3,4,4]})
pg.cronbach_alpha(df)

(0.8088235294117646, array([0.524, 0.946]))

### 7. MANOVA 분석
- 종속변수의 갯수가 2개 이상인 경우 사용
- 독립변수의 갯수는 상관없음
- 예)귀무가설: 아이리스의 꽃받침 길이, 꽃받침 폭, 꽃잎 길이, 꽃잎 폭 등 4개의 종속변수에 대한 평균 벡터가 아이리스의 종류(세토사, 버시칼라, 버지니카)에 따라 동일하다.

In [41]:
import pandas as pd
from statsmodels.multivariate.manova import MANOVA

# 아이리스 데이터 로드
iris_df = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')

# 종속변수 (꽃잎의 길이 및 너비)
independent_vars = ['petal_length', 'petal_width']

# 독립변수 (꽃 종류)
dependent_var = 'species'

# MANOVA 분석 수행
manova = MANOVA.from_formula(f'{independent_vars[0]} + {independent_vars[1]} ~ {dependent_var}', data=iris_df)
result = manova.mv_test()

# 결과 출력
print(result)


                   Multivariate linear model
                                                                
----------------------------------------------------------------
         Intercept        Value  Num DF  Den DF  F Value  Pr > F
----------------------------------------------------------------
            Wilks' lambda 0.1995 2.0000 146.0000 292.9791 0.0000
           Pillai's trace 0.8005 2.0000 146.0000 292.9791 0.0000
   Hotelling-Lawley trace 4.0134 2.0000 146.0000 292.9791 0.0000
      Roy's greatest root 4.0134 2.0000 146.0000 292.9791 0.0000
----------------------------------------------------------------
                                                                
----------------------------------------------------------------
        species          Value  Num DF  Den DF   F Value  Pr > F
----------------------------------------------------------------
          Wilks' lambda  0.0438 4.0000 292.0000  275.9001 0.0000
         Pillai's trace  1.0465 4.0000 294.00