## ▶공분산
- https://mindscale.kr/course/basic-stat-python/5

- 공분산(covariance): 두 변수가 함께 변화하는 정도를 나타내는 지표
- 공분산이 +인 경우: 두 변수가 같은 방향으로 변화(하나가 증가하면 다른 하나도 증가)
- 공분산이 -인 경우: 두 변수가 반대 방향으로 변화(하나가 증가하면 다른 하나는 감소)
- 공분산 = 0이면 두 변수가 독립, 즉, 한 변수의 변화로 다른 변수의 변화를 예측하지 못함
- 공분산의 크기가 클 수록 두 변수는 함께 많이 변화
- 단위에 따라 공분산의 크기가 달라지므로 절대적 크기로 판단이 어려움
- 공분산을 -1 ~ 1 범위로 표준화 시킨 것이 상관계수
- 주의: 공분산은 선형적인 관계를 측정하기 때문에 두 변수가 비선형적으로 함께 변하는 경우는 잘 측정하지 못함

#### 참고 # 과학 분석 알고리즘 SciPy #
- https://www.scipy.org/getting-started.html
#### SciPy는 파이썬을 기반으로 하여 과학, 분석, 그리고 엔지니어링을 위한
- 과학(계산)적 컴퓨팅 영역의 여러 기본적인 작업을 위한 라이브러리(패키지 모음) 입니다. Scipy는 기본적으로 Numpy, Matplotlib, pandas, Sympy등 과 함께 동작을 합니다. SciPy는 수치적분 루틴과 미분방정식 해석기, 방정식의 근을 구하는 알고리즘, 표준 연속/이산 확률분포와 다양한 통계관련 도구 등을 제공합니다. NumPy와 Scipy를 함께 사용하면 확장 애드온을 포함한 MATLAB을 완벽하게 대체합니다.


## ▶파이썬 상관계수
- https://mindscale.kr/course/basic-stat-python/6

- 상관계수(correlation coefficient): 두 변수가 함께 변하는 정도를 -1 ~ 1 범위의 수로 나타낸 것
- https://m.blog.naver.com/istech7/50153288534

![image.png](attachment:image.png)

###  ★상관분석 실시하기 전 유의할점
- 두 변수의 관계가 선형적(= 직선)인지 확인할 것!
- 산점도을 그려서 확인
- 명확하게 두 변수의 관계가 곡선 형태라면 spearman이나 kendall의 방법을 사용

###  ★상관분석 결과 해석 시 유의할 점

- 두 변수의 상관관계는 인과관계를 담보하지 않음
    - 상관관계가 있다고 반드시 인과관계가 있는 것은 아님
- 제3 변인의 문제
    - 도시 내 범죄 발생 건수와 종교 시설의 수는 양의 상관 관계가 있음
    - 범죄가 많아서 종교에 의존하는가? 또는 종교가 범죄를 부추기는가?
    - 사실은 인구가 많아지면 범죄도 늘고, 종교 시설도 많아짐.
- 이질적인 집단들의 합 (심슨의 역설)
    - 각 집단별 상관관계와 전체 총합의 상관관계는 다를 수 있음
    - 상관분석 결과가 예상과 다를 경우, 이질적인 하위집단들이 존재하는지 살펴봐야 할 수도 있음
 
- 극단치(outliers)에 의한 인위적 상관 존재 가능성
    - 자료 내에 극단치가 있을 때, 존재하지 않는 상관관계가 포착되거나, 존재하는 상관관계가 포착되지 못하는 경우가 생기기도 함

## ▶피어슨 상관계수
- 칼 피어슨(Karl Pearson)이 개발한 상관계수
- 적률상관계수(product-moment correlation coefficient)라고도 함
- 일반적으로 상관계수라고 하면 피어슨 상관계수를 말함
- pearson 상관계수는 공분산을 그 기반으로 하기 때문에, 기본적으로 등간척도/비율척도 를 사용한 변수에만 적용가능함

In [None]:
# https://mindscale.kr/course/basic-stat-python/7

In [174]:
!pip install scipy



In [176]:
import scipy.stats
x = [8, 3, 6, 6, 9, 4, 3, 9, 3, 4]
y = [6, 2, 4, 6, 10, 5, 1, 8, 4, 5]
scipy.stats.pearsonr(x, y)

(0.862517279213578, 0.0013196539142000013)

## ▶kendall의 tau
- 상관분석을 실시함에 있어 서열척도 를 사용한 변수가 포함되어 있거나
- 등간/비율척도를 사용한 변수들이라 하더라도, 두 변수 간의 관계가 비선형적 일 때 구하는 상관계수

## ▶spearman 상관계수
- spearman의 상관계수와 마찬가지로, 비선형적 관게이거나 서열변수일 때 사용
- spearman의 상관계수보다 믿을만 한 것으로 알려짐 (특히 표본이 작을 때)수