##### 다변량 분석을 위한 공분산과 상관행렬

1. 공분산(Covariance)
    - 두 변수 간의 관령성 및 방향을 나타내는 통계적 측도
    - 두 변수가 함께 변하는 정도를 나타내며, 공분산 값이 양수면 함께 증가하거나 감소하는 경향
    - 절대적인 값으로 변수 사이의 관련성 정도 비교 어려움

    <br>

2. 상관행렬(Correlation Matrix)
    - 공분산을 정규화한 것. 변수 간의 선형 관계를 나타내는 행렬
    - -1 ~ +1 까지의 상관계수로 관령성 정도를 판단할 수 있음.

#### 공분산의 의미

1. 관계의 존재 여부
2. 관계의 강도
3. 단위 의존성

#### 공분산 행렬

- 여러 변수들 간의 공분산을 나타내는 정사각 행렬
- 대칭행렬, 대각선은 해당 변수의 자체 분산

#### 상관행렬의 의미

1. 변수들 간의 관계 이해
2. 변수 선택
3. 다중공선성 판단
4. 데이터 시각화

##### 공분산과 상관행렬의 차이

1. 정의
    - 공분산 : 두 변수간의 변동성을 측정하는 지표
    - 상관 행렬 : 변수들 간의 선형 관계를 파악하는데 사용하는 정규화된 지표

2. 값의 범위
    - 공분산 : 변수들의 단위에 의존. 변수들 간의 단위 차이로 크기가 달라질 수 있음
    - 상관 계수 : 공분산을 표준화하여 구한 값. 변수들 간의 선형 강도와 방향을 나타냄

<br>

- 상관 행렬은 변수들 간의 선형 관계를 더 정확하고 표준화된 방식으로 나타냄
- 변수들 간의 상관 계수를 통해 변수들 간의 연관성을 파악하고, 변수 선택, 다중공선성 판단, 데이터 시각화등 다양한 분석 및 모델링 과정에 활용

In [8]:
import numpy as np

x = np.array([1,2,3,4,5])
y = np.array([2,4,6,8,10])
z = np.array([3,6,9,12,15])

In [9]:
# Covariance

cov_matrix = np.cov([x,y,z]).T
print('Covariance Matrix : ')
print(cov_matrix)

Covariance Matrix : 
[[ 2.5  5.   7.5]
 [ 5.  10.  15. ]
 [ 7.5 15.  22.5]]


In [10]:
# Correlation coefficient

cor_matrix = np.corrcoef([x,y,z])
print('Correlation Coefficient : ')
print(cor_matrix)

Correlation Coefficient : 
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


In [11]:
threshold = 0.7
print('Variables with high multicollinearity')
for i in range(cor_matrix.shape[0]):
    for j in range(i+1, cor_matrix.shape[1]):
        if abs(cor_matrix[i,j]) > threshold:
            print(f'Variable {i+1} and Variable {j+1}')

Variables with high multicollinearity
Variable 1 and Variable 2
Variable 1 and Variable 3
Variable 2 and Variable 3
