# 다변량 분석을 위한 공분산과 상관행렬에 대한 개념
## 공분산 / 상관 행렬

- 공분산 : 두 뱐수 간의 관련성 및 방향을 나타내는 통계적 측도. 두 변수가 함께 변하는 정도를 나타내며, 공분산 값이 양수인 경우 두 변수가 함께 증가 또는 감소하는 경향이 있음을 의미하고, 음수인 경우는 다른 변수가 감소하는 경향을 나타냄. 하지만 공분산의 절대적인 값만으로는 변수 사이의 관련성 정도를 비교하기 어렵다.
- 상관 행렬 : 공분산을 정규화한 것. 변수 간의 선형 관계를 나타내는 행렬이다. 이는 공분산 행렬을 표준화하여 변수들 간의 상관 계수를 나타내는데, 상관 계수는 -1과 1 사이의 값을 가지며, 1에 가까울수록 강한 양의 상관관계, -1에 가까울수록 강한 음의 상관관계를 의미한다. 0에 가까울수록 두 변수 사이에는 선형 관계가 없음을 나타낸다.

## 공분산과 상관 행렬의 중요성 및 활용 사례 소개
- 관련성 및 의존성 분석
- 변수 선택 및 다중공선성 판단
- 차원 축소

## 공분산의 정의와 의미
두 변수 X와 Y의 공분산은 각각의 변수에서 평균을 뺀 값의 곱을 계산한 후, 이 값들의  평균으로 구한다.<br>
Cov(X, Y0 = E[(X-μX)(Y-μY)]<br>
Cov는 공분산, X와 Y는 변수, μX, μY는 각각 X와 Y의 평균을 의미. E는 기댓값
<br>
공분산
1. 관계의 존재 여부 : 공분산 값이 0이 아닌 경우 변수들 간에는 관계가 존재함을 의미. 공분산이 양수인 경우 두 변수가 함께 증가 또는 감소하는 경향이 있고, 음수인 경우는 하나의 변수가 증가할 때 다른 변수가 감소하는 경향을 나타낸다.
2. 관계의 강도 : 공분산의 절대적인 값이 클수록 두 변수 사이의 관련성이 강하다. 값이 0에 가까울수록 변수들 사이의 선형적인 관계는 약하거나 없다.
3. 단위 의존성 : 공분산은 변수의 단위에 영향을 받는다. 따라서 공분산 값만으로는 변수들 간의 관련성 정도를 비교하기 어렵다.

## 공분산의 계산 방법
1. 각 변수의 평균 계산
2. 각 변수의 평균을 뺀 값 계산
3. 값들의 곱 계산
4. 곱의 평균 계산

## 공분산의 해석 : 양수, 음수, 0인 경우의 의미와 예시
- 양수인 경우 (Cov > 0) : 양의 상관관계(두 변수 간에는 양의 관련성이 있다. 즉, 한 변수가 증가할 때 다른 변수도 함께 증가하는 경향이 있음)
- 음수인 경우 (Cov < 0) : 음의 상관관계(두 변수 간에는 음의 관련성이 있다. 즉, 한 변수가 증가할 떄 다른 변수는 감소하는 경향이 있음)
- 0인 경우 (Cov = 0) : 무상관(두 변수 간에는 선형적인 관련성이 없다. 즉, 한 변수의 변화가 다른 변수와 관련이 없다.)

## 공분산 행렬
여러 변수들 간의 공분산을 나타내는 정사각 행렬. 이 행렬은 변수들 간의 상호 작용과 관련성을 파악하는데 유용하며, 데이터 분석과 다변량 통계 분석에서 자주 활용됨.<br>
주어진 데이터셋에서 모든 변수들 사이의 공분산을 계산하여 행렬의 요소로 저장한다. 행렬의 각 요소는 해당 변수들 간의 공분산을 의미하며, i번째 행과 j번째 열의 요소는 i번째 변수와 j번째 변수의 공분산을 나타냄.<br>
대칭 행렬이며, 주 대각선의 요소는 해당 변수 자체의 분산을 나타냄. 나머지 요소들은 두 변수 간의 공분산을 나타내며, i번째 변수와 j번째 변수 사이의 공분산 값은 j번째 변수와 i번째 변수 사이의 공분산 값과 동일하다.

- 공분산 행렬의 크기는 변수의 개수에 의해 결정. n개의 변수가 있다면 n*n 행렬이 됨. 행렬의 대각선 요소는 해당 변수의 분산이며, 나머지 요소들은 변수들 간의 공분산

## 상관 행렬
다변량 데이터에서 변수들 간의 선형 관계를 파악하는데 사용되는 정사각 행렬. 공분산 행렬을 표준화하여 정규화된 지표로 변환한 것으로. 변수들 간의 상관 관계를 나타내는데 유용하게 활용<br>
-1부터 1까지의 값을 가지고, 주 대각선은 항상 1. 주 대각선 제외 나머지 요소들은 변수들 간의 상관 계수.<br>
두 변수 사이의 선형 관계의 강도와 방향을 나타내는 값으로, 1에 가까울수록 강한 선형관계, -1에 가까울수록 강한 음의 선형 관계. 0에 가까울수록 두 변수 사이에는 선형관계가 없거나 매우 약한 선형 관계.
- 상관 행렬 의미와 활용 : 변수들 간의 관계 이해, 변수 선택, 다중공선성 판단, 데이터 시각화

### 상관 행렬의 계산 방법
1. 다변량 데이텃세 준비
2. 각 변수의 평균 계산
3. 각 변수의 평균을 뺀 값 계산
4. 표준편차 계산
5. 공분산 계산
6. 상관 계수 계산
7. 상관 행렬 구성

### 상관 행렬의 해석 : 상관 계수의 범위와 의미
-1과 1 사이의 값 : -1과 1은 상관 계수의 Max, Min
- 1에 가까울수록 강한 선형관계, 한 변수가 증가할 때 다른 변수도 증가하는 경향이 강하게 나타남.
- -1에 가까울수록 강한 음의 선형 관계, 한 변수가 증가할 때 다른 변수는 감소하는 경향이 강하게 나타남.
- 0 주변의 값 : 중립적인 값. 0에 가까울수록 두 변수 사이에는 선형관계가 없거나 매우 약한 선형 관계. 하지만, 0인 상관 계수는 두 변수 사이에 비선형 관계가 다른 종류의 관계가 있을 수 있다는 것을 의미함
- 상관 계수의 부호 : 양수인 경우, 양의 선형 관계(한 변수 증가시 다른 변수도 증가)가 있다. 음수인 경우, 음의 선형 관계(한 변수 증가시 다른 변수는 감소)가 있다.

### 상관 행렬의 성질 : 대칭성, 대각선의 값
- 대칭성 : 상관행렬은 대칭행렬이다.
- 대각선의 값 : 상관 행렬의 대각선 요소는 항상 1. 대각선 요소는 해당 변수 자체의 상관 계수이며. 자기 자신과의 관계를 나타냄


## 공분산과 상관 행렬의 차이
공분산은 두 변수 간의 변동성을 측정하는 지표. 두 변수의 값이 함께 어떻게 변화하는지를 나타냄. 상관 행렬은 변수들 간의 선형 관계를 파악하는데 사용되는 정규화된 지표. 공분산은 양의 공분산일 때 변수들이 함께 증가하거나 감소하는 경향을 의미, 음의 공분산은 변수들이 반대로 움직이는 경향을 의미. 하지만 공분산 값 자체만으로는 관계의 강도를 비교하기 어렵다. 상관 계수는 1에 가까울수록 양의 선형 관계. 따라서 변수들 간의 관계를 비교하고 해석하는 데 유용하다.

## 공분산과 상관행렬의 장단점
#### 공분산의 장점
1. 변수들 간의 관계 측정에 유용함.
2. 변수들의 단위를 고려하므로 변수들 간의 변동성 비교에 좋음
#### 공분산의 단점
1. 단위에 의존하기 때문에, 변수들의 단위가 다르면 공분산 값도 단위에 따라 달라짐. 이는 변수들 간의 상대적인 관계를 비교하거나 분석하는 데 어려움을 줄수도 있다.
2. 공분산은 선형 관계만을 고려하며, 비선형 관계나 다른 종류의 관계는 반영하지 않음
3. 공분산 값 자체만으로는 관계의 강도를 정량적으로 비교하기 어려움
#### 상관 행렬의 장점
1. 변수들 간의 선형 관계 파악에 유용
2. 변수들의 단위에 독립적이므로 다른 단위를 가진 변수들 간의 비교도 가능
3. 다중공선성을 판단하는 데에 유용
#### 상관 행렬의 단점
1. 선형 관계만을 고려, 비선형 관계나 다른 종류의 관계는 반영 X
2. 상관 계수는 인과 관계를 나타내지 않으며, 단지 관련성을 보여준다.
3. 상관 행렬은 변수들 간의 선형 관계에 초점을 맞추기 때문에 변수들의 변동성이나 다른 종류의 관계는 고려하지 않음

## 상관 행렬이 공분산 행렬에 대한 정규화를 제공하는 이유
- 단위의 영향 제거 : 공분산은 변수들의 단위에 의존하는데, 이는 변수들 간의 상대적인 관계를 비교하거나 분석하는 데 어려움을 줄 수 있다. 상관 행렬은 공분산을 표준화하여 단위의 영향을 제거한다.
- 일반화된 비교 가능성 : 상관 행렬은 변수들 간의 선형 관계를 일반적으로 비교할 수 있도록 해준다. 서로 다른 단위를 가진 변수들 간의 비교도 가능
- 다중공선성 판단 : 다중공선성은 변수들 간에 높은 상관 관계가 있을 때 발생하는 문제로, 공분산 행렬에서는 변수들 간의 상관 관계가 높은 경우 공분산 값이 커지는데, 이로 인해 모델링이나 분석 결과의 안전성이 감소할 수 있다. 상관행렬을 사용해 변수들 간의 상관 계수를 확인하면 다중공선성의 가능성을 더 정확하게 판단할 수 있음

In [2]:
# 데이터 예시를 통한 공분산과 상관 행렬 계산 및 해석
import numpy as np

# 예시 데이터 생성
x = np.array([1, 2, 3, 4, 5])     # 변수 x의 값
y = np.array([2, 4, 6, 8, 10])    # 변수 y의 값
z = np.array([3, 6, 9, 12, 15])   # 변수 z의 값

# 공분산 계산
cov_matrix = np.cov([x, y, z])
print("Covariance Matrix")
print(cov_matrix)

# 상관 행렬 게산
cor_matrix = np.corrcoef([x, y, z])
print("\nCorrelation Matrix")
print(cor_matrix)

Covariance Matrix
[[ 2.5  5.   7.5]
 [ 5.  10.  15. ]
 [ 7.5 15.  22.5]]

Correlation Matrix
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


In [3]:
# 상관 행렬을 사용한 변수 선택 및 다중 공선성 판단

# 다중공선성 판단
threshold = 0.7

print("\nVariables with high multicollinearity : ")
for i in range(cor_matrix.shape[0]):
    for j in range(i+1, cor_matrix.shape[1]):
        if abs(cor_matrix[i, j]) > threshold:
            print(f"Variable {i+1} and Variable {j+1}")


Variables with high multicollinearity : 
Variable 1 and Variable 2
Variable 1 and Variable 3
Variable 2 and Variable 3


다중공선성 판단 결과 변수 1과 변수 2, 변수 1과 변수 3, 변수 2와 변수 3 사이에 높은 다중공선성이 있다는 것을 알 수 있음

### 다중공선성
- 선형 관계 : 독립 변수들 간의 선형 관계가 강하게 나타나는 경우 발생. 예를 들어, 하나의 독립 변수가 다른 독립 변수의 선형 조합으로 나타나는 경우 다중공선성이 발생 할 수 있다.
- 영향력: 다중공선성은 회귀모델의 예측력을 저하 시킬 수 있다. 공선성이 있는 변수들은 회귀 모델에서 통계적으로 유의미한 변수로 인식되지만, 실제로는 중요한 영향력을 가지지 않을 수 있다.
- 계수의 불안정성 : 다중공선성은 회귀 계수의 추정에 불안정성을 초래 할 수 있다. 독립 변수들 간에 강한 상관 관계가 있을 경우, 작은 변화나 노이즈에도 회귀 계수들의 큰 변동이 발생할 수 있다.
- 해석의 어려움 : 다중공선성이 있는 경우, 독립변수의 개별적인 영향력을 파악하기 어려울 수 있다. 각 독립 변수들의 계수가 상호의존적이기 때문에, 변수들의 개별적인 영향력을 해석하는 것이 어려워진다.

### 다중공선성 해결
- 상관 계수가 높은 변수들을 제거하거나. 변수 선택 기법을 사용해 유의미한 변수만 선택
- 변수들 간의 선형 관계를 확인하고 독립 변수들을 변형하거나 조합해 상관성 줄이기
- 릿지 회귀나 라쏘 회귀와 같은 규제 기법을 사용해 다중 공선성 완화
- 변수들을 주성분 분석 등의 차원 축소 기법을 통해 새로운 변수 생성해 해결