다중 공선성(multicollinearity)은 회귀 분석에서 발생하는 문제로, 두 개 이상의 독립 변수들 간에 강한 상관 관계가 있는 경우를 가리킵니다. 이러한 상황에서는 독립 변수들 간의 선형 관계가 너무 강하게 나타나면 회귀 모델의 성능을 해치거나 회귀 계수의 추정값이 불안정해질 수 있습니다.

​

다중 공선성의 주요 특징은 다음과 같습니다

​

1. 상관 관계: 독립 변수들 간에 상관 관계가 높을수록 다중 공선성의 문제가 발생할 가능성이 높습니다. 이는 독립 변수들이 서로 의존적이거나 유사한 정보를 제공할 때 나타납니다.

2. 회귀 계수의 불안정성: 다중 공선성이 발생하면 회귀 모델의 계수 추정값이 불안정해지고, 통계적으로 유의미한 결과를 얻기 어려워집니다. 이는 독립 변수들 간의 상관 관계로 인해 회귀 모델이 각 독립 변수에 대한 영향을 정확하게 추정하기 어려워지기 때문입니다.

3. 해석의 어려움: 다중 공선성이 있는 모델에서는 각 독립 변수의 영향력을 해석하는 것이 어려울 수 있습니다. 예를 들어, 다중 공선성이 있는 경우 특정한 독립 변수의 회귀 계수가 높아지거나 음의 방향으로 바뀔 수 있습니다.

4. 모델의 예측력 하락: 다중 공선성으로 인해 회귀 모델의 계수가 불안정해지면 모델의 예측력이 저하될 수 있습니다. 과적합(overfitting)의 위험이 높아지며, 새로운 데이터에 대한 일반화 성능이 감소할 수 있습니다.

​

다중 공선성을 해결하기 위해서는 다음과 같은 접근 방법을 사용할 수 있습니다:

​

1. 상관 관계가 높은 독립 변수들을 제거하거나 결합하여 새로운 변수를 생성합니다.

2. 차원 축소 기법을 사용하여 독립 변수들의 차원을 줄입니다.

3. 정규화(regularization) 기법을 사용하여 모델의 복잡도를 줄입니다.

​

다중 공선성을 고려하여 모델을 구축하고 평가하는 것은 모델의 성능과 해석을 향상시키는 데 중요합니다.


> 두 개 이상의 독립 변수들 간의 상관 관계를 알아보기

- 상관 행렬(correlation matrix)을 확인하면 됩니다. 상관 행렬은 각 변수들 간의 상관 관계를 보여주는 행렬로, 피어슨 상관 계수(Pearson correlation coefficient)를 사용하여 계산됩니다.

- 피어슨 상관 계수는 -1부터 1까지의 값을 가지며, 각 변수 간의 선형 상관 관계의 강도와 방향을 나타냅니다. 여기서, 값이 1에 가까울수록 양의 선형 상관 관계가 강하고, 값이 -1에 가까울수록 음의 선형 상관 관계가 강합니다. 값이 0에 가까울수록 두 변수 간에는 선형 관계가 거의 없음을 의미합니다.

- 상관 행렬을 계산하고 시각화하는 방법은 다음과 같습니다

1. 상관 행렬 계산: 주어진 데이터셋의 각 변수들 간의 상관 관계를 계산하여 상관 행렬을 생성합니다. 일반적으로 피어슨 상관 계수가 사용됩니다.

2. 상관 히트맵(heatmap) 시각화: 상관 행렬을 히트맵으로 시각화하여 각 변수들 간의 상관 관계를 쉽게 확인할 수 있습니다. 상관 히트맵은 색상을 사용하여 상관 계수의 크기와 부호를 표시합니다.

- 이러한 상관 행렬과 상관 히트맵을 통해 변수들 간의 상관 관계를 시각적으로 확인할 수 있으며, 다중 공선성을 평가하고 적절한 전처리를 수행할 수 있습니다.

절대적으로 높은 상관 관계만으로 두 독립 변수가 종속적이라고 판단하는 것은 적절하지 않습니다. 상관 관계는 단지 선형적인 관계를 나타내며, 변수 간의 모든 종속성을 반영하지는 않습니다. 따라서 높은 상관 관계가 있는 변수가 있더라도 그것이 두 변수 간의 진정한 종속성을 반영하는 것은 아닐 수 있습니다.

독립 변수 간의 종속성을 판단할 때는 다음과 같은 추가적인 고려 사항이 있습니다:

도메인 지식: 해당 도메인에 대한 전문 지식을 활용하여 변수 간의 관계를 이해하는 것이 중요합니다. 예를 들어, 온도와 아이스크림 판매량 사이에 강한 상관 관계가 있더라도 이는 직접적인 인과 관계가 아닐 수 있습니다.

상호작용: 변수 간의 상호작용이 있을 수 있으며, 이는 종속성을 나타낼 수 있습니다. 예를 들어, 온도와 습도라는 두 변수가 있을 때, 온도가 아이스크림 판매량에 미치는 영향은 습도에 따라 달라질 수 있습니다.

다른 방법을 통한 종속성 확인: 상관 관계 외에도 다른 방법을 사용하여 변수 간의 종속성을 확인할 수 있습니다. 예를 들어, 변수 선택 기법이나 주성분 분석과 같은 방법을 사용하여 변수 간의 종속성을 고려할 수 있습니다.

따라서 상관 관계를 고려할 때는 높은 상관 관계가 있더라도 변수 간의 종속성을 단정짓기 위해 도메인 지식과 다양한 분석 방법을 활용하는 것이 중요합니다. 종속성을 고려하지 않고 변수를 선택하거나 모델링하는 것은 모델의 성능과 해석을 해치는 원인이 될 수 있습니다.