In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# condition number

- **조건수 감소 목적:**
    - **(비수학적 이해)**  
    : 독립변수들의 절대적 수치크기나 서로간의 의존도가 분석결과에 주는 영향을 줄이고 독립변수의 상대적인 비교효과 반영
    - **(수학적 이해)**  
    : 공분산 행렬의 변동성을 줄여 분석결과의 변동을 줄임
        > **공분산 행렬의 변동성?:** 모델링 계수추정시 영향을 주는 역행렬에 오차가 미치는 영향
           
<center>
$조건수(Condition~Number) = \dfrac{\lambda_{max}}{\lambda_{min}} \\ where \\
\lambda_{max} = max[eigenvalue\{Cov(X^T X)\}] \\
\lambda_{min} = min[eigenvalue\{Cov(X^T X)\}]$
</center>  
   

In [2]:
# 조건수가 작을 때
A = np.eye(4)
b = np.ones(4)
print(A)
print('')
print(b)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]

[1. 1. 1. 1.]


In [3]:
# np.linalg.solve : Ax=b에서 x를 계산합니다.
np.linalg.solve(A,b)

array([1., 1., 1., 1.])

In [4]:
# A 데이터 오차반영
A_new = A + 0.0001*np.eye(4)
A_new 

array([[1.0001, 0.    , 0.    , 0.    ],
       [0.    , 1.0001, 0.    , 0.    ],
       [0.    , 0.    , 1.0001, 0.    ],
       [0.    , 0.    , 0.    , 1.0001]])

In [5]:
np.linalg.solve(A_new, b)

array([0.99990001, 0.99990001, 0.99990001, 0.99990001])

In [6]:
# 조건수 확인
print(np.linalg.cond(A))

1.0


In [7]:
# 조건수가 클때
from scipy.linalg import hilbert
A = hilbert(4)
A 

array([[1.        , 0.5       , 0.33333333, 0.25      ],
       [0.5       , 0.33333333, 0.25      , 0.2       ],
       [0.33333333, 0.25      , 0.2       , 0.16666667],
       [0.25      , 0.2       , 0.16666667, 0.14285714]])

In [8]:
b = np.ones(4)
b

array([1., 1., 1., 1.])

In [9]:
# Ax=b에서 x를 추정
np.linalg.solve(A, b)

array([  -4.,   60., -180.,  140.])

In [10]:
# A데이터 오차반영
A_new = A + 0.0001 * np.eye(4)
A_new

array([[1.0001    , 0.5       , 0.33333333, 0.25      ],
       [0.5       , 0.33343333, 0.25      , 0.2       ],
       [0.33333333, 0.25      , 0.2001    , 0.16666667],
       [0.25      , 0.2       , 0.16666667, 0.14295714]])

In [11]:
# Ax=b에서 x를 추정
np.linalg.solve(A_new, b)

array([ -0.58897672,  21.1225671 , -85.75912499,  78.45650825])

In [12]:
# 조건수 확인
np.linalg.cond(A)

15513.738738929103

* Ax=b에서 A행렬의 조건수가 크면 A행렬에 조금의 오차만 생겨도 x의 값이 크게 변한다.
* 행렬의 조건수를 낮추는게 중요하다 
    * 조건수가 크다 : 오차에 민감하다
    * 조건수가 작다 : 오차에 강건하다

- **조건수 감소 방법(분석 결과 안정성 확보 방법):** 
    > **1) 변수들의 단위차이로 숫자의 스케일들이 크게 다른 경우, 스케일링(Scaling)으로 해결 가능**  
    > **2) 독립변수들 간에 상관관계가 높은 "다중공선성" 존재할 경우,  
    Variance Inflation Factor(VIF)나 Principal Component Analysis(PCA)를 통한 변수선별로 해결 가능**  
    > **3) 독립변수들 간 의존성이 높은 변수들에 패널티를 부여하는 정규화(Resularization)로 해결 가능**  