# *`Relative Importance of Variables for Explainable AI: Shapley Values and Linear Regression`*

[address of ref](https://medium.com/@baw_H1/relative-importance-of-variables-shapley-values-and-linear-regression-c828cbbc7e0d)

---

---

---

> ## *Abstract*

- While modeling the relationship between a dependent (output) variable y and independent (input) variables xᵢ, we can say that the importance of a given input variable xᵢ is determined by the amount of its contribution to some quantity of interest; the contribution is in turn estimated by the SV of xᵢ.
  - 입력변수 x와 출력변수 y간의 관계를 파악함에 있어서, x의 중요성을 기여도 관점에서 파악할 수 있다. 
  - 이때, 입력변수 x의 기여도는 SV를 통해 추정될 수 있다. 

- The quantity of interest would presumably have to be related in some way to “quality” of our ML model.
  - ML model의 품질과 해당 값을 연관지어 생각해볼 수 있다. 

> Linear Regression 모델에 적용시켜 알아보자

- point
  - how various technical considerations lead naturally to an SV-based formulation of the calculation of the relative importance.
  - 다양한 기술적인 고려사항들이 어떻게 SV 기반 공식에서 시작하여 상대적 중요성을 설명할 수 있는가?

> 여기서 언급하는 상대적 중요성이란 feature간의 상대적인 중요도를 비교하는 것을 의미

> Linear Regression뿐만 아니라 다양한 ML 모델들에 대해서도 적용시켜 이해해볼 수 있음

- Given a set of M observations {yⱼ, {x₁ⱼ, x₂ⱼ,…, xₙⱼ}}, j = 1, 2,…M, in LR(Linear Regression) we fit a linear model of the form
  - M개의 data로 이루어진 dataset
    - 차원은 M by N
  - 회귀식
  - ![image.png](attachment:31274bd4-589b-47a8-81eb-dd60e9883f18.png)
  - εⱼ is an unobservable random error that has the normal (0, σ²) distribution with an unknown σ²> 0 and εⱼ are iid and also independent of the input data xᵢ

----

---

---

> ## *Fitting the model*

- 잔차 : e = (y — X β)
- The estimates coefficients($\beta$) are obtained by minimizing the squared error:
  - S² = e’ e = (y — X β)’ (y — X β)
  - 를 최소로 만드는 $\beta$를 찾자

- The minimizing estimates of the coefficients are given by 
  - β̂ = C⁻¹ρ
  - 이때, C = X’X
  - ρ = X’y
  - 즉 추정치 $\hat \beta$은 $(X’X)⁻¹X’y$를 통해 구할 수 있다. 

---

---

---

> ## *A simple measure of the importance of the independent variables*
>  독립변수의 중요성을 측정하는 간단한 방법???

- ![image.png](attachment:b60c721d-073d-4b3d-89cd-2db6ea912790.png)
  - 는
  - ![image.png](attachment:9b697f01-7c23-4610-b644-2e9e02a27c1e.png)
  - 를 $j$번째 $x$에 대해서 편미분한 것
  - 따라서 $x_j$ 제외하곤 다 상수처리되며, 남는 건 $x_j$의 계수만 남게된다.
> ## `해당 결과는 당연히 다음을 의미한다.`

  - $x_j$의 단위 변경에 대해 $y$는 $\beta_j$ 단위만큼(즉 $x_j$의 계수만큼) 변경되는 반면 다른 모든 변수는 고정되어 있음을 알려줍니다.
> ### `따라서 회귀 계수 βⱼ의 절대값 또는 제곱값은 입력 xⱼ의 변화가 y에 미치는 영향의 척도임을 알 수 있다`

---

---

---

> ## *The R² Metric*

    It is defined as the fraction of the output variance explained or captured by the model

![image.png](attachment:a6c63544-c216-4870-9941-420bc9ad7661.png)

![image.png](attachment:8a2aea6e-d5d3-4efa-8e7d-ea51d3bf98fc.png)

- $\hat y_i$ is the model’s prediction
-  y̅ is the mean of the output y

---

---

---

> ## *Allocation of the explained variance*

    설명된 분산의 할당
    즉, 음... 분산에서 각 변수들이 차지하는 몫(?)을 설명하려는 것 같음

-  A higher value of R² indicates a better fit by the model and a greater importance of the members of S relative to the rest of the input variables
  - 음 만약, 독립변수가 7개로 이루어져 있다면 가능한 부분집합의 개수는 공집합 포함 $2^7$개 일 것이다. 
  - 이때 각 변수들의 조합에 대해 $R^2$을 구하고 해당 값이 클수록 모델이 더 잘 적합된 것이고 나머지 입력변수들에 비해 해당 부분집합 S의 독립변수가 더 중요함을 나타낸다. 

# **하지만**

- as we shall see, difficulties arise when the input variables are correlated
- ![image.png](attachment:6845b84c-aa3a-4ee2-a902-495261aac99e.png)
  - in which the first three terms (in green) represent explainable variance and the last term is the error variance. When x₁ and x₂ are uncorrelated (ρ₁₂ is zero), the second term vanishes. 
  - 첫째 항부터 셋째 항까지는 explained variance임.
    - 이 값이 클수록 해당 독립변수와 종속변수간의 관련성이 높음을 의미
  - $x_1$과 $x_2$가 관련 없다면, 공분산은 당연 0
  - 따라서 두번째 항은 0이 됨
  - 이러한 상황(두 변수가 상관없을 때, 즉 공분산이 0이라면)에선,
  - x₁ explains β₁² v₁
    - $x_1$의 상대적 중요도
  - x₂ explains β₂² v₂
    - $x_2$의 상대적 중요도
      - 즉, 여기서 explained variance의 의미를 알 수 있음
      - $x_1$과 $\to$ $\beta_1^2 v_1$을 관련지어 이해할 수 있음
      - $\beta_1^2 v_1$의 값이 크다는 것은 해당 회귀식에서 $x_1$의 relative importance가 $x_2$에 비해 크다는 것을 의미함
    

- ## $\star\star\star\star\star\star\star\star\star\star\star\star\star\star$
- 즉, x₁’s relative importance would correspond to the former and x₂’s would to the latter.
- $x_1$의 상대적 중요도는 전자에 해당하고 $x_2$ 상대적 중요도는 후자에 해당한다.
- 하지만 이는 어디까지나 두번째 항이 0이 됐을 때의 이야기이다.
- 즉, 두 독립변수간 공분산이 0, 서로 관련이 없을 때 할 수 있는 이야기이다
- ## $\star\star\star\star\star\star\star\star\star\star\star\star\star\star$



-----

-----

-----

> ### 그렇다면 두 독립변수의 공분산이 0이 아니면? 즉, 관련이 있으면?

- We can think about the explained variance in this particular case as the incremental gain in the explained variance between the model with no input variables (indicated by ϕ — the empty or null set of element indices) and the one with x₁ alone and denote it by svar({1}|ϕ):
- ![image.png](attachment:80c6c8db-7408-4157-b22b-acd87eb9c760.png)
> ### `We thus see from (9) that x₁, in addition to its legitimate contribution (the first term), is credited with not only the full cross-term (the second term), but a part of x₂’s variance as well via the third term (see [1] for details)`

- 첫째항은 당연히 있어야 되는 분산이고(애초에 $x_1$만 고려한 모델이었기 때문에),
> ### `we saw that x₁’s credit includes a part of x₂’s variance (the last term)`

- Next, after having accounted for x₁ in this way, if we minimize the remaining error using x₂, x₂ gets credited with the incremental gain in the explained variance as follows:
- ![image.png](attachment:f9e9270a-5c23-4544-b428-8d61d9d64f3f.png)
> ### ` we note that x₂’s credit was consequently lowered`

>  For example, if there is 40% correlation between x₁and x₂ (ρ₁₂ is 0.4), the credit and hence, the relative importance of x₂ would be lowered to only 60% of the correct value.
- 공분산이 0.4여서 단독 explained variance에 곱해지면 당연히 60% 삭감됨

> The reverse situation occurs when the order is reversed. 

> # Thus, due to the correlatedness of x1 and x2, we here clearly have a credit leakage or cross-transfer that needs to be fixed.

- By symmetrical arguments, if we had regressed y on x₂ first, and then on x₁, x₂’s credit would have been:
- ![image.png](attachment:f21f66a7-077c-40ee-bf2d-25047c23052e.png)

- and then, x₁’s credit would have been:
- ![image.png](attachment:ddb0be8b-81f0-4e21-97d3-c6f6be158cf1.png)

`-` Then, how do we equalize the credit between x1 and x2? 
- A symmetry exists between the two orders — while one variables gains, the other loses the credit
- and the gain and loss occur in the reverse direction as the order is reversed
## Therefore
- to equalize the credit between $x_1$ and $x_2$, we could try to take an average of the creidts  so that the gain and loss are evened out.

- ![image.png](attachment:7e69d096-6242-4c8b-ab60-01c4ed8a0ff4.png)
- 이건 (9)&(12)의 평균
- ![image.png](attachment:efcb1c5d-b4f9-4035-9fa4-598856f85d79.png)
- 이건 (10)&(11)의 평균

> 위 두 식을 보면 cross term은 균등히 반절로 나뉘었음

> 근데 위 두식이 의미하는 게 뭔데?
- 첫 번째 (9)와 (12)의 평균
  - svar({1}|공집합)
  - svar({1}|{2})

> 위 두 식을 더해보자
- ![image.png](attachment:691fb0fb-c18a-45ef-bdf6-9b020a67f8f5.png)
- 해당 식과 매우 흡사
- 여기서 공분산이 0이면 초장에 설명했듯 가운데 항은 소멸
- 하지만 공분산이 full이라면?
  - 개별 분산의 평균과 교차항의 분산의 곱을 얻는다. 

----

----

----

- Therefore, the formula in (16) simplifies to a summation over subsets rather than over the permutations:

----

- explained variance : 예측 변수에 의해 설명될 수 있는 응답 변수의 분산??
  - `예측값의 분산` 정도로 생각할 수 있을 듯
- The higher the explained variance of a model, the more the model is able to explain the variation in the data.
- 그래서 Regression에서 explained variance가 어떻게 쓰이는데?
  - Used to quantify the relationship between one or more predictor variables and a response variable.
  - 독립변수와 종속변수간의 관계를 파악하는 데 사용...
  - ### `즉, Regression에서 explained variance가 크면 클수록 독립변수와 종속변수간의 관계성이 커짐을 의미!`

----

- 선형회귀에서 상대적 중요성을 판가름하는 식이 shapley value 값 구하는 공식과 유사
- 따라서 shapley value에서 변수의 상대적 중요성을 파악할 수 있음을 시사