# *`Relative Importance of Variables for Explainable AI: Shapley Values and Linear Regression`*

[address of ref](https://medium.com/@baw_H1/relative-importance-of-variables-shapley-values-and-linear-regression-c828cbbc7e0d)

---

---

---

> ## *Abstract*

- While modeling the relationship between a dependent (output) variable y and independent (input) variables xᵢ, we can say that the importance of a given input variable xᵢ is determined by the amount of its contribution to some quantity of interest; the contribution is in turn estimated by the SV of xᵢ.
  - 입력변수 x와 출력변수 y간의 관계를 파악함에 있어서, x의 중요성을 기여도 관점에서 파악할 수 있다. 
  - 이때, 입력변수 x의 기여도는 SV를 통해 추정될 수 있다. 

- The quantity of interest would presumably have to be related in some way to “quality” of our ML model.
  - ML model의 품질과 해당 값을 연관지어 생각해볼 수 있다. 

> Linear Regression 모델에 적용시켜 알아보자

- point
  - how various technical considerations lead naturally to an SV-based formulation of the calculation of the relative importance.
  - 다양한 기술적인 고려사항들이 어떻게 SV 기반 공식에서 시작하여 상대적 중요성을 설명할 수 있는가?

> 여기서 언급하는 상대적 중요성이란 feature간의 상대적인 중요도를 비교하는 것을 의미

> Linear Regression뿐만 아니라 다양한 ML 모델들에 대해서도 적용시켜 이해해볼 수 있음

- Given a set of M observations {yⱼ, {x₁ⱼ, x₂ⱼ,…, xₙⱼ}}, j = 1, 2,…M, in LR(Linear Regression) we fit a linear model of the form
  - M개의 data로 이루어진 dataset
    - 차원은 M by N
  - 회귀식
  - ![image.png](attachment:31274bd4-589b-47a8-81eb-dd60e9883f18.png)
  - εⱼ is an unobservable random error that has the normal (0, σ²) distribution with an unknown σ²> 0 and εⱼ are iid and also independent of the input data xᵢ

----

---

---

> ## *Fitting the model*

- 잔차 : e = (y — X β)
- The estimates coefficients($\beta$) are obtained by minimizing the squared error:
  - S² = e’ e = (y — X β)’ (y — X β)
  - 를 최소로 만드는 $\beta$를 찾자

- The minimizing estimates of the coefficients are given by 
  - β̂ = C⁻¹ρ
  - 이때, C = X’X
  - ρ = X’y
  - 즉 추정치 $\hat \beta$은 $(X’X)⁻¹X’y$를 통해 구할 수 있다. 

---

---

---

> ## *A simple measure of the importance of the independent variables*
>  독립변수의 중요성을 측정하는 간단한 방법???

- ![image.png](attachment:b60c721d-073d-4b3d-89cd-2db6ea912790.png)
  - 는
  - ![image.png](attachment:9b697f01-7c23-4610-b644-2e9e02a27c1e.png)
  - 를 $j$번째 $x$에 대해서 편미분한 것
  - 따라서 $x_j$ 제외하곤 다 상수처리되며, 남는 건 $x_j$의 계수만 남게된다.
> ## `해당 결과는 당연히 다음을 의미한다.`

  - $x_j$의 단위 변경에 대해 $y$는 $\beta_j$ 단위만큼(즉 $x_j$의 계수만큼) 변경되는 반면 다른 모든 변수는 고정되어 있음을 알려줍니다.
> ### `따라서 회귀 계수 βⱼ의 절대값 또는 제곱값은 입력 xⱼ의 변화가 y에 미치는 영향의 척도임을 알 수 있다`

---

---

---

> ## *The R² Metric*

    It is defined as the fraction of the output variance explained or captured by the model

![image.png](attachment:a6c63544-c216-4870-9941-420bc9ad7661.png)

![image.png](attachment:8a2aea6e-d5d3-4efa-8e7d-ea51d3bf98fc.png)

- $\hat y_i$ is the model’s prediction
-  y̅ is the mean of the output y

> ## *Allocation of the explained variance*

- However, as we shall see, difficulties arise when the input variables are correlated
- ![image.png](attachment:6845b84c-aa3a-4ee2-a902-495261aac99e.png)
  - in which the first three terms (in green) represent explainable variance and the last term is the error variance. When x₁ and x₂ are uncorrelated (ρ₁₂ is zero), the second term vanishes. 
  - $x_1$과 $x_2$가 관련 없다면, 공분산은 당연 0
  - 따라서 두번째 항은 0이 됨
  - 이러한 상황(두 변수가 상관없을 때, 즉 공분산이 0이라면)에선,
  - x₁ explains β₁² v₁
  - x₂ explains β₂² v₂
    - ## $\star\star\star\star\star\star\star\star\star\star\star\star\star\star$
    - 즉, x₁’s relative importance would correspond to the former and x₂’s would to the latter.
    - $x_1$의 상대적 중요도는 전자에 해당하고 $x_2$ 상대적 중요도는 후자에 해당한다.
    - 하지만 이는 어디까지나 두번째 항이 0이 됐을 때의 이야기이다.
    - 즉, 두 독립변수간 공분산이 0, 서로 관련이 없을 때 할 수 있는 이야기이다
    - ## $\star\star\star\star\star\star\star\star\star\star\star\star\star\star$

## ??

> ### 그렇다면 두 독립변수의 공분산이 0이 아니면? 즉, 관련이 있으면?

- We can think about the explained variance in this particular case as the incremental gain in the explained variance between the model with no input variables (indicated by ϕ — the empty or null set of element indices) and the one with x₁ alone and denote it by svar({1}|ϕ):