## レバレッジ（Leverage）について

レバレッジ（Leverage）とは、回帰分析において各観測値の影響力を評価する指標の一つです。具体的には、ある観測値が回帰モデルのフィッティングにどれほど影響を与えるかを示します。レバレッジが高い観測値は、回帰直線や平面に大きな影響を与えるため、これらのデータポイントに特に注意を払う必要があります。

### レバレッジの計算

レバレッジは、ハットマトリックス（$H$）の対角要素として計算されます。ハットマトリックスは以下のように定義されます。

$$
H = X(X^TX)^{-1}X^T
$$

ここで、$X$ はデザイン行列（独立変数の行列）です。レバレッジ値はハットマトリックスの対角成分 $h_{ii}$ として与えられます。

### レバレッジの解釈

- レバレッジ値 $h_{ii}$ は常に 0 から 1 の間にあります。
- レバレッジ値の平均は $\frac{p+1}{n}$ であり、ここで $p$ は独立変数の数、$n$ は観測数です。
- レバレッジ値がこの平均値よりも大きい場合、その観測値は高いレバレッジを持つと考えられます。

### レバレッジの用途

1. **外れ値の検出**:
    レバレッジ値が高い観測値は、モデルに強い影響を与える可能性があるため、外れ値や異常値として検討されることがあります。

2. **影響力の評価**:
    レバレッジ値は、観測値が回帰モデルにどれだけ影響を与えるかを示すため、モデルの安定性や信頼性の評価に使用されます。

### Pythonコード例

以下に、レバレッジ値を計算し、プロットするPythonコードの例を示します。



このコードでは、以下のステップでレバレッジ値を計算し、プロットしています。

1. データセットを作成し、回帰モデルをフィッティングします。
2. ハットマトリックスの対角成分（レバレッジ値）を計算します。
3. レバレッジ値をプロットし、高いレバレッジ値を持つ観測値を視覚的に確認します。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm
from sklearn.datasets import make_regression

# データセットの作成
X, y = make_regression(n_samples=100, n_features=1, noise=10, random_state=42)
X = sm.add_constant(X)  # 切片項を追加

# 回帰モデルのフィッティング
model = sm.OLS(y, X).fit()

# レバレッジ値の計算
influence = model.get_influence()
leverage = influence.hat_matrix_diag

# レバレッジ値のプロット
plt.stem(np.arange(len(leverage)), leverage, markerfmt=",")
plt.axhline(y=2*(X.shape[1])/len(X), color='r', linestyle='--')  # 一般的な閾値
plt.xlabel('Observation Index')
plt.ylabel('Leverage')
plt.title('Leverage Values')
plt.show()