## 決定係数の表の作成

In [2]:
import pandas as pd
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

df = sns.load_dataset('iris')

In [3]:
# 目的変数 y_label を引数で指定、それ以外を説明変数として決定係数を計算
def multi_regression_erros(df, y_label):
    X = df.drop([y_label, 'species'], axis=1)
    Y = df[y_label]
    model = LinearRegression()
    model.fit(X, Y)
    Y_predict = model.predict(X)
    return r2_score(Y, Y_predict)

In [4]:
# 'sepal_length' を目的変数として確認
multi_regression_erros(df, 'sepal_length')

0.8586117200663177

In [5]:
labels = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
result_df = pd.DataFrame(columns=labels, index=labels)

# labels の各要素を目的変数として決定係数を計算
for y_label in labels:
    r2 = multi_regression_erros(df, y_label)
    result_df.at[y_label, y_label] = r2

result_df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
sepal_length,0.858612,,,
sepal_width,,0.524007,,
petal_length,,,0.968012,
petal_width,,,,0.93785


上記4つが説明変数の場合は、petal_length, petal_width は決定係数が 0.9 以上であり、他の説明変数から十分に説明できることになり、両方を説明変数に含めることは多重共線性が問題になり得る。

<img src='slides/4_42.png'>