# 重回帰分析

## ライブラリのインポート

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

from sklearn.linear_model import LinearRegression

## データの読み込み

In [2]:
# データを読み込みます
data = pd.read_csv('1.02. Multiple linear regression.csv')

# はじめの5つのデータを確認します
data.head()

Unnamed: 0,SAT,"Rand 1,2,3",GPA
0,1714,1,2.4
1,1664,3,2.52
2,1760,3,2.54
3,1685,3,2.74
4,1693,2,2.83


In [3]:
# 統計量を表示します
data.describe()

Unnamed: 0,SAT,"Rand 1,2,3",GPA
count,84.0,84.0,84.0
mean,1845.27381,2.059524,3.330238
std,104.530661,0.855192,0.271617
min,1634.0,1.0,2.4
25%,1772.0,1.0,3.19
50%,1846.0,2.0,3.38
75%,1934.0,3.0,3.5025
max,2050.0,3.0,3.81


## 重回帰分析モデルを作成します

### 従属変数と独立変数を定義します

In [4]:
# 独立変数は 'SAT' と 'Rand 1,2,3'です
x = data[['SAT','Rand 1,2,3']]

# 独立変数は 'GPA'です
y = data['GPA']

### 回帰

In [5]:
# クラスからオブジェクトを作成します
reg = LinearRegression()

# モデルにフィットさせていきます
reg.fit(x,y)

LinearRegression()

In [6]:
# 係数を表示します
reg.coef_

array([ 0.00165354, -0.00826982])

In [7]:
# 切片を表示します
reg.intercept_

0.29603261264909486

### 決定係数を計算します

In [8]:
# 決定係数の値を表示します
reg.score(x,y)

0.40668119528142843

### 自由度修正済み決定係数の公式

$R^2_{adj.} = 1 - (1-R^2)*\frac{n-1}{n-p-1}$

In [9]:
# 形状の確認
x.shape

(84, 2)

In [10]:
# 決定係数はscoreメソッドで取得できます
r2 = reg.score(x,y)
# データの数
n = x.shape[0]
# 変数の数
p = x.shape[1]

# 公式を使って自由度修正済み決定係数を求めます
adjusted_r2 = 1-(1-r2)*(n-1)/(n-p-1)
adjusted_r2

0.39203134825134023

## 自由度修正済み決定係数



In [11]:
# 自由度修正済み決定係数を求めていきます
def adj_r2(x,y):
    r2 = reg.score(x,y)
    n = x.shape[0]
    p = x.shape[1]
    adjusted_r2 = 1-(1-r2)*(n-1)/(n-p-1)
    return adjusted_r2

In [12]:
# 結果を表示します
adj_r2(x,y)

0.39203134825134023