# 重回帰分析 python実装編

In [4]:
"""
カリフォルニアの住宅価格のデータセットには、説明変数の名前、目的変数の名前、各説明変数の値、目的変数の値などがBunch型という辞書型のサブクラスで保存されている
カリフォルニアの住宅価格のデータセットを読み込み、データセットの全てのキーを表示する
・ データセットの読み込みには、scikit-learnライブラリのdatasetsパッケージのfetch_california_housing関数を使用する
・ データセットの全てのキーを表示するには、keysメソッドを使用
"""

from sklearn.datasets import fetch_california_housing

# カリフォニア住宅のデータセット取得
ca_data = fetch_california_housing()
print(ca_data.keys())

dict_keys(['data', 'target', 'frame', 'target_names', 'feature_names', 'DESCR'])


In [13]:
"""
説明変数のデータフレームと目的変数のデータフレームを横方向に結合し,最初の5行を表示
"""

import pandas as pd
from sklearn.datasets import fetch_california_housing

ca_data = fetch_california_housing()

# データフレーム作成
df_x = pd.DataFrame(ca_data.data, columns=ca_data.feature_names)
df_y = pd.DataFrame(ca_data.target, columns=ca_data.target_names)
df = pd.concat([df_x, df_y], axis=1)
df.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


In [17]:
"""
データフレームが代入された変数dfの先頭300行だけを抜き出したデータフレームを作成しデータ数を表示
"""

import pandas as pd
from sklearn.datasets import fetch_california_housing

ca_data = fetch_california_housing()

# データフレーム作成
df_x = pd.DataFrame(ca_data.data, columns=ca_data.feature_names)
df_y = pd.DataFrame(ca_data.target, columns=ca_data.target_names)
df = pd.concat([df_x, df_y], axis=1)
# 先頭300行だけを抽出
df2 = df.iloc[:300, :]
len(df2)

300

In [21]:
"""
以下の3つのカラムだけを抽出したデータフレームを作成
"HouseAge"
"AveRooms"
"MedHouseVal"
作成したデータフレームの先頭5行を表示
"""

import pandas as pd
from sklearn.datasets import fetch_california_housing

ca_data = fetch_california_housing()

# データフレーム作成
df_x = pd.DataFrame(ca_data.data, columns=ca_data.feature_names)
df_y = pd.DataFrame(ca_data.target, columns=ca_data.target_names)
df = pd.concat([df_x, df_y], axis=1)
df2 = df.iloc[:300, :]
# "HouseAge","AveRooms","MedHouseVal"を抽出
df3 = df2[["HouseAge","AveRooms","MedHouseVal"]]
df3.head()

Unnamed: 0,HouseAge,AveRooms,MedHouseVal
0,41.0,6.984127,4.526
1,21.0,6.238137,3.585
2,52.0,8.288136,3.521
3,52.0,5.817352,3.413
4,52.0,6.281853,3.422


In [26]:
"""
変数df3のうち、"HouseAge"のデータを変数x1に、"AveRooms"のデータを変数x2に、
"MedHouseVal"のデータを変数yに、それぞれシリーズとして代入する。
x1とx2の分散共分散行列を表示しましょう。
求める分散は標本分散とする
補足:標本分散の例として身長のデータからクラスの身長のばらつきを表す推定量
"""

import pandas as pd
from sklearn.datasets import fetch_california_housing
import numpy as np

ca_data = fetch_california_housing()

# データフレーム作成
df_x = pd.DataFrame(ca_data.data, columns=ca_data.feature_names)
df_y = pd.DataFrame(ca_data.target, columns=ca_data.target_names)
df = pd.concat([df_x, df_y], axis=1)
df2 = df.iloc[:300, :]
# "HouseAge","AveRooms","MedHouseVal"を抽出
df3 = df2[["HouseAge","AveRooms","MedHouseVal"]]
# 説明変数x1,x2に、目的変数をyに代入
x1 = df3["HouseAge"]
x2 = df3["AveRooms"]
y = df3["MedHouseVal"]
# x1とx2の分散、共分散を取得
A = np.cov(x1, x2, bias=True) # Flaseだと不偏分散になるので注意
print(A)

[[95.67248889  1.41952977]
 [ 1.41952977  1.57546806]]


In [31]:
"""
データフレームdf3の"HouseAge"のデータを変数x1に、
"AveRooms"のデータを変数x2に、"MedHouseVal"のデータを変数yに代入する。
x1とyの共分散、x2とyの共分散を求め、それぞれの共分散の値が2行1列の行列となるように表示する。
・ 求める分散は標本分散とする
・ 分散共分散行列の非対角成分が共分散の値
"""

import pandas as pd
from sklearn.datasets import fetch_california_housing
import numpy as np

ca_data = fetch_california_housing()

# データフレーム作成
df_x = pd.DataFrame(ca_data.data, columns=ca_data.feature_names)
df_y = pd.DataFrame(ca_data.target, columns=ca_data.target_names)
df = pd.concat([df_x, df_y], axis=1)
df2 = df.iloc[:300, :]
# "HouseAge","AveRooms","MedHouseVal"を抽出
df3 = df2[["HouseAge","AveRooms","MedHouseVal"]]
# 説明変数x1,x2に、目的変数をyに代入
x1 = df3["HouseAge"]
x2 = df3["AveRooms"]
y = df3["MedHouseVal"]
# x1とx2の分散、共分散を取得
A = np.cov(x1, x2, bias=True) # Flaseだと不偏分散になるので注意

# yとx1、共分散を取得
cov_y_x1 = np.cov(y, x1, bias=True)[0][1]
# yとx2、共分散を取得
cov_y_x2 = np.cov(y, x2, bias=True)[0][1]

# ２つの共分散の値を行列に
B = [[cov_y_x1], [cov_y_x2]]
print(B)

[[-0.9561699362222228], [0.5742478202668128]]


In [34]:
"""
変数df3の"HouseAge"のデータを変数x1に、"AveRooms"のデータを変数x2に、"MedHouseVal"のデータを変数yに代入
続いて、x1とx2の分散共分散行列Aを係数行列、x1とyの共分散およびx2とyの共分散の値が入った行列Bを定数項、
未知数をWとして、行列を使用した連立方程式AW=Bを立てる
この連立方程式AW=Bの解Wを求め表示する
"""

import pandas as pd
from sklearn.datasets import fetch_california_housing
import numpy as np

ca_data = fetch_california_housing()

# データフレーム作成
df_x = pd.DataFrame(ca_data.data, columns=ca_data.feature_names)
df_y = pd.DataFrame(ca_data.target, columns=ca_data.target_names)
df = pd.concat([df_x, df_y], axis=1)
df2 = df.iloc[:300, :]
# "HouseAge","AveRooms","MedHouseVal"を抽出
df3 = df2[["HouseAge","AveRooms","MedHouseVal"]]
# 説明変数x1,x2に、目的変数をyに代入
x1 = df3["HouseAge"]
x2 = df3["AveRooms"]
y = df3["MedHouseVal"]
# x1とx2の分散、共分散を取得
A = np.cov(x1, x2, bias=True) # Flaseだと不偏分散になるので注意

# yとx1、共分散を取得
cov_y_x1 = np.cov(y, x1, bias=True)[0][1]
# yとx2、共分散を取得
cov_y_x2 = np.cov(y, x2, bias=True)[0][1]

# ２つの共分散の値を行列に
B = [[cov_y_x1], [cov_y_x2]]

# x1,x2の分散・共分散、y,x1の共分散・y,x2の共分散の連立方程式を解く
W = np.linalg.solve(A, B)
print(W) #一行目がw1、2行目がw2の値

[[-0.01561103]
 [ 0.37855934]]


In [37]:
"""
変数df3の"HouseAge"のデータを変数x1に、"AveRooms"のデータを変数x2に、"MedHouseVal"のデータを変数yに代入
続いて、x1とx2の分散共分散行列Aを係数行列、x1とyの共分散およびx2とyの共分散の値が入った行列Bを定数項、
未知数をWとして、行列を使用した連立方程式AW=Bを立てる。
この連立方程式AW=Bの解Wから回帰方程式y=w0+w1x1+w2x2の係数w0, w1, w2を求め表示する
・ 連立方程式の解が代入された行列Wのうち、1行1列成分がw1、2行1列成分がw2の値
・ w0は(yの平均値) - w1×(x1の平均値) - w2×(x2の平均値)から求められる
"""

import pandas as pd
from sklearn.datasets import fetch_california_housing
import numpy as np

ca_data = fetch_california_housing()

# データフレーム作成
df_x = pd.DataFrame(ca_data.data, columns=ca_data.feature_names)
df_y = pd.DataFrame(ca_data.target, columns=ca_data.target_names)
df = pd.concat([df_x, df_y], axis=1)
df2 = df.iloc[:300, :]
# "HouseAge","AveRooms","MedHouseVal"を抽出
df3 = df2[["HouseAge","AveRooms","MedHouseVal"]]
# 説明変数x1,x2に、目的変数をyに代入
x1 = df3["HouseAge"]
x2 = df3["AveRooms"]
y = df3["MedHouseVal"]
# x1とx2の分散、共分散を取得
A = np.cov(x1, x2, bias=True) # Flaseだと不偏分散になるので注意

# yとx1、共分散を取得
cov_y_x1 = np.cov(y, x1, bias=True)[0][1]
# yとx2、共分散を取得
cov_y_x2 = np.cov(y, x2, bias=True)[0][1]

# ２つの共分散の値を行列に
B = [[cov_y_x1], [cov_y_x2]]

# x1,x2の分散・共分散、y,x1の共分散・y,x2の共分散の連立方程式を解く
W = np.linalg.solve(A, B)

# w1,w2を取得
w1 = W[0][0]
w2 = W[1][0]

# w0を数式から取得
w0 = np.mean(y) - w1 * np.mean(x1) - w2 * np.mean(x2)
print(w0, w1, w2)

0.6625134388223595 -0.015611030955148786 0.37855933692076293


## statsmodelsのライブラリを使用して重回帰分析

In [42]:
"""
変数df3のうち、"HouseAge"と"AveRooms"を説明変数として抽出し、変数Xに代入。
続いて、"MedHouseVal"を目的変数として抽出し、変数yに代入
変数Xに定数項のカラムを追加した変数X2を作成し、完成イメージの通りに表示
・ 定数項のカラムを追加するには、statsmodelsライブラリのapiモジュールのadd_constant関数を使用
"""


import pandas as pd
from sklearn.datasets import fetch_california_housing
import statsmodels.api as sm

ca_data = fetch_california_housing()

# データフレーム作成
df_x = pd.DataFrame(ca_data.data, columns=ca_data.feature_names)
df_y = pd.DataFrame(ca_data.target, columns=ca_data.target_names)
df = pd.concat([df_x, df_y], axis=1)
df2 = df.iloc[:300, :]
# "HouseAge","AveRooms","MedHouseVal"を抽出
df3 = df2[["HouseAge","AveRooms","MedHouseVal"]]
# 説明変数と目的変数をそれぞれ変数X,Yに代入
X = df3[["HouseAge", "AveRooms"]]
y = df3["MedHouseVal"]

# 定数項を追加
X2 = sm.add_constant(X)
X2.head()

Unnamed: 0,const,HouseAge,AveRooms
0,1.0,41.0,6.984127
1,1.0,21.0,6.238137
2,1.0,52.0,8.288136
3,1.0,52.0,5.817352
4,1.0,52.0,6.281853


In [45]:
"""
定数項が追加された下記の説明変数X2と目的変数yを使用し重回帰分析の結果を表示
・ 重回帰分析を行う計算モデルとしてstatsmodelsのOLSインスタンスを作成
・ 重回帰分析を行うには、計算モデルのfitメソッドを使用
・ 重回帰分析の結果を表示するには、重回帰分析を行ったモデルのsummaryメソッドを使用
"""

import pandas as pd
from sklearn.datasets import fetch_california_housing
import statsmodels.api as sm

ca_data = fetch_california_housing()

# データフレーム作成
df_x = pd.DataFrame(ca_data.data, columns=ca_data.feature_names)
df_y = pd.DataFrame(ca_data.target, columns=ca_data.target_names)
df = pd.concat([df_x, df_y], axis=1)
df2 = df.iloc[:300, :]
# "HouseAge","AveRooms","MedHouseVal"を抽出
df3 = df2[["HouseAge","AveRooms","MedHouseVal"]]
# 説明変数と目的変数をそれぞれ変数X,Yに代入
X = df3[["HouseAge", "AveRooms"]]
y = df3["MedHouseVal"]

# 定数項を追加
X2 = sm.add_constant(X)

# 重回帰分析の計算モデルとしてインスタンスを作成
model = sm.OLS(y, X2) # 最小二乗法

# 計算結果を変数resultsに代入
results = model.fit()

# 分析結果を表示
results.summary()

0,1,2,3
Dep. Variable:,MedHouseVal,R-squared:,0.284
Model:,OLS,Adj. R-squared:,0.279
Method:,Least Squares,F-statistic:,58.94
Date:,"Sun, 27 Aug 2023",Prob (F-statistic):,2.77e-22
Time:,12:21:29,Log-Likelihood:,-345.34
No. Observations:,300,AIC:,696.7
Df Residuals:,297,BIC:,707.8
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,0.6625,0.254,2.606,0.010,0.162,1.163
HouseAge,-0.0156,0.005,-3.417,0.001,-0.025,-0.007
AveRooms,0.3786,0.036,10.632,0.000,0.308,0.449

0,1,2,3
Omnibus:,38.484,Durbin-Watson:,0.607
Prob(Omnibus):,0.0,Jarque-Bera (JB):,80.825
Skew:,0.665,Prob(JB):,2.81e-18
Kurtosis:,5.167,Cond. No.,261.0


## scikit-learnを使用した重回帰分析

In [52]:
"""
変数df3のうち、"HouseAge"と"AveRooms"を説明変数として抽出し、変数Xに代入
続いて、"MedHouseVal"を目的変数として抽出し、変数yに代入
そして、重回帰分析を行う
得られた回帰方程式y=w0+w1x1+w2x2の切片と係数をそれぞれ表示
・ 重回帰分析を行う計算モデルとしてscikit-learnライブラリのlinear_modelパッケージのLinearRegressionインスタンスを作成
・ 重回帰分析を行うには、計算モデルのfitメソッドを使用
・ 回帰方程式の切片は重回帰分析を行った予測モデルのintercept_というアトリビュートで参照できる。
・ 回帰方程式の係数は重回帰分析を行った予測モデルのcoef_というアトリビュートで参照できる。
"""

import pandas as pd
from sklearn.linear_model import LinearRegression

ca_data = fetch_california_housing()

# データフレーム作成
df_x = pd.DataFrame(ca_data.data, columns=ca_data.feature_names)
df_y = pd.DataFrame(ca_data.target, columns=ca_data.target_names)
df = pd.concat([df_x, df_y], axis=1)
df2 = df.iloc[:300, :]
# "HouseAge","AveRooms","MedHouseVal"を抽出
df3 = df2[["HouseAge","AveRooms","MedHouseVal"]]
# 説明変数と目的変数をそれぞれ変数X,Yに代入
X = df3[["HouseAge", "AveRooms"]]
y = df3["MedHouseVal"]

# 重回帰分析の計算モデルとしてインスタンス作成
model = LinearRegression()
# 重回帰分析で回帰方程式を作成
model.fit(X, y)

# 回帰方程式もw0（切片）を取得
print(model.intercept_)

# 回帰方程式のw1,w2（計算）を取得
print(model.coef_)

0.6625134388223604
[-0.01561103  0.37855934]


In [54]:
"""
変数df3のうち、"HouseAge"と"AveRooms"を説明変数として抽出し、変数Xに代入
続いて、"MedHouseVal"を目的変数として抽出し、変数yに代入
そして、重回帰分析を行う
得られた回帰方程式の決定係数を求め表示
・ 重回帰分析を行う計算モデルとしてscikit-learnライブラリのlinear_modelパッケージのLinearRegressionインスタンスを作成
・ 重回帰分析を行うには、計算モデルのfitメソッドを使用
・ 目的変数の予測値を算出するには、重回帰分析を行った予測モデルのpredictメソッドを使用
・ 決定係数を算出するには、scikit-learnライブラリのmetricsパッケージのr2_score関数を使用
"""

from sklearn.datasets import fetch_california_housing
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

ca_data = fetch_california_housing()
df_X = pd.DataFrame(ca_data.data, columns=ca_data.feature_names)
df_Y = pd.DataFrame(ca_data.target, columns=ca_data.target_names)
df = pd.concat([df_X, df_Y], axis=1)
df2 = df.iloc[:300, :]
df3 = df2[["HouseAge", "AveRooms", "MedHouseVal"]]
X = df3[["HouseAge", "AveRooms"]]
y = df3["MedHouseVal"]
model = LinearRegression()
model.fit(X, y)
# 目的変数の予測値を取得
y_pred = model.predict(X)
# 決定係数を算出
r2_score(y, y_pred)

0.2841303922467444

## まとめ
統計的に解析したい時は、statsmodels

機械学習で予測したい時は、scikit-learn