# SPSS Modelerの線形回帰ノードをPythonで書き換える。

SPSS Modeler ノードリファレンス 5-1 線型回帰 - Qiita 
https://qiita.com/416nishimaki/items/041619da302a46125b72

# データの読み込み

In [1]:
import pandas as pd
#!wget 'https://raw.githubusercontent.com/yoichiro0903n/blue/main/cars.csv'
df=pd.read_csv('cars.csv')
df

Unnamed: 0,燃費,エンジン,馬力,車体重量,加速性,年式,生産国,気筒数
0,19.0,70,97,2330,13.5,72.0,日本,3気筒
1,18.0,70,90,2124,13.5,73.0,日本,3気筒
2,21.5,80,110,2720,13.5,77.0,日本,3気筒
3,23.7,70,100,2420,12.5,80.0,日本,3気筒
4,20.3,131,103,2830,15.9,78.0,ヨーロッパ,5気筒
...,...,...,...,...,...,...,...,...
387,22.0,146,97,2815,14.5,77.0,日本,6気筒
388,32.7,168,132,2910,11.4,80.0,日本,6気筒
389,25.4,168,116,2900,12.6,81.0,日本,6気筒
390,24.2,146,120,2930,13.8,81.0,日本,6気筒


# 単回帰分析 sklearn

In [2]:
# モデルの作成

from sklearn.linear_model import LinearRegression

# 説明変数
X = df[['エンジン']]
# 目的変数
Y = df['馬力']

# 線形回帰のモデルを作成
lr = LinearRegression()
lr.fit(X, Y)
#回帰式の係数と切片を出力
print('coefficient = ', lr.coef_[0]) 
print('intercept = ', lr.intercept_)

coefficient =  0.32119242933373704
intercept =  41.33771174883606


In [3]:
# R2乗値を出力
print('r^2 = ', lr.score(X,Y))

r^2 =  0.7625045295579075


In [4]:
#モデルの評価
Y_pred = lr.predict(X) # 学習データに対する目的変数を予測
# R2乗値を出力
from sklearn.metrics import r2_score
print('r^2 data: ', r2_score(Y, Y_pred))
# 平均二乗誤差を出力
from sklearn.metrics import mean_squared_error
print('MSE data: ', mean_squared_error(Y, Y_pred)) 

r^2 data:  0.7625045295579075
MSE data:  318.72528745575494


# 単回帰分析 statsmodels

In [5]:
import statsmodels.api as sm
# 説明変数
X = df[['エンジン']]
# 目的変数
Y = df['馬力']
X = sm.add_constant(X)

# 線形回帰のモデルを作成
model = sm.OLS(Y, X)
res = model.fit()

#モデルの内容/評価の表示
print(res.summary())

                            OLS Regression Results                            
Dep. Variable:                     馬力   R-squared:                       0.763
Model:                            OLS   Adj. R-squared:                  0.762
Method:                 Least Squares   F-statistic:                     1252.
Date:                Tue, 02 Aug 2022   Prob (F-statistic):          8.27e-124
Time:                        16:54:20   Log-Likelihood:                -1686.0
No. Observations:                 392   AIC:                             3376.
Df Residuals:                     390   BIC:                             3384.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         41.3377      1.923     21.494      0.0

In [6]:
X.shape[1]

2

【簡単】Pythonのstatsmodelsで重回帰分析を行う方法 | ジコログ 
https://self-development.info/python%E3%81%AEstatsmodels%E3%81%A7%E7%B7%9A%E5%BD%A2%E5%9B%9E%E5%B8%B0%E3%81%AE%E9%87%8D%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90%E3%82%92%E8%A1%8C%E3%81%86%E6%96%B9%E6%B3%95/



statsmodelsによる線形回帰 入門 - Qiita 
https://qiita.com/innovation1005/items/b712ce54a7a697a9bf03

# 重回帰分析 sklearn

In [7]:
from sklearn.linear_model import LinearRegression
lr = LinearRegression()

# 説明変数
X = df[['燃費', 'エンジン', '車体重量', '加速性']]
# 目的変数
Y = df['馬力']

# 線形回帰のモデルを作成
lr = LinearRegression()
lr.fit(X, Y)

#回帰式の係数と切片を出力
print('coefficient = ', lr.coef_) 
print('intercept = ', lr.intercept_)

# R2乗値を出力
print('r^2 = ', lr.score(X,Y))

#モデルの評価
Y_pred = lr.predict(X) # 学習データに対する目的変数を予測
# R2乗値を出力
from sklearn.metrics import r2_score
print('r^2 data: ', r2_score(Y, Y_pred))
# 平均二乗誤差を出力
from sklearn.metrics import mean_squared_error
print('MSE data: ', mean_squared_error(Y, Y_pred)) 



coefficient =  [-0.43655748  0.05634613  0.02204664 -4.86622564]
intercept =  112.74898151587317
r^2 =  0.8714973704899913
r^2 data:  0.8714973704899913
MSE data:  172.45397334592232


# 重回帰分析 statsmodels

In [8]:

######################################################################
# 説明変数
X = df[['燃費', 'エンジン', '車体重量', '加速性']] 
# 目的変数
Y = df['馬力']

X = sm.add_constant(X)


# 線形回帰のモデルを作成
model = sm.OLS(Y, X)
res = model.fit()

#モデルの内容/評価の表示
print(res.summary())

                            OLS Regression Results                            
Dep. Variable:                     馬力   R-squared:                       0.871
Model:                            OLS   Adj. R-squared:                  0.870
Method:                 Least Squares   F-statistic:                     656.2
Date:                Tue, 02 Aug 2022   Prob (F-statistic):          6.37e-171
Time:                        16:54:20   Log-Likelihood:                -1565.6
No. Observations:                 392   AIC:                             3141.
Df Residuals:                     387   BIC:                             3161.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        112.7490      7.830     14.400      0.0

In [9]:
#標準化係数をもとめる。

import numpy as np
from sklearn.preprocessing import StandardScaler
# 標準化
scaler = StandardScaler() 
df2 = df[['燃費', 'エンジン', '車体重量', '加速性','馬力']] 
scaler.fit(np.array(df2))
df_std = scaler.transform(np.array(df2))
df_std = pd.DataFrame(df_std, columns=df2.columns)

# 説明変数
X = df_std[['燃費', 'エンジン', '車体重量', '加速性']] 
# 目的変数
Y = df_std['馬力']

X = sm.add_constant(X)


# 線形回帰のモデルを作成
model = sm.OLS(Y, X)
res = model.fit()

#モデルの内容/評価の表示
print(res.summary())


                            OLS Regression Results                            
Dep. Variable:                     馬力   R-squared:                       0.871
Model:                            OLS   Adj. R-squared:                  0.870
Method:                 Least Squares   F-statistic:                     656.2
Date:                Tue, 02 Aug 2022   Prob (F-statistic):          6.37e-171
Time:                        16:54:20   Log-Likelihood:                -154.07
No. Observations:                 392   AIC:                             318.1
Df Residuals:                     387   BIC:                             338.0
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        7.72e-17      0.018   4.24e-15      1.0

In [10]:
#説明変数の相関係数行列
df[['燃費', 'エンジン', '車体重量', '加速性','馬力']].corr(method='pearson')

Unnamed: 0,燃費,エンジン,車体重量,加速性,馬力
燃費,1.0,-0.766616,-0.78522,0.397366,-0.75051
エンジン,-0.766616,1.0,0.944695,-0.476675,0.873215
車体重量,-0.78522,0.944695,1.0,-0.374679,0.858426
加速性,0.397366,-0.476675,-0.374679,1.0,-0.654512
馬力,-0.75051,0.873215,0.858426,-0.654512,1.0


In [11]:
#VIFの算出
from statsmodels.stats.outliers_influence import variance_inflation_factor as vif

num_cols = model.exog.shape[1] # 説明変数の列数
vifs = [vif(model.exog, i) for i in range(0, num_cols)]

pd.DataFrame(vifs, index=model.exog_names, columns=['VIF'])

Unnamed: 0,VIF
const,1.0
燃費,2.703302
エンジン,11.141205
車体重量,11.093586
加速性,1.418914


Python(StatsModels) で重回帰分析を理解し、分析の精度を上げる方法 | たぬハック 
https://tanuhack.com/statsmodels-multiple-lra/

statsmodels.stats.outliers_influence.variance_inflation_factor — statsmodels 
https://www.statsmodels.org/dev/generated/statsmodels.stats.outliers_influence.variance_inflation_factor.html

In [12]:
import sys

print(sys.version)
print(pd.__version__)
import sklearn
print(sklearn.__version__)
import statsmodels
print(statsmodels.__version__)

3.8.10 (tags/v3.8.10:3d8993a, May  3 2021, 11:48:03) [MSC v.1928 64 bit (AMD64)]
1.4.1
1.1.1
0.13.2
