In [2]:
# 教師あり学習 -> 直線に基づいて予測
# X -> 説明変数
# Y -> 説明変数

# Xが一つ -> 単回帰分析
# Xが複数 -> 重回帰分析

# ワインの質 = 12.145 + 0.00117*冬の降雨 + 0.0614*育成期平均気温 - 0.00386*収穫期降雨
# 12.145 -> 固定値(切片)

import pandas as pd
import numpy as np 

# 使うデータ -> アイスクリームの売上予測
# 気温,値段,天気がわかれば適切な値段設定ができる

In [3]:
df_past = pd.read_csv("/content/4-4_sales.csv")
df_future = pd.read_csv("/content/4-4_sales_future.csv")

In [5]:
# どこがX(説明変数:temperature,price,rainy)でY(目的変数:sales)なのか教えなければいけない
X_name = ['temperature', 'price', 'rainy',] #説明変数
X = df_past[X_name] #Xになるものを指定
y = df_past["sales"] #目的変数

#回帰分析の実行

In [6]:
import statsmodels.api as sm

  import pandas.util.testing as tm


In [11]:
# ↓線形回帰にするのを指定

model = sm.OLS(y,sm.add_constant(X)) #yとXを指定,関数の書き方と同じ,このままですると切片が0になる,OLS=線形回帰
# 切片も計算したい場合,sm.add_constant(X)で指定すれば良い

  x = pd.concat(x[::order], 1)


In [12]:
# 線形回帰実行
result = model.fit()

In [13]:
# 結果の見方
result.summary()

# const -340.9653 -> 切片
# temperature	48.2076	-> temperatureの係数
# price 1.1667 -> priceの係数
# rainy 193.0358 -> rainyの係数

# つまり↓
# sales = -340.9653 + temperature*48.2076 + price*1.1667 + rainy*193.0358

# これで重回帰分析が終了だがP値(P>|t|)を見る必要がある
# P値 -> 係数の信用度,0に近いほど良い,切片はしょうがない
# 高いか低いかの基準は0.05

# temperatureは確実に影響を与える(0.000)
# priceは高い(0.381),あんまり変数として入れなくても良いかもしれない,影響がないと示唆される
# rainyは0.05より下なので(0.019)関係がある変数

# 結果を見て調整することが大事

# (自由度調節済みR**2) Adj.R-squared:0.825 -> R**2値(回帰分析の当てはまりのよさを示す指標),重回帰分析の場合はこっちを見た方が良い,要素が多ければ良いとすることを加味している式
# R-squared:0.840 -> 説明変数が増えれば増えるほど数値が上がる,要素が多ければ数値が大きくなる

0,1,2,3
Dep. Variable:,sales,R-squared:,0.84
Model:,OLS,Adj. R-squared:,0.825
Method:,Least Squares,F-statistic:,55.83
Date:,"Sun, 13 Mar 2022",Prob (F-statistic):,8.19e-13
Time:,08:29:11,Log-Likelihood:,-225.71
No. Observations:,36,AIC:,459.4
Df Residuals:,32,BIC:,465.8
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,-340.9653,303.596,-1.123,0.270,-959.371,277.440
temperature,48.2076,4.818,10.005,0.000,38.393,58.022
price,1.1667,1.314,0.888,0.381,-1.511,3.844
rainy,193.0358,77.940,2.477,0.019,34.277,351.794

0,1,2,3
Omnibus:,1.521,Durbin-Watson:,1.822
Prob(Omnibus):,0.467,Jarque-Bera (JB):,1.072
Skew:,-0.112,Prob(JB):,0.585
Kurtosis:,2.185,Cond. No.,2820.0


In [14]:
# priceを抜いて重回帰分析をしてみる
X_name = ['temperature', 'rainy',]
X = df_past[X_name] 
y = df_past["sales"]

model = sm.OLS(y,sm.add_constant(X))
result = model.fit()
result.summary()

# 必要ない変数は消した方が良い
# ちょっとAdj. R-squaredが上がった

# 多重共線性 -> rainyに対して,sunnyのような対応する変数が入れないほうが良い 

  x = pd.concat(x[::order], 1)


0,1,2,3
Dep. Variable:,sales,R-squared:,0.836
Model:,OLS,Adj. R-squared:,0.826
Method:,Least Squares,F-statistic:,83.88
Date:,"Sun, 13 Mar 2022",Prob (F-statistic):,1.15e-13
Time:,08:41:41,Log-Likelihood:,-226.15
No. Observations:,36,AIC:,458.3
Df Residuals:,33,BIC:,463.0
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,-86.2107,98.682,-0.874,0.389,-286.980,114.559
temperature,47.6485,4.762,10.007,0.000,37.961,57.336
rainy,178.0815,75.852,2.348,0.025,23.759,332.404

0,1,2,3
Omnibus:,3.161,Durbin-Watson:,1.821
Prob(Omnibus):,0.206,Jarque-Bera (JB):,1.483
Skew:,0.031,Prob(JB):,0.476
Kurtosis:,2.008,Cond. No.,94.6


In [15]:
# 予測してみる
result.predict(sm.add_constant(df_future[X_name])) #予測するデータを読み込む
# sm.add_constant -> 切片込みにする

# 5個分のデータのため予測も5個
# 0 692.242462 -> temperature=12.6,price=180,rainy=1の場合の予測

# シンプルでわかりやすい

  x = pd.concat(x[::order], 1)


0    692.242462
1    804.817001
2    399.804427
3    811.363808
4    890.584370
dtype: float64