# 単回帰分析
1世帯当たり　年間収入 と 1か月支出

#### データ収集の仕方
家計調査結果，総務省統計局　http://www.stat.go.jp/data/kakei/index.htm    
->“調査の結果”  
->“結果の概要（家計収支編）”  
->過去の結果”の“家計調査年報（家計収支編）”  
->“家計調査年報（総世帯・二人以上の世帯・単身世帯）”の“平成28年（2016年）　年報”  
->“平成28年（2016年）　家計の概要” の“二人以上の世帯”  
->“年間収入五分位・十分位階級別”，ECXELをダウンロード“fn03.xls”  
このExcelファイル, 年間収入十分位階級から，  
年間収入(万円) -> "income"  
消費支出 -> "expenditure" 
エンゲル係数（％） -> "engel"
と表現して，データを作成。

#### 単回帰分析の解放とAPI
statsmodelsが持ちる回帰モデルと仮定する条件　http://www.statsmodels.org/stable/regression.html  
計算はOLSを使用　Ordinary Least Squares　http://www.statsmodels.org/stable/examples/notebooks/generated/ols.html  
OLSのパラメータの与え方が不便と思うならばR風の与え方を可能とする方法　http://www.statsmodels.org/dev/example_formulas.html

In [None]:
# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

import statsmodels.formula.api as smf

FLAG_fig = False

In [None]:
url = 'https://sites.google.com/site/datasciencehiro/datasets/FamilyIncome.csv'
df = pd.read_csv(url, comment='#')
df_save = df.copy() # deep copy
print(df)
print(df.shape)
df.corr()

ols(ordinary least squares、最小2乗)法を用いて単回帰モデルを求める。<br>
https://en.wikipedia.org/wiki/Ordinary_least_squares
データ数 < 20 の場合には、尖度（kurtosis）の評価（olsではkurtosistestと表記）が有効にできないというwarningメッセージが現れるが、ここではこの評価は使わないので無視する。<br>
scipy.stats.kurtosistest https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.kurtosistest.html <br>
Kurtosis: https://en.wikipedia.org/wiki/Kurtosis

In [None]:
result = smf.ols('expenditure ~ income', data=df).fit()
print(result.summary())

$P > |t|$は，係数がゼロである確率，これが非常に小さいならば，ゼロでないといえる。

In [None]:
result.params

In [None]:
b0, b1 = result.params
plt.plot(df['income'],df['expenditure'], 'o')
plt.plot(df['income'], b0+b1*df['income'], c='k')

plt.xlabel('income [x 10000YEN]')
plt.ylabel('expenditure')

plt.tight_layout()
if FLAG_fig: plt.savefig('REG_Simple_FamilyIncome1.png')
plt.show()

#### 予測

In [None]:
NewData = {'income':[1100,1200]}
df = pd.DataFrame(NewData)
pred = result.predict(df)
pred

次は同じことを計算している

In [None]:
pred = b0 + b1*1100
pred

上のグラフを見ると，最低収入と最高収入のデータが最も外れているように見えるので，この2点をはずした回帰分析を再度行う。

In [None]:
df1=df_save.copy()

In [None]:
df1.drop(9, inplace=True)
df1.drop(0, inplace=True)

In [None]:
result = smf.ols('expenditure ~ income', data=df1).fit()
result.summary()

In [None]:
a, b = result.params
plt.plot(df1['income'],df1['expenditure'], 'o', c='k')
plt.plot(df1['income'], a+b*df1['income'])

plt.xlabel('income [x 10000YEN]')
plt.ylabel('expenditure')
plt.show()

In [None]:
result = smf.ols('engel ~ income', data=df1).fit()
result.summary()

In [None]:
a, b = result.params
plt.plot(df1['income'],df1['engel'], 'o')
plt.plot(df1['income'], a+b*df1['income'], c='k')

plt.xlabel('income [x 10000YEN]')
plt.ylabel('engel coeff [%]')

plt.tight_layout()
if FLAG_fig: plt.savefig('REG_Simple_FamilyIncome2.png')
plt.show()