# この章で学ぶこと
## 説明変数を組み込んだ統計モデル
個体ごとに異なる説明変数によって平均種子数λが変化する統計モデルを考えます。  
このような統計モデル観測データに当てはめることをポアソン回帰（Poisson regression）といい、似たような構造の統計モデルを総称して一般化線形モデル（generalized linear model, GLM）と言います。

# 3.1 個体ごとに平均種子数が異なる例題
ここでは、前章の例と似ている例を扱います。  
大きく異なるのは、個体ごとに肥料を加える処理（施肥処理の有無{T, C}）のラベルがついていることです。

# 3.2 データの外観を調べる

In [2]:
# 必要なライブラリなど読み込み
require 'daru'
require 'rbplotly'
require 'daru/plotly'

include Daru::Plotly::Methods

Object

In [3]:
# データを読み込んで頭の5件を表示
df = Daru::DataFrame.from_csv("data/data3a.csv")
df.head(5)

Unnamed: 0,y,x,f
0,6,8.31,C
1,6,9.44,C
2,6,9.5,C
3,12,9.07,C
4,10,10.16,C


In [13]:
# y（種子数）だけ頭5件表示
df.y.head(5)

Unnamed: 0,y
0,6
1,6
2,6
3,12
4,10


In [14]:
# x（個体サイズ）だけ頭5件表示
df.x.head(5)

Unnamed: 0,x
0,8.31
1,9.44
2,9.5
3,9.07
4,10.16


In [5]:
# f（施肥処理の有無）だけ頭5件表示
#    C: 施肥処理なし
#    T: 施肥処理あり
df.f.head(5)

Unnamed: 0,f
0,C
1,C
2,C
3,C
4,C


In [6]:
# fの値の要素を数えてみる
#   => "C" と "T" が50個ずつであることが分かる
df.f.value_counts

0,1
C,50
T,50


In [19]:
# データフレーム（Daruオブジェクト）の外観をみてみる
df.describe

Unnamed: 0,y,x
count,100.0,100.0
mean,7.83,10.089099999999997
std,2.624880949681338,1.008048514745599
min,2.0,7.19
max,15.0,12.4


## 3.3 図示をする
統計モデリングに取り組むさい、データを色々な図にして眺めるのは非常に重要です。  
Rubyでどのような図示ができるかみていきましょう。

In [7]:
# 散布図を描画する
#Daru::Plotly::Methods.plot(, x: :x, y: :y, type: :scatter).show
traceT = { 
  name: 'T',
  x: df.filter(:row) {|row| row["f"] == "T"}.x.to_a,
  y: df.filter(:row) {|row| row["f"] == "T"}.y.to_a,
  mode: :markers, marker: {color: 'rgba(0, 0, 200, .5)'}
}
traceC = {
  name: 'C',  
  x: df.filter(:row) {|row| row["f"] == "C"}.x.to_a,
  y: df.filter(:row) {|row| row["f"] == "C"}.y.to_a,
  mode: :markers, marker: {color: 'rgba(200, 0, 0, .5)'}
}

Plotly::Plot.new(data: [traceT, traceC]).show

#<CZTop::Socket::PUB:0x7f8223580f30 last_endpoint="tcp://127.0.0.1:64263">

In [8]:
# 箱ひげ図
traceT = { 
  name: 'T', 
  y: df.filter(:row) {|row| row["f"] == "T"}.y.to_a,
  type: :box
}
traceC = {
  name: 'C', 
  y: df.filter(:row) {|row| row["f"] == "C"}.y.to_a,
  type: :box
}

Plotly::Plot.new(data: [traceT, traceC]).show

#<CZTop::Socket::PUB:0x7f8223580f30 last_endpoint="tcp://127.0.0.1:64263">

## 3.4 ポアソン回帰の統計モデル
ここでは、平均種子数 ${\lambda_i}$ が個体サイズxや施肥処理fに影響されるモデルを設計していきます。  
説明変数は ${x_i}$ で、応答変数は種子数 ${y_i}$ です。  
施肥効果 ${f_i}$ は上記の図をみる限りあまり影響がなさそうなので、いっったん無視します。  
ある個体 ${i}$ で種子数が ${y_i}$ である確率 ${p(y_i|\lambda_i)}$ はポアソン分布にしてがっているものとします。  

$$ p(y|\lambda)=\frac{\lambda^y exp(-\lambda)}{y!}$$