In [20]:
data = read.table("simple_linear.txt", sep=",", header=T)

In [21]:
(result = lm(Y~X, data=data))


Call:
lm(formula = Y ~ X, data = data)

Coefficients:
(Intercept)            X  
     -119.7         21.9  


In [22]:
sqrt(var(result$res))

In [40]:
MNLmodel <- function(x,PRICE,DISP) { 
    b1 <- x[1]
    b2 <- x[2]
    b01<- x[3]
    b02<- x[4]
    b03<- x[5]

    # 効用の計算
    U1<-b1*PRICE[,1]+b2*DISP[,1]+b01
    U2<-b1*PRICE[,2]+b2*DISP[,2]+b02
    U3<-b1*PRICE[,3]+b2*DISP[,3]+b03
    U4<-b1*PRICE[,4]+b2*DISP[,4]

    d<-exp(U1)+exp(U2)+exp(U3)+exp(U4)

    # 選択確率の計算
    P1<-exp(U1)/d
    P2<-exp(U2)/d
    P3<-exp(U3)/d
    P4<-exp(U4)/d
    Pr<-cbind(P1,P2,P3,P4)
    return(Pr)
}


#### sample_data.r #####
# MNLmodelの読み出し
source("MNLmodel.r") 

# 乱数のseedを設定
set.seed(555)

#パラメータの設定
beta1<- -5
beta2<- 2
beta01<- 2
beta02<- 1
beta03<- 0
betas<-c(beta1,beta2,beta01,beta02,beta03)

hh<-100 #家計数
pt<-20 #購買回数

hhpt<-hh*pt


ID<-matrix(0,hhpt,2) #個人ID
BUY<-matrix(0,hhpt,4) #購買ダミー行列
PRICE<-matrix(0,hhpt,4) #価格
DISP<-matrix(0,hhpt,4) #エンド陳列の有無

for(i in 1:hh){  #i 家計
    for(j in 1:pt){  #j 購買機会
       r<-(i-1)*pt+j 
       ID[r,1]<-i
       ID[r,2]<-j
		
       # ブランド1の販売価格，特別陳列の有無の発生
       rn<-runif(2)
       # 確率0.8で価格は1, 確率0.15で価格は0.9, 確率0.05で価格は0.8
       if (rn[1]<0.8) SP<-1 else
           {if (rn[1]<0.95) SP<-0.9 else SP<-0.8}
       PRICE[r,1]<-SP
       # 確率0.2で特別陳列あり
       DISP[r,1]<-(rn[2]>0.8)

       # ブランド2の販売価格，特別陳列の有無の発生
       rn<-runif(2)
       # 確率0.5で価格は1, 確率0.3で価格は0.8, 確率0.2で価格は0.6
       if (rn[1]<0.5) SP<-1 else
           {if (rn[1]<0.8) SP<-0.8 else SP<-0.6}
       PRICE[r,2]<-SP
       # 確率0.1で特別陳列あり
       DISP[r,2]<-(rn[2]>0.9)

       # ブランド3の販売価格，特別陳列の有無の発生
       rn<-runif(2)
       # 確率0.7で価格は1, 確率0.1で価格は0.8, 確率0.2で価格は0.6
       if (rn[1]<0.7) SP<-1 else
           {if (rn[1]<0.8) SP<-0.8 else SP<-0.6}
       PRICE[r,3]<-SP
       # 確率0.4で特別陳列あり
       DISP[r,3]<-(rn[2]>0.6)

       # ブランド4の販売価格，特別陳列の有無の発生
       rn<-runif(2)
       # 確率0.5で価格は1, 確率0.3で価格は0.8, 確率0.2で価格は0.6
       if (rn[1]<0.5) SP<-1 else
           {if (rn[1]<0.8) SP<-0.8 else SP<-0.6}
       PRICE[r,4]<-SP
       # 確率0.4で特別陳列あり
       DISP[r,4]<-(rn[2]>0.6)
   }
}

#選択確率の計算
PPr<- MNLmodel(betas,PRICE,DISP)

#購買ブランドを決定
for(i in 1:hhpt){
   CSPPr<-cumsum(PPr[i,])  #累積確率を計算
   rn2<-runif(1)           #0~1の一様分布を発生
   PPM<-which.max(CSPPr>=rn2) #乱数より大きな累積確率の値を持つ対象を選択
   BUY[i,PPM]<- 1 
}

logitdata<-list(betas=betas,hh=hh,pt=pt,ID=ID, PRICE=PRICE,DISP=DISP,BUY=BUY)

In [104]:
tmp = data.frame(ID=ID[,1], Buy=BUY, Price=PRICE, Disp = DISP)

In [83]:
write.csv(tmp, "multi-nomial.csv", row.names=F)

In [42]:
library(MNP)

Loading required package: MASS
MNP: R Package for Fitting the Multinomial Probit Model
Version: 3.1-0
Authors: Kosuke Imai [aut, cre],
  David van Dyk [aut],
  Hubert Jin [ctb]



In [105]:
choice_set = c("A", "B", "C", "D")
tmp$choice <- apply(tmp[,2:5], 1, function(x){
    return(choice_set[which(x == 1)])
})

In [106]:
result <- mnp(choice ~ 1, 
              choiceX=list(A=cbind(Price.1, Disp.1),
                           B=cbind(Price.2, Disp.2),
                           C=cbind(Price.3, Disp.3),
                           D=cbind(Price.4, Disp.4)),
              cXnames=c("price", "disp"),
              data=tmp,
              n.draws = 10000,
              burnin = 5000,
              latent = T
             )

In [70]:
result


Call:
mnp(formula = choice ~ 1, data = tmp, choiceX = list(A = cbind(Price.1,     Disp.1), B = cbind(Price.2, Disp.2), C = cbind(Price.3, Disp.3),     D = cbind(Price.4, Disp.4)), cXnames = c("price", "disp"),     latent = T, n.draws = 10000, burnin = 5000)

Parameter estimates (posterior means):
(Intercept):B  (Intercept):C  (Intercept):D          price           disp  
      -0.5191        -1.0567        -1.1430        -2.5970         1.0651  
          B:B            B:C            B:D            C:C            C:D  
       0.9445         0.3507         0.3074         0.9509         0.3778  
          D:D  
       1.1045  


In [130]:
hoge = result$w
write.csv(t(hoge[,,5000]), "tmp.csv", row.names=F)

In [103]:
data = read.table("ch5data.txt", sep="\t", header=T)
choice_set = c("A", "B", "C", "D")
data$choice <- apply(data[,4:7], 1, function(x){
    return(choice_set[which(x == 1)])
})
result <- mnp(choice ~ 1, 
              choiceX=list(A=cbind(PRICEPRIVATE, DISPLPRIVATE, FEATPRIVATE, FEATDISPLPRIVATE),
                           B=cbind(PRICESUNSHINE, DISPLSUNSHINE, FEATSUNSHINE, FEATDISPLSUNSHIN),
                           C=cbind(PRICEKEEBLER, DISPLKEEBLER, FEATKEEBLER, FEATDISPLKEEBLER),
                           D=cbind(PRICENABISCO, DISPLNABISCO, FEATNABISCO, FEATDISPLNABISCO)),
              cXnames=c("price", "DISPL", "feat", "featDISPL"),
              data=data,
              n.draws = 10000,
              burnin = 5000
             )

In [104]:
summary(result)


Call:
mnp(formula = choice ~ 1, data = data, choiceX = list(A = cbind(PRICEPRIVATE, 
    DISPLPRIVATE, FEATPRIVATE, FEATDISPLPRIVATE), B = cbind(PRICESUNSHINE, 
    DISPLSUNSHINE, FEATSUNSHINE, FEATDISPLSUNSHIN), C = cbind(PRICEKEEBLER, 
    DISPLKEEBLER, FEATKEEBLER, FEATDISPLKEEBLER), D = cbind(PRICENABISCO, 
    DISPLNABISCO, FEATNABISCO, FEATDISPLNABISCO)), cXnames = c("price", 
    "DISPL", "feat", "featDISPL"), n.draws = 10000, burnin = 5000)


Coefficients:
                  mean std.dev.     2.5%  97.5%
(Intercept):B -0.02005  0.09135 -0.20253  0.146
(Intercept):C  0.13531  0.12445 -0.14239  0.338
(Intercept):D  0.92316  0.06333  0.78895  1.040
price         -1.41983  0.13703 -1.68989 -1.158
DISPL          0.02590  0.03016 -0.03306  0.085
feat           0.17090  0.07060  0.03436  0.313
featDISPL      0.24262  0.06116  0.13212  0.368

Covariances:
       mean std.dev.    2.5% 97.5%
B:B 1.02005  0.10392 0.83283 1.215
B:C 0.82912  0.11578 0.63191 1.066
B:D 0.73204  0.10127 0.5420

## bayesm
- yの作り方に注意
    - baseが基本pで設定されているのでcreateXするときにbaseを1とかにするとyをずらしてあげる必要がある(tmp$choiceのところ)

In [100]:
library(bayesm)
tmp = data.frame(ID=ID[,1], Buy=BUY, Price=PRICE, Disp = DISP)
tmp$choice <- apply(tmp[,2:5], 1, function(x){
    if (which(x == 1) == 1){
        alt = 4
    }
    else{
        alt = which(x == 1) - 1
    }
    return (alt)
})
x = createX(p=4, na=2, nd=NULL, Xa=tmp[,6:13], Xd=NULL, DIFF=T, base=1, INT=T)
Data1 = list(y=tmp$choice, X=x, p=4)
Mcmc1 = list(R=10000, keep=1)
out = rmnpGibbs(Data=Data1, Mcmc=Mcmc1)
betatilde = out$betadraw / sqrt(out$sigmadraw[,1])
attributes(betatilde)$class = "bayesm.mat"

sigmadraw = out$sigmadraw / out$sigmadraw[,1]
attributes(sigmadraw)$class = "bayesm.var"

Table of y values
y
  1   2   3   4 
525 352 395 728 
 
Starting Gibbs Sampler for MNP
   2000  obs;  4  choice alternatives;  5  indep vars (including intercepts)
 
Table of y values
y
  1   2   3   4 
525 352 395 728 
Prior Parms:
betabar
[1] 0 0 0 0 0
A
     [,1] [,2] [,3] [,4] [,5]
[1,] 0.01 0.00 0.00 0.00 0.00
[2,] 0.00 0.01 0.00 0.00 0.00
[3,] 0.00 0.00 0.01 0.00 0.00
[4,] 0.00 0.00 0.00 0.01 0.00
[5,] 0.00 0.00 0.00 0.00 0.01
nu
[1] 6
V
     [,1] [,2] [,3]
[1,]    6    0    0
[2,]    0    6    0
[3,]    0    0    6
 
MCMC Parms:
   10000  reps; keeping every  1 th draw  nprint=  100
initial beta=  0 0 0 0 0
initial sigma=  1 0 0 0 1 0 0 0 1
 
 MCMC Iteration (est time to end - min) 
 100 (0.0)
 200 (0.0)
 300 (0.5)
 400 (0.4)
 500 (0.3)
 600 (0.3)
 700 (0.2)
 800 (0.2)
 900 (0.3)
 1000 (0.3)
 1100 (0.3)
 1200 (0.2)
 1300 (0.2)
 1400 (0.2)
 1500 (0.3)
 1600 (0.3)
 1700 (0.2)
 1800 (0.2)
 1900 (0.2)
 2000 (0.2)
 2100 (0.3)
 2200 (0.2)
 2300 (0.2)
 2400 (0.2)
 2500 (0.2)
 2600 (0.2

In [101]:
apply(betatilde[5001:10000,], 2, mean)

In [102]:
apply(sigmadraw[5001:10000,], 2, mean)

## 階層ベイズ

In [31]:
library(bayesm)
set.seed(555)

nvar<- 3    ## ロジットモデルの説明変数の数
hh<- 200    ## 個人数
nobs<- 10   ## 個人あたりの選択回数
nz<- 2      ## 個人属性の説明変数の数


Z<- matrix(c(rep(1,hh),runif(hh,min=-1,max=1)),hh,nz)
Delta<- matrix(c(-2,-1,2,1,0,1),nz,nvar)
iota<- matrix(1,nvar,1)
Vbeta<- diag(nvar)+.5*iota%*%t(iota)

## シミュレーションデータの発生
hhdata=NULL
y_out <- NULL
x_out <- NULL
index <- NULL
for (i in 1:hh) { 
  beta<- t(Delta)%*%Z[i,]+as.vector(t(chol(Vbeta))%*%rnorm(nvar))
  X<- matrix(runif(nobs*nvar),nobs,nvar)
  prob<- exp(X%*%beta)/(1+exp(X%*%beta)) 
  unif<- runif(nobs,0,1)
  y<- ifelse(unif<prob,1,0)
  y_out <- append(y_out, y)
  x_out <- rbind(x_out, X)
  index <- append(index, rep(i-1, 10))
  hhdata[[i]]<- list(y=y,X=X,beta=beta)
}



In [32]:
tmp <- data.frame(index=index, y=y_out, x=x_out)
write.csv(tmp, "hier_logit_all.csv", row.names=F)
write.csv(Z, "hier_logit_person.csv", row.names=F)

In [23]:
## 2項ロジットモデルの対数尤度関数の定義
loglike <- function(y, X, beta) {
    p1 <- exp(X %*% beta)/(1 + exp(X %*% beta))
    ll <- y * log(p1) + (1 - y) * log(1 - p1)
   sum(ll)
}

## ベイズ推定のための設定
R<- 20000
sbeta<- 1.5
keep<- 10

nhh <- length(hhdata)
nz <- ncol(Z)

nvar <- ncol(X)
## 事前分布のパラメータ
nu<- nvar+3
V<- nu * diag(rep(1,nvar))
ADelta <- 0.01 * diag(nz)
Deltabar <- matrix(rep(0, nz * nvar), nz, nvar)


## サンプリング結果の保存スペースの作成
Vbetadraw <- matrix(double(floor(R/keep) * nvar * nvar), floor(R/keep), nvar * nvar)
betadraw <- array(double(floor(R/keep) * nhh * nvar), dim = c(nhh, nvar, floor(R/keep)))
Deltadraw <- matrix(double(floor(R/keep) * nvar * nz), floor(R/keep), nvar * nz)

## 棄却率と対数尤度
reject <- array(0, dim = c(R/keep))
llike <- array(0, dim = c(R/keep))

## 初期値の設定
oldbetas <- matrix(double(nhh * nvar), nhh, nvar)
oldVbeta <- diag(nvar)
oldVbetai <- diag(nvar)
oldDelta <- matrix(double(nvar * nz), nz, nvar)
betad <- array(0, dim = c(nvar))
betan <- array(0, dim = c(nvar))


## 階層ベイズ2項ロジットモデルによる推定
for (iter in 1:R) {
   rej <- 0
   logl <- 0
   sV <- sbeta * oldVbeta
   root <- t(chol(sV))

   ## MH法による個人別betaのサンプリング
   for (i in 1:nhh) {
        betad <- oldbetas[i, ]
        betan <- betad + root %*% rnorm(nvar)
        lognew <- loglike(hhdata[[i]]$y, hhdata[[i]]$X, betan)
        logold <- loglike(hhdata[[i]]$y, hhdata[[i]]$X, betad)
        logknew <- -0.5 * (t(betan) - Z[i, ] %*% oldDelta) %*% oldVbetai %*% (betan - t(Z[i, ] %*% oldDelta))
        logkold <- -0.5 * (t(betad) - Z[i, ] %*% oldDelta) %*% oldVbetai %*% (betad - t(Z[i, ] %*% oldDelta))
        alpha <- exp(lognew + logknew - logold - logkold)
        if (alpha == "NaN") 
              alpha = -1
        u <- runif(1)
        if (u < alpha) {
             oldbetas[i, ] <- betan
             logl <- logl + lognew
        }
        else {
             logl <- logl + logold
             rej <- rej + 1
        }
    }
    
　　## 多変量回帰によるDeltaのギブスサンプリング(bayesmのrmultiregを利用)
　　out <- rmultireg(oldbetas, Z, Deltabar, ADelta, nu, V)
    oldDelta <- out$B
    oldVbeta <- out$Sigma
    oldVbetai <- solve(oldVbeta)

    ## 現在までのサンプリング数の表示
    if ((iter%%100) == 0) {
         cat("繰り返し数", iter, fill = TRUE)
    }
    ## keep回毎にサンプリング結果を保存
    mkeep <- iter/keep
    if (iter%%keep == 0){
       Deltadraw[mkeep, ] <- as.vector(oldDelta)
       Vbetadraw[mkeep, ] <- as.vector(oldVbeta)
       betadraw[, , mkeep] <- oldbetas
       llike[mkeep] <- logl
       reject[mkeep] <- rej/nhh
    }
}

繰り返し数 100
繰り返し数 200
繰り返し数 300
繰り返し数 400
繰り返し数 500
繰り返し数 600
繰り返し数 700
繰り返し数 800
繰り返し数 900
繰り返し数 1000
繰り返し数 1100
繰り返し数 1200
繰り返し数 1300
繰り返し数 1400
繰り返し数 1500
繰り返し数 1600
繰り返し数 1700
繰り返し数 1800
繰り返し数 1900
繰り返し数 2000
繰り返し数 2100
繰り返し数 2200
繰り返し数 2300
繰り返し数 2400
繰り返し数 2500
繰り返し数 2600
繰り返し数 2700
繰り返し数 2800
繰り返し数 2900
繰り返し数 3000
繰り返し数 3100
繰り返し数 3200
繰り返し数 3300
繰り返し数 3400
繰り返し数 3500
繰り返し数 3600
繰り返し数 3700
繰り返し数 3800
繰り返し数 3900
繰り返し数 4000
繰り返し数 4100
繰り返し数 4200
繰り返し数 4300
繰り返し数 4400
繰り返し数 4500
繰り返し数 4600
繰り返し数 4700
繰り返し数 4800
繰り返し数 4900
繰り返し数 5000
繰り返し数 5100
繰り返し数 5200
繰り返し数 5300
繰り返し数 5400
繰り返し数 5500
繰り返し数 5600
繰り返し数 5700
繰り返し数 5800
繰り返し数 5900
繰り返し数 6000
繰り返し数 6100
繰り返し数 6200
繰り返し数 6300
繰り返し数 6400
繰り返し数 6500
繰り返し数 6600
繰り返し数 6700
繰り返し数 6800
繰り返し数 6900
繰り返し数 7000
繰り返し数 7100
繰り返し数 7200
繰り返し数 7300
繰り返し数 7400
繰り返し数 7500
繰り返し数 7600
繰り返し数 7700
繰り返し数 7800
繰り返し数 7900
繰り返し数 8000
繰り返し数 8100
繰り返し数 8200
繰り返し数 8300
繰り返し数 8400
繰り返し数 8500
繰り返し数 8600
繰り返し数 8700
繰り返し数 8800
繰り返し数 8900
繰り返し数 9000
繰り返し数 9100
繰り返し数 92

In [133]:
Vbeta
Delta

0,1,2
1.5,0.5,0.5
0.5,1.5,0.5
0.5,0.5,1.5


0,1,2
-2,2,0
-1,1,1


In [25]:
R0<-floor(10000/10)+1
R1=R/10

## Deltaの統計値
Deltas<-as.vector(Delta)
apply(Deltadraw[R0:R1,],2,mean)
rbind(Deltas,apply(Deltadraw[R0:R1,],2,quantile,probs=c(0.025,0.5,0.975)))

0,1,2,3,4,5,6
Deltas,-2.0,-1.0,2.0,1.0,0.0,1.0
2.5%,-2.817155,-1.7135419,2.205411,0.3779683,-0.72768644,0.7685007
50%,-2.319617,-1.018991,2.539532,1.0223635,-0.30213898,1.376762
97.5%,-1.859696,-0.2860094,2.960304,1.6666725,0.05762941,2.0024476


In [132]:
apply(Vbetadraw[R0:R1,],2,mean)

In [136]:
png("/Users/kosuke/Downloads/tmp.png")
plot(Deltadraw[,1])
dev.off()