In [1]:
# R環境内の存在オブジェクトを全て削除
rm(list = ls())

# CSVファイルのデータをURLから読み込み
url <- "https://raw.githubusercontent.com/JeC2017/public_data/main/childcare.csv"
childcare <- read.csv(url, header=TRUE)

# データ構造の確認
str(childcare)

'data.frame':	705 obs. of  11 variables:
 $ pref        : chr  "北海道" "青森県" "岩手県" "宮城県" ...
 $ year        : int  1990 1990 1990 1990 1990 1990 1990 1990 1990 1990 ...
 $ emp.rate    : num  0.27 0.451 0.527 0.421 0.547 ...
 $ cap.rate    : num  0.188 0.363 0.262 0.133 0.268 ...
 $ age         : num  31.6 31.4 31.5 31.5 31.5 ...
 $ age.hus     : num  34.2 34.2 34.3 34.2 34.2 ...
 $ emp.rate.hus: num  0.99 0.982 0.99 0.99 0.992 ...
 $ urate       : num  0.0362 0.0449 0.0263 0.0273 0.0272 ...
 $ nuc.rate    : num  0.824 0.565 0.497 0.579 0.414 ...
 $ numhh       : int  250086 68647 63126 107307 51772 57159 101753 134651 92983 89503 ...
 $ hh.type     : chr  "all" "all" "all" "all" ...


In [2]:
# tidyverseライブラリの読み込み
library(tidyverse)

# 2010年、世帯の種類 hh.type = "all" のデータの抽出
childcare_hh_all_2010 <- childcare %>%
  subset(subset = (year == 2010) & (hh.type == "all"))

# cap.rateの抽出
cap_rate_2010 <- childcare_hh_all_2010$cap.rate

# 標本平均値の計算
cap_rate_mean_2010 <- mean(cap_rate_2010)
# 結果: 0.406

# 標本標準偏差の計算
cap_rate_sd_2010 <- sd(cap_rate_2010)
# 結果: 0.118

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mggplot2  [39m 3.5.1     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.4     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.0.2     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


In [4]:
# 方法一: 検定統計量を自分で計算
# H_0: μ = 0.38
z_test <- abs( (cap_rate_mean_2010 - 0.38) / (cap_rate_sd_2010/sqrt(47) ) )
z_test

In [6]:
# 方法二: t.test関数を使用した検定
# H_0: μ = 0.38
t.test(cap_rate_2010, mu = 0.38, alternative = "two.sided")

# p値の出力と検定結果の判断
# p値 < 0.05 の場合、H_0を棄却する。


	One Sample t-test

data:  cap_rate_2010
t = 1.5487, df = 46, p-value = 0.1283
alternative hypothesis: true mean is not equal to 0.38
95 percent confidence interval:
 0.3719595 0.4416861
sample estimates:
mean of x 
0.4068228 


# **演習問題 - 広告効果の推定に関する研究**

広告では、基本的な転換率は小さい（通常は1%以下で、しばしば0.1%に近い）。サンプルが100万人を超える場合でも、広告の処置効果 (treatment effect) の検出は困難です。観測可能変数は露出 (exposure) と強く相関していますが、転換 (コンバージョン conversion) との相関は弱いです。最も重要なのは、観測可能変数、露出、および転換と相関する観測不可能な変数が存在することです。

このデータは、《*Marketing Science*》から提供されたFacebook企業が実施したRCT（無作為化比較試験）のシミュレーションデータを用いて、広告効果を推定するもので、サンプル数は200万人（ユーザー）です。以下は、テスト群とコントロール群に均等に分かれた200万人のユーザーで広告研究に関するデ一タをシミュレートします。

**引用元**

Gordon, B. R., Zettelmeyer, F., Bhargava, N., and Chapsky, D. (2019), "A Comparison of Approaches to Advertising Measurement: Evidence from Big Field Experiments at Facebook," ***Marketing Science***.

**データ**

当シミュレーションデータにおける典型的な広告キャンペーンまたは研究はユーザーレベルで定義され、各行がランダムに処置群または対照群に割り当てられたユーザーです。

**変数**

* `UserID`: ユニークなユーザーID（シミュレーションデータでは不要）
* `is_test`: ユーザーが処置群の場合は1、対照群の場合は0（ランダム）
* `exposed`: ユーザーが広告に露出した場合は1、露出していない場合は0（内生的）
* `converted`: ユーザーが転換した場合は1、しなかった場合は0（結果）
* `x1, x2, ...`: 観測可能変数、時間やキャンペーンによって索引が付けられることがあります
* `z`: 観測不可能変数、通常のデータセットには含まれていませんが、論文著者はこれをシミュレートします


**演習**

FB_data_2M.csv といったCSVデータファイル ( https://dl.dropboxusercontent.com/scl/fi/gb8vwostwrf0uhf6kuymp/FB_data_2M.csv?rlkey=b5qwab2ew2dceou8v2pfp6e6s&dl=1 ) をGoogle Colabに読み込む。

+ 対照群の母集団コンバージョン率が 0 と有意に異なるかどうかを統計的検定してください。
+ 処置群の母集団コンバージョン率が 0 と有意に異なるかどうかを統計的検定してください。