## クロス集計表

Rでクロス集計表を作成するのに関数xtabsを使えます．
前回までに扱ったサッカー選手のデータに，試合でのポジション（ゴールキーパーGK，ディフェンダーDF，ミッドフィルダーMF，フォワードFW）の追加されたデータファイルで始めます．


In [None]:
# CSVファイルの読み込み
# 変数名Japanに保存
Japan <- read.csv("SCMEM20211018pos.csv", stringsAsFactors=TRUE)
# はじめの6行を表示，
head(Japan)
# データの構成を表示
# PropertyはMEN, OLYM, WOMの3種で構成されている
# それぞれ男子，五輪，女子メンバーに対応する
summary(Japan)
# 変数名MenにPropertyの値がMENであるデータを代入


Unnamed: 0_level_0,Property,Position,Height,Weight,Age
Unnamed: 0_level_1,<fct>,<fct>,<int>,<int>,<int>
1,MEN,GK,185,82,38
2,MEN,GK,187,84,32
3,MEN,GK,190,84,20
4,MEN,DF,182,73,22
5,MEN,DF,186,77,26
6,MEN,DF,176,69,27


 Property  Position     Height          Weight           Age       
 MEN :25   DF:26    Min.   :154.0   Min.   :44.00   Min.   :19.00  
 OLYM:22   FW:11    1st Qu.:167.0   1st Qu.:60.50   1st Qu.:23.00  
 WOM :23   GK: 9    Median :175.5   Median :69.00   Median :24.00  
           MF:24    Mean   :174.5   Mean   :68.13   Mean   :25.33  
                    3rd Qu.:182.0   3rd Qu.:76.00   3rd Qu.:27.00  
                    Max.   :190.0   Max.   :91.00   Max.   :38.00  

このデータをProperty（男女の代表の別）とPosition（GKなどのポジション）で表に作成します．

In [None]:
xtabs(~Property+Position,Japan)

        Position
Property DF FW GK MF
    MEN   9  3  3 10
    OLYM  9  3  3  7
    WOM   8  5  3  7

サッカーではどのチームでもGKやFWなどだいたい同じ人数ですから，多くの人の予想するところだろう．

このような形の表を一般に分割表と呼びます．分割表において偶然では考えられないような結果が得られることもある．
そうした場合に活用できるのが検定である．
しかし検定が有効になるのはRCTにしたがって得られたデータであることを忘れてはならない．

## 分割表の検定

ここではメンデルの有名なエンドウ豆の実験結果を例に検定の方法を考える．

### メンデルの実験

メンデルは遺伝の仕組みの手がかりを得た重要な実験を，エンドウ豆の交配を通じて行った．
エンドウ豆の育種を通じて，豆の色は黄色か緑色，豆の表面はしわがあるかないか（丸いか）の形質に注目した実験である．

黄色で丸いエンドウ豆同士を交配させたところ，次表の結果を得た．

| 形質 | 度数 |
|:--------:|---:|
| 黄色で丸い | 315 |
| 黄色でしわ | 101|
| 緑で丸い | 108 |
| 緑でしわ | 32 |

このようなデータに対しては，上のように単純な表の他に分割表との見方がある．
次に検定の実行例をあげた．
前者の表による見方を適合度検定といい，後者の表による見方を分割表の検定という．

In [10]:
mendel <- c(315,101,108,32)

# 適合度検定，自由度3
mendel
chisq.test(mendel)

# 9:3:3:1を仮定
# 比率p=を指定する
prob <- c(9,3,3,1)/16
chisq.test(mendel,p=prob)

# 分割表の検定，自由度1
mendel_square <- matrix(mendel,2)
mendel_square
chisq.test(mendel_square)


	Chi-squared test for given probabilities

data:  mendel
X-squared = 322.52, df = 3, p-value < 2.2e-16



	Chi-squared test for given probabilities

data:  mendel
X-squared = 0.47002, df = 3, p-value = 0.9254


0,1
315,108
101,32



	Pearson's Chi-squared test with Yates' continuity correction

data:  mendel_square
X-squared = 0.051332, df = 1, p-value = 0.8208


いずれの表のモデルでも，確率はおおいに高い．
この確率の高さが（メンデルの結果は統計学の発達していない19世紀だったが），20世紀になり，近代統計学の父と呼ばれるフィッシャーに批判される．
仮説の比に近すぎるというのだ．（参照：『背信の科学者たち』，東京化学同人，現在はハヤカワ文庫NFより発行．）

ここで使ったRの関数Cchisq.testはカイ自乗検定と呼ばれる方法であり，分割表の検定によく用いられる．

RCTでなく取得したデータの扱いはどうしたらよいだろうか．
検定はできなくても，そうしたデータが偶然に得られる確率を計算することには価値がある．
そうした場合に使われる統計量の一つがオッズ比である．
興味のある人は，たとえば[奥村晴彦氏のブログにRによる処理の解説](https://okumuralab.org/~okumura/stat/2by2.html)を参考にしてほしい．
