# データに基づく分析・処理 （統計仮説検定）

## 検定とは（推測統計）

この章では、「統計的な仮説検定（けんてい）」について学んでいきます。
難しく聞こえるかもしれませんが、これは簡単に言うと「データの違いに意味があるかどうかを判断する方法」です。

たとえば、A店とB店の売上データを集計してみたところ、A店の方が少し売上が高いように見えたとします。
このとき、こんな疑問が出てきます。
「たまたまそうなっただけかもしれないし、本当にA店の方が売れてるのかどうか、わからないな…？」
この「偶然の差なのか、本当の差なのか」を判断するために使うのが「検定」です。

実際に分析する時、私たちは**すべてのデータ（＝母集団）**を持っているわけではありません。  
多くの場合、**一部のデータ（＝標本）**だけを使って分析します。  
例：全国に100店舗あるけど、今回は10店舗のデータだけ使って分析している場合など  
このように一部のデータ（標本）を使って、全体（母集団）の特徴を推測する方法のことを「推測統計」と呼びます。  
推測統計には2つの方法があります

方法 | 何をする？  
検定 | データの違いが「偶然」か「本当」かを判断する  
推定 | 平均値や割合などを全体（母集団）に当てはめて考える  

「検定」はその中のひとつで、標本のデータから、母集団にも違いがありそうかを判断する方法です。

それでは次に、「検定」がどのように使われるのか、もう少し詳しく見ていきましょう。検定は推測統計の一分野であり、標本集団から母集団の性質を推測するものです。集計や可視化を行うことは記述統計と呼ばれます。
また、推測統計には検定の他にも推定という手法があります。推定は標本集団の結果から母集団の平均値や分散を推測する手法です。

- 記述統計 → 今あるデータをまとめて整理する（グラフ化や平均値など）  
- 推測統計 → 一部のデータから、全体の特徴を「検定」や「推定」で推測する  

それでは検定の詳細について学習していきましょう。



## t-検定
検定には目的やデータの性質に応じていくつかの種類があり使い分けます。本章では、代表的な分析手法としてt検定（平均の差の検定）とχ二乗検定を扱います。

まずはt検定について学びます。t検定は、2つの標本の平均の差を検定するための手法です。

今回は、キャンペーン前と後でのデータを使用して、キャンペーンによる効果の有無を検証します。

【補足】  
t 検定には主に 3 つのタイプがあります。使い分けは、データの性質や測定の方法によります。

- 対応のある t 検定（ペア t 検定）
    - 概要: 同じ対象に対して2つの異なる時間点で測定されたデータを比較する。
    - 例: キャンペーンの前と後で同じ店舗の売上を比較する。
    - 適用条件: 2つのデータが対応している（ペアになっている）場合。

- 対応のない t 検定（独立2標本 t 検定）
    - 概要: 別々のグループから取得したデータを比較する。
    - 例: キャンペーンを実施した店舗と実施していない店舗の売上を比較する。
    - 適用条件: 2つのデータが独立している（対応していない）場合。
    
- 1 標本 t 検定
    - 概要: あるグループの平均が既知の値と等しいかどうかを調べる。
    - 例: キャンペーン後の売上が、業界標準の売上と比較して増加したかどうかを検証する。
    - 適用条件: データを1つの標本（グループ）から取得し、その平均が特定の値と異なるかどうかを確認する場合。


### 【実装】t検定


t検定を実装し、以下の問題について調査します。今回は、銀行のマーケティングキャンペーンのデータではなくデモデータを用いて解説します。最後の演習時にマーケティングデータを使用してt検定を実装してみましょう。

まずは**Excelのワークシート_4_**を開き、コンビニの施策データを使用してt検定の手順を学びます。



【問題設定 1】  
渋谷を担当するコンビニチェーンのエリアマネージャーは、クーポンシールの導入を検討しています。販促効果を確認するため、渋谷エリアにある店舗の中から無作為に10店舗を選び、クーポンシールによる販促前と販促後の売上データを取得しました。        


①仮説をたてる

   - 帰無仮説（H_0）: 2群間の平均値に差がない（本施策に効果があるとは言えない）
   - 対立仮説（H_1）: 2群間の平均値に差がある（本施策に効果がある）

②有意水準を決める

   - 今回は有意水準を5%とします。

③ p 値を計算する

t-検定: 一対の標本による平均の検定 を使用して p 値を計算します。

1. Excelのツールバーを選択し、【データ】→【データ分析】を開いて、t-検定の手順を進めます。

    ![analytics](img/04/Excelanaly.png)
    ![analytics2](img/04/exelanaly2.png)

2. 【1 対の標本による平均の検定】を選択します
3. 検定を行う列を選択します。

    ![t01](img/04/t-01.png)

画像のように販促前列と販促後の列をそれぞれ選択し、ラベルを含むにチェックを入れて下さい。
出力先は同じExcelシート上の空きスペースを選択してください。設定ができたら、【OK】を選択し分析を実行しましょう。

すると下記のような結果が出力されます。  


   ![t02](img/04/t-02.png)

**P(T<=t)両側**に注目しましょう。0.000551038 と優位水準を下回るため、**販促前と後では有意差があると結論づけることができます。**

【結果の説明】

- 平均：各データの平均値  
- 分散：各データの不偏分散  
- 観測数：各データのサンプルサイズ  
- ピアソン相関：2つのデータのピアソン積率相関係数  
- 仮説平均との差異：仮説平均との差異に設定した値  
- 自由度：サンプルサイズ-1  
- t：データから算出されたt値  
- P(T<=t)片側：片側検定の場合のP値  
- t境界値 片側：片側検定の場合の棄却限界値（この値をt値が超えると有意）  
- P(T<=t)両側：両側検定の場合のP値  
- t境界値 両側：両側検定の場合の棄却限界値（この値をt値が超えると有意） 

## χ二乗検定


次は、χ二乗検定について取り扱います。カイ二乗検定は独立性の検定とも呼ばれ、AとBには関連があるかないかを調べるために使用します。具体的な使用シーンとしては、「アンケート結果について、ある質問Aとある質問Bの結果に関連があるかどうかを調べる」などがあります。

t検定と混同しやすいですが、t検定は数値（確率）に関する検定であり、カイ二乗検定はカテゴリ分けの検定であるというイメージを持つと良いです。

（カイ二乗検定はノンパラメトリックな分析手法の1つであり、分析対象とするデータが正規分布に従っている必要はありません。）

カイ二乗検定は以下の手順で行います。

1. **仮説を設定する**
   
2. **期待度数を求める**
   
3. **実測度数と期待度数から、カイ二乗値を算出する**
   
4. **χ二乗値からP値を算出する**

#### 【補足】計算方法
またχ二乗検定の計算方法は下記の通りです。

χ二乗検定はχ二乗値と自由度を用いて、[二乗分布表](https://home.hiroshima-u.ac.jp/ichi/chi-square-distribution.pdf)と見比べて有意な差があるといえるかどうか検定する手法です。

χ二乗値＝((観測度数−期待度数)²/期待度数)の総和  

自由度は、行と列がある二次元の表の場合の以下のようにして計算する。
自由度＝（行の数-1）x（列の数-1）



### 【実装】χ二乗検定
 χ二乗検定は［分析ツール］ではサポートしていませんが、CHISQ.TEST という関数を使って検定を行います。期待度数という考え方を理解し、χ二乗値を計算できるようになりましょう。
  
**期待度数**：行要素の合計や列要素の合計の比率から逆算して期待される度数のこと。期待度数に対し、実験、調査、観察などによって得られたデータに基づく度数を、実測度数、観測度数、観察度数などと言う。  


【問題】
以下の仮説を調べる

- 結婚状況と成約の有無は関連性があるのではないか
- ワークシート_3_ を開いてください。

1. 仮説を立てる

    帰無仮説（H_0）：二つの変数は独立である。

    対立仮説（H_1）：二つの変数は独立ではない（何らかの関連がある。）

2. 有意水準を決める

    今回は有意水準を 5% とします。

3. 期待度数を求める 

    先程の期待度数の求め方にしたがって、以下のように求めていきます。

    ![kai1](img/04/x01.png)  

    Excelを参考に他の値を計算し、埋めましょう。

4. p 値を計算する  

     χ二乗検定の P 値は以下の関数を使用して算出します。  

    **=CHISQ.TEST(実測度数, 期待度数)**  
    
    ![kai1](img/04/x02.png)  
    
    
5.  判定

    結果は`2.76672E-78`と出力され、p 値が有意水準 5% を下回りました。そのため、帰無仮説は棄却され、成約と有無と結婚状況には関連があることがわかりました。

ここまでで仮説検定を実装してきました。最後に行った χ二乗検定は、連続値であっても区切ってしまえば順位尺度として扱えるため、幅広く使用できるため便利です。