In [6]:
import seaborn as sns
import pandas as pd
import numpy as np
from scipy import stats
from statsmodels.stats.proportion import proportions_ztest
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
%matplotlib inline

In [7]:
df = sns.load_dataset('tips')
df['tips_rate'] = df['tip'] / df['total_bill']
df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tips_rate
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.50,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.139780
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,0.203927
240,27.18,2.00,Female,Yes,Sat,Dinner,2,0.073584
241,22.67,2.00,Male,Yes,Sat,Dinner,2,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,0.098204


## 連関の検定（カイ二乗検定）
・２つのカテゴリー変数間に連関があるかを検定する　　  
・帰無仮説には「連関がない（＝独立）」　　  
・対立仮説には「連関がある（＝独立ではない）」　　  
・帰無仮説（連関がない）を仮定した時に、カテゴリー変数間のχ2値がどれくらいの確率で得られるのかを考える.   
・観測度数が期待度数からどれくらい離れているかを計算した値.   
・（観測度数ー期待度数）**２　/期待度数の総和  


## χ二乗分布
・χ二乗値が従う確率分布  
・自由度=(a-1)(b-1)(a行b列の分割表)　a個があれば、a-1の値を自由に決められる。（最後の一つは自動で決まる）

## χ2分布のp値の求め方
・帰無仮説が正しいとした場合の標本から計算されたχ二乗が得られる確率  
・２変数が独立の関係にある場合はχ二乗　＝０　になり、このときp＝１  
・χ二乗分布の右から確率を累積した値（右側の面積）  
・標本からχ二乗を計算して、χ二乗でどれくらいの確率で得られるかを計算する  
・棄却域に入らなければ２つの変数に連関があるとは言えない  
・棄却域に入れば２つの変数に連関がある（独立ではない）と言える  

In [10]:
obs = [[15, 5], [15, 65]]
stats.chi2_contingency(obs, correction=False)
# χ二乗値、　p値、自由度、　期待度数に結果が得られる
# 結果は連関があると言える

(24.107142857142858,
 9.112167294252327e-07,
 1,
 array([[ 6., 14.],
        [24., 56.]]))

## イェイツの修正
・χ二乗検定に修正を加えたもの  
・p値が高くなる（本当は関連があるのにないと結論する確率が高くなる）  
・用途は限定的  

## Z検定とχ二乗検定

In [11]:
n = 50
sample_df1 = df.sample(n)
sample_df2 = df.sample(n)

count1 = sample_df1['time'].value_counts()['Dinner']
count2 = sample_df2['time'].value_counts()['Dinner']

In [12]:
proportions_ztest([count1, count2], [n, n], alternative='two-sided')

(0.44543540318737435, 0.6560051321908608)

In [13]:
sample1_freq = sample_df1['time'].value_counts().values
sample2_freq = sample_df2['time'].value_counts().values

In [14]:
stats.chi2_contingency([sample1_freq, sample2_freq], correction=False)

(0.1984126984126984,
 0.6560051321908611,
 1,
 array([[36., 14.],
        [36., 14.]]))

In [15]:
[sample1_freq, sample2_freq]

[array([37, 13]), array([35, 15])]