#  卡方檢定 - Python實戰：掌握不同系列產品推出的族群比重

#### 作者：徐子皓(臺灣行銷研究特邀作者)
#### 完整文章介紹鏈接：https://medium.com/p/dad7efad5a65/

## 一、卡方檢定

### 1. 設定觀察值

In [28]:
import numpy as np
obs = np.array([chi_table.iloc[0,:].tolist(), 
                chi_table.iloc[1,:].tolist(),
                chi_table.iloc[2,:].tolist(),])

In [29]:
obs

array([[4676, 3180],
       [1273, 3236],
       [ 978, 1292]])

### 2. 卡方檢定

In [30]:
import scipy.stats
scipy.stats.chi2_contingency(obs, correction = False)

(1144.4903264056986,
 2.9997380034408637e-249,
 2,
 array([[3718.38141442, 4137.61858558],
        [2134.18811069, 2374.81188931],
        [1074.43047489, 1195.56952511]]))

### 3. 取出卡方檢定P值

In [31]:
p_value = scipy.stats.chi2_contingency(obs, correction = False)[1]
p_value

2.9997380034408637e-249

## 二、事後檢定

In [33]:
from scipy.stats import chisquare
chisquare(chi_table.iloc[0,:].tolist())[1]

6.489739323992124e-64

In [34]:
chisquare(chi_table.iloc[1,:].tolist())[1]

7.28785639051024e-188

In [35]:
chisquare(chi_table.iloc[2,:].tolist())[1]

4.384215086093996e-11

## 三、視覺化呈現

### 1. 輸入基本資料

In [36]:
import plotly.offline as py
import plotly.graph_objects as go
fig = go.Figure()
# 男性分布圖
fig.add_trace(go.Scatter(
            x= ad_name,
            y= chi_table.iloc[:,0].tolist(),
            mode="lines+markers",
            textfont=dict(
            family="sans serif",
            size=16,
            color="royalblue"),    
            line=dict(color='royalblue', width=2),
            name = '男性'
            ))
# 女性分布圖
fig.add_trace(go.Scatter(
            x= ad_name,
            y= chi_table.iloc[:,1].tolist(),
            mode="lines+markers",
            textfont=dict(
            family="sans serif",
            size=16,
            color="firebrick"),    
            line=dict(color='firebrick', width=2),
            name = '女性'
            ))

### 2. 設定布景主題

In [37]:
fig.update_layout(
    title={
        'text': "<b>廣告－性別交叉比較圖</b>",
        'y':0.95,
        'x':0.5,
        'xanchor': 'center',},
    yaxis_title='消費次數',
    xaxis={
        'title': '廣告類別',
        'tickmode': 'linear'
        },
    width=1800,
    height=960,
    font=dict(
        family="Courier New, monospace",
        size=20,
        color="lightslategrey"
    )
    )

### 3. 將產出另存

In [None]:
# 產出另存html檔
py.plot(fig, filename='廣告－性別交叉比較圖', auto_open=True)
# 產出另存png檔
fig.write_image("C:/Users/user/Desktop/卡方檢定/廣告－性別交叉比較圖.png")

## 四、管理決策表

### 1. 判斷廣告比重

In [38]:
# 判斷廣告比重
weight = []
for i in range(0,chi_table.shape[0]):
    p = chisquare(chi_table.iloc[i,:].tolist())[1]
    if p >= 0.05:
        weight.append('男女推廣效果均勻')
    else:
        a = chi_table.iloc[i,0] # 男性消費量
        b = chi_table.iloc[i,1] # 女性消費量
        if a>b:
            weight.append('針對男性族群推廣較有效')
        else:
            weight.append('針對女性族群推廣較有效')            
# 將結果存至比較表中
chi_table['加強推廣族群'] = weight

In [39]:
chi_table

Unnamed: 0,男性,女性,加強推廣族群
廣告12,4676,3180,針對男性族群推廣較有效
廣告3,1273,3236,針對女性族群推廣較有效
廣告35,978,1292,針對女性族群推廣較有效


### 2. 將產出另存為csv檔

In [None]:
chi_table.to_csv("C:/Users/user/Desktop/卡方檢定/廣告－性別交叉比較表.csv", encoding='utf-8-sig')