#  卡方檢定 - Python實戰：商務資料結構整理

#### 作者：徐子皓(臺灣行銷研究特邀作者)
#### 完整文章介紹鏈接：https://medium.com/p/47945d4a11a8/

## 一、讀取資料

### 1. 讀取原始資料

In [3]:
import pandas as pd
data = pd.read_csv('chisquare.csv', encoding = 'big5')
data.head(6)

Unnamed: 0.1,Unnamed: 0,產品,廣告,性別,訂單時間,會員,尺寸,顏色
0,0,產品4,廣告1,FEMALE,2016-01-01T03:19:35,10052013,無,
1,1,產品4,廣告2,FEMALE,2016-01-01T03:19:35,10052013,無,
2,2,產品4,廣告3,FEMALE,2016-01-01T03:19:35,10052013,S,watermelonred
3,3,產品4,廣告4,FEMALE,2016-01-01T03:19:35,10052013,無,
4,4,產品4,廣告3,FEMALE,2016-01-01T03:19:35,10052013,S,white
5,5,產品4,廣告3,FEMALE,2016-01-01T03:19:35,10052013,S,navyblue


### 2. 選取「產品1」的資料

In [5]:
data = data[data['產品']=='產品1']
data.head(6)

Unnamed: 0.1,Unnamed: 0,產品,廣告,性別,訂單時間,會員,尺寸,顏色
74181,74181,產品1,廣告11,FEMALE,2016-01-02T14:16:32,11734,L,whitetrigray
74182,74182,產品1,廣告11,FEMALE,2016-01-02T14:16:32,11734,L,trigrayblack
74183,74183,產品1,廣告12,FEMALE,2016-01-03T12:25:18,10012645,M,watermelonred
74184,74184,產品1,廣告12,FEMALE,2016-01-03T12:25:18,10012645,M,jeanblue
74185,74185,產品1,廣告13,FEMALE,2016-01-03T12:25:18,10012645,L,navyblue
74186,74186,產品1,廣告1,MALE,2016-01-04T09:04:25,10052301,無,


### 3. 去除多餘欄位

In [7]:
data = data.drop(columns = ['Unnamed: 0', '產品', '訂單時間', '會員', '尺寸', '顏色'])
data.head(6)

Unnamed: 0,廣告,性別
74181,廣告11,FEMALE
74182,廣告11,FEMALE
74183,廣告12,FEMALE
74184,廣告12,FEMALE
74185,廣告13,FEMALE
74186,廣告1,MALE


### 4. 去除遺失值欄位

In [8]:
data = data.dropna()
data.head(6)

Unnamed: 0,廣告,性別
74181,廣告11,FEMALE
74182,廣告11,FEMALE
74183,廣告12,FEMALE
74184,廣告12,FEMALE
74185,廣告13,FEMALE
74186,廣告1,MALE


### 5. 重新編號index

In [9]:
data = data.reset_index().drop(columns='index')
data.head(6)

Unnamed: 0,廣告,性別
0,廣告11,FEMALE
1,廣告11,FEMALE
2,廣告12,FEMALE
3,廣告12,FEMALE
4,廣告13,FEMALE
5,廣告1,MALE


## 二、進階資料整理

### 1. 計算廣告頻率

In [10]:
from collections import Counter
frequency_count = Counter(data['廣告'])
frequency_count

Counter({'廣告11': 307,
         '廣告12': 7856,
         '廣告13': 441,
         '廣告1': 722,
         '廣告6': 900,
         '廣告9': 1397,
         '廣告14': 449,
         '廣告3': 4509,
         '廣告18': 433,
         '廣告15': 222,
         '廣告7': 252,
         '廣告16': 340,
         '廣告20': 2,
         '廣告23': 69,
         '廣告22': 9,
         '廣告24': 46,
         '廣告25': 27,
         '廣告29': 821,
         '廣告30': 294,
         '廣告32': 249,
         '廣告31': 155,
         '廣告33': 144,
         '廣告21': 13,
         '廣告34': 191,
         '廣告50': 443,
         '廣告51': 252,
         '廣告52': 241,
         '廣告53': 288,
         '廣告54': 294,
         '廣告55': 154,
         '廣告36': 1334,
         '廣告35': 2270,
         '廣告56': 109,
         '廣告57': 16,
         '廣告58': 23,
         '廣告59': 17,
         '廣告60': 14,
         '廣告61': 187,
         '廣告62': 186,
         '廣告63': 211,
         '廣告64': 54,
         '廣告10': 3,
         '廣告65': 188,
         '廣告66': 239,
         '廣告67': 118})

### 2. 製作廣告銷售頻率表

In [11]:
f1 = list(frequency_count.keys())
f2 = list(frequency_count.values())
frequency_table = pd.DataFrame(zip(f1,f2),
                            columns=['廣告名稱','頻率'])

In [12]:
f1

['廣告11',
 '廣告12',
 '廣告13',
 '廣告1',
 '廣告6',
 '廣告9',
 '廣告14',
 '廣告3',
 '廣告18',
 '廣告15',
 '廣告7',
 '廣告16',
 '廣告20',
 '廣告23',
 '廣告22',
 '廣告24',
 '廣告25',
 '廣告29',
 '廣告30',
 '廣告32',
 '廣告31',
 '廣告33',
 '廣告21',
 '廣告34',
 '廣告50',
 '廣告51',
 '廣告52',
 '廣告53',
 '廣告54',
 '廣告55',
 '廣告36',
 '廣告35',
 '廣告56',
 '廣告57',
 '廣告58',
 '廣告59',
 '廣告60',
 '廣告61',
 '廣告62',
 '廣告63',
 '廣告64',
 '廣告10',
 '廣告65',
 '廣告66',
 '廣告67']

In [13]:
f2

[307,
 7856,
 441,
 722,
 900,
 1397,
 449,
 4509,
 433,
 222,
 252,
 340,
 2,
 69,
 9,
 46,
 27,
 821,
 294,
 249,
 155,
 144,
 13,
 191,
 443,
 252,
 241,
 288,
 294,
 154,
 1334,
 2270,
 109,
 16,
 23,
 17,
 14,
 187,
 186,
 211,
 54,
 3,
 188,
 239,
 118]

In [14]:
frequency_table

Unnamed: 0,廣告名稱,頻率
0,廣告11,307
1,廣告12,7856
2,廣告13,441
3,廣告1,722
4,廣告6,900
5,廣告9,1397
6,廣告14,449
7,廣告3,4509
8,廣告18,433
9,廣告15,222


### 3. 將廣告銷售頻率由大至小排序

In [15]:
frequency_table = frequency_table.sort_values(by = '頻率', ascending = False)
frequency_table

Unnamed: 0,廣告名稱,頻率
1,廣告12,7856
7,廣告3,4509
31,廣告35,2270
5,廣告9,1397
30,廣告36,1334
4,廣告6,900
17,廣告29,821
3,廣告1,722
6,廣告14,449
24,廣告50,443


### 4. 取出前三名之熱門廣告

In [17]:
frequency_table = frequency_table.iloc[0:3,:]
frequency_table

Unnamed: 0,廣告名稱,頻率
1,廣告12,7856
7,廣告3,4509
31,廣告35,2270


### 5. 將熱門廣告名稱取出

In [18]:
ad_name = frequency_table['廣告名稱'].tolist()
ad_name

['廣告12', '廣告3', '廣告35']

### 6. 判斷是否為熱門廣告

In [19]:
save = []
for i in range(0,data.shape[0]):
    a = data.iloc[i,0]
    if ad_name[0] == a:
        save.append('是')
    elif ad_name[1] == a:
        save.append('是')
    elif ad_name[2] == a:
        save.append('是')
    else:
        save.append('否')
data['是否為熱門廣告'] = save

In [20]:
data.head(6)

Unnamed: 0,廣告,性別,是否為熱門廣告
0,廣告11,FEMALE,否
1,廣告11,FEMALE,否
2,廣告12,FEMALE,是
3,廣告12,FEMALE,是
4,廣告13,FEMALE,否
5,廣告1,MALE,否


### 7. 取出熱門廣告

In [21]:
data = data[data['是否為熱門廣告']=='是']  
data.head(6)

Unnamed: 0,廣告,性別,是否為熱門廣告
2,廣告12,FEMALE,是
3,廣告12,FEMALE,是
13,廣告3,FEMALE,是
14,廣告3,FEMALE,是
15,廣告12,FEMALE,是
23,廣告12,MALE,是


### 8. 製作熱門廣告男性銷售頻率清單

In [22]:
M_1 = data[data['廣告']==ad_name[0]][data['性別']=='MALE'].shape[0]
M_2 = data[data['廣告']==ad_name[1]][data['性別']=='MALE'].shape[0]
M_3 = data[data['廣告']==ad_name[2]][data['性別']=='MALE'].shape[0]
list1 = [M_1, M_2, M_3]

In [23]:
M_1

4676

In [24]:
M_2

1273

In [25]:
M_3

978

In [26]:
list1

[4676, 1273, 978]

### 9. 製作熱門廣告女性銷售頻率清單

In [27]:
F_1 = data[data['廣告']==ad_name[0]][data['性別']=='FEMALE'].shape[0]
F_2 = data[data['廣告']==ad_name[1]][data['性別']=='FEMALE'].shape[0]
F_3 = data[data['廣告']==ad_name[2]][data['性別']=='FEMALE'].shape[0]
list2 = [F_1, F_2, F_3]

In [28]:
F_1

3180

In [29]:
F_2

3236

In [30]:
F_3

1292

In [31]:
list2

[3180, 3236, 1292]

### 10. 將「list1」和「list2」整合成資料集「chi_table」

In [32]:
chi_table = pd.DataFrame(zip(list1, list2), columns=['男性', '女性'],index=[ad_name[0], ad_name[1], ad_name[2]])
chi_table

Unnamed: 0,男性,女性
廣告12,4676,3180
廣告3,1273,3236
廣告35,978,1292
