# 無母數檢定 - Python實戰：商務資料結構整理

In [None]:
#### 作者：徐子皓(臺灣行銷研究特邀作者)
#### 完整文章介紹鏈接：https://medium.com/p/e320b0ee04c4/

##  一、讀入原始資料

### 1. 導入分析資料

In [7]:
import pandas as pd
data = pd.read_csv('sales_data_new.csv', encoding = 'utf-8-sig')

In [8]:
data

Unnamed: 0.1,Unnamed: 0,顏色,單價,成本,系列,產品,訂單時間,會員,性別,年紀,廣告代號all,尺寸
0,0,,391,240,系列4,產品4-1,2016-01-01T03:19:35,10052013,FEMALE,32.0,廣告_YND_pid,無
1,1,,238,137,系列4,產品4-2,2016-01-01T03:19:35,10052013,FEMALE,32.0,廣告_YND_pid,無
2,2,watermelonred,434,253,系列4,產品4-3,2016-01-01T03:19:35,10052013,FEMALE,32.0,廣告_YND_pid,S
3,3,,339,205,系列4,產品4-4,2016-01-01T03:19:35,10052013,FEMALE,32.0,廣告_YND_pid,無
4,4,white,382,223,系列4,產品4-3,2016-01-01T03:19:35,10052013,FEMALE,32.0,廣告_YND_pid,S
...,...,...,...,...,...,...,...,...,...,...,...,...
353219,353219,,350,245,系列207,產品207-35,2019-11-12T14:44:14,10176032,FEMALE,18.0,廣告_自然流量,無
353220,353220,,350,245,系列207,產品207-35,2019-11-13T09:37:06,10225036,FEMALE,24.0,廣告_自然流量,無
353221,353221,,350,245,系列207,產品207-35,2019-11-14T18:34:45,10225049,,28.0,廣告_KBDG_MK,無
353222,353222,,350,245,系列207,產品207-35,2019-11-14T18:34:45,10225049,,28.0,廣告_KBDG_MK,無


### 2. 取出「系列4」資料

In [10]:
# 只留下需要的欄位
data = data[['單價', '成本', '系列', '廣告代號all']]
# 取系列4作分析
data = data[data['系列']=='系列4']

In [11]:
data

Unnamed: 0,單價,成本,系列,廣告代號all
0,391,240,系列4,廣告_YND_pid
1,238,137,系列4,廣告_YND_pid
2,434,253,系列4,廣告_YND_pid
3,339,205,系列4,廣告_YND_pid
4,382,223,系列4,廣告_YND_pid
...,...,...,...,...
11054,990,504,系列4,廣告_KBDG_MP
11055,290,85,系列4,廣告_KBDG_MP
11056,419,182,系列4,廣告_KBDG_MP
11057,990,504,系列4,廣告_KBDG_MP


## 二、重新整理廣告代碼

### 1. 查看「B2K」系列廣告有幾種

In [12]:
example = []
for i in data['廣告代號all']:
    if '_B2K_' in i:
        if i not in example:
            example.append(i)
print(example)   

['廣告_B2K_pid', '廣告_B2K_mqrukisleeve', '廣告_B2K_mqrukisleeve2', '廣告_B2K_MK', '廣告_B2K_ciccicqrtu', '廣告_B2K_mqrukitrqveltite', '廣告_B2K_ciccicqrtu2', '廣告_B2K_jqejqe', '廣告_B2K_cic2016']


### 2. 將廣告種類歸納

In [13]:
rep = []
for i in range(0,data.shape[0]):
    a = data['廣告代號all'][i].split('_')[1]
    rep.append(a)
# rep中前十筆資料
rep[0:10]

['YND', 'YND', 'YND', 'YND', 'YND', 'YND', 'YND', '自然流量', '自然流量', '自然流量']

### 3. 將「rep」清單內容回傳至資料集「data」

In [14]:
data['廣告代號all']=rep
data

Unnamed: 0,單價,成本,系列,廣告代號all
0,391,240,系列4,YND
1,238,137,系列4,YND
2,434,253,系列4,YND
3,339,205,系列4,YND
4,382,223,系列4,YND
...,...,...,...,...
11054,990,504,系列4,KBDG
11055,290,85,系列4,KBDG
11056,419,182,系列4,KBDG
11057,990,504,系列4,KBDG


## 三、取出樣本數前三大廣告

### 1. 查看共有幾系列廣告

In [15]:
len(data['廣告代號all'].unique())

36

### 2. 計算每系列廣告的使用頻率 

In [16]:
from collections import Counter
count_list = Counter(data['廣告代號all'])
count_list

Counter({'YND': 52,
         '自然流量': 3780,
         'ikip': 652,
         'B2K': 452,
         'critei': 1285,
         'qdwit': 896,
         'qpw': 5,
         'KDPOD': 937,
         'B2KPOD': 23,
         'KDMK': 320,
         'cridgewell': 6,
         'pic': 5,
         'B2KMK': 10,
         'KDP': 1793,
         'GINEP': 154,
         'edmP': 128,
         'edmM': 4,
         'B2KP': 57,
         'KDPM': 140,
         'KDM': 2,
         'GINEM': 13,
         'B2KM': 1,
         'edmD': 1,
         'edm': 2,
         'KDMP': 29,
         'edmMK': 20,
         'B2KMP': 1,
         'edmMP': 26,
         'GINEMK': 24,
         'GINEMP': 22,
         'B2KDG': 21,
         'KBP': 31,
         'KBMP': 1,
         'IGP': 20,
         'KBDG': 145,
         'IGDG': 1})

### 3. 將「count_list」轉為dataframe格式

In [17]:
count_list=pd.DataFrame.from_dict(count_list,orient='index').reset_index()
count_list=count_list.rename(columns = {'index' : '廣告名稱', 0: '樣本數'})

In [18]:
count_list

Unnamed: 0,廣告名稱,樣本數
0,YND,52
1,自然流量,3780
2,ikip,652
3,B2K,452
4,critei,1285
5,qdwit,896
6,qpw,5
7,KDPOD,937
8,B2KPOD,23
9,KDMK,320


### 4. 取出使用頻率第三之數字

In [19]:
import heapq
good_number = heapq.nlargest(3,list(count_list['樣本數']))[2]
good_number

1285

### 5. 選出樣本數不小於第三名的廣告(前三名廣告)

In [21]:
good_list = count_list[count_list['樣本數'] >= good_number]
good_list

Unnamed: 0,廣告名稱,樣本數
1,自然流量,3780
4,critei,1285
13,KDP,1793


### 6. 整理出有前三大廣告的廣告資料

In [22]:
data = pd.concat([data[data['廣告代號all']==good_list.iloc[0,0]],
       data[data['廣告代號all']==good_list.iloc[1,0]],
       data[data['廣告代號all']==good_list.iloc[2,0]]],
ignore_index=True)

In [23]:
data

Unnamed: 0,單價,成本,系列,廣告代號all
0,635,490,系列4,自然流量
1,434,253,系列4,自然流量
2,635,490,系列4,自然流量
3,562,424,系列4,自然流量
4,276,194,系列4,自然流量
...,...,...,...,...
6853,599,274,系列4,KDP
6854,590,413,系列4,KDP
6855,645,233,系列4,KDP
6856,537,233,系列4,KDP


## 四、計算利潤

### 1. 去除不必要欄位

In [24]:
data['利潤'] = data['單價'] - data['成本']
data = data.drop(['單價', '成本', '系列'], axis=1)
data

Unnamed: 0,廣告代號all,利潤
0,自然流量,145
1,自然流量,181
2,自然流量,145
3,自然流量,138
4,自然流量,82
...,...,...
6853,KDP,325
6854,KDP,177
6855,KDP,412
6856,KDP,304
