# Sales Analytics for Retail Business - EP 1 - Data Preparation
หลังจากที่ได้ข้อมูลรายละเอียดการขายมาจากระบบ ERP และเมื่อทำความเข้าใจกับความต้องการทางธุรกิจเรียบร้อยแล้ว เราสามารถตั้งคำถามเบื้องต้นจากข้อมูลที่ได้ดังต่อไปนี้
1. ยอดขายทั้งปีมีมูลค่าเป็นเท่าไหร่
2. จัดอันดับสินค้าที่ขายได้เป็นมูลค่ามากที่สุด
3. จัดอันดับสินค้าที่ขายได้เป็นจำนวนมากที่สุด
4. จัดอันดับลูกค้าที่ซื้อสินค้าเป็นมูลค่ามากที่สุด
5. จัดอันดับลูกค้าที่ซื้อสินค้าเป็นจำนวนมากที่สุด
6. จัดอันดับช่องทางการจัดจำหน่ายที่มีลูกค้าที่ซื้อสินค้าเป็นมูลค่ามากที่สุด
7. จัดอันดับช่องทางการจัดจำหน่ายที่มีลูกค้าที่ซื้อสินค้าเป็นจำนวนมากที่สุด
8. จัดอันดับช่วงเวลาต่างๆที่มีช่องทางการจัดจำหน่ายที่มีลูกค้าที่ซื้อสินค้าเป็นมูลค่ามากที่สุด
9. จัดอันดับช่วงเวลาต่างๆที่มีช่องทางการจัดจำหน่ายที่มีลูกค้าที่ซื้อสินค้าเป็นจำนวนมากที่สุด

จากคำถามเบื้องต้นเราสามารถทำการวิเคราะห์ข้อมูลออกมาได้เป็นทั้ง Descriptive Analytics และ Diagnostic Analytics โดยที่เราต้องจัดเตรียมข้อมูลเบื้องต้นที่ได้มาให้สามารถนำไปวิเคราะห์ในขั้นตอนต่อไป เรามาดูกันว่ากระบวนการเตรียมข้อมูล (Data Preparation) นั้นทำอย่างไรบ้างโดยเราจะเขียนโปรแกรมภาษา Python ผ่านโปรแกรม Jupyter Notebook

## Data Preparation
อันดับแรกเราจะทำการโหลด library ต่างๆที่จำเป็นต้องใช้ในภาษา Python ดังนี้

In [1]:
import pandas as pd

print(f'pandas version : {pd.__version__}')

pandas version : 1.0.3


จากนั้นเราจะมาทำการกำหนดค่าเริ่มต้นที่จำเป็นในการเขียนโปรแกรมของเราดังต่อไปนี้
- input_path ใช้ในการเก็บข้อมูลที่เราได้มาก่อนเข้าประมวลผล
- output_path ใช้ในการจัดเก็บข้อมูลที่เราได้หลังจากประมวลผลแล้ว
- ds_cols เป็นชื่อคอลัมน์ของข้อมูลที่เราจะใช้ในการทำงานครั้งนี้
- q_names เป็นชื่อไตรมาสที่จะใช้แสดงผลต่างๆ
- m_names เป็นชื่อเดือนที่จะใช้แสดงผลต่างๆ
- d_names เป็นชื่อวันที่จะใช้แสดงผลต่างๆ

In [2]:
input_path = 'input/'
output_path = 'output/'
graph_path = 'graph/'
ds_cols = ['SHOWROOM', 'INV_DATE', 'INV_NO', 'ITEM_CODE', 'ITEM_NAME', 'QTY', 'PRICE', 'CUSTOMER']
sr_names = [['ONLINE', 0], ['SR01', 1], ['SR05', 2]]
q_names = [['QUARTER 1', 1], ['QUARTER 2', 2], ['QUARTER 3', 3], ['QUARTER 4', 4]]
m_names = [['JANUARY', 1], ['FEBRUARY', 2], ['MARCH', 3], ['APRIL', 4], ['MAY', 5], ['JUNE', 6],
           ['JULY', 7], ['AUGUST', 8], ['SEPTEMBER', 9], ['OCTOBER', 10], ['NOVEMBER', 11], ['DECEMBER', 12]]
d_names = [['MONDAY', 0], ['TUESDAY', 1], ['WEDNESDAY', 2], ['THURSDAY', 3], ['FRIDAY', 4], ['SATURDAY', 5], ['SUNDAY', 6]]

ขั้นตอนต่อไปเราจะเริ่มทำการโหลดข้อมูลที่ได้เตรียมไว้เพื่อใช้งานในโปรแกรม โดยที่เราจะเลือกตั้งชื่อคอลัมน์ของข้อมูลเราตามตัวแปร ds_cols ที่เรากำหนดไว้ก่อนหน้านี้ เนื่องจากในข้อมูลของเราเป็นไฟล์ .csv แบบมี header ของข้อมูล โดยที่แถวแรกในข้อมูลจะเป็นชื่อฟิลด์ที่ติดมากับไฟล์ข้อมูล แต่เราจะเลือกใช้ให้เป็นชื่อในแบบที่เราเข้าใจ เมื่อได้ข้อมูลเข้ามาแล้วเราจะทำการปรับเปลี่ยนชื่อช่องทางการจัดจำหน่าย แล้วทำการแสดงผลตัวอย่างของข้อมูลของแต่ละช่องทางการจัดจำหน่ายช่องทางละ 5 แถว

In [3]:
ds = pd.read_csv(f'{input_path}allsr_2019.csv',
                 parse_dates=['INV_DATE'],
                 names=ds_cols,
                 header=0)
ds.loc[ds.SHOWROOM == 'JOY', 'SHOWROOM'] = 'ONLINE'
pd.concat([ds[ds.SHOWROOM == sr[0]].sample(5) for sr in sr_names])

Unnamed: 0,SHOWROOM,INV_DATE,INV_NO,ITEM_CODE,ITEM_NAME,QTY,PRICE,CUSTOMER
510,ONLINE,2019-12-11,CS-1256211/044,IG0648-A2,"Whole Macadamia Nut A2 ,1 kg. เม็ดเต็ม size 13...",1.0,690.0,WL01101
534,ONLINE,2019-11-13,CS-1256211/053,PK0167,CH25 Jelly/Mousse Cups (P187) Cap: 125ml. Dia...,300.0,3.8,P14147
85,ONLINE,2019-07-10,CS-1256210/021,2019800190338,No.15 Green 979 Macaron color [ x 10.00],1.0,150.0,WL00964
490,ONLINE,2019-11-11,CS-1256211/038,IG0972-BL,Lin Blue Premium Fondant Icing 750 g.,1.0,185.0,P2437
617,ONLINE,2019-11-21,CS-1256211/090,IG0500-1,Cacao Barry Dark Choc Fleur de Cao Pistol 70% ...,1.0,230.0,P14190
4949,SR01,2019-05-04,DS256204/00039,IG0583.1,500 G. GLUCOSE SYRUP M107,6.0,150.0,F0003
7680,SR01,2019-04-07,CS-1256207/039,IG0305,Nielsen Massey Pure Vanilla Extract 118 ml/4 oz.,1.0,670.0,P13301
9004,SR01,2019-08-15,CS-0256208/081,2019800200129,Patisfrance Glucose Syrup 500 g. (M107),1.0,190.0,P13235
1881,SR01,2019-01-21,CS-1256201/122,PK0625,"CH20 ,508 Jelly/Mousse cup Cap:170 ml. dia 75...",150.0,3.8,WL00069
9821,SR01,2019-10-09,CS-0256209/071,2019800299024,Almond Powder (USA) 1 kg.(M071),1.0,380.0,P10372


## Feature Engineering
ขั้นตอนนี้เราจะทำการเพิ่มคอลัมน์บางคอลัมน์เพื่อช่วยในการประมวลผลในงานของเรา และนำไปแสดงผลในรูปกราฟต่างๆได้ด้วย

#### SR_CODE - รหัสช่องทางการจัดจำหน่าย

In [4]:
ds['SR_CODE'] = ds.SHOWROOM.map({'ONLINE': 0, 'SR01': 1, 'SR05': 2}).astype('category')
ds.head()

Unnamed: 0,SHOWROOM,INV_DATE,INV_NO,ITEM_CODE,ITEM_NAME,QTY,PRICE,CUSTOMER,SR_CODE
0,ONLINE,2019-09-23,CS-1256209/057,IG0681,"Callebaut Dark Chocolate Couverture 57.7% , 2.5kg",1.0,850.0,P13820,0
1,ONLINE,2019-09-23,CS-1256209/057,IG0682,"Callebaut White Chocolate Couverture 28% ,2.5 kg",1.0,950.0,P13820,0
2,ONLINE,2019-09-23,CS-1256209/057,PK0645,SYN Triangle Paper Gold Card 7x11 cm. (P/100) ...,1.0,90.0,P13820,0
3,ONLINE,2019-09-23,CS-1256209/057,PK0405-8,SNY Round Paper Card 8 cm. P/100,1.0,90.0,P13820,0
4,ONLINE,2019-09-23,CS-1256209/058,PK0115,CH32 Jelly/Mousse Cups Cap:130ml. dia.98x47x45H,200.0,3.8,R0408,0


#### INV_TYPE - ประเภทของบิลที่ออก

In [5]:
ds['INV_TYPE'] = ds.INV_NO.str[0:2].map(lambda x : str.upper(x))
print(f'Total Invoice Type : {len(ds.INV_TYPE.unique())}')
print(f'{ds.INV_TYPE.unique()}')

Total Invoice Type : 5
['CS' 'KW' 'DS' 'PO' 'EV']


#### SELL_TYPE - ประเภทการขายสินค้า

In [6]:
ds['SELL_TYPE'] = 'PRODUCT'
ds.loc[ds.ITEM_NAME.str[0:5] == 'Spare', 'SELL_TYPE'] = 'SPARE'
ds.loc[ds.ITEM_NAME.str.contains('ค่าเช่า'), 'SELL_TYPE'] = 'RENTAL'
ds.loc[ds.ITEM_CODE.str[0:3] == 'SER', 'SELL_TYPE'] = 'SERVICE'
ds.loc[ds.ITEM_CODE.str.contains('REPAIR'), 'SELL_TYPE'] = 'SERVICE'
ds.loc[ds.ITEM_NAME.str.contains('LABOR', 'LABOUR'), 'SELL_TYPE'] = 'LABOUR'
ds.loc[ds.ITEM_NAME.str.contains('สื่อโฆษณา'), 'SELL_TYPE'] = 'ADVERTISING'
ds.loc[ds.ITEM_CODE.str.contains('GUARANTEE'), 'SELL_TYPE'] = 'GUARANTEE'
print(f'Total Sell Type : {len(ds.SELL_TYPE.unique())}')
print(f'{ds.SELL_TYPE.unique()}')

Total Sell Type : 7
['PRODUCT' 'SERVICE' 'SPARE' 'GUARANTEE' 'RENTAL' 'LABOUR' 'ADVERTISING']


เนื่องจากมีการตรวจพบความผิดพลาดจากการบันทึกข้อมูลมาจากในระบบ เราจึงจำเป็นต้องทำการแก้ไขทำความสะอาดข้อมูลบางส่วนที่คอลัมน์ ITEM_CODE

In [7]:
ds['ITEM_CODE'] = ds.ITEM_CODE.map(lambda x : str.replace(x, '*', ''))
ds['ITEM_CODE'] = ds.ITEM_CODE.map(lambda x : str.replace(x, '.', ''))

# Change some wrong language character
ds.loc[ds.CUSTOMER == 'ี/P', 'CUSTOMER'] = 'U/P'
ds.loc[ds.CUSTOMER == 'ฝย', 'CUSTOMER'] = 'U/P'
ds.loc[ds.ITEM_CODE == '(01)08029859061156(10)00', 'ITEM_CODE'] = '8029859061156'

จากนั้นทำการเพิ่มคอลัมน์ต่อไปดังนี้
#### ITEM_TYPE - ประเภทของสินค้า และ CUSTOMER_TYPE - ประเภทของลูกค้า

In [8]:
ds['ITEM_TYPE'] = ds.ITEM_CODE.str[0:2].map(lambda x : str.upper(x))
ds['CUSTOMER_TYPE'] = ds.CUSTOMER.str[0:1].map(lambda x : str.upper(x))
ds.sample(5)

Unnamed: 0,SHOWROOM,INV_DATE,INV_NO,ITEM_CODE,ITEM_NAME,QTY,PRICE,CUSTOMER,SR_CODE,INV_TYPE,SELL_TYPE,ITEM_TYPE,CUSTOMER_TYPE
18443,SR05,2019-07-03,DS256203/00170,MA0172,PolyScience SG2-CSW Wood Chips Kit Classic Smo...,1.0,940.0,C0161,2,DS,PRODUCT,MA,C
16621,SR05,2019-02-14,DS256202/00202,PT1056-20,"152001 S/S Sieve, 50 Mesh, Dia. 200XH70mm",1.0,210.0,C0161,2,DS,PRODUCT,PT,C
7986,SR01,2019-12-07,CS-1256207/101,IG0500-1,Cacao Barry Dark Choc Fleur de Cao Pistol 70% ...,1.0,230.0,P13343,1,CS,PRODUCT,IG,P
34099,SR05,2019-11-15,CS-2256211/034,IG0064,Gelita Gelatine Sheets e 1000 g,1.0,1120.0,C1317,2,CS,PRODUCT,IG,C
26791,SR05,2019-01-07,DS256207/00092,2019800798619,ขวดแก้วแบน 284 ML (Flat Glass Bottle 284ml) [ ...,5.0,42.0,C0161,2,DS,PRODUCT,20,C


In [9]:
print(f'Total Product Type : {len(ds.ITEM_TYPE.unique())}')
print(f'{ds.ITEM_TYPE.unique()}')

Total Product Type : 75
['IG' 'PK' '20' 'PT' 'CL' 'BW' 'CD' 'AS' 'CW' '88' 'MA' 'CT' 'RE' 'PR'
 'SP' '54' '33' '02' '01' '69' '30' '49' '31' '34' '93' '84' '35' '80'
 '68' '40' '32' 'GA' 'SE' '45' '09' '87' '36' '07' 'VJ' '86' '05' 'GU'
 '94' '76' '03' '47' '10' '98' '50' '78' 'MC' '00' '18' '89' '42' 'LA'
 'ED' 'PA' '25' 'ST' 'CP' 'W1' '5K' 'VO' '37' '48' 'KP' 'LB' 'RT' '74'
 'X0' 'CO' '79' '65' '85']


In [10]:
print(f'Total Customer Type : {len(ds.CUSTOMER_TYPE.unique())}')
print(f'{ds.CUSTOMER_TYPE.unique()}')

Total Customer Type : 15
['P' 'R' 'W' 'C' 'A' 'L' 'H' 'D' 'F' 'S' 'N' 'U' '1' 'G' '0']


จากผลลัพธ์ด้านบนในส่วนของ ITEM_TYPE ซึ่งเป็นคอลัมน์ที่จะใช้แสดงถึงหมวดของสินค้าทั้งหมดที่จัดจำหน่าย ความเป็นจริงแล้วสินค้าทั้งหมดถูกแบ่งหมวดของสินค้าออกได้ 26 หมวด แต่จากข้อมูลที่พบปรากฎว่ามีจำนวนทั้งสิ้น 75 หมวด จะสังเกตได้ว่ามีหมวดรหัสสินค้าที่ขึ้นต้นอักษรภาษาอังกฤษตัวแรกแล้วตามด้วยตัวบ้างเลข แสดงด้วยตัวเลขหลักแรกแล้วตามด้วยตัวอักษรภาษรอังกฤษบ้าง หรือเป็นตัวเลขทั้งสองหลักนั้นเป็นการคีย์ข้อมูลเองเข้าระบบอาจจะเป็นช่วงเวลาที่ขายสินค้า, ช่วงเวลาที่สั่งซื้อสินค้า หรือช่วงเวลาที่รับสินค้าเข้าคลังด้วยการสร้างหมวดสินค้าใหม่ขึ้นมา ทั้งนี้อาจจะเป็นเพราะว่าบริษัทมีการบริหารจัดการด้านการจัดเก็บข้อมูลที่ไม่รัดกุมพอ หรือด้วยความไม่เข้าใจในการทำงานของพนักงานผู้ปฏิบัติ ซึ่งจุดนี้ทางบริษัทคงต้องไปหาวิธีปรับปรุงการทำงานตรงนี้ให้ถูกต้องต่อไป
#### INV_QUARTER - ตัวเลขที่บอกไตรมาส
#### INV_MONTH - ตัวเลขที่บอกเดือน
#### INV_WEEK_DAY - ตัวเลขที่บอกวันในสัปดาห์
#### INV_MONTH_DAY - ตัวเลขที่บอกวันในเดือนนั้นๆ

In [11]:
ds['INV_QUARTER'] = ds.INV_DATE.dt.quarter
ds['INV_MONTH'] = ds.INV_DATE.dt.month
ds['INV_WEEK_DAY'] = ds.INV_DATE.dt.weekday # Monday=0 and Sunday=6
ds['INV_MONTH_DAY'] = ds.INV_DATE.dt.day
ds.sample(5)

Unnamed: 0,SHOWROOM,INV_DATE,INV_NO,ITEM_CODE,ITEM_NAME,QTY,PRICE,CUSTOMER,SR_CODE,INV_TYPE,SELL_TYPE,ITEM_TYPE,CUSTOMER_TYPE,INV_QUARTER,INV_MONTH,INV_WEEK_DAY,INV_MONTH_DAY
5428,SR01,2019-04-24,DS-0256204/013,PT0075-TQ,Microplane 4083 Zester Grater Turquoise (46220E),1.0,890.0,L000640,1,DS,PRODUCT,PT,L,2,4,2,24
30036,SR05,2019-08-28,KW256208/00194,2019800115645,MF 02753 Flexible Dough Stranght Scraper Steel...,2.0,390.0,A0356,2,KW,PRODUCT,20,A,3,8,2,28
27450,SR05,2019-08-07,DS256207/00115,PT0167-7,Stainless Steel Strainer 7 cm. 3 in /ร่อนแป้ง,2.0,63.0,C0161,2,DS,PRODUCT,PT,C,3,8,2,7
11758,SR01,2019-05-12,CS-0256212/033,IG0294-1,Cacao Barry White Choc Zephyr 34% Pistoles 500 g.,2.0,255.0,P8597,1,CS,PRODUCT,IG,P,2,5,6,12
29313,SR05,2019-08-14,KW256208/00091,4018157127668,Triangle 720180001 Melon Baller Curly,1.0,374.0,C0842,2,KW,PRODUCT,40,C,3,8,2,14


เมื่อทำตามขั้นตอนทั้งหมดเป็นที่เรียบร้อยแล้ว เราก็จะทำการบันทึกข้อมูลเก็บไว้เพื่อทำการวิเคราะห์ตามคำถามเบื้องต้นต่อไป
## Save Data to Final File

In [12]:
ds.to_csv(f'{output_path}final_2019.csv', index=False)

ในบทความนี้เราได้กล่าวถึงแนวทางเริ่มต้นของการได้ข้อมูลมา และเราได้ทำอะไรกับข้อมูลไปบ้าง เพื่อที่เราจะนำไปใช้ในการวิเคราะห์ต่อในบทความถัดไป