# **Wholesale Dataset**


ไฟล์ "Wholesale customers data.csv" (download จาก https://archive.ics.uci.edu/ml/machine-learning-databases/00292/) เป็นข้อมูลเกี่ยวกับยอดการขายสินค้าประเภทต่างๆ ในแต่ละภูมิภาค ผ่าน 2 ช่องทาง คือ Horeca (Hotel/Restaurant/Cafe) หรือ Retail จาก UCI Machine Learning Repository โดยแถวแรกเป็นชื่อคอลัมน์ และ แถวที่ 2 เป็นต้นไปเก็บข้อมูล

ประเภทของสินค้า คือ fresh products, milk products, grocery products, forzen products, detergents and papers และ delicatessen

คอลัมน์ CHANNEL เป็นช่องทางการขาย ที่มีค่าเป็น Horeca (Hotel/Restaurant/Cafe) หรือ Retail (1,2)
คอลัมน์ REGION: เป็นภูมิภาค ได้แก่ Lisnon, Oporto หรือ Other (1,2,3)
คอลัมน์ FRESH, MILK, GROCERY, FROZEN, DETERGENTS_PAPER, DELICATESSEN เป็นยอดขายของสินค้าแต่ละประเภทในภูมิภาคนั้น ผ่านช่องทางนั้นในหนึ่งปี



1) เขียนโปรแกรมเพื่อแปลงข้อมูลช่องทางการขายและภูมิภาค จากตัวเลขให้เป็นชื่อของแต่ละช่องทางการขายและภูมิภาคนั้น ๆ จากนั้นบันทึกเป็นไฟล์ใหม่ที่มีชื่อว่า Rename_Wholesale.csv โดยจะใช้ไฟล์นี้เป็นหลักในข้อถัดไป

2) เขียนโปรแกรมเพื่อหายอดขายรวมจากทุกช่องทาง ในทุกภูมิภาค สำหรับสินค้าแต่ละประเภทแล้ววาด pie chart

3) เขียนโปรแกรมเพื่อหายอดขายรวมของสินค้าทุกประเภท ในทุกช่องทาง สำหรับแต่ละภูมิภาคแล้ววาด pie chart

4) เขียนโปรแกรมเพื่อหายอดขายรวมของสินค้าสำหรับทำความสะอาดในแต่ละช่องทางการขาย โดยแบ่งเป็นของแต่ละภูมิภาค พร้อมพล็อตกราฟของแต่ละภูมิภาค

5) เขียนโปรแกรมเพื่อหาจำนวนคนที่ยอดขายของอาหารสดรวมกับอาหารแช่แข็งผ่านช่องทาง Horeca(Hotel/Restaurant/Cafe) ไม่เกิน 1,000 ชิ้น

6) เขียนโปรแกรมเพื่อหาภูมิภาคที่มีการบริโภคนมมากที่สุด และในภูมิภาคนั้นมีการบริโภคนมมากกว่าอาหารสดทั้งหมดกี่คน

## 0) Prepare data

In [1]:
with open('wholesale.csv') as file:
    rows = list(map(lambda x: tuple(x.split(',')),file.read().splitlines()))
key = rows.pop(0)

data = [dict(zip(key,tuple(map(int,row)))) for row in rows]

In [2]:
data[0]

{'Channel': 2,
 'Region': 3,
 'Fresh': 12669,
 'Milk': 9656,
 'Grocery': 7561,
 'Frozen': 214,
 'Detergents_Paper': 2674,
 'Delicassen': 1338}

## 1) แปลงข้อมูลช่องทางการขายและภูมิภาค จากตัวเลขให้เป็นชื่อของแต่ละช่องทางการขายและภูมิภาคนั้น ๆ 

คอลัมน์ CHANNEL เป็นช่องทางการขาย ที่มีค่าเป็น Horeca (Hotel/Restaurant/Cafe) หรือ Retail (1,2)

คอลัมน์ REGION: เป็นภูมิภาค ได้แก่ Lisnon, Oporto หรือ Other (1,2,3)

In [3]:
CHANNEL_NAME = (None, 'Horeca', 'Retail')
REGION_NAME = (None, 'Lisnon', 'Oporto', 'Other')

In [4]:
for row in data:
    row['Channel'] = CHANNEL_NAME[row['Channel']]
    row['Region'] = REGION_NAME[row['Region']]

In [5]:
data[0]

{'Channel': 'Retail',
 'Region': 'Other',
 'Fresh': 12669,
 'Milk': 9656,
 'Grocery': 7561,
 'Frozen': 214,
 'Detergents_Paper': 2674,
 'Delicassen': 1338}

## 2) หายอดขายรวมจากทุกช่องทาง ในทุกภูมิภาค สำหรับสินค้าแต่ละประเภท



```
Fresh               5280131             
Milk                2550357             
Grocery             3498562             
Frozen              1351650             
Detergents_Paper    1267857             
Delicassen          670943 
```

In [34]:
sum_groupby_product = {}

In [35]:
for i, row in enumerate(data):
    items = tuple(row.items())
    products = items[2:]
    
    if i == 0:
        for product in products:
            sum_groupby_product.setdefault(product[0],0)
    
    for product in products:
        sum_groupby_product[product[0]] += product[1]


In [88]:
for item in sum_groupby_product.items():
    print(f"{item[0]:<20}{item[1]:<20}")

Fresh               5280131             
Milk                2550357             
Grocery             3498562             
Frozen              1351650             
Detergents_Paper    1267857             
Delicassen          670943              


## 3) หายอดขายรวมของสินค้าทุกประเภท ในทุกช่องทาง สำหรับแต่ละภูมิภาค

```
Other 10677599
Lisnon 2386813
Oporto 1555088
```

In [58]:
sum_groupby_region = {}

In [59]:
for row in data:
    
    region = row['Region']
    
    if region not in sum_groupby_region:
        sum_groupby_region.setdefault(region,0)
        
    sum_groupby_region[region] += sum([product for product in list(row.values())[2:]])

In [89]:
for key,  val in sum_groupby_region.items():
    print(f"{key:<20}{val:<20}")

Other               10677599            
Lisnon              2386813             
Oporto              1555088             


## 4) เขียนโปรแกรมเพื่อหายอดขายรวมของสินค้าสำหรับทำความสะอาด(Detergents_Paper) ในแต่ละช่องทางการขาย โดยแบ่งเป็นของแต่ละภูมิภาค

```
Other
Horeca 165990
Retail 724420

Lisnon
Horeca 56081
Retail 148055

Oporto
Horeca 13516
Retail 159795
```

In [91]:
detergents_gb_region_channel = {}

In [94]:
for row in data:
    
    channel = row['Channel']
    region = row['Region']
    
    detergents_paper = row['Detergents_Paper']
    
    if region not in detergents_gb_region_channel:
        detergents_gb_region_channel.setdefault(region,{})
        
    if channel not in detergents_gb_region_channel[region]:
        detergents_gb_region_channel[region].setdefault(channel,0)
        
    detergents_gb_region_channel[region][channel] += detergents_paper

In [103]:
for region, val in detergents_gb_region_channel.items():
    print(region)
    for channel, dt in sorted(val.items(), key= lambda x: x[0]):
        print(f"{channel:<10}{dt}")
    print()

Other
Horeca    165990
Retail    724420

Lisnon
Horeca    56081
Retail    148055

Oporto
Horeca    13516
Retail    159795



## 5) จำนวนคนที่ยอดขายของอาหารสดรวมกับอาหารแช่แข็งผ่านช่องทาง Horeca(Hotel/Restaurant/Cafe) ไม่เกิน 1,000 ชิ้น

```
10
```

In [106]:
sum(map(lambda item: (item['Fresh']+item['Frozen'])<=1000 if item['Channel'] == 'Horeca' else 0 ,data))

10

## 6) เขียนโปรแกรมเพื่อหาภูมิภาคที่มีการบริโภค นม มากที่สุด และในภูมิภาคนั้นมีการบริโภค นม มากกว่าอาหารสดทั้งหมดกี่คน

```
ภูมิภาคที่มีการบริโภค นม มากที่สุด
Other: 1888759

ภูมิภาคนั้นมีการบริโภค นม มากกว่าอาหารสดทั้งหมดกี่คน
107
```

In [110]:
sum_milk_gb_region = {} 

In [113]:
for item in data:
    
    region = item['Region']
                  
    milk = item['Milk']
    
    if region not in sum_milk_gb_region:
        sum_milk_gb_region.setdefault(region,0)
        
    sum_milk_gb_region[region] += milk

In [116]:
max(sum_milk_gb_region.items(), key= lambda x: x[1])

('Other', 1888759)

In [119]:
sum(map(lambda item: item['Region']=='Other' and item['Milk'] > item['Fresh'] ,data))

107