# Data Binning and Case Statement

## Data Binning
Data binning adalah teknik pra-pemrosesan data yang digunakan untuk mengelompokkan nilai numerik kontinu ke dalam beberapa interval atau "bin". Tujuan data binning adalah berikut
* Mengurangi noise atau variasi kecil dalam data,
* Menyederhanakan model atau analisis,
* Mempermudah interpretasi visual dan statistik.

Contoh: Harga produk antara 0 hingga 1 juta bisa dibagi menjadi 3 bin:
* Low (0 – 300rb)
* Medium (300rb–700rb)
* High (700rb–1 juta)
## Case Statement
Case statement adalah logika kondisional yang digunakan untuk mengelompokkan atau mengklasifikasikan data berdasarkan kondisi tertentu. Konsep ini mirip dengan CASE WHEN di SQL dan berguna untuk:
* Membuat kategori baru dari data numerik atau kategorikal,
* Menggabungkan logika if-else ke dalam operasi berbasis kolom,
* Meningkatkan fleksibilitas pengelompokan data.

# Impor packages

In [40]:
import pandas as pd
import numpy as np

In [41]:
import os
os.getcwd()

'C:\\Users\\LENOVO\\Python\\Intermediate'

# Impor data dari CSV ke DataFrame

In [42]:
data = pd.read_csv('C:/Users/LENOVO/Python/Online Retail Data.csv', header=0)
data = data[data['price'].between(0, 100, inclusive='right')].reset_index(drop=True)
data

Unnamed: 0,order_id,product_code,product_name,quantity,order_date,price,customer_id
0,493410,TEST001,This is a test product.,5,2010-01-04 09:24:00,4.50,12346.0
1,C493411,21539,RETRO SPOTS BUTTER DISH,-1,2010-01-04 09:43:00,4.25,14590.0
2,493412,TEST001,This is a test product.,5,2010-01-04 09:53:00,4.50,12346.0
3,493413,21724,PANDA AND BUNNIES STICKER SHEET,1,2010-01-04 09:54:00,0.85,
4,493413,84578,ELEPHANT TOY WITH BLUE T-SHIRT,1,2010-01-04 09:54:00,3.75,
...,...,...,...,...,...,...,...
457466,539991,21618,4 WILDFLOWER BOTANICAL CANDLES,1,2010-12-23 16:49:00,1.25,
457467,539991,72741,GRAND CHOCOLATECANDLE,4,2010-12-23 16:49:00,1.45,
457468,539992,21470,FLOWER VINE RAFFIA FOOD COVER,1,2010-12-23 17:41:00,3.75,
457469,539992,22258,FELT FARM ANIMAL RABBIT,1,2010-12-23 17:41:00,1.25,


# Cleaning dataframe

In [43]:
data.isna().sum()

order_id            0
product_code        0
product_name        0
quantity            0
order_date          0
price               0
customer_id     96858
dtype: int64

In [44]:
df = data.dropna()

In [45]:
df.isna().sum()

order_id        0
product_code    0
product_name    0
quantity        0
order_date      0
price           0
customer_id     0
dtype: int64

In [46]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 360613 entries, 0 to 457442
Data columns (total 7 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   order_id      360613 non-null  object 
 1   product_code  360613 non-null  object 
 2   product_name  360613 non-null  object 
 3   quantity      360613 non-null  int64  
 4   order_date    360613 non-null  object 
 5   price         360613 non-null  float64
 6   customer_id   360613 non-null  float64
dtypes: float64(2), int64(1), object(4)
memory usage: 22.0+ MB


# Membuat data binning di DataFrame

## Binning dengan banyaknya bins tertentu dan panjang masing-masing bin sama

Pada tahap ini, dilakukan proses data binning untuk mengelompokkan nilai harga (price) ke dalam 3 kategori: 'Cheap', 'Medium', dan 'Expensive'. Teknik yang digunakan adalah pd.cut() tanpa mendefinisikan batas bin secara eksplisit, melainkan langsung membagi rentang nilai harga menjadi 3 bagian dengan panjang yang sama besar (equal-width binning). Label kategori kemudian diberikan untuk mempermudah interpretasi. Hasilnya adalah kolom baru bin1 yang menunjukkan kategori harga dari setiap produk.

In [47]:
df1 = df.copy()
category = ['Cheap','Medium','Expensive']
df1['bin1'] = pd.cut(df1['price'], 3, labels=category, include_lowest=True)
df1

Unnamed: 0,order_id,product_code,product_name,quantity,order_date,price,customer_id,bin1
0,493410,TEST001,This is a test product.,5,2010-01-04 09:24:00,4.50,12346.0,Cheap
1,C493411,21539,RETRO SPOTS BUTTER DISH,-1,2010-01-04 09:43:00,4.25,14590.0,Cheap
2,493412,TEST001,This is a test product.,5,2010-01-04 09:53:00,4.50,12346.0,Cheap
6,493414,21844,RETRO SPOT MUG,36,2010-01-04 10:28:00,2.55,14590.0,Cheap
7,493414,21533,RETRO SPOT LARGE MILK JUG,12,2010-01-04 10:28:00,4.25,14590.0,Cheap
...,...,...,...,...,...,...,...,...
457438,539988,84380,SET OF 3 BUTTERFLY COOKIE CUTTERS,1,2010-12-23 16:06:00,1.25,18116.0,Cheap
457439,539988,84849D,HOT BATHS SOAP HOLDER,1,2010-12-23 16:06:00,1.69,18116.0,Cheap
457440,539988,84849B,FAIRY SOAP SOAP HOLDER,1,2010-12-23 16:06:00,1.69,18116.0,Cheap
457441,539988,22854,CREAM SWEETHEART EGG HOLDER,2,2010-12-23 16:06:00,4.95,18116.0,Cheap


Selanjutnya, dilakukan agregasi terhadap kolom bin1 untuk menghitung statistik ringkasan dari masing-masing kategori. Beberapa metrik yang dihitung adalah jumlah baris (row_cnt), harga minimum (min_price), dan harga maksimum (max_price) pada masing-masing bin. Kemudian dihitung pula selisih antara harga maksimum dan minimum (bin_interval) untuk melihat sebaran harga dalam setiap kategori. Hasil ini membantu memahami distribusi dan jangkauan harga dalam masing-masing kelompok harga.

In [48]:
bin1_summary = df1.groupby('bin1', observed=True).agg(
    row_cnt=('product_code','count'),
    min_price=('price','min'),
    max_price=('price','max')
)
bin1_summary['bin_interval'] = bin1_summary['max_price'] - bin1_summary['min_price']
bin1_summary

Unnamed: 0_level_0,row_cnt,min_price,max_price,bin_interval
bin1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Cheap,360163,0.001,32.69,32.689
Medium,360,34.95,65.0,30.05
Expensive,90,66.98,100.0,33.02


Pada bin1, data dibagi secara otomatis ke dalam 3 interval harga yang sama panjang, kemudian masing-masing diberi label 'Cheap', 'Medium', dan 'Expensive'. Meskipun panjang interval tiap bin hampir seimbang (sekitar 30–33 satuan harga), distribusi jumlah produk sangat tidak merata. Terdapat 360.163 produk dalam kategori ‘Cheap’, dibandingkan hanya 360 untuk ‘Medium’ dan 90 untuk ‘Expensive’. Ini menunjukkan bahwa sebagian besar produk berada di kisaran harga rendah, sehingga pembagian berdasarkan interval tetap tidak menjamin jumlah produk yang seimbang di setiap kategori.

Pendekatan berikutnya menggunakan teknik binning yang serupa, namun dengan kontrol lebih besar terhadap batas antar-bin. Dengan menggunakan np.linspace(), rentang nilai harga dibagi menjadi 3 bagian sama panjang secara eksplisit, menghasilkan 4 titik batas. Label 'Cheap', 'Medium', dan 'Expensive' kembali digunakan untuk masing-masing bin, dan hasilnya disimpan dalam kolom bin2. Ini memberikan fleksibilitas lebih dalam hal penyesuaian rentang harga sesuai kebutuhan analisis.

In [49]:
df2 = df1.copy()
bins = np.linspace(min(df['price']), max(df['price']), 4)
category = ['Cheap','Medium','Expensive']
df2['bin2'] = pd.cut(df2['price'], bins, labels=category, include_lowest=True)
df2

Unnamed: 0,order_id,product_code,product_name,quantity,order_date,price,customer_id,bin1,bin2
0,493410,TEST001,This is a test product.,5,2010-01-04 09:24:00,4.50,12346.0,Cheap,Cheap
1,C493411,21539,RETRO SPOTS BUTTER DISH,-1,2010-01-04 09:43:00,4.25,14590.0,Cheap,Cheap
2,493412,TEST001,This is a test product.,5,2010-01-04 09:53:00,4.50,12346.0,Cheap,Cheap
6,493414,21844,RETRO SPOT MUG,36,2010-01-04 10:28:00,2.55,14590.0,Cheap,Cheap
7,493414,21533,RETRO SPOT LARGE MILK JUG,12,2010-01-04 10:28:00,4.25,14590.0,Cheap,Cheap
...,...,...,...,...,...,...,...,...,...
457438,539988,84380,SET OF 3 BUTTERFLY COOKIE CUTTERS,1,2010-12-23 16:06:00,1.25,18116.0,Cheap,Cheap
457439,539988,84849D,HOT BATHS SOAP HOLDER,1,2010-12-23 16:06:00,1.69,18116.0,Cheap,Cheap
457440,539988,84849B,FAIRY SOAP SOAP HOLDER,1,2010-12-23 16:06:00,1.69,18116.0,Cheap,Cheap
457441,539988,22854,CREAM SWEETHEART EGG HOLDER,2,2010-12-23 16:06:00,4.95,18116.0,Cheap,Cheap


Terakhir, dilakukan agregasi terhadap hasil binning kedua (bin2) dengan cara yang sama seperti sebelumnya. Statistik ringkasan yang dihitung meliputi jumlah data, harga minimum, harga maksimum, serta interval harga dalam masing-masing kategori. Dengan membandingkan ringkasan ini terhadap hasil sebelumnya (bin1), kita bisa mengevaluasi apakah metode pembentukan bin mempengaruhi distribusi dan interpretasi data.

In [51]:
bin2_summary = df2.groupby('bin2', observed=True).agg(
    row_cnt=('product_code','count'), 
    min_price=('price','min'), 
    max_price=('price','max'))
bin2_summary['bin_interval'] = bin2_summary['max_price'] - bin2_summary['min_price']
bin2_summary

Unnamed: 0_level_0,row_cnt,min_price,max_price,bin_interval
bin2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Cheap,360163,0.001,32.69,32.689
Medium,360,34.95,65.0,30.05
Expensive,90,66.98,100.0,33.02


Metode bin2 juga menghasilkan hasil identik dengan bin1, karena batas bin yang digunakan (np.linspace) menghasilkan 3 interval yang berjarak sama dari nilai minimum hingga maksimum harga. Label kategori yang digunakan juga sama. Akibatnya, distribusi jumlah produk dan statistik ringkasan lainnya (min, max, bin interval) untuk setiap kategori juga identik dengan bin1.

Meskipun pendekatannya sedikit berbeda, baik bin1 maupun bin2 membagi data harga ke dalam 3 kelompok dengan panjang interval harga yang setara. Namun, keduanya menghasilkan pembagian jumlah produk yang sangat timpang, karena data harga aslinya tidak terdistribusi secara merata. Jika tujuan analisis adalah untuk membagi data ke dalam kelompok produk dengan jumlah yang seimbang, maka pendekatan binning berbasis kuantil (pd.qcut) akan lebih sesuai.

## Binning dengan panjang masing-masing interval tertentu

Pada bagian ini, data harga produk dibagi ke dalam beberapa interval dengan panjang tetap, yaitu 10 satuan harga per bin. Untuk membuat batas bin-nya, digunakan pd.interval_range yang secara otomatis membentuk rentang interval dari nilai minimum hingga maksimum harga dengan frekuensi yang ditentukan (freq=10). Kemudian, pd.cut digunakan untuk mengelompokkan setiap produk ke dalam bin harga yang sesuai. Ini memungkinkan kita melihat distribusi produk berdasarkan rentang harga yang lebih terperinci dan seragam.

In [52]:
df3 = df2.copy()
interval_range = pd.interval_range(start=min(df['price']), freq=10, end=max(df['price']))
df3['bin3'] = pd.cut(df['price'], bins=interval_range, include_lowest=True)
df3

Unnamed: 0,order_id,product_code,product_name,quantity,order_date,price,customer_id,bin1,bin2,bin3
0,493410,TEST001,This is a test product.,5,2010-01-04 09:24:00,4.50,12346.0,Cheap,Cheap,"(0.001, 10.001]"
1,C493411,21539,RETRO SPOTS BUTTER DISH,-1,2010-01-04 09:43:00,4.25,14590.0,Cheap,Cheap,"(0.001, 10.001]"
2,493412,TEST001,This is a test product.,5,2010-01-04 09:53:00,4.50,12346.0,Cheap,Cheap,"(0.001, 10.001]"
6,493414,21844,RETRO SPOT MUG,36,2010-01-04 10:28:00,2.55,14590.0,Cheap,Cheap,"(0.001, 10.001]"
7,493414,21533,RETRO SPOT LARGE MILK JUG,12,2010-01-04 10:28:00,4.25,14590.0,Cheap,Cheap,"(0.001, 10.001]"
...,...,...,...,...,...,...,...,...,...,...
457438,539988,84380,SET OF 3 BUTTERFLY COOKIE CUTTERS,1,2010-12-23 16:06:00,1.25,18116.0,Cheap,Cheap,"(0.001, 10.001]"
457439,539988,84849D,HOT BATHS SOAP HOLDER,1,2010-12-23 16:06:00,1.69,18116.0,Cheap,Cheap,"(0.001, 10.001]"
457440,539988,84849B,FAIRY SOAP SOAP HOLDER,1,2010-12-23 16:06:00,1.69,18116.0,Cheap,Cheap,"(0.001, 10.001]"
457441,539988,22854,CREAM SWEETHEART EGG HOLDER,2,2010-12-23 16:06:00,4.95,18116.0,Cheap,Cheap,"(0.001, 10.001]"


In [53]:
interval_range

IntervalIndex([  (0.001, 10.001],  (10.001, 20.001],  (20.001, 30.001],
                (30.001, 40.001],  (40.001, 50.001],  (50.001, 60.001],
                (60.001, 70.001],  (70.001, 80.001],  (80.001, 90.001],
               (90.001, 100.001]],
              dtype='interval[float64, right]')

In [54]:
bin3_summary = df3.groupby('bin3', observed=True).agg(
    row_cnt=('product_code','count'), 
    min_price=('price','min'), 
    max_price=('price','max'))
bin3_summary['bin_interval'] = bin3_summary['max_price'] - bin3_summary['min_price']
bin3_summary

Unnamed: 0_level_0,row_cnt,min_price,max_price,bin_interval
bin3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
"(0.001, 10.001]",350070,0.01,10.0,9.99
"(10.001, 20.001]",9822,10.08,20.0,9.92
"(20.001, 30.001]",252,20.3,30.0,9.7
"(30.001, 40.001]",242,31.78,39.95,8.17
"(40.001, 50.001]",102,41.12,50.0,8.88
"(50.001, 60.001]",17,50.05,60.0,9.95
"(60.001, 70.001]",15,62.0,70.0,8.0
"(70.001, 80.001]",55,71.61,79.95,8.34
"(80.001, 90.001]",5,80.7,88.5,7.8
"(90.001, 100.001]",20,92.03,100.0,7.97


Distribusi harga produk dalam dataset sangat berat di sebelah kiri (left-skewed), dengan lebih dari 95% produk berada pada rentang harga di bawah 20.000. Seiring naiknya harga, jumlah produk berkurang drastis. Ini mengindikasikan bahwa pasar atau katalog produk yang dianalisis lebih fokus pada produk berbiaya rendah, dengan hanya sedikit item yang tergolong mahal. Pendekatan binning dengan interval tetap ini sangat membantu untuk mengungkap pola distribusi harga yang tidak merata dan sangat jomplang.

## Binning dengan panjang masing-masing bin yang ditentukan sendiri sesuai kebutuhan

Dalam proses ini, dilakukan binning berdasarkan interval harga yang ditentukan secara manual, bukan berdasarkan panjang interval yang tetap seperti sebelumnya. Dataframe df4 dibuat sebagai salinan dari df3 untuk menjaga data sebelumnya tetap aman. Variabel bins_edges berisi tiga titik batas harga, yaitu 0, 30, 80, dan 100, yang membentuk tiga kategori 'Cheap', 'Medium', dan 'Expensive'

In [55]:
df4 = df3.copy()
bins_edges = [0, 30, 80, 100]
category = ['Cheap','Medium','Expensive']
df4['bin4'] = pd.cut(df['price'], bins=bins_edges, labels=category, include_lowest=True)
df4

Unnamed: 0,order_id,product_code,product_name,quantity,order_date,price,customer_id,bin1,bin2,bin3,bin4
0,493410,TEST001,This is a test product.,5,2010-01-04 09:24:00,4.50,12346.0,Cheap,Cheap,"(0.001, 10.001]",Cheap
1,C493411,21539,RETRO SPOTS BUTTER DISH,-1,2010-01-04 09:43:00,4.25,14590.0,Cheap,Cheap,"(0.001, 10.001]",Cheap
2,493412,TEST001,This is a test product.,5,2010-01-04 09:53:00,4.50,12346.0,Cheap,Cheap,"(0.001, 10.001]",Cheap
6,493414,21844,RETRO SPOT MUG,36,2010-01-04 10:28:00,2.55,14590.0,Cheap,Cheap,"(0.001, 10.001]",Cheap
7,493414,21533,RETRO SPOT LARGE MILK JUG,12,2010-01-04 10:28:00,4.25,14590.0,Cheap,Cheap,"(0.001, 10.001]",Cheap
...,...,...,...,...,...,...,...,...,...,...,...
457438,539988,84380,SET OF 3 BUTTERFLY COOKIE CUTTERS,1,2010-12-23 16:06:00,1.25,18116.0,Cheap,Cheap,"(0.001, 10.001]",Cheap
457439,539988,84849D,HOT BATHS SOAP HOLDER,1,2010-12-23 16:06:00,1.69,18116.0,Cheap,Cheap,"(0.001, 10.001]",Cheap
457440,539988,84849B,FAIRY SOAP SOAP HOLDER,1,2010-12-23 16:06:00,1.69,18116.0,Cheap,Cheap,"(0.001, 10.001]",Cheap
457441,539988,22854,CREAM SWEETHEART EGG HOLDER,2,2010-12-23 16:06:00,4.95,18116.0,Cheap,Cheap,"(0.001, 10.001]",Cheap


In [56]:
bin4_summary = df4.groupby('bin4', observed=True).agg(
    row_cnt=('product_code','count'), 
    min_price=('price','min'), 
    max_price=('price','max'))
bin4_summary['bin_interval'] = bin4_summary['max_price'] - bin4_summary['min_price']
bin4_summary

Unnamed: 0_level_0,row_cnt,min_price,max_price,bin_interval
bin4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Cheap,360157,0.001,30.0,29.999
Medium,431,31.78,79.95,48.17
Expensive,25,80.7,100.0,19.3


Distribusi harga sangat tidak merata, di mana sebagian besar produk berada di rentang harga rendah (Cheap), sedangkan segmen Medium dan Expensive hanya diisi oleh sedikit produk. Ini memberi gambaran bahwa strategi harga atau stok mungkin lebih berfokus pada produk-produk murah.

## Binning dengan banyaknya bins tertentu dan banyaknya anggota setiap bin sama

ada tahap ini, dilakukan proses binning menggunakan metode kuantil (qcut) untuk membagi data harga (price) ke dalam 3 kelompok (bins), yaitu Cheap, Medium, dan Expensive, yang masing-masing memiliki jumlah anggota (produk) yang relatif sama. Tidak seperti cut yang membagi berdasarkan rentang nilai tetap, qcut secara otomatis menentukan batas interval sehingga setiap bin mencakup proporsi data yang sama. Label kategori digunakan untuk mendeskripsikan setiap bin secara intuitif.

In [57]:
df5 = df4.copy()
category = ['Cheap','Medium','Expensive']
df5['bin5'] = pd.qcut(df['price'], q=3, labels=category)
df5

Unnamed: 0,order_id,product_code,product_name,quantity,order_date,price,customer_id,bin1,bin2,bin3,bin4,bin5
0,493410,TEST001,This is a test product.,5,2010-01-04 09:24:00,4.50,12346.0,Cheap,Cheap,"(0.001, 10.001]",Cheap,Expensive
1,C493411,21539,RETRO SPOTS BUTTER DISH,-1,2010-01-04 09:43:00,4.25,14590.0,Cheap,Cheap,"(0.001, 10.001]",Cheap,Expensive
2,493412,TEST001,This is a test product.,5,2010-01-04 09:53:00,4.50,12346.0,Cheap,Cheap,"(0.001, 10.001]",Cheap,Expensive
6,493414,21844,RETRO SPOT MUG,36,2010-01-04 10:28:00,2.55,14590.0,Cheap,Cheap,"(0.001, 10.001]",Cheap,Medium
7,493414,21533,RETRO SPOT LARGE MILK JUG,12,2010-01-04 10:28:00,4.25,14590.0,Cheap,Cheap,"(0.001, 10.001]",Cheap,Expensive
...,...,...,...,...,...,...,...,...,...,...,...,...
457438,539988,84380,SET OF 3 BUTTERFLY COOKIE CUTTERS,1,2010-12-23 16:06:00,1.25,18116.0,Cheap,Cheap,"(0.001, 10.001]",Cheap,Cheap
457439,539988,84849D,HOT BATHS SOAP HOLDER,1,2010-12-23 16:06:00,1.69,18116.0,Cheap,Cheap,"(0.001, 10.001]",Cheap,Medium
457440,539988,84849B,FAIRY SOAP SOAP HOLDER,1,2010-12-23 16:06:00,1.69,18116.0,Cheap,Cheap,"(0.001, 10.001]",Cheap,Medium
457441,539988,22854,CREAM SWEETHEART EGG HOLDER,2,2010-12-23 16:06:00,4.95,18116.0,Cheap,Cheap,"(0.001, 10.001]",Cheap,Expensive


In [58]:
bin5_summary = df5.groupby('bin5', observed=True).agg(
    row_cnt=('product_code','count'), 
    min_price=('price','min'), 
    max_price=('price','max'))
bin5_summary['bin_interval'] = bin5_summary['max_price'] - bin5_summary['min_price']
bin5_summary

Unnamed: 0_level_0,row_cnt,min_price,max_price,bin_interval
bin5,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Cheap,122747,0.001,1.25,1.249
Medium,136197,1.27,2.95,1.68
Expensive,101669,2.98,100.0,97.02


qcut berhasil membagi jumlah produk ke dalam 3 kelompok yang seimbang secara kuantitas, namun tidak merata dari segi rentang harga. Kelompok Expensive memiliki variasi harga yang jauh lebih besar dibandingkan dua kelompok lainnya.

# Mengelompokkan data dengan case statement
Tujuan utama kode ini adalah untuk mengelompokkan produk berdasarkan jenis dan kisaran harga agar memudahkan analisis seperti segmentasi produk, perbandingan harga antar kategori, atau visualisasi lanjutan.

In [59]:
df6 = df.copy()
df6['price_class'] = np.select(
    [(df6['product_name'].str.lower().str.contains('tea')) & (df6['price']<=2),
     (df6['product_name'].str.lower().str.contains('tea')) & (df6['price'].between(2, 4, inclusive='right')),
     (df6['product_name'].str.lower().str.contains('tea')) & (df6['price']>4),
     (df6['product_name'].str.lower().str.contains('coffee')) & (df6['price']<=3),
     (df6['product_name'].str.lower().str.contains('coffee')) & (df6['price'].between(3, 5, inclusive='right')),
     (df6['product_name'].str.lower().str.contains('coffee')) & (df6['price']>5)],
    ['Cheap Tea', 'Medium Tea', 'Expensive Tea', 'Cheap Coffee', 'Medium Coffee', 'Expensive Coffee'],
    default='Undetermined'
)
df6

Unnamed: 0,order_id,product_code,product_name,quantity,order_date,price,customer_id,price_class
0,493410,TEST001,This is a test product.,5,2010-01-04 09:24:00,4.50,12346.0,Undetermined
1,C493411,21539,RETRO SPOTS BUTTER DISH,-1,2010-01-04 09:43:00,4.25,14590.0,Undetermined
2,493412,TEST001,This is a test product.,5,2010-01-04 09:53:00,4.50,12346.0,Undetermined
6,493414,21844,RETRO SPOT MUG,36,2010-01-04 10:28:00,2.55,14590.0,Undetermined
7,493414,21533,RETRO SPOT LARGE MILK JUG,12,2010-01-04 10:28:00,4.25,14590.0,Undetermined
...,...,...,...,...,...,...,...,...
457438,539988,84380,SET OF 3 BUTTERFLY COOKIE CUTTERS,1,2010-12-23 16:06:00,1.25,18116.0,Undetermined
457439,539988,84849D,HOT BATHS SOAP HOLDER,1,2010-12-23 16:06:00,1.69,18116.0,Undetermined
457440,539988,84849B,FAIRY SOAP SOAP HOLDER,1,2010-12-23 16:06:00,1.69,18116.0,Undetermined
457441,539988,22854,CREAM SWEETHEART EGG HOLDER,2,2010-12-23 16:06:00,4.95,18116.0,Undetermined


Mengetahui ringkasan statistik

In [60]:
price_class_summary = df6.groupby('price_class').agg(
    row_cnt=('product_code','count'), 
    min_price=('price','min'), 
    max_price=('price','max'))
price_class_summary['price_interval'] = price_class_summary['max_price'] - price_class_summary['min_price']
price_class_summary

Unnamed: 0_level_0,row_cnt,min_price,max_price,price_interval
price_class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Cheap Coffee,1531,0.85,2.95,2.1
Cheap Tea,5500,0.08,2.0,1.92
Expensive Coffee,127,5.45,60.0,54.55
Expensive Tea,3737,4.14,24.95,20.81
Medium Coffee,2,3.95,3.95,0.0
Medium Tea,4318,2.1,4.0,1.9
Undetermined,345398,0.001,100.0,99.999


Beberapa catatan hasil:
* Mayoritas data (345.398 baris) masuk dalam kategori Undetermined, artinya produk tersebut tidak memuatr kata "tea" atau "coffee" dalam product_name, sehingga tidak dapat dikelompokkan berdasarkan aturan yang dibuat.
* Produk teh paling banyak berada dalam kategori Cheap Tea (5.500 produk), diikuti Medium Tea (4.318) dan Expensive Tea (3.737).
* Produk kopi paling banyak berada dalam kategori Cheap Coffee (1.531 produk), disusul Expensive Coffee (127), dan Medium Coffee hanya 2 produk, menunjukkan kategori ini sangat jarang.
* Rentang harga (price interval) untuk produk Expensive Coffee dan Expensive Tea sangat lebar, menunjukkan variasi harga yang tinggi dalam kategori tersebut.
* Sebaliknya, produk dalam kategori Medium Coffee hanya memiliki 2 produk dengan harga yang sama (interval 0), yang menandakan kategori ini kurang representatif dan mungkin perlu diperbaiki batasannya.

Mengetahui data dengan kriteria tertentu

In [62]:
df6[(df6['price_class']=='Undetermined') & (df6['price']==-53594.36)]

Unnamed: 0,order_id,product_code,product_name,quantity,order_date,price,customer_id,price_class


In [63]:
df6[df6['price_class']=='Cheap Tea']

Unnamed: 0,order_id,product_code,product_name,quantity,order_date,price,customer_id,price_class
22,493427,79000,MOROCCAN TEA GLASS,12,2010-01-04 10:43:00,0.85,13287.0,Cheap Tea
112,493433,84991,60 TEATIME FAIRY CAKE CASES,24,2010-01-04 12:51:00,0.55,14709.0,Cheap Tea
455,493467,84991,60 TEATIME FAIRY CAKE CASES,24,2010-01-04 14:29:00,0.55,13004.0,Cheap Tea
698,493573,21067,VINTAGE RED TEATIME MUG,36,2010-01-05 10:18:00,0.38,18145.0,Cheap Tea
831,493667,21067,VINTAGE RED TEATIME MUG,72,2010-01-05 12:13:00,0.38,13253.0,Cheap Tea
...,...,...,...,...,...,...,...,...
456558,539836,21067,VINTAGE RED TEATIME MUG,3,2010-12-22 13:46:00,1.25,17894.0,Cheap Tea
456623,539920,21069,VINTAGE BILLBOARD TEA MUG,6,2010-12-23 11:06:00,1.25,14085.0,Cheap Tea
456627,539920,84946,ANTIQUE SILVER TEA GLASS ETCHED,12,2010-12-23 11:06:00,1.25,14085.0,Cheap Tea
456678,539933,84991,60 TEATIME FAIRY CAKE CASES,24,2010-12-23 11:24:00,0.55,15235.0,Cheap Tea
