In [5]:
pip install missingno

Note: you may need to restart the kernel to use updated packages.


In [6]:
import pandas as pd
import plotly as plt
import plotly.express as px
import plotly.graph_objects as go
import missingno as msno
from tabulate import tabulate as tbl

In [7]:
dataset_cust = pd.read_parquet('dataset_customer.parquet', engine='pyarrow')
dataset_seller = pd.read_parquet('dataset_seller.parquet', engine='pyarrow')
dataset_seller_product = pd.read_parquet('dataset_seller_product.parquet', engine='pyarrow')
dataset_transaksi = pd.read_parquet('dataset_transaksi.parquet', engine='pyarrow')

In [8]:

dataset_cust.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51203 entries, 0 to 51202
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   cust_id        51203 non-null  object
 1   jenis_kelamin  51203 non-null  object
 2   tgl_lahir      51203 non-null  object
 3   tgl_daftar     51203 non-null  object
 4   umur           51203 non-null  int64 
dtypes: int64(1), object(4)
memory usage: 2.0+ MB


In [9]:
dataset_cust[['tgl_lahir', 'tgl_daftar']] = dataset_cust[['tgl_lahir', 'tgl_daftar']].apply(pd.to_datetime)
dataset_cust['jenis_kelamin'] = dataset_cust['jenis_kelamin'].astype('category')

In [10]:
dataset_cust.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51203 entries, 0 to 51202
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   cust_id        51203 non-null  object        
 1   jenis_kelamin  51203 non-null  category      
 2   tgl_lahir      51203 non-null  datetime64[ns]
 3   tgl_daftar     51203 non-null  datetime64[ns]
 4   umur           51203 non-null  int64         
dtypes: category(1), datetime64[ns](2), int64(1), object(1)
memory usage: 1.6+ MB


In [11]:
data_cust_dupecheck = dataset_cust.duplicated().sum()
print('Data Duplikat Customer:\n', data_cust_dupecheck)

Data Duplikat Customer:
 0


In [12]:
dataset_cust.isna().sum()

cust_id          0
jenis_kelamin    0
tgl_lahir        0
tgl_daftar       0
umur             0
dtype: int64

In [13]:
dataset_seller.dtypes

seller_id        object
jenis_kelamin    object
tgl_lahir        object
tgl_daftar       object
umur              int64
dtype: object

In [14]:
dataset_seller['jenis_kelamin'] = dataset_seller['jenis_kelamin'].astype('category')
dataset_seller[['tgl_lahir','tgl_daftar']] = dataset_seller[['tgl_lahir','tgl_daftar']].apply(pd.to_datetime) 

In [15]:
dataset_seller.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 342 entries, 0 to 341
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   seller_id      342 non-null    object        
 1   jenis_kelamin  342 non-null    category      
 2   tgl_lahir      342 non-null    datetime64[ns]
 3   tgl_daftar     342 non-null    datetime64[ns]
 4   umur           342 non-null    int64         
dtypes: category(1), datetime64[ns](2), int64(1), object(1)
memory usage: 11.3+ KB


In [16]:
dataset_seller.isna()
print(dataset_seller.isna().sum())

seller_id        0
jenis_kelamin    0
tgl_lahir        0
tgl_daftar       0
umur             0
dtype: int64


In [17]:
data_seller_dupecheck = dataset_seller.duplicated().sum()
print('Data Duplicate Seller\n', data_seller_dupecheck)

Data Duplicate Seller
 0


In [18]:
dataset_seller.isna().sum()

seller_id        0
jenis_kelamin    0
tgl_lahir        0
tgl_daftar       0
umur             0
dtype: int64

In [19]:
dataset_seller_product.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19012 entries, 0 to 19011
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   product_id   19012 non-null  object 
 1   seller_id    19012 non-null  object 
 2   kategori     19012 non-null  object 
 3   subkategori  19012 non-null  object 
 4   nama_produk  19012 non-null  object 
 5   harga        19012 non-null  float64
 6   harga_rp     19012 non-null  object 
dtypes: float64(1), object(6)
memory usage: 1.0+ MB


In [20]:
dataset_cust.rename(columns={'tgl_lahir':'tgl_lahir_cust','tgl_daftar':'tgl_daftar_cust','umur':'umur_cust','jenis_kelamin':'jenis_kelamin_cust'}, inplace=True)

In [21]:
dataset_cust.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51203 entries, 0 to 51202
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   cust_id             51203 non-null  object        
 1   jenis_kelamin_cust  51203 non-null  category      
 2   tgl_lahir_cust      51203 non-null  datetime64[ns]
 3   tgl_daftar_cust     51203 non-null  datetime64[ns]
 4   umur_cust           51203 non-null  int64         
dtypes: category(1), datetime64[ns](2), int64(1), object(1)
memory usage: 1.6+ MB


In [22]:
dataset_seller.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 342 entries, 0 to 341
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   seller_id      342 non-null    object        
 1   jenis_kelamin  342 non-null    category      
 2   tgl_lahir      342 non-null    datetime64[ns]
 3   tgl_daftar     342 non-null    datetime64[ns]
 4   umur           342 non-null    int64         
dtypes: category(1), datetime64[ns](2), int64(1), object(1)
memory usage: 11.3+ KB


In [23]:
dataset_seller.rename(columns={'jenis_kelamin':'jenis_kelamin_seller','tgl_lahir':'tgl_lahir_seller','tgl_daftar':'tgl_daftar_seller','umur':'umur_seller'}, inplace=True)

In [24]:
dataset_seller.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 342 entries, 0 to 341
Data columns (total 5 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   seller_id             342 non-null    object        
 1   jenis_kelamin_seller  342 non-null    category      
 2   tgl_lahir_seller      342 non-null    datetime64[ns]
 3   tgl_daftar_seller     342 non-null    datetime64[ns]
 4   umur_seller           342 non-null    int64         
dtypes: category(1), datetime64[ns](2), int64(1), object(1)
memory usage: 11.3+ KB


In [25]:
dataset_seller_product.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19012 entries, 0 to 19011
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   product_id   19012 non-null  object 
 1   seller_id    19012 non-null  object 
 2   kategori     19012 non-null  object 
 3   subkategori  19012 non-null  object 
 4   nama_produk  19012 non-null  object 
 5   harga        19012 non-null  float64
 6   harga_rp     19012 non-null  object 
dtypes: float64(1), object(6)
memory usage: 1.0+ MB


In [26]:
dataset_transaksi.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1293863 entries, 4880 to 2093628
Data columns (total 6 columns):
 #   Column            Non-Null Count    Dtype         
---  ------            --------------    -----         
 0   order_id          1293863 non-null  object        
 1   tanggal_beli      1293863 non-null  datetime64[ns]
 2   cust_id           1293863 non-null  object        
 3   seller_id         1293863 non-null  object        
 4   product_id        1293863 non-null  object        
 5   jumlah_pembelian  1293863 non-null  int64         
dtypes: datetime64[ns](1), int64(1), object(4)
memory usage: 69.1+ MB


In [27]:
data_join = pd.merge(dataset_transaksi, dataset_cust, on='cust_id')
data_join = pd.merge(dataset_seller, data_join, on='seller_id')
data_join = pd.merge(dataset_seller_product, data_join, on=['seller_id','product_id'])

In [28]:
data_join.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1293863 entries, 0 to 1293862
Data columns (total 19 columns):
 #   Column                Non-Null Count    Dtype         
---  ------                --------------    -----         
 0   product_id            1293863 non-null  object        
 1   seller_id             1293863 non-null  object        
 2   kategori              1293863 non-null  object        
 3   subkategori           1293863 non-null  object        
 4   nama_produk           1293863 non-null  object        
 5   harga                 1293863 non-null  float64       
 6   harga_rp              1293863 non-null  object        
 7   jenis_kelamin_seller  1293863 non-null  category      
 8   tgl_lahir_seller      1293863 non-null  datetime64[ns]
 9   tgl_daftar_seller     1293863 non-null  datetime64[ns]
 10  umur_seller           1293863 non-null  int64         
 11  order_id              1293863 non-null  object        
 12  tanggal_beli          1293863 non-null  da

In [29]:
px.pie(dataset_seller, names='jenis_kelamin_seller')

Berdasarkan data yang disajikan, terlihat bahwa jumlah penjual yang berjenis kelamin laki-laki lebih dominan daripada jumlah penjual perempuan. Situasi ini dapat menjadi acuan bagi tim Pemasaran / Branding untuk merancang strategi pemasaran yang lebih terfokus dan efektif.

In [30]:
transaksi_series = dataset_transaksi.groupby('tanggal_beli')['jumlah_pembelian'].sum()

In [31]:
ts_fig = go.Figure(
        go.Scatter(
        x=transaksi_series.index,
        y=transaksi_series,
        mode='lines',
    )
)

ts_fig.update_layout(
    title='Penjualan dari waktu ke waktu',
    xaxis_title='Waktu',
    yaxis_title='Jumlah Pembelian'
)

Berdasarkan data yang tertera, terlihat bahwa platform e-commerce dummy mengalami pertumbuhan dari tahun 2020 hingga 2023.

In [32]:
transaksi = dataset_transaksi
transaksi['tahun'] = dataset_transaksi['tanggal_beli'].dt.year

In [33]:
transaksi.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1293863 entries, 4880 to 2093628
Data columns (total 7 columns):
 #   Column            Non-Null Count    Dtype         
---  ------            --------------    -----         
 0   order_id          1293863 non-null  object        
 1   tanggal_beli      1293863 non-null  datetime64[ns]
 2   cust_id           1293863 non-null  object        
 3   seller_id         1293863 non-null  object        
 4   product_id        1293863 non-null  object        
 5   jumlah_pembelian  1293863 non-null  int64         
 6   tahun             1293863 non-null  int32         
dtypes: datetime64[ns](1), int32(1), int64(1), object(4)
memory usage: 74.0+ MB


In [34]:
transaksi_pertahun = transaksi.groupby('tahun')['cust_id'].nunique()
transaksi_pertahun.index = pd.to_datetime(transaksi_pertahun.index, format='%Y')

In [35]:
go.Figure(
    go.Scatter(
        x=transaksi_pertahun.index,
        y=transaksi_pertahun,
        mode='lines'
    )
)

Berdasarkan data yang tertera, terlihat bahwa platform e-commerce dummy mengalami pertumbuhan dari tahun 2020 hingga 2023.

In [36]:
data_join.columns.tolist()

['product_id',
 'seller_id',
 'kategori',
 'subkategori',
 'nama_produk',
 'harga',
 'harga_rp',
 'jenis_kelamin_seller',
 'tgl_lahir_seller',
 'tgl_daftar_seller',
 'umur_seller',
 'order_id',
 'tanggal_beli',
 'cust_id',
 'jumlah_pembelian',
 'jenis_kelamin_cust',
 'tgl_lahir_cust',
 'tgl_daftar_cust',
 'umur_cust']

In [37]:
# Menghitung total spending per customer per kategori
total_spending = data_join.groupby(['cust_id', 'kategori'])['harga'].sum().reset_index()

# Menghitung jumlah seller per customer
jumlah_seller = data_join.groupby('cust_id')['seller_id'].nunique().reset_index()
jumlah_seller.columns = ['cust_id', 'jumlah_seller']

# Menghitung jumlah reorder barang yang sama per customer
jumlah_reorder = data_join.groupby(['cust_id', 'product_id'])['order_id'].count().reset_index()
jumlah_reorder = jumlah_reorder[jumlah_reorder['order_id'] > 1]
jumlah_reorder = jumlah_reorder.groupby('cust_id')['order_id'].count().reset_index()
jumlah_reorder.columns = ['cust_id', 'jumlah_reorder']

# Menggabungkan hasil perhitungan menjadi satu tabel
tabel_hasil = pd.merge(total_spending, jumlah_seller, on='cust_id')
tabel_hasil = pd.merge(tabel_hasil, jumlah_reorder, on='cust_id')

# Menampilkan tabel hasil
print(tabel_hasil)


       cust_id    kategori       harga  jumlah_seller  jumlah_reorder
0      001E5MJ    cosmetic   5999690.0             37               1
1      001E5MJ     fashion  16896600.0             37               1
2      001E5MJ   groceries    268288.5             37               1
3      001E5MJ     hobbies   6746825.0             37               1
4      008UJAI    cosmetic   2812100.0             38               1
...        ...         ...         ...            ...             ...
15518  ZZZ5GVN    cosmetic   5611635.0             35               3
15519  ZZZ5GVN  electronic  13440000.0             35               3
15520  ZZZ5GVN     fashion   6105000.0             35               3
15521  ZZZ5GVN   groceries    182546.0             35               3
15522  ZZZ5GVN     hobbies  18040055.0             35               3

[15523 rows x 5 columns]


In [38]:
tab_hasil = tabel_hasil.values.tolist()
header_hasil = tabel_hasil.columns.tolist()
print(tbl(tab_hasil, headers=header_hasil, tablefmt='fancy_grid'))

╒═══════════╤════════════╤══════════════════╤═════════════════╤══════════════════╕
│ cust_id   │ kategori   │            harga │   jumlah_seller │   jumlah_reorder │
╞═══════════╪════════════╪══════════════════╪═════════════════╪══════════════════╡
│ 001E5MJ   │ cosmetic   │      5.99969e+06 │              37 │                1 │
├───────────┼────────────┼──────────────────┼─────────────────┼──────────────────┤
│ 001E5MJ   │ fashion    │      1.68966e+07 │              37 │                1 │
├───────────┼────────────┼──────────────────┼─────────────────┼──────────────────┤
│ 001E5MJ   │ groceries  │ 268288           │              37 │                1 │
├───────────┼────────────┼──────────────────┼─────────────────┼──────────────────┤
│ 001E5MJ   │ hobbies    │      6.74683e+06 │              37 │                1 │
├───────────┼────────────┼──────────────────┼─────────────────┼──────────────────┤
│ 008UJAI   │ cosmetic   │      2.8121e+06  │              38 │                1 │
├───

In [39]:
# Menghitung jumlah pembelian untuk setiap bulan
## Beserta nilai valuasi dan jumlah order yang dilakukan
# Hitung jumlah customer baru
# Hitung jumlah seller baru
# Hitung jumlah produk baru
# Hitung nilai kumulatif tahunan dari pembelian yang dilakukan (jumlah pembelian, valuasi dan nilai order)

data_join['tahun'] = data_join['tanggal_beli'].dt.year
data_join['bulan'] = data_join['tanggal_beli'].dt.month

In [40]:
data_join.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1293863 entries, 0 to 1293862
Data columns (total 21 columns):
 #   Column                Non-Null Count    Dtype         
---  ------                --------------    -----         
 0   product_id            1293863 non-null  object        
 1   seller_id             1293863 non-null  object        
 2   kategori              1293863 non-null  object        
 3   subkategori           1293863 non-null  object        
 4   nama_produk           1293863 non-null  object        
 5   harga                 1293863 non-null  float64       
 6   harga_rp              1293863 non-null  object        
 7   jenis_kelamin_seller  1293863 non-null  category      
 8   tgl_lahir_seller      1293863 non-null  datetime64[ns]
 9   tgl_daftar_seller     1293863 non-null  datetime64[ns]
 10  umur_seller           1293863 non-null  int64         
 11  order_id              1293863 non-null  object        
 12  tanggal_beli          1293863 non-null  da

In [41]:
# Jumlah pembelian setiap bulan
### Karena menghitung valuasi adalah jumlah pembelian * harga, maka kita juga perlu melakukan sum pada harga terlebih dahulu
summarys = data_join.groupby(['tahun','bulan']).agg({'jumlah_pembelian':'sum','order_id':'count','harga':'sum'}).reset_index()

In [42]:
summarys.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33 entries, 0 to 32
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   tahun             33 non-null     int32  
 1   bulan             33 non-null     int32  
 2   jumlah_pembelian  33 non-null     int64  
 3   order_id          33 non-null     int64  
 4   harga             33 non-null     float64
dtypes: float64(1), int32(2), int64(2)
memory usage: 1.2 KB


In [43]:
# Setelah itu baru kita hitung valuasi berdasarkan jumlah pembelian dan harga yang sudah di sum
summarys['valuasi'] = summarys['jumlah_pembelian'] * summarys['harga']

In [44]:
summarys.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33 entries, 0 to 32
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   tahun             33 non-null     int32  
 1   bulan             33 non-null     int32  
 2   jumlah_pembelian  33 non-null     int64  
 3   order_id          33 non-null     int64  
 4   harga             33 non-null     float64
 5   valuasi           33 non-null     float64
dtypes: float64(2), int32(2), int64(2)
memory usage: 1.4 KB


In [45]:
# Hitung customer, seller dan product baru
summarys['jumlah_cust_baru'] = data_join.groupby(['tahun','bulan'])['cust_id'].nunique().values
summarys['jumlah_seller_baru'] = data_join.groupby(['tahun','bulan'])['seller_id'].nunique().values
summarys['jumlah_produk_baru'] = data_join.groupby(['tahun','bulan'])['product_id'].nunique().values

In [46]:
summarys.rename(columns={'order_id':'jumlah_order'}, inplace=True)

In [47]:
# Hitung nilai kumulatif tahunan dari pembelian yang dilakukan (jumlah pembelian, valuasi dan nilai order)
summarys['jumlah_pembelian_kumulatif'] = summarys.groupby('tahun')['jumlah_pembelian'].cumsum()
summarys['jumlah_valuasi_kumulatif'] = summarys.groupby('tahun')['valuasi'].cumsum()
summarys['jumlah_order_kumulatif'] = summarys.groupby('tahun')['jumlah_order'].cumsum()

In [48]:
sum_tab = summarys.values.tolist()
header = summarys.columns.tolist()
print(tbl(sum_tab, headers=header, tablefmt='fancy_grid'))

╒═════════╤═════════╤════════════════════╤════════════════╤═════════════╤═════════════╤════════════════════╤══════════════════════╤══════════════════════╤══════════════════════════════╤════════════════════════════╤══════════════════════════╕
│   tahun │   bulan │   jumlah_pembelian │   jumlah_order │       harga │     valuasi │   jumlah_cust_baru │   jumlah_seller_baru │   jumlah_produk_baru │   jumlah_pembelian_kumulatif │   jumlah_valuasi_kumulatif │   jumlah_order_kumulatif │
╞═════════╪═════════╪════════════════════╪════════════════╪═════════════╪═════════════╪════════════════════╪══════════════════════╪══════════════════════╪══════════════════════════════╪════════════════════════════╪══════════════════════════╡
│    2020 │       6 │                 65 │             18 │ 4.59096e+06 │ 2.98412e+08 │                 15 │                    3 │                   17 │                 65           │                2.98412e+08 │                       18 │
├─────────┼─────────┼───────────

In [49]:
data_join.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1293863 entries, 0 to 1293862
Data columns (total 21 columns):
 #   Column                Non-Null Count    Dtype         
---  ------                --------------    -----         
 0   product_id            1293863 non-null  object        
 1   seller_id             1293863 non-null  object        
 2   kategori              1293863 non-null  object        
 3   subkategori           1293863 non-null  object        
 4   nama_produk           1293863 non-null  object        
 5   harga                 1293863 non-null  float64       
 6   harga_rp              1293863 non-null  object        
 7   jenis_kelamin_seller  1293863 non-null  category      
 8   tgl_lahir_seller      1293863 non-null  datetime64[ns]
 9   tgl_daftar_seller     1293863 non-null  datetime64[ns]
 10  umur_seller           1293863 non-null  int64         
 11  order_id              1293863 non-null  object        
 12  tanggal_beli          1293863 non-null  da

In [50]:
data_join.columns.to_list()

['product_id',
 'seller_id',
 'kategori',
 'subkategori',
 'nama_produk',
 'harga',
 'harga_rp',
 'jenis_kelamin_seller',
 'tgl_lahir_seller',
 'tgl_daftar_seller',
 'umur_seller',
 'order_id',
 'tanggal_beli',
 'cust_id',
 'jumlah_pembelian',
 'jenis_kelamin_cust',
 'tgl_lahir_cust',
 'tgl_daftar_cust',
 'umur_cust',
 'tahun',
 'bulan']

In [51]:
data_join.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1293863 entries, 0 to 1293862
Data columns (total 21 columns):
 #   Column                Non-Null Count    Dtype         
---  ------                --------------    -----         
 0   product_id            1293863 non-null  object        
 1   seller_id             1293863 non-null  object        
 2   kategori              1293863 non-null  object        
 3   subkategori           1293863 non-null  object        
 4   nama_produk           1293863 non-null  object        
 5   harga                 1293863 non-null  float64       
 6   harga_rp              1293863 non-null  object        
 7   jenis_kelamin_seller  1293863 non-null  category      
 8   tgl_lahir_seller      1293863 non-null  datetime64[ns]
 9   tgl_daftar_seller     1293863 non-null  datetime64[ns]
 10  umur_seller           1293863 non-null  int64         
 11  order_id              1293863 non-null  object        
 12  tanggal_beli          1293863 non-null  da

In [52]:
# Mengubah kolom 'tanggal_beli' menjadi tipe data datetime
data_join['tanggal_beli'] = pd.to_datetime(data_join['tanggal_beli'])

# Mengambil tanggal pertama kali terjadi aktivitas pembelian
tanggal_pertama = data_join['tanggal_beli'].min()

# Membuat range bulan dari tanggal pertama hingga tanggal terakhir dalam data
bulan_range = pd.date_range(start=tanggal_pertama, end=data_join['tanggal_beli'].max(), freq='M')

# Membuat list untuk menyimpan hasil perhitungan
hasil_perbulan = []

# Iterasi untuk setiap bulan dalam range
for bulan in bulan_range:
    # Menghitung tanggal tiga bulan yang lalu dari bulan saat ini
    tiga_bulan_lalu = bulan - pd.DateOffset(months=3)
    
    # Menghitung tanggal enam bulan yang lalu dari bulan saat ini
    enam_bulan_lalu = bulan - pd.DateOffset(months=6)
    
    # Memfilter data berdasarkan syarat pembelian dalam 3 bulan terakhir oleh customer dan seller,
    # serta pembelian dalam 6 bulan terakhir untuk produk
    data_customer_aktif = data_join[(data_join['tanggal_beli'] >= tiga_bulan_lalu) & (data_join['tanggal_beli'] <= bulan)]
    data_seller_aktif = data_join[(data_join['tanggal_beli'] >= tiga_bulan_lalu) & (data_join['tanggal_beli'] <= bulan)]
    data_produk_aktif = data_join[(data_join['tanggal_beli'] >= enam_bulan_lalu) & (data_join['tanggal_beli'] <= bulan)]
    
    # Menghitung jumlah customer aktif
    jumlah_customer_aktif = data_customer_aktif['cust_id'].nunique()

    # Menghitung jumlah seller aktif
    jumlah_seller_aktif = data_seller_aktif['seller_id'].nunique()

    # Menghitung jumlah produk aktif
    jumlah_produk_aktif = data_produk_aktif['product_id'].nunique()

    # Menambahkan hasil perhitungan ke dalam list
    hasil_perbulan.append({
        'Bulan': bulan.strftime('%B %Y'),
        'Jumlah Customer Aktif': jumlah_customer_aktif,
        'Jumlah Seller Aktif': jumlah_seller_aktif,
        'Jumlah Produk Aktif': jumlah_produk_aktif
    })

# Membuat dataframe dari list hasil perbulan
tabel_hasil = pd.DataFrame(hasil_perbulan)

print(tabel_hasil)


             Bulan  Jumlah Customer Aktif  Jumlah Seller Aktif  \
0        June 2020                     15                    3   
1        July 2020                    193                   12   
2      August 2020                    903                   25   
3   September 2020                   2208                   34   
4     October 2020                   4348                   46   
5    November 2020                   6826                   59   
6    December 2020                   9628                   61   
7     January 2021                  12096                   71   
8    February 2021                  14395                   80   
9       March 2021                  16469                   82   
10      April 2021                  18711                   98   
11        May 2021                  21442                  111   
12       June 2021                  23829                  129   
13       July 2021                  26317                  141   
14     Aug