# Proyek Analisis Data: E-Commerce Public Dataset
- **Nama:** Fiyanda Ma'muri
- **Email:** fiyandamamuri@gmail.com
- **ID Dicoding:** fiyandamamuri

## Menentukan Pertanyaan Bisnis
- Pertanyaan 1 : Bagaimana distribusi pelanggan per kota selama periode data yang tersedia (2016-2018), dan apakah terjadi perubahan signifikan di 5 kota teratas dibandingkan dengan kota lainnya?

- Pertanyaan 2 : Bagaimana tren penggunaan metode pembayaran pelanggan dari tahun 2016-2018, dan metode mana yang memberikan kontribusi terbesar terhadap total transaksi?

- Pertanyaan 3 : Bagaimana tren jumlah pesanan per bulan selama periode 2016–2018, dan apakah terdapat pola musiman atau perubahan signifikan yang dapat menjadi dasar strategi promosi dan pengelolaan inventaris?

- Pertanyaan 4 : Kategori produk apa yang paling populer selama tahun 2024, dan bagaimana perubahannya dibandingkan dengan tahun sebelumnya?

- Pertanyaan 5 : Berapa rata-rata waktu pengiriman (dari pembelian hingga diterima pelanggan) selama periode 2016–2018, dan apakah terdapat perbedaan signifikan antar kota atau wilayah?

- Pertanyaan 6 : Bagaimana distribusi skor ulasan pelanggan, dan apakah terdapat hubungan antara review_score dengan waktu pengiriman atau nilai transaksi?

- Pertanyaan 7 : Siapa saja penjual dengan total penjualan tertinggi, dan bagaimana rata-rata waktu pengiriman mereka dibandingkan dengan penjual lain?

- Pertanyaan 8 : Berapa rata-rata nilai transaksi per pesanan dan bagaimana perubahannya dari tahun ke tahun?

- Pertanyaan 9 : Berapa proporsi pelanggan baru vs pelanggan yang melakukan pembelian ulang selama periode 2016–2018?

- Pertanyaan 10 : Bagaimana performa penjualan dan rata-rata nilai transaksi per negara bagian (state), dan area mana yang paling berkontribusi terhadap total revenue?

- Pertanyaan 11 : Bagaimana segmentasi pelanggan berdasarkan nilai Recency, Frequency, dan Monetary selama periode 2016–2018, dan segmen pelanggan mana yang paling berpotensi untuk program retensi atau promosi loyalitas?

## Import Packages/Library

In [38]:
import pandas as pd
pd.set_option('display.max_columns', None)
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Data Wrangling

### Gathering Data

In [2]:
order_items = pd.read_csv('datasets/order_items_dataset.csv')
order_items.info()
order_items.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   order_id             112650 non-null  object 
 1   order_item_id        112650 non-null  int64  
 2   product_id           112650 non-null  object 
 3   seller_id            112650 non-null  object 
 4   shipping_limit_date  112650 non-null  object 
 5   price                112650 non-null  float64
 6   freight_value        112650 non-null  float64
dtypes: float64(2), int64(1), object(4)
memory usage: 6.0+ MB


Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87
3,00024acbcdf0a6daa1e931b038114c75,1,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,2018-08-15 10:10:18,12.99,12.79
4,00042b26cf59d7ce69dfabb4e55b4fd9,1,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,2017-02-13 13:57:51,199.9,18.14


**order_items_dataset**

| Kolom                 | Deskripsi                                    |
| --------------------- | -------------------------------------------- |
| `order_id`            | ID pesanan (menghubungkan ke tabel `orders`) |
| `order_item_id`       | Urutan item dalam satu pesanan (1, 2, dst.)  |
| `product_id`          | ID produk yang dibeli                        |
| `seller_id`           | ID penjual yang menjual produk tersebut      |
| `shipping_limit_date` | Batas waktu penjual untuk mengirim produk    |
| `price`               | Harga produk (tanpa ongkir)                  |
| `freight_value`       | Biaya pengiriman untuk item tersebut         |



In [3]:
order_reviews = pd.read_csv("datasets/order_reviews_dataset.csv")
order_reviews.info()
order_reviews.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99224 entries, 0 to 99223
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   review_id                99224 non-null  object
 1   order_id                 99224 non-null  object
 2   review_score             99224 non-null  int64 
 3   review_comment_title     11568 non-null  object
 4   review_comment_message   40977 non-null  object
 5   review_creation_date     99224 non-null  object
 6   review_answer_timestamp  99224 non-null  object
dtypes: int64(1), object(6)
memory usage: 5.3+ MB


Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,7bc2406110b926393aa56f80a40eba40,73fc7af87114b39712e6da79b0a377eb,4,,,2018-01-18 00:00:00,2018-01-18 21:46:59
1,80e641a11e56f04c1ad469d5645fdfde,a548910a1c6147796b98fdf73dbeba33,5,,,2018-03-10 00:00:00,2018-03-11 03:05:13
2,228ce5500dc1d8e020d8d1322874b6f0,f9e4b658b201a9f2ecdecbb34bed034b,5,,,2018-02-17 00:00:00,2018-02-18 14:36:24
3,e64fb393e7b32834bb789ff8bb30750e,658677c97b385a9be170737859d3511b,5,,Recebi bem antes do prazo estipulado.,2017-04-21 00:00:00,2017-04-21 22:02:06
4,f7c4243c7fe1938f181bec41a392bdeb,8e6bfb81e283fa7e4f11123a3fb894f1,5,,Parabéns lojas lannister adorei comprar pela I...,2018-03-01 00:00:00,2018-03-02 10:26:53


**order_reviews_datasets**

| Kolom                     | Deskripsi                                     |
| ------------------------- | --------------------------------------------- |
| `review_id`               | ID unik untuk setiap ulasan pelanggan         |
| `order_id`                | ID pesanan yang diulas                        |
| `review_score`            | Skor ulasan (1–5)                             |
| `review_comment_title`    | Judul singkat ulasan pelanggan                |
| `review_comment_message`  | Isi komentar atau ulasan pelanggan            |
| `review_creation_date`    | Tanggal ulasan dibuat                         |
| `review_answer_timestamp` | Tanggal sistem merespons atau mencatat ulasan |


In [4]:
orders = pd.read_csv("datasets/orders_dataset.csv")
orders.info()
orders.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   order_id                       99441 non-null  object
 1   customer_id                    99441 non-null  object
 2   order_status                   99441 non-null  object
 3   order_purchase_timestamp       99441 non-null  object
 4   order_approved_at              99281 non-null  object
 5   order_delivered_carrier_date   97658 non-null  object
 6   order_delivered_customer_date  96476 non-null  object
 7   order_estimated_delivery_date  99441 non-null  object
dtypes: object(8)
memory usage: 6.1+ MB


Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15 00:00:00
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26 00:00:00


**orders_dataset**

| Kolom                           | Deskripsi                                           |
| ------------------------------- | --------------------------------------------------- |
| `order_id`                      | ID unik untuk setiap pesanan pelanggan              |
| `customer_id`                   | ID unik untuk pelanggan yang melakukan pesanan      |
| `order_status`                  | Status pesanan (delivered, shipped, canceled, dll.) |
| `order_purchase_timestamp`      | Tanggal & waktu pesanan dibuat oleh pelanggan       |
| `order_approved_at`             | Tanggal & waktu pesanan disetujui oleh sistem       |
| `order_delivered_carrier_date`  | Tanggal pesanan dikirim ke ekspedisi                |
| `order_delivered_customer_date` | Tanggal pesanan diterima oleh pelanggan             |
| `order_estimated_delivery_date` | Estimasi tanggal pesanan akan diterima pelanggan    |


In [5]:
products = pd.read_csv("datasets/products_dataset.csv")
products.info()
products.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32951 entries, 0 to 32950
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   product_id                  32951 non-null  object 
 1   product_category_name       32341 non-null  object 
 2   product_name_lenght         32341 non-null  float64
 3   product_description_lenght  32341 non-null  float64
 4   product_photos_qty          32341 non-null  float64
 5   product_weight_g            32949 non-null  float64
 6   product_length_cm           32949 non-null  float64
 7   product_height_cm           32949 non-null  float64
 8   product_width_cm            32949 non-null  float64
dtypes: float64(7), object(2)
memory usage: 2.3+ MB


Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
0,1e9e8ef04dbcff4541ed26657ea517e5,perfumaria,40.0,287.0,1.0,225.0,16.0,10.0,14.0
1,3aa071139cb16b67ca9e5dea641aaa2f,artes,44.0,276.0,1.0,1000.0,30.0,18.0,20.0
2,96bd76ec8810374ed1b65e291975717f,esporte_lazer,46.0,250.0,1.0,154.0,18.0,9.0,15.0
3,cef67bcfe19066a932b7673e239eb23d,bebes,27.0,261.0,1.0,371.0,26.0,4.0,26.0
4,9dc1a7de274444849c219cff195d0b71,utilidades_domesticas,37.0,402.0,4.0,625.0,20.0,17.0,13.0


**products_dataset**

| Kolom                        | Deskripsi                                    |
| ---------------------------- | -------------------------------------------- |
| `product_id`                 | ID produk                                    |
| `product_category_name`      | Nama kategori produk (dalam bahasa Portugis) |
| `product_name_lenght`        | Panjang nama produk (jumlah karakter)        |
| `product_description_lenght` | Panjang deskripsi produk                     |
| `product_photos_qty`         | Jumlah foto produk                           |
| `product_weight_g`           | Berat produk (gram)                          |
| `product_length_cm`          | Panjang produk (cm)                          |
| `product_height_cm`          | Tinggi produk (cm)                           |
| `product_width_cm`           | Lebar produk (cm)                            |


In [6]:
geolocation = pd.read_csv("datasets/geolocation_dataset.csv")
geolocation.info()
geolocation.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000163 entries, 0 to 1000162
Data columns (total 5 columns):
 #   Column                       Non-Null Count    Dtype  
---  ------                       --------------    -----  
 0   geolocation_zip_code_prefix  1000163 non-null  int64  
 1   geolocation_lat              1000163 non-null  float64
 2   geolocation_lng              1000163 non-null  float64
 3   geolocation_city             1000163 non-null  object 
 4   geolocation_state            1000163 non-null  object 
dtypes: float64(2), int64(1), object(2)
memory usage: 38.2+ MB


Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,1037,-23.545621,-46.639292,sao paulo,SP
1,1046,-23.546081,-46.64482,sao paulo,SP
2,1046,-23.546129,-46.642951,sao paulo,SP
3,1041,-23.544392,-46.639499,sao paulo,SP
4,1035,-23.541578,-46.641607,sao paulo,SP


**geolocation_dataset**

| Kolom                         | Deskripsi                     |
| ----------------------------- | ----------------------------- |
| `geolocation_zip_code_prefix` | Kode pos wilayah              |
| `geolocation_lat`             | Koordinat lintang (latitude)  |
| `geolocation_lng`             | Koordinat bujur (longitude)   |
| `geolocation_city`            | Nama kota                     |
| `geolocation_state`           | Kode negara bagian (provinsi) |


In [7]:
sellers = pd.read_csv("datasets/sellers_dataset.csv")
sellers.info()
sellers.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3095 entries, 0 to 3094
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   seller_id               3095 non-null   object
 1   seller_zip_code_prefix  3095 non-null   int64 
 2   seller_city             3095 non-null   object
 3   seller_state            3095 non-null   object
dtypes: int64(1), object(3)
memory usage: 96.8+ KB


Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
0,3442f8959a84dea7ee197c632cb2df15,13023,campinas,SP
1,d1b65fc7debc3361ea86b5f14c68d2e2,13844,mogi guacu,SP
2,ce3ad9de960102d0677a81f5d0bb7b2d,20031,rio de janeiro,RJ
3,c0f3eea2e14555b6faeea3dd58c1b1c3,4195,sao paulo,SP
4,51a04a8a6bdcb23deccc82b0b80742cf,12914,braganca paulista,SP


**sellers_dataset**

| Kolom                    | Deskripsi                        |
| ------------------------ | -------------------------------- |
| `seller_id`              | ID unik untuk setiap penjual     |
| `seller_zip_code_prefix` | Kode pos penjual                 |
| `seller_city`            | Kota tempat penjual berada       |
| `seller_state`           | Negara bagian (provinsi) penjual |


In [8]:
order_payments = pd.read_csv("datasets/order_payments_dataset.csv")
order_payments.info()
order_payments.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103886 entries, 0 to 103885
Data columns (total 5 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   order_id              103886 non-null  object 
 1   payment_sequential    103886 non-null  int64  
 2   payment_type          103886 non-null  object 
 3   payment_installments  103886 non-null  int64  
 4   payment_value         103886 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 4.0+ MB


Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
0,b81ef226f3fe1789b1e8b2acac839d17,1,credit_card,8,99.33
1,a9810da82917af2d9aefd1278f1dcfa0,1,credit_card,1,24.39
2,25e8ea4e93396b6fa0d3dd708e76c1bd,1,credit_card,1,65.71
3,ba78997921bbcdc1373bb41e913ab953,1,credit_card,8,107.78
4,42fdf880ba16b47b59251dd489d4441a,1,credit_card,2,128.45


**order_payments**

| Kolom                  | Deskripsi                                             |
| ---------------------- | ----------------------------------------------------- |
| `order_id`             | ID pesanan (relasi ke `orders`)                       |
| `payment_sequential`   | Urutan pembayaran untuk satu pesanan                  |
| `payment_type`         | Jenis pembayaran (credit_card, boleto, voucher, dll.) |
| `payment_installments` | Jumlah cicilan pembayaran                             |
| `payment_value`        | Total nilai pembayaran (termasuk biaya tambahan)      |


In [9]:
customers = pd.read_csv("datasets/customers_dataset.csv")
customers.info()
customers.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 5 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   customer_id               99441 non-null  object
 1   customer_unique_id        99441 non-null  object
 2   customer_zip_code_prefix  99441 non-null  int64 
 3   customer_city             99441 non-null  object
 4   customer_state            99441 non-null  object
dtypes: int64(1), object(4)
memory usage: 3.8+ MB


Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP


**customers_dataset**

| Kolom                      | Deskripsi                                                                              |
| -------------------------- | -------------------------------------------------------------------------------------- |
| `customer_id`              | ID pelanggan (relasi ke tabel `orders`)                                                |
| `customer_unique_id`       | ID unik untuk pelanggan di seluruh pesanan (pelanggan bisa punya banyak `customer_id`) |
| `customer_zip_code_prefix` | Kode pos pelanggan                                                                     |
| `customer_city`            | Kota tempat pelanggan tinggal                                                          |
| `customer_state`           | Negara bagian (provinsi) pelanggan                                                     |


In [10]:
product_category_name_translation = pd.read_csv("datasets/product_category_name_translation.csv")
product_category_name_translation.info()
product_category_name_translation.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 71 entries, 0 to 70
Data columns (total 2 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   product_category_name          71 non-null     object
 1   product_category_name_english  71 non-null     object
dtypes: object(2)
memory usage: 1.2+ KB


Unnamed: 0,product_category_name,product_category_name_english
0,beleza_saude,health_beauty
1,informatica_acessorios,computers_accessories
2,automotivo,auto
3,cama_mesa_banho,bed_bath_table
4,moveis_decoracao,furniture_decor


**product_category_name_translation**

| Kolom                           | Deskripsi                              |
| ------------------------------- | -------------------------------------- |
| `product_category_name`         | Nama kategori produk (bahasa Portugis) |
| `product_category_name_english` | Nama kategori produk (bahasa Inggris)  |


In [11]:
# Menggabungkan data dari beberapa tabel
merged_data = order_items.merge(orders, on='order_id', how='left') \
    .merge(order_reviews, on='order_id', how='left') \
    .merge(products, on='product_id', how='left') \
    .merge(customers, on='customer_id', how='left') \
    .merge(order_payments, on='order_id', how='left') \
    .merge(sellers, on='seller_id', how='left') \
    .merge(product_category_name_translation, left_on='product_category_name', right_on='product_category_name', how='left')

In [12]:
merged_data.info()
merged_data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 118310 entries, 0 to 118309
Data columns (total 40 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   order_id                       118310 non-null  object 
 1   order_item_id                  118310 non-null  int64  
 2   product_id                     118310 non-null  object 
 3   seller_id                      118310 non-null  object 
 4   shipping_limit_date            118310 non-null  object 
 5   price                          118310 non-null  float64
 6   freight_value                  118310 non-null  float64
 7   customer_id                    118310 non-null  object 
 8   order_status                   118310 non-null  object 
 9   order_purchase_timestamp       118310 non-null  object 
 10  order_approved_at              118295 non-null  object 
 11  order_delivered_carrier_date   117056 non-null  object 
 12  order_delivered_customer_date 

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value,customer_id,order_status,order_purchase_timestamp,...,customer_city,customer_state,payment_sequential,payment_type,payment_installments,payment_value,seller_zip_code_prefix,seller_city,seller_state,product_category_name_english
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29,3ce436f183e68e07877b285a838db11a,delivered,2017-09-13 08:59:02,...,campos dos goytacazes,RJ,1.0,credit_card,2.0,72.19,27277,volta redonda,SP,cool_stuff
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93,f6dd3ec061db4e3987629fe6b26e5cce,delivered,2017-04-26 10:53:06,...,santa fe do sul,SP,1.0,credit_card,3.0,259.83,3471,sao paulo,SP,pet_shop
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87,6489ae5e4333f3693df5ad4372dab6d3,delivered,2018-01-14 14:33:31,...,para de minas,MG,1.0,credit_card,5.0,216.87,37564,borda da mata,MG,furniture_decor
3,00024acbcdf0a6daa1e931b038114c75,1,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,2018-08-15 10:10:18,12.99,12.79,d4eb9395c8c0431ee92fce09860c5a06,delivered,2018-08-08 10:00:35,...,atibaia,SP,1.0,credit_card,2.0,25.78,14403,franca,SP,perfumery
4,00042b26cf59d7ce69dfabb4e55b4fd9,1,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,2017-02-13 13:57:51,199.9,18.14,58dbd0b2d70206bf40e62cd34e84d795,delivered,2017-02-04 13:57:51,...,varzea paulista,SP,1.0,credit_card,3.0,218.04,87900,loanda,PR,garden_tools


### Assessing Data

In [13]:
merged_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 118310 entries, 0 to 118309
Data columns (total 40 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   order_id                       118310 non-null  object 
 1   order_item_id                  118310 non-null  int64  
 2   product_id                     118310 non-null  object 
 3   seller_id                      118310 non-null  object 
 4   shipping_limit_date            118310 non-null  object 
 5   price                          118310 non-null  float64
 6   freight_value                  118310 non-null  float64
 7   customer_id                    118310 non-null  object 
 8   order_status                   118310 non-null  object 
 9   order_purchase_timestamp       118310 non-null  object 
 10  order_approved_at              118295 non-null  object 
 11  order_delivered_carrier_date   117056 non-null  object 
 12  order_delivered_customer_date 

In [None]:
# Mengecek missing values
missing_values = merged_data.isnull().sum()
print("Missing values in each column:\n", missing_values)

Missing values in each column:
 order_id                              0
order_item_id                         0
product_id                            0
seller_id                             0
shipping_limit_date                   0
price                                 0
freight_value                         0
customer_id                           0
order_status                          0
order_purchase_timestamp              0
order_approved_at                    15
order_delivered_carrier_date       1254
order_delivered_customer_date      2588
order_estimated_delivery_date         0
review_id                           978
review_score                        978
review_comment_title             104418
review_comment_message            68628
review_creation_date                978
review_answer_timestamp             978
product_category_name              1709
product_name_lenght                1709
product_description_lenght         1709
product_photos_qty                 1709
product_

In [26]:
# mengecek kolom unik order_status
unique_order_status = merged_data['order_status'].unique()
print("Unique values in 'order_status':", unique_order_status)

Unique values in 'order_status': ['delivered' 'shipped' 'canceled' 'invoiced' 'processing' 'approved'
 'unavailable']


In [32]:
# mengecek jumlah data unavailable order_status
unavailable_order_status_count = merged_data[merged_data['order_status'] == 'unavailable'].shape[0]
print("Number of 'unavailable' order_status:", unavailable_order_status_count)

Number of 'unavailable' order_status: 7


In [None]:
# mengecek 5 data dari seluruh kolom yang product_category_name adalah NaN
missing_category_data = merged_data[merged_data['product_category_name'].isnull()].head()
missing_category_data.head()

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,review_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,payment_sequential,payment_type,payment_installments,payment_value,seller_zip_code_prefix,seller_city,seller_state,product_category_name_english
126,0046e1d57f4c07c8c92ab26be8c3dfc0,1,ff6caf9340512b8bf6d2a2a6df032cfa,38e6dada03429a47197d5d584d793b41,2017-10-02 15:49:17,7.79,7.78,ae55e228ded796581eccc67045516023,delivered,2017-09-26 15:24:03,2017-09-26 15:49:17,2017-09-28 18:42:42,2017-09-29 18:29:50,2017-10-11 00:00:00,219cb56781473bd4ee7023459372d25c,5.0,,,2017-09-30 00:00:00,2017-10-02 00:13:27,,,,,200.0,16.0,5.0,12.0,b0efd7adeb04d15b16edaedd11215d40,2712,sao paulo,SP,1.0,credit_card,1.0,15.57,4763,sao paulo,SP,
128,00482f2670787292280e0a8153d82467,1,a9c404971d1a5b1cbc2e4070e02731fd,702835e4b785b67a084280efca355756,2017-02-17 16:18:07,7.6,10.96,baa4ed05f22ffb6c4a41b71b699a492c,delivered,2017-02-13 16:18:07,2017-02-14 03:42:56,2017-02-14 08:32:53,2017-02-15 11:35:56,2017-03-10 00:00:00,c13699f8e389acea5f406e527f0edfb3,5.0,,,2017-02-16 00:00:00,2017-02-17 10:32:17,,,,,700.0,35.0,14.0,11.0,d4c784ecad19dfe09e63ffaf9ada82a3,36050,juiz de fora,MG,1.0,boleto,1.0,18.56,36046,juiz de fora,MG,
135,004f5d8f238e8908e6864b874eda3391,1,5a848e4ab52fd5445cdc07aab1c40e48,c826c40d7b19f62a09e2d7c5e7295ee2,2018-03-06 09:29:25,122.99,15.61,a69c820c317aa348d781a9d6732afc23,delivered,2018-02-27 12:16:30,2018-02-28 09:29:25,2018-02-28 20:48:42,2018-03-23 00:52:43,2018-03-21 00:00:00,23e790c68acbe511dd7b94c6707f2e41,3.0,,,2018-03-23 00:00:00,2018-03-23 10:19:03,,,,,400.0,20.0,12.0,15.0,17726716a98c98a7806b43a789820245,79304,corumba,MS,1.0,boleto,1.0,138.6,7133,guarulhos,SP,
145,0057199db02d1a5ef41bacbf41f8f63b,1,41eee23c25f7a574dfaf8d5c151dbb12,e5a3438891c0bfdb9394643f95273d8e,2018-01-25 09:07:51,20.3,16.79,c664dc5de5b5f4184bc4ca0285b9f8fe,delivered,2018-01-18 17:05:30,2018-01-20 09:07:51,2018-01-23 14:33:54,2018-02-06 20:07:20,2018-02-20 00:00:00,a96a757f169ded9f72fc4f3c03750d60,4.0,,,2018-02-07 00:00:00,2018-02-08 11:17:47,,,,,200.0,16.0,2.0,11.0,9a5b186787a143669398bd8083720c21,78550,sinop,MT,1.0,boleto,1.0,37.09,13483,limeira,SP,
174,006cb7cafc99b29548d4f412c7f9f493,1,e10758160da97891c2fdcbc35f0f031d,323ce52b5b81df2cd804b017b7f09aa7,2018-02-22 13:35:28,56.0,14.14,97dc92f1aae3a7db8b252d1b8466910e,delivered,2018-02-17 14:22:34,2018-02-17 14:35:28,2018-02-20 19:08:00,2018-02-25 13:46:52,2018-03-13 00:00:00,304aaea0a61ca9e8c661cc7a403be82f,5.0,,,2018-02-26 00:00:00,2018-02-26 17:00:30,,,,,2200.0,16.0,2.0,11.0,d5faae3f913e775994e53068992969b5,70670,brasilia,DF,1.0,credit_card,3.0,70.14,3306,sao paulo,SP,


In [None]:
# Cek proporsi missing values pada kolom product_category_name
merged_data['product_category_name'].isna().mean() * 100

np.float64(1.4445101851069226)

In [15]:
# Mengecek jumlah duplikat
duplicate_count = merged_data.duplicated().sum()
print("Number of duplicate rows:", duplicate_count)

Number of duplicate rows: 0


In [16]:
# Mengecek inconsistencies atau format tidak standar
inconsistent_formats = merged_data.select_dtypes(include=['object']).apply(lambda x: x.str.contains(r'[^a-zA-Z0-9\s]', na=False))
print("Inconsistent formats in object columns:\n", inconsistent_formats.sum())

Inconsistent formats in object columns:
 order_id                              0
product_id                            0
seller_id                             0
shipping_limit_date              118310
customer_id                           0
order_status                          0
order_purchase_timestamp         118310
order_approved_at                118295
order_delivered_carrier_date     117056
order_delivered_customer_date    115722
order_estimated_delivery_date    118310
review_id                             0
review_comment_title               4428
review_comment_message            40133
review_creation_date             117332
review_answer_timestamp          117332
product_category_name             87288
customer_unique_id                    0
customer_city                       538
customer_state                        0
payment_type                      88957
seller_city                        1070
seller_state                          0
product_category_name_english     81716

In [17]:
# Statistik deskriptif untuk kolom numerik  
numeric_descriptive_stats = merged_data.describe()
print("Descriptive Statistics for Numeric Columns:\n", numeric_descriptive_stats)

Descriptive Statistics for Numeric Columns:
        order_item_id          price  freight_value   review_score  \
count  118310.000000  118310.000000  118310.000000  117332.000000   
mean        1.196543     120.646603      20.032387       4.031390   
std         0.699489     184.109691      15.836850       1.387994   
min         1.000000       0.850000       0.000000       1.000000   
25%         1.000000      39.900000      13.080000       4.000000   
50%         1.000000      74.900000      16.280000       5.000000   
75%         1.000000     134.900000      21.180000       5.000000   
max        21.000000    6735.000000     409.680000       5.000000   

       product_name_lenght  product_description_lenght  product_photos_qty  \
count        116601.000000               116601.000000       116601.000000   
mean             48.767498                  785.967822            2.205161   
std              10.033540                  652.584121            1.717452   
min               5.0

In [18]:
# Statistik deskriptif untuk kolom kategorikal
categorical_descriptive_stats = merged_data.describe(include=['object'])
print("Descriptive Statistics for Categorical Columns:\n", categorical_descriptive_stats)

Descriptive Statistics for Categorical Columns:
                                 order_id                        product_id  \
count                             118310                            118310   
unique                             98666                             32951   
top     895ab968e7bb0d5659d16cd74cd1650c  aca2eb7d00ea1a7b8ebd4e68314663af   
freq                                  63                               536   

                               seller_id  shipping_limit_date  \
count                             118310               118310   
unique                              3095                93318   
top     4a3ca9315b744ce9f8e9374361493884  2017-08-14 20:43:31   
freq                                2155                   63   

                             customer_id order_status  \
count                             118310       118310   
unique                             98666            7   
top     270c23a11d024a44c896d1894b261a83    delivered   
freq  

**Insight:**

**1. Struktur dan Ukuran Data**
- Dataset gabungan berisi 118.310 baris dan 40 kolom.
- Tipe data terdiri dari 13 kolom numerik dan 24 kolom kategorikal.
- Tidak ditemukan baris duplikat (duplicate rows = 0) → data unik per transaksi.

**2. Missing Values (Data Hilang)**
- Beberapa kolom memiliki missing values cukup signifikan, terutama:
    - review_comment_title (88%) dan review_comment_message (58%) — banyak pelanggan tidak menulis ulasan teks.
    - review_score, review_creation_date, review_answer_timestamp (±1%) — sebagian pesanan tidak memiliki review.
    - product_category_name dan product_category_name_english (~1,5%) — ada produk tanpa kategori.
    - Kolom tanggal pengiriman (order_delivered_customer_date, order_delivered_carrier_date) juga ada data kosong → kemungkinan pesanan dibatalkan atau belum terkirim.

**3. Inconsistent Format**
- Beberapa kolom tanggal (shipping_limit_date, order_purchase_timestamp, dll.) terdeteksi sebagai format tidak standar (object) dan perlu dikonversi ke tipe datetime.
- Kolom teks seperti product_category_name_english, seller_city, dan payment_type menunjukkan banyak format tidak konsisten (mungkin huruf besar-kecil, spasi, atau karakter khusus).

**4. Statistik Deskriptif — Kolom Numerik**
- Harga produk (price)
    - Rata-rata: ~120 BRL
    - Sebaran sangat lebar (max 6.735 BRL → outlier mungkin ada produk mahal).
- Freight value (biaya kirim) rata-rata 20 BRL, maksimum 409 BRL.
- Review score rata-rata 4.03 → pelanggan umumnya puas.
- Product weight_g bervariasi besar (0–40.425 gram) → ada kemungkinan data aneh (produk 0 gram).
- Payment installments (angsuran) rata-rata 3 kali → mayoritas pembeli menggunakan cicilan ringan.

**5. Statistik Deskriptif — Kolom Kategorikal**
- Order status: mayoritas “delivered” → sistem pengiriman relatif sukses.
- Payment type: didominasi credit_card (±87%), metode lain lebih sedikit.
- Customer city: lebih dari 4.000 kota, dengan Sao Paulo paling banyak transaksi (~18.000 pelanggan).
- Product category terbanyak: cama_mesa_banho (bed_bath_table).

### Cleaning Data

In [None]:
# Konversi kolom bertipe waktu ke datetime
date_columns = [
    'order_purchase_timestamp', 'order_approved_at', 
    'order_delivered_carrier_date', 'order_delivered_customer_date',
    'order_estimated_delivery_date', 'shipping_limit_date',
    'review_creation_date', 'review_answer_timestamp'
]
for col in date_columns:
    merged_data[col] = pd.to_datetime(merged_data[col], errors='coerce')

In [None]:
# Konversi kolom kategorikal ke category
cat_cols = [
    'order_status', 'payment_type', 'product_category_name_english',
    'customer_state', 'seller_state', 'customer_city', 'seller_city'
]
for col in cat_cols:
    merged_data[col] = merged_data[col].astype('category')

In [None]:
# Konversi kolom numerik ke float atau int
int_cols = ['order_item_id', 'customer_zip_code_prefix', 'seller_zip_code_prefix']
merged_data[int_cols] = merged_data[int_cols].astype('int64')

float_cols = ['price', 'freight_value', 'payment_value', 'payment_installments']
merged_data[float_cols] = merged_data[float_cols].astype('float64')

In [None]:
# Memastikan id bertipe string (object)
id_cols = ['order_id', 'customer_id', 'customer_unique_id',
           'product_id', 'seller_id', 'review_id']
merged_data[id_cols] = merged_data[id_cols].astype('string')

**Insight:**
handle missing values, dan formatting sudah dilakukan,selanjutnya tahap Exploratory Data Analysis (EDA)

## Exploratory Data Analysis (EDA)

###  distribusi data kontinu (Histograms)

In [None]:
plt.figure(figsize=(10, 6))
datasets_cleaned['price'].hist(bins=50, color='skyblue', edgecolor='black')
plt.title('Price Distribution')
plt.xlabel('Price')
plt.ylabel('Frequency')
plt.show()

plt.figure(figsize=(10, 6))
datasets_cleaned['product_weight_g'].hist(bins=50, color='skyblue', edgecolor='black')
plt.title('Product Weight Distribution')
plt.xlabel('Weight (grams)')
plt.ylabel('Frequency')
plt.show()

- Produk dengan harga rendah lebih banyak dijual dibandingkan produk mahal.
- Sebagian besar produk berukuran kecil atau ringan.

### distribusi fitur kategorikal (bar plot)

In [None]:
#Explore data Distribusi Skor Ulasan (review_score) pada df_reviews dan Distribusi Status Pesanan (order_status) pada df_orders

plt.figure(figsize=(10, 6))
sns.countplot(data=df_reviews_cleaned, y='review_score', palette="viridis")
plt.title('Review Score Distribution (df_reviews)')
plt.xlabel('Count')
plt.ylabel('Review Score')
plt.show()

plt.figure(figsize=(10, 6))
sns.countplot(data=df_orders_cleaned, y='order_status', palette="viridis")
plt.title('Order Status Distribution (df_orders)')
plt.xlabel('Count')
plt.ylabel('Order Status')
plt.show()

-  pelayanan secara umum sudah baik, tetapi masih ada beberapa pelanggan yang mengalami pengalaman negatif.
- Sistem pengiriman berjalan dengan baik, karena mayoritas pesanan berhasil dikirim.

### Menghitung korelasi antar fitur numerik produk (heatmap)

In [None]:
# Correlation Heatmap
corr = datasets_cleaned[['product_weight_g', 'product_length_cm', 'product_height_cm', 'product_width_cm']].corr()

plt.figure(figsize=(8, 6))
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Correlation between Product Features')
plt.show()

Berdasarkan heatmap korelasi, terdapat hubungan sedang antara berat produk (product_weight_g) dengan dimensi produk lainnya, seperti tinggi (product_height_cm), lebar (product_width_cm), dan panjang (product_length_cm). Korelasi tertinggi terlihat antara berat dan tinggi produk (0.58), menunjukkan bahwa produk yang lebih berat cenderung lebih tinggi. Selain itu, panjang dan lebar produk memiliki korelasi sebesar 0.54, yang mengindikasikan bahwa produk yang lebih panjang umumnya juga lebih lebar. Sebaliknya, panjang dan tinggi memiliki korelasi paling rendah (0.19), menunjukkan bahwa keduanya tidak terlalu berhubungan. Hasil ini dapat digunakan untuk memahami pola dimensi produk dalam pengemasan atau pengelolaan logistik.

### Insight Geolocation (5 Kota dengan Pelanggan Terbanyak)

In [None]:
# 5 kota dengan jumlah pelanggan terbanyak berdasarkan dataset df_customers

top_cities = (
    datasets_cleaned.groupby("customer_city")["customer_unique_id"]
    .nunique()
    .sort_values(ascending=False)
    .reset_index()
    .rename(columns={"customer_unique_id": "unique_customers"})
    .head(5)  # Mengambil 5 kota teratas
)

top_cities

### Distribusi Jenis Pembayaran

In [None]:
# Analisis Distribusi Metode Pembayaran

payment_type_distribution = datasets_cleaned['payment_type'].value_counts()

print("\nPayment Type Distribution:")
print(payment_type_distribution)


### Tren Waktu (Pesanan per Bulan)

In [None]:
# Konversi kolom order_purchase_timestamp ke datetime
datasets_cleaned['order_purchase_timestamp'] = pd.to_datetime(datasets_cleaned['order_purchase_timestamp'])

# Menghitung jumlah pesanan per bulan
orders_by_month = (
    datasets_cleaned['order_purchase_timestamp']
    .dt.to_period('M')
    .value_counts()
    .sort_index()
)

# Tampilkan hasil
print("\nTren Pesanan per Bulan:")
print(orders_by_month)
# Menghitung jumlah pesanan per bulan
orders_by_month = (
    datasets_cleaned['order_purchase_timestamp']
    .dt.to_period('M')
    .value_counts()
    .sort_index()
)

# Tampilkan hasil
print("\nTren Pesanan per Bulan:")
print(orders_by_month)

### Analisis Produk

In [None]:
# Analisis Kategori Produk dalam kolom product_category_name_english

top_categories = datasets_cleaned['product_category_name_english'].value_counts().head(5)

print("\nTop 5 Product Categories:")
print(top_categories)


## Visualization & Explanatory Analysis

### Pertanyaan 1:

Di kota mana mayoritas pelanggan berasal, dan bagaimana distribusi jumlah pelanggan di 5 kota teratas dibandingkan dengan kota lainnya? Apa implikasi dari data ini untuk strategi pemasaran perusahaan, seperti penempatan promosi lokal atau ekspansi operasional?

In [None]:
# Top 5 Cities with Most Customers

plt.figure(figsize=(12, 6))
sns.barplot(data=top_cities, x="unique_customers", y="customer_city", palette="viridis")

# Menambahkan detail jumlah di dalam chart
for index, value in enumerate(top_cities["unique_customers"]):
    plt.text(value + 2, index, str(value), va='center', fontsize=10)

plt.title('Top 5 Cities with Most Unique Customers')
plt.xlabel('Number of Unique Customers')
plt.ylabel('City')
plt.tight_layout()
plt.show()

Berdasarkan visualisasi, terlihat bahwa Sao Paulo merupakan kota dengan jumlah pelanggan terbanyak, yaitu 14761 pelanggan, jauh melampaui kota lain. Posisi kedua ditempati oleh Rio de Janeiro dengan 6545 pelanggan, yang juga memiliki jumlah signifikan namun hanya sekitar setengah dari Sao Paulo. Tiga kota lainnya, yaitu Belo Horizonte 2641 pelanggan, Brasilia 2051 pelanggan, dan Curitiba 1447 pelanggan, memiliki kontribusi yang lebih kecil terhadap jumlah pelanggan dibandingkan Sao Paulo dan Rio de Janeiro.

### Pertanyaan 2:
Apa saja metode pembayaran yang paling banyak digunakan oleh pelanggan, dan seberapa besar kontribusi setiap metode terhadap total transaksi? Berdasarkan distribusi ini, bagaimana perusahaan dapat mengoptimalkan layanan pembayaran untuk meningkatkan pengalaman pelanggan?

In [None]:
# Membuat pie chart
plt.figure(figsize=(6, 6))
colors = plt.cm.viridis(np.linspace(0, 1, len(payment_type_distribution)))
plt.pie(payment_type_distribution.values, 
        labels=payment_type_distribution.index, 
        autopct='%1.1f%%', 
        colors=colors, 
        startangle=120, 
        wedgeprops={'edgecolor': 'white'})

# Menambahkan judul
plt.title('Payment Type Distribution', fontsize=14)
plt.tight_layout()

# Menampilkan plot
plt.show()

Visualisasi ini adalah pie chart yang menunjukkan distribusi jenis pembayaran dalam suatu transaksi. "Credit Card" adalah metode pembayaran paling dominan, digunakan 73.8% dari total transaksi.
"Boleto" berada di posisi kedua dengan 19.5% dari total transaksi.
"Voucher" dan "Debit Card" memiliki penggunaan yang jauh lebih kecil, masing-masing 5.3% dan 1.4%.
Mayoritas pelanggan lebih memilih credit card, menunjukkan bahwa transaksi berbasis kartu kredit lebih umum dibandingkan metode pembayaran lainnya.

### Pertanyaan 3 :
Bagaimana tren jumlah pesanan dari waktu ke waktu (per bulan), dan apakah ada pola musiman atau kenaikan/penurunan yang signifikan selama periode tertentu? Apa strategi yang bisa diterapkan berdasarkan tren ini, misalnya untuk promosi musiman atau pengelolaan inventaris?

In [None]:
# Konversi kolom order_purchase_timestamp ke datetime
datasets_cleaned['order_purchase_timestamp'] = pd.to_datetime(datasets_cleaned['order_purchase_timestamp'])

# Menghitung jumlah pesanan per bulan
orders_by_month = (
    datasets_cleaned['order_purchase_timestamp']
    .dt.to_period('M')
    .value_counts()
    .sort_index()
)

# Konversi ke DataFrame
orders_by_month_df = orders_by_month.reset_index()
orders_by_month_df.columns = ['Month', 'Order Count']
orders_by_month_df['Month'] = orders_by_month_df['Month'].dt.to_timestamp()

# Visualisasi Line Chart dengan Matplotlib
plt.figure(figsize=(16, 8))
plt.plot(orders_by_month_df['Month'], orders_by_month_df['Order Count'], marker='o', linestyle='-', color='teal')

# Menambahkan detail jumlah pada titik-titik data
for i, row in orders_by_month_df.iterrows():
    plt.text(row['Month'], row['Order Count'] + 10, f"{row['Order Count']:,}", ha='center', fontsize=9)

plt.title('Trend of Orders per Month')
plt.xlabel('Month')
plt.ylabel('Order Count')
plt.grid(True, linestyle='--', alpha=0.6)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

Tren pertumbuhan pesanan meningkat signifikan dari awal periode (2016) hingga mencapai puncaknya sekitar awal 2018 dengan jumlah pesanan tertinggi sekitar 8.977 pesanan.
Setelah mencapai puncaknya, terjadi fluktuasi jumlah pesanan, tetapi masih berada pada angka tinggi hingga pertengahan 2018.
Pada akhir periode (sekitar Oktober 2018), jumlah pesanan mengalami penurunan drastis hingga mendekati nol.
Penurunan tajam di akhir periode bisa disebabkan oleh beberapa faktor, seperti penutupan layanan, perubahan kebijakan bisnis, atau data yang belum lengkap untuk bulan terakhir.

### Pertanyaan 4 :
Kategori produk apa yang paling populer di antara pelanggan, dan bagaimana distribusi 5 kategori teratas dibandingkan dengan kategori lainnya? Bagaimana hasil ini dapat digunakan untuk pengelolaan produk atau strategi pemasaran perusahaan?

In [None]:
# Visualisasi menggunakan bar chart horizontal
plt.figure(figsize=(16, 8))
bars = plt.barh(top_categories.index, top_categories.values, color='royalblue')

# Menambahkan detail jumlah di dalam chart
for bar in bars:
    plt.text(bar.get_width() + 5, bar.get_y() + bar.get_height()/2,
             f'{bar.get_width():,}', va='center', fontsize=10)

plt.title('Top 5 Product Categories')
plt.xlabel('Number of Products Sold')
plt.ylabel('Product Category')
plt.gca().invert_yaxis()  # Membalikkan urutan untuk ranking
plt.tight_layout()
plt.show()

Kategori produk "bed_bath_table" adalah yang paling populer dengan jumlah penjualan tertinggi, diikuti oleh "health_beauty", "sports_leisure", "bfurniture_decor", dan "computers_accessories"

## Conclusion

##### Conclution pertanyaan 1

- Berdasarkan visualisasi, terlihat bahwa Sao Paulo merupakan kota dengan jumlah pelanggan terbanyak, yaitu 14761 pelanggan, jauh melampaui kota lain. Posisi kedua ditempati oleh Rio de Janeiro dengan 6545 pelanggan, yang juga memiliki jumlah signifikan namun hanya sekitar setengah dari Sao Paulo. Tiga kota lainnya, yaitu Belo Horizonte 2641 pelanggan, Brasilia 2051 pelanggan, dan Curitiba 1447 pelanggan, memiliki kontribusi yang lebih kecil terhadap jumlah pelanggan dibandingkan Sao Paulo dan Rio de Janeiro.

- Insight:
  - Sao Paulo sebagai pusat pelanggan terbesar menunjukkan bahwa kota ini berpotensi menjadi fokus utama strategi pemasaran atau pengembangan layanan perusahaan.
  - Kota dengan jumlah pelanggan lebih kecil, seperti Curitiba, dapat menjadi target untuk pengembangan pasar lebih lanjut.

- Rekomendasi Bisnis:
  - Perusahaan dapat memperkuat layanan dan promosi di Sao Paulo untuk mempertahankan pelanggan yang ada.
  - Investasi lebih besar pada Rio de Janeiro juga dapat dilakukan untuk memaksimalkan potensi pasar di sana.
  - Strategi pemasaran yang lebih agresif dapat diarahkan ke kota dengan jumlah pelanggan yang lebih kecil untuk meningkatkan pertumbuhan pelanggan.

##### Conclution pertanyaan 2

"Credit Card" adalah metode pembayaran paling dominan, digunakan 73.8% dari total transaksi.
"Boleto" berada di posisi kedua dengan 19.5% dari total transaksi.
"Voucher" dan "Debit Card" memiliki penggunaan yang jauh lebih kecil, masing-masing 5.3% dan 1.4%.
Mayoritas pelanggan lebih memilih credit card, menunjukkan bahwa transaksi berbasis kartu kredit lebih umum dibandingkan metode pembayaran lainnya.
- Insight:
  - Pelanggan lebih menyukai metode yang cepat dan praktis, seperti kartu kredit.
  Metode pembayaran lain memiliki potensi, namun membutuhkan kemudahan tambahan untuk menarik lebih banyak pengguna.
- Rekomendasi:
  - Optimalkan kartu kredit dengan mempercepat proses otorisasi dan meningkatkan keamanan.
  - Permudah penggunaan boleto, seperti mempersingkat langkah pembayaran.
  - Promosikan metode minor seperti voucher dan debit card untuk mendiversifikasi preferensi pembayaran pelanggan.

##### Conclution pertanyaan 3

- Jumlah pesanan mengalami peningkatan signifikan dari 2016 hingga awal 2018, menunjukkan tren pertumbuhan positif.
- Penurunan tajam terjadi setelah pertengahan 2018.

- Insight:
  - Tidak terlihat pola musiman yang jelas, tetapi pertumbuhan pesanan stabil hingga puncaknya pada awal 2018.
  - Penurunan tajam setelah pertengahan 2018 dapat mengindikasikan beberapa faktor, seperti penutupan layanan, perubahan kebijakan bisnis, atau data yang belum lengkap untuk bulan terakhir.
- Rekomendasi:
  - Analisis penyebab penurunan setelah pertengahan 2018 untuk tindakan korektif.
  - Tingkatkan promosi untuk mempertahankan pertumbuhan, terutama pada bulan dengan pesanan tinggi sebelumnya.
  - Optimalkan inventaris untuk mendukung tren peningkatan pesanan di periode awal.

##### Conclution pertanyaan 4

- Kategori produk "bed_bath_table" adalah yang paling populer dengan jumlah penjualan tertinggi, diikuti oleh "health_beauty", "sports_leisure", "bfurniture_decor", dan "computers_accessories".

- Insight :
  - Permintaan produk dalam kategori bed_bath_table jauh lebih tinggi dibandingkan kategori lainnya, menunjukkan potensi besar dalam segmen ini.
  - Perbedaan jumlah penjualan antara kategori menunjukkan variasi preferensi pelanggan yang dapat dimanfaatkan dalam strategi pemasaran.
- Rekomendasi :
  - Optimasi Stok → Pastikan ketersediaan stok yang cukup untuk kategori dengan penjualan tinggi guna menghindari kehabisan barang.
  - Strategi Pemasaran → Fokuskan kampanye iklan dan promosi pada kategori terlaris untuk meningkatkan volume penjualan lebih lanjut.
  - Ekspansi Produk → Lakukan analisis lebih lanjut untuk menambah variasi produk dalam kategori populer agar tetap kompetitif.
  - Segmentasi Pelanggan → Gunakan data ini untuk memahami preferensi pelanggan dan menargetkan promosi yang lebih spesifik.

### RFM Analysis

In [None]:
# Menentukan tanggal referensi untuk analisis RFM (misalnya, satu hari setelah transaksi terakhir)
reference_date = datasets_cleaned['order_purchase_timestamp'].max() + pd.Timedelta(days=1)

# Menghitung RFM Metrics
rfm = datasets_cleaned.groupby('customer_unique_id').agg({
    'order_purchase_timestamp': lambda x: (reference_date - x.max()).days,  # Recency (Selisih hari dari transaksi terakhir)
    'order_id': 'count',  # Frequency (Jumlah transaksi)
    'payment_value': 'sum'  # Monetary (Total uang yang dibelanjakan)
}).reset_index()

# Ubah nama kolom agar lebih mudah dibaca
rfm.columns = ['customer_unique_id', 'Recency', 'Frequency', 'Monetary']

# Ubah nama kolom agar lebih mudah dibaca
rfm.columns = ['customer_unique_id', 'Recency', 'Frequency', 'Monetary']

# Menggunakan pd.qcut untuk membagi skor menjadi 4 kuartil
rfm['R_Score'] = pd.qcut(rfm['Recency'], q=4, labels=[4, 3, 2, 1])
rfm['F_Score'] = pd.qcut(rfm['Frequency'].rank(method="first"), q=4, labels=[1, 2, 3, 4])
rfm['M_Score'] = pd.qcut(rfm['Monetary'].rank(method="first"), q=4, labels=[1, 2, 3, 4])

# Konversi skor ke tipe numerik
rfm[['R_Score', 'F_Score', 'M_Score']] = rfm[['R_Score', 'F_Score', 'M_Score']].astype(int)

# Menghitung RFM Score sebagai rata-rata dari ketiga skor (agar menjadi skala yang sesuai)
rfm['RFM_Score'] = rfm[['R_Score', 'F_Score', 'M_Score']].mean(axis=1)

# Segmentasi pelanggan berdasarkan RFM Score
conditions = [
    (rfm['RFM_Score'] > 4),
    (rfm['RFM_Score'] > 3) & (rfm['RFM_Score'] <= 4),
    (rfm['RFM_Score'] > 2) & (rfm['RFM_Score'] <= 3),
    (rfm['RFM_Score'] <= 2)
]

labels = [
    "Top Customer",
    "High Value Customer",
    "Medium Value Customer",
    "Low Value Customer"
]

rfm["customer_segment"] = np.select(conditions, labels, default="Unknown")

# Menampilkan 10 pelanggan teratas berdasarkan RFM Score
rfm.sort_values(by='RFM_Score', ascending=False).head(10)

Output yang dihasilkan adalah hasil dari RFM Analysis, yang bertujuan untuk mengelompokkan pelanggan berdasarkan perilaku mereka dalam transaksi e-commerce menggunakan Recency (R), Frequency (F), dan Monetary (M).

Berikut penjelasan masing-masing kolom dalam output tersebut:

- customer_unique_id → ID unik dari pelanggan.
- Recency → Seberapa lama sejak pelanggan terakhir melakukan transaksi (dalam hari). Semakin kecil angkanya, semakin baru pelanggan melakukan transaksi terakhir.
- Frequency → Berapa kali pelanggan telah melakukan transaksi dalam periode tertentu. Semakin besar angkanya, semakin sering pelanggan bertransaksi.
- Monetary → Total uang yang telah dibelanjakan oleh pelanggan. Semakin tinggi nilainya, semakin besar total belanja pelanggan.
- R_Score → Skor Recency dari 1-4, di mana 4 berarti pelanggan sangat baru aktif, sedangkan 1 berarti sudah lama tidak aktif.
- F_Score → Skor Frequency dari 1-4, di mana 4 berarti pelanggan sering melakukan transaksi, sedangkan 1 berarti jarang bertransaksi.
- M_Score → Skor Monetary dari 1-4, di mana 4 berarti pelanggan mengeluarkan banyak uang, sedangkan 1 berarti pelanggan memiliki pengeluaran kecil.
- RFM_Score → Skor RFM dihitung sebagai rata-rata dari R, F, dan M. Nilainya antara 1.0 sampai 4.0.
customer_segment → Segmen pelanggan berdasarkan nilai RFM_Score, dengan klasifikasi sebagai berikut:
    - Top Customer → RFM_Score > 4
    - High Value Customer → 4 ≥ RFM_Score > 3
    - Medium Value Customer → 3 ≥ RFM_Score > 2
    - Low Customer → RFM_Score ≤ 2

Berdasarkan hasil yang diberikan:

- Semua pelanggan dalam output memiliki RFM_Score = 4.0, yang berarti mereka masuk dalam kategori "High Value Customer".
- Semua pelanggan memiliki R_Score = 4, artinya mereka baru saja melakukan transaksi.
- Mereka juga memiliki F_Score = 4, yang berarti frekuensi transaksi mereka cukup tinggi dibanding pelanggan lain.
- M_Score = 4, menunjukkan bahwa pelanggan ini memiliki pengeluaran tinggi dalam transaksi.
- Karena nilai RFM_Score berkisar di 4.0, pelanggan ini tidak masuk ke Top Customer (harus >4), tetapi mereka tetap termasuk pelanggan yang memiliki nilai yang cukup baik bagi bisnis