# Brazilian E-Commerce Olist: Customer Segmentation
### By Delta Group JCDS1904

# Business Understanding

### Konteks  

Olist merupakan sebuah perusahaan E-Commerce yang dapat dikatakan baru beroperasi, dan dalam konteks ini kami sebagai seorang Data Scientist diberikan tugas untuk mengumpulkan informasi terkait karakteristik dari customer agar dapat menghasilkan strategi marketing yang tepat. Tahapan awal yang dapat dilakukan adalah dengan mengumpulkan data pelanggan yang dapat digunakan seperti demografi, histori pembelian, perilaku pembelian, dan lainnya. Data yang sudah terkumpul dapat dilakukan analisa dengan berbagai terknik seperti customer segmentation, clustering dan lain-nya untuk menghasilkan kelompok-kelompok / segmentasi customer berdasarkan pola pembelian. Setelah mendapatakan segmentasi customer, selanjutnya dapat dikembangkan strategi marketing yang disesuaikan dengan kebutuhan atau preferensi dari masing-masing segmentasi customer. Dengan memahami karakteristik customer, perusahaan dapat meningkatkan efektivitas strategi marketing serta mempertahankan retensi yang sudah ada.

### Latar Belakang  
Brazilian E-Commerce Olist merupakan perusahaan baru dan saat ini sedang mengalami masalah yakni rendahnya customer retention, dalam artian perusahaan kesulitan untuk mempertahankan pelanggan yang ada. Masalah ini dapat muncul karena tidak adanya strategi marketing untuk menjaga retensi customer yang efektif serta kurangnya pemahaman mengenai perliaku pelanggan. Dampak dari permasalahan ini adalah berpotensi kehilangan pelanggan yang sudah ada dan meningkatkan biaya pemasaran untuk menarik pelanggan baru. Selain itu, masalah tambahan adalah dataset yang tidak berisikan customer segmentation, yaitu pembagian pelanggan ke dalam kelompok yang berbeda berdasarkan perilaku mereka. Hal ini menyulitkan Olist untuk memahami perilaku pelanggan dan membuat strategi pemasaran yang efektif. Oleh karena itu, solusi yang diusulkan adalah membuat strategi pemasaran berdasarkan customer segmentation dengan langkah-langkah membuat sistem atau proses untuk membagi pelanggan ke dalam kelompok yang berbeda, melakukan analisis perilaku pelanggan untuk masing-masing kelompok, dan membuat strategi pemasaran yang sesuai untuk masing-masing kelompok. Dengan adanya solusi ini, diharapkan dapat meningkatkan efektivitas strategi pemasaran dan retensi pelanggan serta menurunkan biaya pemasaran secara keseluruhan.

### Tujuan  
Tujuan akhir dari strategi marketing yang akan diimplementasikan adalah untuk meningkatkan penjualan dan retensi pelanggan di perusahaan e-commerce Olist. Hal ini dapat dicapai dengan mengembangkan strategi marketing yang sesuai untuk masing-masing kelompok pelanggan berdasarkan data yang telah dianalisis. Dengan mengoptimalkan strategi marketing dan memonitor kinerja strategi secara berkala, diharapkan dapat meningkatkan efektivitas pemasaran dan mempertahankan pelanggan yang sudah ada. Dalam jangka panjang, hal ini dapat membantu perusahaan untuk bertahan di tengah persaingan yang semakin ketat.

### Batasan Masalah  
- Project ini akan memfokuskan pada perusahaan Brazilian E-Commerce Olist dan tidak akan membandingkan dengan perusahaan E-Commerce lainnya.
- Project ini akan memfokuskan pada masalah rendahnya retensi pelanggan dan strategi marketing yang efektif berdasarkan segementasi customer.
- Project ini akan berfokus pada pengembangan strategi marketing yang efektif untuk meningkatkan penjualan dan retensi pelanggan.


### Metrik Evaluasi
Karena disini kita akan melakukan segmentasi customer dengan demikian machine learning yang digunakan adalah unsupervised learning dan berikut adalah metrik evaluasi yang dapat digunakan pada permasalahan ini:
- Silhouette Coefficient: metrik ini mengukur seberapa baik setiap sampel cocok dengan kelompoknya sendiri dibandingkan dengan kelompok lain dalam dataset. Nilai Silhouette Coefficient berkisar antara -1 hingga 1, dimana nilai yang lebih tinggi menunjukkan kelompok yang lebih terdefinisi dengan baik.

- Elbow Method: metrik ini digunakan untuk menemukan jumlah klaster optimal dalam data. Dalam metrik ini, nilai inertia (jarak rata-rata setiap titik ke pusat klaster terdekat) digambar melawan jumlah klaster, dan titik siku dalam grafik ini menunjukkan jumlah klaster yang optimal.


# Data Understanding
Dataset ini berisi informasi dari 100 ribuan lebih pesanan dari tahun 2016 hingga 2018. Pada dataset ini terdapat beberapa fitur diantaranya adalah sebagai berikut:



<img src="https://i.imgur.com/HRhd2Y0.png" width="500" height="500">


Data ini adalah data komersial yang sebenarnya (asli), namun data ini telah di-anonimisasi dan referensi ke perusahaan dan mitra dalam teks ulasan telah diganti dengan nama-nama rumah besar di Game of Thrones.

Untuk memahami data lebih dalam lagi maka kita akan menggabungkan seluruh tabel dari dataset ini menjadi satu tabel agar mudah dalam melakukan EDA.

## Import Libraries

In [26]:
# Import Libraries yang diperlukan
import pandas as pd
import numpy as np

## Load Data

In [27]:
# Load data customers
cust = pd.read_csv('olist_customers_dataset.csv')
cust.head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP


`customers`: tabel ini berisi informasi tentang pelanggan. Setiap baris pada tabel ini merepresentasikan satu pelanggan. Kolom-kolom pada tabel ini antara lain: *customer_id (ID pelanggan), customer_unique_id (ID pelanggan unik), customer_zip_code_prefix (kode pos pelanggan), customer_city (kota pelanggan), dan customer_state (negara bagian).*

In [28]:
# Load data Geolocation
# geo = pd.read_csv('olist_geolocation_dataset.csv')
# geo.head()

Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,1037,-23.545621,-46.639292,sao paulo,SP
1,1046,-23.546081,-46.64482,sao paulo,SP
2,1046,-23.546129,-46.642951,sao paulo,SP
3,1041,-23.544392,-46.639499,sao paulo,SP
4,1035,-23.541578,-46.641607,sao paulo,SP


`Geolocation`: tabel ini berisi informasi tentang identifikasi lokasi geografis dunia nyata atau suatu objek berdasarkan titik navigasi / GPS. Setiap baris pada tabel ini merepresentasikan satu titik lokasi. Kolom-kolom pada tabel ini antara lain : *geolocation_zip_code_prefix (nomor kodepos), 	geolocation_lat (garis lintang),	geolocation_lng (garis bujur), 	geolocation_city (kota berdasarkan titik geolokasi), dan	geolocation_state (negara bagian berdasarkan titik geolokasi)*.

In [29]:
# Load data order items dataset
order_item = pd.read_csv('olist_order_items_dataset.csv')
order_item.head()

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87
3,00024acbcdf0a6daa1e931b038114c75,1,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,2018-08-15 10:10:18,12.99,12.79
4,00042b26cf59d7ce69dfabb4e55b4fd9,1,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,2017-02-13 13:57:51,199.9,18.14


`order_items`: tabel ini berisi informasi tentang barang-barang yang dibeli oleh pelanggan dalam setiap pesanan. Setiap baris pada tabel ini merepresentasikan satu barang yang dibeli dalam satu pesanan. Kolom-kolom pada tabel ini antara lain: *order_id (ID pesanan), product_id (ID produk), seller_id (ID penjual), price (harga produk), freight_value (harga ongkos kirim)*.

In [30]:
# Load data Order payments
order_payment = pd.read_csv('olist_order_payments_dataset.csv')
order_payment.head()

Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
0,b81ef226f3fe1789b1e8b2acac839d17,1,credit_card,8,99.33
1,a9810da82917af2d9aefd1278f1dcfa0,1,credit_card,1,24.39
2,25e8ea4e93396b6fa0d3dd708e76c1bd,1,credit_card,1,65.71
3,ba78997921bbcdc1373bb41e913ab953,1,credit_card,8,107.78
4,42fdf880ba16b47b59251dd489d4441a,1,credit_card,2,128.45


`olist_order_payments_dataset`: tabel ini berisi informasi tentang pembayaran yang dilakukan oleh pelanggan untuk setiap pesanan. Setiap baris pada tabel ini merepresentasikan satu pembayaran yang dilakukan oleh satu pelanggan untuk satu pesanan. Kolom-kolom pada tabel ini antara lain: *order_id (ID pesanan terkait dengan pembayaran), payment_sequential (urutan pembayaran), payment_type (jenis pembayaran), payment_installments (jumlah angsuran pembayaran), dan payment_value (jumlah pembayaran).*

In [31]:
# Load Data Order Reviews
order_reviews = pd.read_csv('olist_order_reviews_dataset.csv')
order_reviews.head()

Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,7bc2406110b926393aa56f80a40eba40,73fc7af87114b39712e6da79b0a377eb,4,,,2018-01-18 00:00:00,2018-01-18 21:46:59
1,80e641a11e56f04c1ad469d5645fdfde,a548910a1c6147796b98fdf73dbeba33,5,,,2018-03-10 00:00:00,2018-03-11 03:05:13
2,228ce5500dc1d8e020d8d1322874b6f0,f9e4b658b201a9f2ecdecbb34bed034b,5,,,2018-02-17 00:00:00,2018-02-18 14:36:24
3,e64fb393e7b32834bb789ff8bb30750e,658677c97b385a9be170737859d3511b,5,,Recebi bem antes do prazo estipulado.,2017-04-21 00:00:00,2017-04-21 22:02:06
4,f7c4243c7fe1938f181bec41a392bdeb,8e6bfb81e283fa7e4f11123a3fb894f1,5,,Parabéns lojas lannister adorei comprar pela I...,2018-03-01 00:00:00,2018-03-02 10:26:53


`olist_order_reviews_dataset`: tabel ini berisi informasi tentang ulasan produk yang diberikan oleh pelanggan. Setiap baris pada tabel ini merepresentasikan satu ulasan produk yang diberikan oleh satu pelanggan. Kolom-kolom pada tabel ini antara lain: *review_id (ID ulasan), order_id (ID pesanan terkait dengan ulasan), review_score (skor ulasan dari 1 hingga 5), review_comment_title (judul ulasan), review_comment_message (isi ulasan), review_creation_date	(waktu kapan review dibuat), dan review_answer_timestamp (waktu kapan review dikirim)*.

In [32]:
# Load Data Orders
orders = pd.read_csv('olist_orders_dataset.csv')
orders.head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15 00:00:00
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26 00:00:00


`orders`: tabel ini berisi informasi tentang pesanan yang dilakukan oleh pelanggan. Setiap baris pada tabel ini merepresentasikan satu pesanan. Kolom-kolom pada tabel ini antara lain: *order_id (ID pesanan), customer_id (ID pelanggan), order_status (status pesanan), order_purchase_timestamp (waktu pembelian), order_approved_at (waktu orderan di terima), order_delivered_carrier_date (waktu orderan dikirimkan oleh kurir),	order_delivered_customer_date (waktu orderan diterima oleh customer), dan order_estimated_delivery_date (waktu estimasi orderan dikirim)*.

In [33]:
# Load Data Sellers
sellers = pd.read_csv('olist_sellers_dataset.csv')
sellers.head()

Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
0,3442f8959a84dea7ee197c632cb2df15,13023,campinas,SP
1,d1b65fc7debc3361ea86b5f14c68d2e2,13844,mogi guacu,SP
2,ce3ad9de960102d0677a81f5d0bb7b2d,20031,rio de janeiro,RJ
3,c0f3eea2e14555b6faeea3dd58c1b1c3,4195,sao paulo,SP
4,51a04a8a6bdcb23deccc82b0b80742cf,12914,braganca paulista,SP


`sellers`: tabel ini berisi informasi tentang penjual di e-commerce. Setiap baris pada tabel ini merepresentasikan satu penjual. Kolom-kolom pada tabel ini antara lain: *seller_id (ID penjual), seller_zip_code_prefix (kode pos penjual), seller_city (kota penjual), dan seller_state (negara bagian penjual)*.

In [34]:
# Load Data Products
product = pd.read_csv('olist_products_dataset.csv')
product.head()

Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
0,1e9e8ef04dbcff4541ed26657ea517e5,perfumaria,40.0,287.0,1.0,225.0,16.0,10.0,14.0
1,3aa071139cb16b67ca9e5dea641aaa2f,artes,44.0,276.0,1.0,1000.0,30.0,18.0,20.0
2,96bd76ec8810374ed1b65e291975717f,esporte_lazer,46.0,250.0,1.0,154.0,18.0,9.0,15.0
3,cef67bcfe19066a932b7673e239eb23d,bebes,27.0,261.0,1.0,371.0,26.0,4.0,26.0
4,9dc1a7de274444849c219cff195d0b71,utilidades_domesticas,37.0,402.0,4.0,625.0,20.0,17.0,13.0


`products`: tabel ini berisi informasi tentang produk yang dijual di e-commerce. Setiap baris pada tabel ini merepresentasikan satu produk. Kolom-kolom pada tabel ini antara lain: *product_id (ID produk), product_category_name (nama kategori produk), product_weight_g (berat produk dalam gram), product_length_cm (panjang produk dalam cm),	product_height_cm (tinggi produk dalam cm), dan	product_width_cm (lebar produk dalam cm)*.

In [35]:
# Load Data Category Name
product_categ = pd.read_csv('product_category_name_translation.csv')
product_categ.head()

Unnamed: 0,product_category_name,product_category_name_english
0,beleza_saude,health_beauty
1,informatica_acessorios,computers_accessories
2,automotivo,auto
3,cama_mesa_banho,bed_bath_table
4,moveis_decoracao,furniture_decor


`product_category_name_translation`: tabel ini berisi terjemahan dari nama-nama kategori produk pada tabel products. Setiap baris pada tabel ini merepresentasikan satu kategori produk beserta terjemahan dalam beberapa bahasa. Kolom-kolom pada tabel ini antara lain: *product_category_name (nama kategori produk dalam bahasa Portugis), product_category_name_english (terjemahan nama kategori produk dalam bahasa Inggris)*.

## Merging Data

Setelah kita load seluruh data, selanjutnya kita akan menggabungkan seluruh data berdasarkan koneksi seperti pada gambar arsitektur data tersebut. Disini kita tidak akan menggunakan data geolocation, karena informasi terkait demografi customer sudah tergambarkan pada tabel customer.

In [36]:
# Merge

df= pd.merge(cust, orders, on="customer_id", how='inner')
df= df.merge(order_reviews, on="order_id", how='inner')
df= df.merge(order_item, on="order_id", how='inner')
df= df.merge(product, on="product_id", how='inner')
df= df.merge(order_payment, on="order_id", how='inner')
df= df.merge(sellers, on='seller_id', how='inner')
df= df.merge(product_categ, on='product_category_name', how='inner')
df.shape

(115609, 40)

In [37]:
df.customer_unique_id.nunique()

93396

In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 115609 entries, 0 to 115608
Data columns (total 40 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   customer_id                    115609 non-null  object 
 1   customer_unique_id             115609 non-null  object 
 2   customer_zip_code_prefix       115609 non-null  int64  
 3   customer_city                  115609 non-null  object 
 4   customer_state                 115609 non-null  object 
 5   order_id                       115609 non-null  object 
 6   order_status                   115609 non-null  object 
 7   order_purchase_timestamp       115609 non-null  object 
 8   order_approved_at              115595 non-null  object 
 9   order_delivered_carrier_date   114414 non-null  object 
 10  order_delivered_customer_date  113209 non-null  object 
 11  order_estimated_delivery_date  115609 non-null  object 
 12  review_id                     

Setelah kita menggabungkan seluruh dataset, terdapat 40 kolom dengan 2 tipe data yaitu numerik dan string dengan total data sebanyak 115.609 data.



In [39]:
df.head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,order_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,...,product_height_cm,product_width_cm,payment_sequential,payment_type,payment_installments,payment_value,seller_zip_code_prefix,seller_city,seller_state,product_category_name_english
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP,00e7ee1b050b8499577073aeb2a297a1,delivered,2017-05-16 15:05:35,2017-05-16 15:22:12,2017-05-23 10:47:57,...,64.0,31.0,1,credit_card,2,146.87,8577,itaquaquecetuba,SP,office_furniture
1,8912fc0c3bbf1e2fbf35819e21706718,9eae34bbd3a474ec5d07949ca7de67c0,68030,santarem,PA,c1d2b34febe9cd269e378117d6681172,delivered,2017-11-09 00:50:13,2017-11-10 00:47:48,2017-11-22 01:43:37,...,64.0,31.0,1,credit_card,1,275.79,8577,itaquaquecetuba,SP,office_furniture
2,8912fc0c3bbf1e2fbf35819e21706718,9eae34bbd3a474ec5d07949ca7de67c0,68030,santarem,PA,c1d2b34febe9cd269e378117d6681172,delivered,2017-11-09 00:50:13,2017-11-10 00:47:48,2017-11-22 01:43:37,...,64.0,31.0,1,credit_card,1,275.79,8577,itaquaquecetuba,SP,office_furniture
3,f0ac8e5a239118859b1734e1087cbb1f,3c799d181c34d51f6d44bbbc563024db,92480,nova santa rita,RS,b1a5d5365d330d10485e0203d54ab9e8,delivered,2017-05-07 20:11:26,2017-05-08 22:22:56,2017-05-19 20:16:31,...,64.0,31.0,1,credit_card,7,140.61,8577,itaquaquecetuba,SP,office_furniture
4,6bc8d08963a135220ed6c6d098831f84,23397e992b09769faf5e66f9e171a241,25931,mage,RJ,2e604b3614664aa66867856dba7e61b7,delivered,2018-02-03 19:45:40,2018-02-04 22:29:19,2018-02-19 18:21:47,...,64.0,31.0,1,credit_card,10,137.58,8577,itaquaquecetuba,SP,office_furniture


## Data Manipulation

Pada tahapan ini kita akan melakukan manipulasi terhadap data dengan tujuan agar lebih mudah di intepretasikan.

### Missing Values

In [40]:
df.isna().sum()/len(df)*100

customer_id                       0.000000
customer_unique_id                0.000000
customer_zip_code_prefix          0.000000
customer_city                     0.000000
customer_state                    0.000000
order_id                          0.000000
order_status                      0.000000
order_purchase_timestamp          0.000000
order_approved_at                 0.012110
order_delivered_carrier_date      1.033657
order_delivered_customer_date     2.075963
order_estimated_delivery_date     0.000000
review_id                         0.000000
review_score                      0.000000
review_comment_title             88.062348
review_comment_message           57.697065
review_creation_date              0.000000
review_answer_timestamp           0.000000
order_item_id                     0.000000
product_id                        0.000000
seller_id                         0.000000
shipping_limit_date               0.000000
price                             0.000000
freight_val

Dari informasi diatas terlihat bahwa review_comment_title dan review_comment_message memiliki missing values lebih dari 50% total data, serta pada beberapa kolom lainnya memiliki missing values yang relatif sedikit dibawah 3%.

Untuk itu kita akan melakukan perlakuan yang berbeda, untuk data yang memiliki missing values lebih dari 50% kami akan drop kolom, sedangkan untuk kolom yang memiliki missing values dibawah 3% akan kita drop berdasarkan baris-nya.

In [41]:
# Drop kolom dengan missing values lebih dari 50%
df.drop(columns=['review_comment_title', 'review_comment_message'], inplace=True)

In [42]:
# Drop baris yang berisi missing values
df.dropna(inplace=True)

### Simplified Category Feature

Tahapan ini bertujuan untuk menyederhanakan fitur pada kategori, karena data pada `product_category_name` memiliki unique yang sangat banyak, sehingga kita dapat menyederhanakannya menjadi kolom `Category` sedangkan fitur / kolom yang lama akan diganti nama nya menjadi `sub-Category`.

In [43]:
df['product_category_name_english'].unique()

array(['office_furniture', 'furniture_decor', 'furniture_living_room',
       'auto', 'sports_leisure', 'baby', 'housewares',
       'kitchen_dining_laundry_garden_furniture', 'home_confort',
       'bed_bath_table', 'home_comfort_2', 'toys', 'cool_stuff',
       'computers_accessories', 'musical_instruments', 'consoles_games',
       'watches_gifts', 'health_beauty', 'perfumery', 'home_construction',
       'garden_tools', 'small_appliances', 'stationery', 'art',
       'market_place', 'air_conditioning', 'telephony',
       'construction_tools_construction', 'electronics', 'pet_shop',
       'fixed_telephony', 'food_drink', 'drinks', 'food',
       'signaling_and_security', 'industry_commerce_and_business',
       'construction_tools_lights', 'agro_industry_and_commerce',
       'diapers_and_hygiene', 'audio', 'fashio_female_clothing',
       'fashion_male_clothing', 'home_appliances',
       'fashion_bags_accessories', 'construction_tools_safety',
       'luggage_accessories', 'fash

In [44]:
# Simplifikasi Kategori
category_dict = {
    'Clothing & Apparel': ['fashion_shoes', 'fashion_bags_accessories', 'baby', 'fashion_male_clothing', 'fashio_female_clothing', 'fashion_underwear_beach', 'fashion_childrens_clothes'],
    'Electronics & Gadgets': ['computers_accessories', 'watches_gifts', 'musical_instruments', 'electronics', 'audio', 'tablets_printing_image', 'computers', 'fixed_telephony', 'cds_dvds_musicals', 'air_conditioning'],
    'Games & Toys / Entertainment': ['toys', 'consoles_games', 'music','cool_stuff', 'cine_photo', 'dvds_blu_ray', 'party_supplies', 'christmas_supplies'],
    'Health and Beauty': ['perfumery', 'health_beauty', 'diapers_and_hygiene'],
    'Stationery': ['stationery','industry_commerce_and_business', 'books_general_interest', 'books_technical', 'books_imported', 'arts_and_craftmanship', 'art'],
    'Hand & Power Tools': ['costruction_tools_garden', 'garden_tools', 'costruction_tools_tools', 'construction_tools_lights', 'construction_tools_safety', 'construction_tools_construction'],
    'Food and Beverages': ['food', 'drinks', 'food_drink', 'agro_industry_and_commerce', 'la_cuisine'],
    'Furniture': ['housewares', 'bed_bath_table', 'furniture_decor', 'flowers', 'office_furniture', 'furniture_bedroom', 'furniture_living_room', 'furniture_mattress_and_upholstery', 'home_comfort_2', 'kitchen_dining_laundry_garden_furniture', 'home_confort',  'home_construction', 'home_appliances', 'home_appliances_2', 'small_appliances','small_appliances_home_oven_and_coffee'],
    'Sports Products': ['sports_leisure', 'fashion_sport', 'auto'],
    'Other': ['pet_shop', 'security_and_services', 'luggage_accessories', 'signaling_and_security', 'market_place']
}

df_categories = pd.DataFrame(columns=['Category', 'product_category_name_english'])

for category, subcategories in category_dict.items():
    for subcategory in subcategories:
        df_categories = df_categories.append({'Category': category, 'product_category_name_english': subcategory}, ignore_index=True)

df_categories

  df_categories = df_categories.append({'Category': category, 'product_category_name_english': subcategory}, ignore_index=True)
  df_categories = df_categories.append({'Category': category, 'product_category_name_english': subcategory}, ignore_index=True)
  df_categories = df_categories.append({'Category': category, 'product_category_name_english': subcategory}, ignore_index=True)
  df_categories = df_categories.append({'Category': category, 'product_category_name_english': subcategory}, ignore_index=True)
  df_categories = df_categories.append({'Category': category, 'product_category_name_english': subcategory}, ignore_index=True)
  df_categories = df_categories.append({'Category': category, 'product_category_name_english': subcategory}, ignore_index=True)
  df_categories = df_categories.append({'Category': category, 'product_category_name_english': subcategory}, ignore_index=True)
  df_categories = df_categories.append({'Category': category, 'product_category_name_english': subcatego

Unnamed: 0,Category,product_category_name_english
0,Clothing & Apparel,fashion_shoes
1,Clothing & Apparel,fashion_bags_accessories
2,Clothing & Apparel,baby
3,Clothing & Apparel,fashion_male_clothing
4,Clothing & Apparel,fashio_female_clothing
...,...,...
65,Other,pet_shop
66,Other,security_and_services
67,Other,luggage_accessories
68,Other,signaling_and_security


In [45]:
# Merge Simplifikasi tersebut
df = df.merge(df_categories, on='product_category_name_english', how='inner')
df = df.drop(columns='product_category_name')

In [46]:
df.rename(columns={'product_category_name_english' : 'subcategory'}, inplace=True)

In [47]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 108615 entries, 0 to 108614
Data columns (total 38 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   customer_id                    108615 non-null  object 
 1   customer_unique_id             108615 non-null  object 
 2   customer_zip_code_prefix       108615 non-null  int64  
 3   customer_city                  108615 non-null  object 
 4   customer_state                 108615 non-null  object 
 5   order_id                       108615 non-null  object 
 6   order_status                   108615 non-null  object 
 7   order_purchase_timestamp       108615 non-null  object 
 8   order_approved_at              108615 non-null  object 
 9   order_delivered_carrier_date   108615 non-null  object 
 10  order_delivered_customer_date  108615 non-null  object 
 11  order_estimated_delivery_date  108615 non-null  object 
 12  review_id                     

### Save merge.csv

In [48]:
df.to_csv('1. merge.csv', index=False)

**Lanjut Ke Part Selanjutnya: 2. Explanatory Data Analysis (EDA)**