## Latihan Exploratory Data Analysis

Tujuan
- membuat pertanyaan analisis atau bisnis yang ingin dicari jawabannya; dan
- melakukan eksplorasi terhadap setiap data untuk mencari insight menarik guna menjawab pertanyaan bisnis tersebut.

Alur latihan
- Tahap persiapan.
- Tahap penentuan pertanyaan bisnis untuk explorasi data.
- Tahap eksplorasi data

definisikan beberapa pertanyaan bisnis seperti berikut.

- Bagaimana performa penjualan dan revenue perusahaan dalam beberapa bulan terakhir?
- Produk apa yang paling banyak dan paling sedikit terjual?
- Bagaimana demografi pelanggan yang kita miliki?
- Kapan terakhir pelanggan melakukan transaksi?
- Seberapa sering seorang pelanggan melakukan pembelian dalam beberapa bulan terakhir?
- Berapa banyak uang yang dihabiskan pelanggan dalam beberapa bulan terakhir? 

In [2]:
## base data
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

customers_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/customers.csv")
#head() menampilkan 5 baris teratas data
customers_df.head()
orders_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/orders.csv")
orders_df.head()
product_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/products.csv")
product_df.head()
sales_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/sales.csv")
sales_df.head()

Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity,total_price
0,0,1,218,106,2,212.0
1,1,1,481,118,1,118.0
2,2,1,2,96,3,288.0
3,3,1,1002,106,2,212.0
4,4,1,691,113,3,339.0


## Eksplorasi Data customers_df

In [3]:
# melihat rangkuman parameter statistik dari data customers_df menggunakan method describe()

customers_df.describe(include="all")

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
count,1007.0,1007,989,1007.0,1007,1007.0,1007,1007,1007
unique,,1000,3,,1000,,961,8,1
top,,fulan 808,Prefer not to say,,4277 Ryan IslandSuite 792,,Robertstown,South Australia,Australia
freq,,3,731,,3,,3,140,1007
mean,501.726912,,,50.929494,,5012.538232,,,
std,288.673238,,,30.516299,,2885.836112,,,
min,1.0,,,20.0,,2.0,,,
25%,252.5,,,34.0,,2403.5,,,
50%,502.0,,,50.0,,5087.0,,,
75%,751.5,,,65.0,,7493.5,,,


 kita akan memperoleh informasi jumlah pelanggan sebanyak 1001 orang yang berumur di kisaran antara 20 hingga 80 tahun dengan rata-rata umur sebesar 49.87 tahun dengan standar deviasinya sebesar 17.64 tahun.

 Sekarang coba kita lihat demografi pelanggan berdasarkan jenis kelamin (gender). Untuk melakukan ini, kita akan menggunakan method groupby() yang diikuti dengan method agg().

In [4]:
customers_df.groupby(by="gender").agg({
     "customer_id": "nunique",
    "age": ["max", "min", "mean", "std"]
})

Unnamed: 0_level_0,customer_id,age,age,age,age
Unnamed: 0_level_1,nunique,max,min,mean,std
gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Female,115,79,20,49.147826,16.646607
Male,143,80,20,51.230769,18.462635
Prefer not to say,725,700,20,51.20383,34.145351


Kode di atas akan menghasilkan sebuah pivot table. Ia memuat informasi jumlah pelanggan (nunique dari customer_id) serta parameter umur yang dikelompokkan berdasarkan jenis kelamin.

Berdasarkan pivot table di atas, dapat diketahui bahwa pelanggan yang kita miliki didominasi oleh jenis kelamin prefer not to say. Di lain sisi, distribusi umur mereka ternyata cukup mirip yaitu berkisar antara 20 hingga 80 tahun.

In [5]:
customers_df.groupby(by="city").customer_id.nunique().sort_values(ascending=False)

city
East Aidan       3
East Sophia      3
New Ava          3
West Jackfort    2
Corkeryshire     2
                ..
Jordanside       1
Josephland       1
Josephmouth      1
Justinport       1
Zacville         1
Name: customer_id, Length: 961, dtype: int64

In [6]:
customers_df.groupby(by="state").customer_id.nunique().sort_values(ascending=False)

state
South Australia                 139
Queensland                      134
New South Wales                 132
Northern Territory              125
Western Australia               124
Australian Capital Territory    121
Victoria                        121
Tasmania                        104
Name: customer_id, dtype: int64

selanjutnya kode di atas melihat persebaran jumlah pelanggan berdasarkan kota (city) dan negara bagian (state). Untuk melakukannya kita juga akan menggunakan method groupby(). Selain itu, agar hasilnya lebih mudah untuk dilihat, kita akan mengurutkan nilainya menggunakan method sort_values() secara descending.

Berdasarkan hasil di atas juga, dapat dilihat bahwa persebaran pelanggan kita cukup merata pada setiap kota dan negara bagian. Pelanggan kita paling banyak berada di kota East Aidan, East Sophia, dan New Ava dengan jumlah masing-masing tiga pelanggan. Selain itu, pelanggan kita paling banyak berasal dari negara bagian South Australia.

## Eksplorasi Data orders_df

Data kedua yang akan kita eksplor adalah orders_df. Ia mengandung berbagai informasi terkait sebuah order yang terdiri dari order_id, customer_id, order_date, dan delivery_date. Berdasarkan informasi tersebut, kita bisa membuat sebuah kolom baru untuk memuat waktu pengiriman tiap order. Untuk melakukannya, kita perlu menghitung selisih antar delivery_date dan order_date serta menyimpannya sebagai delivery_time. Selanjutnya, kita akan menggunakan method apply() untuk melakukan sebuah operasi terhadap setiap elemen dalam sebuah kolom DataFrame atau Series (bentuk satu dimensi dari DataFrame). Operasi yang akan kita lakukan ialah menghitung jumlah detik dari delivery_time menggunakan method total_seconds(). Nilai tersebut selanjutnya diubah ke dalam satuan hari (dibagi 86400) dan diambil bilangan bulatnya saja.

In [20]:
# orders_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/orders.csv")


delivery_time = orders_df["delivery_date"] - orders_df["order_date"]
delivery_time = delivery_time.apply(lambda x: x.total_seconds())
orders_df["delivery_time"] = round(delivery_time/86400)
print(orders_df)
'''Setelah menjalankan kode di atas, Anda akan menemukan kolom baru pada 
ataFrame orders_df seperti berikut.
'''

orders_df.describe(include="all")
#orders_df.info()



     order_id  customer_id  payment order_date delivery_date  delivery_time
0           1           64    30811 2021-08-30    2021-09-24           25.0
1           2          473    50490 2021-02-03    2021-02-13           10.0
2           3          774    46763 2021-10-08    2021-11-03           26.0
3           4          433    39782 2021-05-06    2021-05-19           13.0
4           5          441    14719 2021-03-23    2021-03-24            1.0
..        ...          ...      ...        ...           ...            ...
995       996          345    37843 2021-01-13    2021-02-02           20.0
996       997          346    53831 2021-01-18    2021-01-31           13.0
997       998          407    53308 2021-05-05    2021-05-21           16.0
998       999          428    31643 2021-06-15    2021-07-12           27.0
999      1000          896    27836 2021-04-07    2021-04-24           17.0

[1000 rows x 6 columns]


Unnamed: 0,order_id,customer_id,payment,order_date,delivery_date,delivery_time
count,1000.0,1000.0,1000.0,1000,1000,1000.0
mean,500.5,506.64,33972.936,2021-05-27 18:38:52.800000,2021-06-10 20:31:12,14.078
min,1.0,1.0,10043.0,2021-01-01 00:00:00,2021-01-03 00:00:00,1.0
25%,250.75,275.25,21329.25,2021-03-13 18:00:00,2021-03-28 00:00:00,8.0
50%,500.5,515.0,33697.5,2021-05-27 12:00:00,2021-06-11 12:00:00,14.0
75%,750.25,737.25,46249.0,2021-08-12 06:00:00,2021-08-24 06:00:00,21.0
max,1000.0,1000.0,59910.0,2021-10-24 00:00:00,2021-11-20 00:00:00,27.0
std,288.819436,277.115502,14451.609047,,,7.707225


Berdasarkan hasil tersebut, dapat diketahui bahwa rata-rata waktu pengiriman sebesar 14 hari dengan nilai maksimum sebesar 27 hari dan nilai minimum sebesar 1 hari. 

## Eksplorasi Data orders_df dan customers_df

Jika Anda perhatikan, pada data orders_df terdapat kolom yang berisi informasi terkait customer id pelanggan yang pernah melakukan order. Informasi ini bisa kita gunakan untuk mengidentifikasi pelanggan yang belum pernah melakukan order. Untuk melakukan hal ini, kita bisa membuat sebuah kolom baru bernama *“status”* pada data customers_df. Kolom tersebut memiliki nilai *“Active”* untuk pelanggan yang pernah melakukan order setidaknya sekali dan sebaliknya bernilai *“Non Active”* untuk pelanggan yang belum pernah melakukan order sama sekali.

In [32]:
customer_id_in_orders_df =  orders_df.customer_id.tolist()
customers_df["status"] = customers_df["customer_id"].apply(
    lambda x: "Active" if x in customer_id_in_orders_df else "Non Active")
customers_df.sample(5)

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country,status
883,879,fulan 879,Prefer not to say,45,5519 Fay BoulevardApt. 838,2370,Cummingsstad,Australian Capital Territory,Australia,Non Active
247,248,fulan 248,Prefer not to say,38,00 Fadel CircuitApt. 573,4463,D'amorefort,Northern Territory,Australia,Non Active
237,238,fulan 238,Prefer not to say,30,4435 O'hara TerraceSuite 232,5289,New Sophie,Tasmania,Australia,Active
331,331,fulan 331,Prefer not to say,32,5756 Savannah DriveApt. 644,7980,Aidenton,Northern Territory,Australia,Active
456,456,fulan 456,Prefer not to say,33,94 Archie CourtSuite 659,2010,West Lachlan,Queensland,Australia,Active


Untuk memperoleh informasi terkait jumlah pelanggan yang berstatus “Active” dan “Non Active”, kita bisa menggunakan pivot table. Berikut contoh kode untuk membuat pivot table menggunakan kolom “status”.

In [38]:
customers_df.groupby(by="status").customer_id.count()

status
Active        617
Non Active    383
Name: customer_id, dtype: int64

Seperti yang terlihat pada pivot table di atas, terdapat cukup banyak pelanggan yang belum pernah melakukan transaksi sebelumnya. Ini tentunya merupakan kabar buruk bagi kita karena hampir 30% pelanggan kita belum pernah melakukan order sebelumnya.

Untuk memperoleh lebih banyak informasi terkait kedua data tersebut, kita perlu menggabungkan keduanya melalui proses join atau merge. Berikut merupakan contoh kode untuk melakukan merge terhadap data orders_df dan customers_df.

In [33]:
orders_customers_df = pd.merge(
     left=orders_df,
    right=customers_df,
    how="left",
    left_on="customer_id",
    right_on="customer_id"
)

orders_customers_df.head()

Unnamed: 0,order_id,customer_id,payment,order_date,delivery_date,delivery_time,customer_name,gender,age,home_address,zip_code,city,state,country,status
0,1,64,30811,2021-08-30,2021-09-24,25.0,fulan 64,Prefer not to say,75,4927 Alice MeadowApt. 960,7787,Sanfordborough,South Australia,Australia,Active
1,2,473,50490,2021-02-03,2021-02-13,10.0,fulan 473,Male,61,531 Schmitt BoulevardApt. 010,1744,Annaton,South Australia,Australia,Active
2,3,774,46763,2021-10-08,2021-11-03,26.0,fulan 774,Prefer not to say,34,2096 Wilson MewsApt. 714,8590,West Jonathanshire,Tasmania,Australia,Active
3,4,433,39782,2021-05-06,2021-05-19,13.0,fulan 433,Prefer not to say,46,5777 Mayer PassApt. 881,9728,West Michaelport,Tasmania,Australia,Active
4,5,441,14719,2021-03-23,2021-03-24,1.0,fulan 441,Prefer not to say,53,33 Richards JunctionApt. 478,7650,South Rileyview,Western Australia,Australia,Active


Pada kode di atas, kita melakukan proses merge dengan metode “left”. Tentunya Anda masih ingat bukan dengan metode tersebut. Yap, betul sekali metode ini memungkinkan kita untuk mengambil semua nilai dari tabel kiri serta nilai yang bersesuaian dengan tabel kanan. Berikut di atas merupakan tampilan data dari kode di atas.

Terdapat banyak sekali informasi yang bisa kita eksplore dari data di atas. Berikut merupakan beberapa hal yang bisa dijelajahi.

#### Jumlah order berdasarkan kota

Kita bisa membuat pivot table untuk memperoleh informasi terkait jumlah order berdasarkan kota dengan kode seperti berikut.

In [34]:
orders_customers_df.groupby(by="city").order_id.nunique().sort_values(ascending=False).reset_index().head(10)

Unnamed: 0,city,order_id
0,Jordanside,6
1,New Ava,6
2,Lake Rose,5
3,O'keefeton,5
4,East Max,5
5,Port Hannahburgh,5
6,Rubyfort,5
7,West Kai,5
8,Andrewborough,4
9,Port Aaronton,4


Nah, berdasarkan hasil tersebut, diketahui bahwa kota Jordanside dan New Ava merupakan dua kota yang memiliki jumlah order terbanyak.

#### Jumlah order berdasarkan state
Sekarang kita akan melihat jumlah order berdasarkan state. Untuk memperoleh informasi terkait hal ini, kita juga bisa menggunakan pivot table. Gunakan kode di bawah ini untuk menerapkannya.

In [35]:
orders_customers_df.groupby(by="state").order_id.nunique().sort_values(ascending=False)

state
South Australia                 148
Queensland                      139
Western Australia               130
New South Wales                 129
Australian Capital Territory    118
Victoria                        118
Tasmania                        112
Northern Territory              106
Name: order_id, dtype: int64

Berdasarkan pivot table tersebut, diketahui bahwa South Australia merupakan state yang balik banyak melakukan order.

#### Jumlah order berdasarkan gender
Informasi selanjutnya yang dapat kita eksplorasi adalah jumlah order berdasarkan gender. Untuk melakukan hal ini, tentunya kita perlu membuat sebuah pivot table menggunakan kode berikut.

In [36]:
orders_customers_df.groupby(by="gender").order_id.nunique().sort_values(ascending=False)

gender
Prefer not to say    725
Female               139
Male                 136
Name: order_id, dtype: int64

dapat dilihat bahwa kebanyakan order dilakukan oleh pelanggan yang berjenis kelamin prefer not to say. Hal ini tentunya sejalan dengan jumlah pelanggan yang kebanyakan dari kelompok gender tersebut.

#### Jumlah order berdasarkan kelompok usia
Last but not least, kita juga bisa mengeksplorasi jumlah order berdasarkan kelompok usia. Untuk melakukan hal ini, kita perlu mendefinisikan sebuah kolom baru bernama “age_group”. Kolom ini akan membantu kita dalam mengelompokkan pelanggan ke dalam tiga kelompok, yaitu youth, adults, dan seniors. Selanjutnya, buatlah pivot table berdasarkan hal tersebut menggunakan contoh kode di bawah ini.

In [37]:
orders_customers_df["age_group"] = orders_customers_df.age.apply(
    lambda x: "Youth" if x <= 24 else ("Senior" if x > 64 else "Adults")
)
orders_customers_df.groupby(by="age_group").order_id.nunique().sort_values(ascending=False)

age_group
Adults    691
Senior    216
Youth      93
Name: order_id, dtype: int64

Oke, sejauh ini kita telah menemukan banyak sekali informasi yang tentunya menarik untuk ditelusuri lebih dalam. Namun, sebelum itu mari kita mengeksplorasi dua data yang lain (product_df dan sales_df) terlebih dahulu. 

## Eksplorasi Data product_df dan sales_df
Pada tahap ini, kita akan mengeksplorasi data product_df dan sales_df. Sebagai permulaan, kita dapat melihat rangkuman parameter statistik dari keduanya menggunakan method describe().

In [40]:
print(product_df.describe(include="all"))
print(sales_df.describe(include="all"))

         product_id product_type product_name  size colour        price  \
count   1260.000000         1260         1260  1260   1260  1260.000000   
unique          NaN            3           35     8      7          NaN   
top             NaN        Shirt        Denim    XS    red          NaN   
freq            NaN          420           70   252    180          NaN   
mean     629.500000          NaN          NaN   NaN    NaN   105.805556   
std      363.874979          NaN          NaN   NaN    NaN     9.704423   
min        0.000000          NaN          NaN   NaN    NaN    90.000000   
25%      314.750000          NaN          NaN   NaN    NaN    95.750000   
50%      629.500000          NaN          NaN   NaN    NaN   108.500000   
75%      944.250000          NaN          NaN   NaN    NaN   114.000000   
max     1259.000000          NaN          NaN   NaN    NaN   119.000000   

           quantity                                   description  
count   1260.000000            

Berdasarkan hasil tersebut, dapat dilihat bahwa harga barang yang dijual berkisar antara 90 hingga 119 dolar. Selain itu, kita juga memperoleh informasi lain yang tidak kalah menarik yaitu pada setiap transaksi pelanggan paling banyak membeli tiga buah item dalam satu jenis produk dengan total harga sebesar 357 dolar. 

penasaran dengan produk yang memiliki harga termahal dan terendah, silakan jalankan kode berikut untuk melihatnya.

In [41]:
product_df.sort_values(by="price", ascending=False)

Unnamed: 0,product_id,product_type,product_name,size,colour,price,quantity,description
704,698,Jacket,Parka,L,violet,119,53,"A violet coloured, L sized, Parka Jacket"
671,665,Jacket,Parka,XS,red,119,65,"A red coloured, XS sized, Parka Jacket"
698,692,Jacket,Parka,M,indigo,119,66,"A indigo coloured, M sized, Parka Jacket"
699,693,Jacket,Parka,L,indigo,119,44,"A indigo coloured, L sized, Parka Jacket"
700,694,Jacket,Parka,XL,indigo,119,78,"A indigo coloured, XL sized, Parka Jacket"
...,...,...,...,...,...,...,...,...
1225,1219,Trousers,Pleated,XL,indigo,90,45,"A indigo coloured, XL sized, Pleated Trousers"
1226,1220,Trousers,Pleated,XS,violet,90,58,"A violet coloured, XS sized, Pleated Trousers"
1227,1221,Trousers,Pleated,S,violet,90,50,"A violet coloured, S sized, Pleated Trousers"
1228,1222,Trousers,Pleated,M,violet,90,45,"A violet coloured, M sized, Pleated Trousers"


merupakan tampilan hasil dari kode di atas. Dapat dilihat bahwa produk termahal ialah item jaket bernama Parka dan yang termurah bernama Bomber.

Selanjutnya, kita bisa menggunakan pivot table untuk mencari informasi terkait produk berdasarkan tipe dan nama produknya. Berikut contoh kode yang bisa Anda gunakan.

In [42]:
product_df.groupby(by="product_type").agg({
    'product_id': 'nunique',
    'quantity': 'sum',
    'price': ['min', 'max']
})

Unnamed: 0_level_0,product_id,quantity,price,price
Unnamed: 0_level_1,nunique,sum,min,max
product_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Jacket,420,25387,90,119
Shirt,420,25263,92,119
Trousers,420,25139,90,119


In [43]:
product_df.groupby(by="product_name").agg({
    "product_id": "nunique",
    "quantity": "sum",
    "price": ["min", "max"]
})

Unnamed: 0_level_0,product_id,quantity,price,price
Unnamed: 0_level_1,nunique,sum,min,max
product_name,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Bomber,35,2083,90,90
Camp Collared,35,2071,112,112
Cardigan,35,2032,118,118
Cargo Pants,35,2146,106,106
Casual Slim Fit,35,2086,113,113
Chambray,35,2020,105,105
Chinos,35,2101,100,100
Coach,35,2158,115,115
Cords,35,2260,113,113
Cropped,35,2085,99,99


Pivot table di atas dapat memberikan kita gambaran terkait produk yang dijual oleh Dicoding Collection. Sebagai calon praktisi data yang Andal, tentunya Anda penasaran dengan produk yang paling laris. Nah, untuk menjawab pertanyaan ini, kita perlu menyatukan (merge) tabel product_df dan sales_df dengan kode berikut.

In [44]:
sales_product_df = pd.merge(
    left=sales_df,
    right=product_df,
    how='left',
    left_on='product_id',
    right_on='product_id'
)

sales_product_df.head()

Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity_x,total_price,product_type,product_name,size,colour,price,quantity_y,description
0,0,1,218,106,2,212,Shirt,Chambray,L,orange,105,44,"A orange coloured, L sized, Chambray Shirt"
1,1,1,481,118,1,118,Jacket,Puffer,S,indigo,110,62,"A indigo coloured, S sized, Puffer Jacket"
2,2,1,2,96,3,288,Shirt,Oxford Cloth,M,red,114,54,"A red coloured, M sized, Oxford Cloth Shirt"
3,3,1,1002,106,2,212,Trousers,Wool,M,blue,111,52,"A blue coloured, M sized, Wool Trousers"
4,4,1,691,113,3,339,Jacket,Parka,S,indigo,119,53,"A indigo coloured, S sized, Parka Jacket"


Pada dasarnya kode di atas akan melakukan proses merge terhadap data product_df dan sales_df. Proses merge tersebut dilakukan menggunakan metode “left”.

Jika diperhatikan kembali, hasil dari proses merge di atas memiliki perbedaan antara nilai price_per_unit dan price. Hal ini bisa terjadi karena adanya potongan harga, biaya operasional, dan biaya lainnya. 

Oke, sekarang kita coba melihat informasi penjualan produk berdasarkan tipenya. Pastinya Anda sudah bisa menebak teknik apa yang akan kita gunakan untuk memperoleh informasi tersebut, bukan? Yap, betul sekali kita akan membuat pivot table berdasarkan produk type dengan kode berikut.

In [45]:
sales_product_df.groupby(by="product_type").agg({
    "sales_id": "nunique",
    "quantity_x": "sum",
    "total_price": "sum"
})

Unnamed: 0_level_0,sales_id,quantity_x,total_price
product_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jacket,1676,3343,357026
Shirt,1641,3259,333600
Trousers,1683,3360,341174


Jika Anda perhatikan pivot table di atas, Trousers merupakan tipe produk yang paling laris. Akan tetapi, jika dilihat berdasarkan revenue yang diterima, Jacket merupakan tipe produk yang paling banyak menyumbang revenue perusahaan. 

Kita bisa membuat pivot table yang sama untuk melihat informasi penjualan berdasarkan nama produk menggunakan kode di bawah ini

In [46]:
sales_product_df.groupby(by="product_name").agg({
    "sales_id": "nunique",
    "quantity_x": "sum",
    "total_price": "sum"
}).sort_values(by="total_price", ascending=False)

Unnamed: 0_level_0,sales_id,quantity_x,total_price
product_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Denim,273,527,52399
Casual Slim Fit,154,306,36414
Trench Coat,146,299,35581
Shearling,150,302,35334
Puffer,140,298,35164
Flannel,141,281,33158
Cropped,135,284,32660
Pleated,147,308,32340
Joggers,164,334,31062
Chambray,141,290,30740


Berdasarkan pivot table tersebut, diketahui bahwa produk Denim merupakan produk yang paling laris dan juga paling banyak menyumbang revenue terhadap perusahaan.

## Eksplorasi Data all_df
Hmm…, jika diperhatikan data penjualan ini cukup menarik untuk ditelusuri lebih dalam. Hal ini dilakukan guna melihat pola pembelian berdasarkan demografi pelanggan. Oleh karena itu, kita perlu membuat sebuah DataFrame baru bernama all_df untuk menampung semua informasi dari keempat tabel yang kita miliki. Berikut contoh kode yang dapat kita gunakan untuk menjalankan proses penggabungan ini.

In [47]:
all_df = pd.merge(
    left=sales_product_df,
    right=orders_customers_df,
    how='left',
    left_on='order_id',
    right_on='order_id'
)

all_df.head()

Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity_x,total_price,product_type,product_name,size,colour,...,customer_name,gender,age,home_address,zip_code,city,state,country,status,age_group
0,0,1,218,106,2,212,Shirt,Chambray,L,orange,...,fulan 64,Prefer not to say,75,4927 Alice MeadowApt. 960,7787,Sanfordborough,South Australia,Australia,Active,Senior
1,1,1,481,118,1,118,Jacket,Puffer,S,indigo,...,fulan 64,Prefer not to say,75,4927 Alice MeadowApt. 960,7787,Sanfordborough,South Australia,Australia,Active,Senior
2,2,1,2,96,3,288,Shirt,Oxford Cloth,M,red,...,fulan 64,Prefer not to say,75,4927 Alice MeadowApt. 960,7787,Sanfordborough,South Australia,Australia,Active,Senior
3,3,1,1002,106,2,212,Trousers,Wool,M,blue,...,fulan 64,Prefer not to say,75,4927 Alice MeadowApt. 960,7787,Sanfordborough,South Australia,Australia,Active,Senior
4,4,1,691,113,3,339,Jacket,Parka,S,indigo,...,fulan 64,Prefer not to say,75,4927 Alice MeadowApt. 960,7787,Sanfordborough,South Australia,Australia,Active,Senior


Selanjutnya, mari kita coba lihat preferensi pembelian berdasarkan state pelanggan dan tipe produk menggunakan kode di bawah ini.

In [48]:
all_df.groupby(by=['state', 'product_type']).agg({
    "quantity_x": "sum",
    "total_price": "sum"
})

Unnamed: 0_level_0,Unnamed: 1_level_0,quantity_x,total_price
state,product_type,Unnamed: 2_level_1,Unnamed: 3_level_1
Australian Capital Territory,Jacket,406,43204
Australian Capital Territory,Shirt,396,40448
Australian Capital Territory,Trousers,454,46790
New South Wales,Jacket,451,47998
New South Wales,Shirt,431,43980
New South Wales,Trousers,392,39766
Northern Territory,Jacket,365,38991
Northern Territory,Shirt,336,33865
Northern Territory,Trousers,384,38998
Queensland,Jacket,499,53511


Pivot table di atas memberikan kita gambaran terkait tipe produk yang disukai pengguna berdasarkan lokasi negara bagiannya. Jika diperhatikan, tipe produk Jacket (garis merah) paling banyak terjual pada negara bagian Queensland, South Australia, dan New South Wales. Untuk tipe produk lain, Anda bisa melihatnya pada gambar pivot table di atas. 

Sekarang Anda bisa melakukan hal yang sama untuk mengetahui selera tipe produk pelanggan berdasarkan gender dan kelompok usia. Berikut contoh kode yang bisa Anda gunakan.

In [51]:
all_df.groupby(by=["gender", "product_type"]).agg({
    "quantity_x": "sum",
    "total_price": "sum"
})

Unnamed: 0_level_0,Unnamed: 1_level_0,quantity_x,total_price
gender,product_type,Unnamed: 2_level_1,Unnamed: 3_level_1
Female,Jacket,481,50963
Female,Shirt,445,45146
Female,Trousers,481,49295
Male,Jacket,480,50978
Male,Shirt,410,41939
Male,Trousers,453,46071
Prefer not to say,Jacket,2382,255085
Prefer not to say,Shirt,2404,246515
Prefer not to say,Trousers,2426,245808


In [50]:
all_df.groupby(by=["age_group", "product_type"]).agg({
    "quantity_x": "sum",
    "total_price": "sum"
})

Unnamed: 0_level_0,Unnamed: 1_level_0,quantity_x,total_price
age_group,product_type,Unnamed: 2_level_1,Unnamed: 3_level_1
Adults,Jacket,2332,249475
Adults,Shirt,2255,230907
Adults,Trousers,2317,235880
Senior,Jacket,737,78539
Senior,Shirt,703,71851
Senior,Trousers,721,72862
Youth,Jacket,274,29012
Youth,Shirt,301,30842
Youth,Trousers,322,32432


Nah, pivot table di atas dapat memberikan kita gambaran terkait selera tipe produk pelanggan berdasarkan gender dan kelompok usia. Semua informasi ini akan sangat membantu Anda dalam menjawab pertanyaan terkait preferensi pengguna berdasarkan demografinya.

Oke, sekarang kita selesai melakukan eksplorasi terhadap dataset yang kita miliki. Sejauh ini, masih banyak pertanyaan analisis atau bisnis yang belum terjawab. Namun, jangan khawatir. Pada materi selanjutnya, kita akan berkenalan dengan teknik visualisasi dan melakukan analisis data yang lebih advance guna menjawab pertanyaan bisnis yang belum terjawab tersebut.