## Latihan Exploratory Data Analysis

Tujuan
- membuat pertanyaan analisis atau bisnis yang ingin dicari jawabannya; dan
- melakukan eksplorasi terhadap setiap data untuk mencari insight menarik guna menjawab pertanyaan bisnis tersebut.

Alur latihan
- Tahap persiapan.
- Tahap penentuan pertanyaan bisnis untuk explorasi data.
- Tahap eksplorasi data

definisikan beberapa pertanyaan bisnis seperti berikut.

- Bagaimana performa penjualan dan revenue perusahaan dalam beberapa bulan terakhir?
- Produk apa yang paling banyak dan paling sedikit terjual?
- Bagaimana demografi pelanggan yang kita miliki?
- Kapan terakhir pelanggan melakukan transaksi?
- Seberapa sering seorang pelanggan melakukan pembelian dalam beberapa bulan terakhir?
- Berapa banyak uang yang dihabiskan pelanggan dalam beberapa bulan terakhir? 

In [13]:
## base data
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

customers_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/customers.csv")
#head() menampilkan 5 baris teratas data
customers_df.head()
orders_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/orders.csv")
orders_df.head()
product_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/products.csv")
product_df.head()
sales_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/sales.csv")
sales_df.head()

Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity,total_price
0,0,1,218,106,2,212.0
1,1,1,481,118,1,118.0
2,2,1,2,96,3,288.0
3,3,1,1002,106,2,212.0
4,4,1,691,113,3,339.0


## Eksplorasi Data customers_df

In [14]:
# melihat rangkuman parameter statistik dari data customers_df menggunakan method describe()

customers_df.describe(include="all")

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
count,1007.0,1007,989,1007.0,1007,1007.0,1007,1007,1007
unique,,1000,3,,1000,,961,8,1
top,,fulan 808,Prefer not to say,,4277 Ryan IslandSuite 792,,Robertstown,South Australia,Australia
freq,,3,731,,3,,3,140,1007
mean,501.726912,,,50.929494,,5012.538232,,,
std,288.673238,,,30.516299,,2885.836112,,,
min,1.0,,,20.0,,2.0,,,
25%,252.5,,,34.0,,2403.5,,,
50%,502.0,,,50.0,,5087.0,,,
75%,751.5,,,65.0,,7493.5,,,


 kita akan memperoleh informasi jumlah pelanggan sebanyak 1001 orang yang berumur di kisaran antara 20 hingga 80 tahun dengan rata-rata umur sebesar 49.87 tahun dengan standar deviasinya sebesar 17.64 tahun.

 Sekarang coba kita lihat demografi pelanggan berdasarkan jenis kelamin (gender). Untuk melakukan ini, kita akan menggunakan method groupby() yang diikuti dengan method agg().

In [15]:
customers_df.groupby(by="gender").agg({
     "customer_id": "nunique",
    "age": ["max", "min", "mean", "std"]
})

Unnamed: 0_level_0,customer_id,age,age,age,age
Unnamed: 0_level_1,nunique,max,min,mean,std
gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Female,115,79,20,49.147826,16.646607
Male,143,80,20,51.230769,18.462635
Prefer not to say,725,700,20,51.20383,34.145351


Kode di atas akan menghasilkan sebuah pivot table. Ia memuat informasi jumlah pelanggan (nunique dari customer_id) serta parameter umur yang dikelompokkan berdasarkan jenis kelamin.

Berdasarkan pivot table di atas, dapat diketahui bahwa pelanggan yang kita miliki didominasi oleh jenis kelamin prefer not to say. Di lain sisi, distribusi umur mereka ternyata cukup mirip yaitu berkisar antara 20 hingga 80 tahun.

In [16]:
customers_df.groupby(by="city").customer_id.nunique().sort_values(ascending=False)

city
East Aidan       3
East Sophia      3
New Ava          3
West Jackfort    2
Corkeryshire     2
                ..
Jordanside       1
Josephland       1
Josephmouth      1
Justinport       1
Zacville         1
Name: customer_id, Length: 961, dtype: int64

In [17]:
customers_df.groupby(by="state").customer_id.nunique().sort_values(ascending=False)

state
South Australia                 139
Queensland                      134
New South Wales                 132
Northern Territory              125
Western Australia               124
Australian Capital Territory    121
Victoria                        121
Tasmania                        104
Name: customer_id, dtype: int64

selanjutnya kode di atas melihat persebaran jumlah pelanggan berdasarkan kota (city) dan negara bagian (state). Untuk melakukannya kita juga akan menggunakan method groupby(). Selain itu, agar hasilnya lebih mudah untuk dilihat, kita akan mengurutkan nilainya menggunakan method sort_values() secara descending.

Berdasarkan hasil di atas juga, dapat dilihat bahwa persebaran pelanggan kita cukup merata pada setiap kota dan negara bagian. Pelanggan kita paling banyak berada di kota East Aidan, East Sophia, dan New Ava dengan jumlah masing-masing tiga pelanggan. Selain itu, pelanggan kita paling banyak berasal dari negara bagian South Australia.

## Eksplorasi Data orders_df

Data kedua yang akan kita eksplor adalah orders_df. Ia mengandung berbagai informasi terkait sebuah order yang terdiri dari order_id, customer_id, order_date, dan delivery_date. Berdasarkan informasi tersebut, kita bisa membuat sebuah kolom baru untuk memuat waktu pengiriman tiap order. Untuk melakukannya, kita perlu menghitung selisih antar delivery_date dan order_date serta menyimpannya sebagai delivery_time. Selanjutnya, kita akan menggunakan method apply() untuk melakukan sebuah operasi terhadap setiap elemen dalam sebuah kolom DataFrame atau Series (bentuk satu dimensi dari DataFrame). Operasi yang akan kita lakukan ialah menghitung jumlah detik dari delivery_time menggunakan method total_seconds(). Nilai tersebut selanjutnya diubah ke dalam satuan hari (dibagi 86400) dan diambil bilangan bulatnya saja.

In [32]:
# orders_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/orders.csv")


# delivery_time = orders_df["delivery_date"] - orders_df["order_date"]
# delivery_time = delivery_time.apply(lambda x: x.total_seconds())
# orders_df["delivery_time"] = round(delivery_time/86400)

# orders_df.describe(include="all")

orders_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   order_id       1000 non-null   int64  
 1   customer_id    1000 non-null   int64  
 2   payment        1000 non-null   int64  
 3   order_date     1000 non-null   object 
 4   delivery_date  1000 non-null   object 
 5   delivery_time  1000 non-null   float64
dtypes: float64(1), int64(3), object(2)
memory usage: 47.0+ KB
