### DATA VISUALIZATION

Proses ini dilakukan untuk mendapatkan beberapa gambaran dari kedua dataset tersebut. Ini adalah notebook pertama saya. Mari kita coba!

#### I. Persiapan Data

Tahapan untuk mempersiapkan data menggunakan python ini dilakukan dengan memuat beberapa library/pustaka dan dataset yang dibutuhkan.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.ticker as tick
import seaborn as sns
import re
import os

%matplotlib inline

sns.set_style('white')


for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

Fungsi-fungsi dari beberapa library yang digunakan antara lain:
<ul>
<li><b>Pandas</b> : Library ini digunakan untuk mengubah dataset menjadi dataframe/tabel yang akan diolah dan divisualisasi</li>
<li><b>Numpy</b> : Library pengolah data numerik yang digunakan untuk memroses dan kalkulasi dari data</li>
<li><b>Matplotlib</b> : Library dasar untuk visualisasi data</li>
<li><b>Seaborn</b> : Library yang bekerja di atas library Matplotlib yang digunakan untuk proses visualisasi data. Library ini memiliki fitur-fitur tambahan seperti violin, swarm, dsb</li>
</ul>
<br>
Proses selanjutnya adalah memuat dataset yang digunakan ke dalam Python menggunakan <b>pandas.read_csv()</b>


In [None]:
df_items = pd.read_csv('/kaggle/input/lazada-indonesian-reviews/20191002-items.csv')
df_reviews = pd.read_csv('/kaggle/input/lazada-indonesian-reviews/20191002-reviews.csv')

#### II. Identifikasi Dataframe
Tahapan ini bertujuan untuk mengidentifikasi setiap dataframe sehingga mendapatkan gambaran tentang dataframe yang digunakan, dan apa yang bisa dilakukan dari dataframe tersebut berdasarkan tujuan.

##### Deskripsi
##### 1. df_items (Dataframe Items)
Hal pertama yang dilakukan adalah mendeskripsikan dataframe untuk mendapatkan informasi susunan dan isi kolom serta beberapa baris dataframe. 

In [None]:
#Menampilkan informasi dari jumlah kolom dan baris, serta lima sampel teratas dari dataframe df_items
print('shape : {}'.format(df_items.shape))
df_items.head()

In [None]:
#deskripsi items
df_items.describe()

Berdasarkan deskripsi di atas, kita mendapatkan informasi jumlah kolom dari df_items sebanyak 9 buah, dan baris sebanyak 10942 buah. Pada kolom price, harga tertinggi yaitu 275000000, harga terendah 1000, dan rata-rata harganya 3020219.

Pada kolom average rating, rata-rata rating yang diberikan yakni 4.17, rating tertinggi adalah 5, dan rating terendah 1. Kolom totalReviews memiliki nilai rata-rata review sebesar 27, terendah sebesar 1, dan tertinggi sebesar 9631 buah.

##### 2. df_reviews (Dataframe reviews) 

In [None]:
df_reviews.head()

In [None]:
df_reviews.describe()

#### III. Data Cleaning

Tahapan pembersihan, modifikasi, dan mempersiapkan dataframe kita sesuai dengan kebutuhan

In [None]:
##### 1. df_items (Dataframe Items)

In [None]:
#Melihat kategori yang ada di df_items.category
df_items.category.value_counts()

In [None]:
#Melihat apakah setiap item memiliki satu kategory atau lebih
#Satu kategori
cat1 = len(pd.concat(g for _, g in df_items.groupby(['itemId']) if len(g) == 1))
print('Satu kategori :', cat1)

#Dua kategori
cat2 = len(pd.concat(g for _, g in df_items.groupby(['itemId']) if len(g) == 2))
print('Dua kategori :', cat2)

#Tiga kategori
cat3 = len(pd.concat(g for _, g in df_items.groupby(['itemId']) if len(g) == 3))
print('Tiga kategori :', cat3)

#Empat kategori
cat4 = len(pd.concat(g for _, g in df_items.groupby(['itemId']) if len(g) == 4))
print('Empat kategori :', cat4)

#Lima kategori
cat5 = len(pd.concat(g for _, g in df_items.groupby(['itemId']) if len(g) == 5))
print('Lima kategori :', cat5)

Dari proses di atas, setiap item dapat memiliki lebih dari satu kategori. Selanjutnya kita coba visualisasikan.

In [None]:
#Visualisasi piecat
cat = np.array([cat1, cat2, cat3, cat4, cat5])
cat_percentile = []
for i in cat:
    x = i/np.sum(cat)
    cat_percentile.append(x)
     

fig, ax = plt.subplots(figsize = (8, 6))

labels = ['Satu Kategori', 'Dua Kategori', 'Tiga Kategori', 'Empat Kategori', 'Lima Kategori']
ax.pie(x = cat_percentile,
       autopct = '%1.2f%%')
ax.set_title(label = 'Komposisi items menurut jumlah kategorinya', size = 16)
ax.legend(labels, loc = 'upper right', bbox_to_anchor=(1.25, 0.9))
plt.show()

Dari visualisasi di atas, kita dapat melihat komposisi item berdasarkan jumlah kategorinya. Komposisi terbesar adalah dua kategori sebesar 37.07% dari 10942 total baris di df_items, dan terendah yakni 2.17% pada tiga kategori. Kita perlu melakukan eksplorasi lebih lanjut untuk mengetahui bagaimana duplikasi items pada dataset df_items

In [None]:
#Menampilkan sampel data yang memiliki jumlah kategori = 1
df_items_cat1 = pd.concat(g for _, g in df_items.groupby(['itemId']) if len(g) == 1)
df_items_cat1.head()

In [None]:
#Menampilkan sampel data yang memiliki jumlah kategori = 2
df_items_cat2 = pd.concat(g for _, g in df_items.groupby(['itemId']) if len(g) == 2)

print(df_items_cat2.category.value_counts(), '\n')
df_items_cat2.head(6)

Berdasarkan sampel dari item yang memiliki jumlah kategori = 2, kita dapat mengamati nama-nama item lebih sesuai untuk kategori jual-flash-drive daripada harddisk

In [None]:
#Menampilkan sampel data dengan kategori = 3
df_items_cat3 = pd.concat(g for _, g in df_items.groupby(['itemId']) if len(g) == 3)
print(df_items_cat3.category.value_counts(), '\n')
df_items_cat3.head(6)

In [None]:
_ = df_items_cat3[~df_items_cat3['name'].str.contains('smart', flags=re.IGNORECASE, regex = True)]
print('Jumlah kolom : ', len(_))
_.head()

Pada sampel di atas, kita dapat mengamati bahwa berdasarkan nama item, kategori yang cocok adalah beli-smart-TV dengan keyword 'smart'. Namun, terdapat beberapa items yang berada di luar keyword tersebut. Items tersebut tetap dimasukkan ke dalam kategori beli-smart-tv karena masih ada keterkaitan dengan kategori ini.

In [None]:
#Menampilkan sampel dari jumlah kategori = 4
df_items_cat4 = pd.concat(g for _, g in df_items.groupby(['itemId']) if len(g) == 4)
print(df_items_cat4.category.value_counts(), '\n')
df_items_cat4.head(8)

In [None]:
keyword = '|'.join(['tv', 'led'])

_ = df_items_cat4[~df_items_cat4['name'].str.contains(keyword, flags=re.IGNORECASE, regex = True)]
print(len(_))
_.head()

Dari sampel dan hasil eksplorasi dari baris yang memiliki jumlah kategori = 4, kita mendapatkan gambaran bahwa nama items sebagian besar memiliki keyword tv, dan led, serta hanya 100 baris yang tidak memiliki kata kunci. Meskipun demikian, nama-nama produk tersebut masih memiliki keterikatan dengan kategori shop-televisi-digital. Oleh karena itu, kita asumsikan sebagai kategori shop-televisi-digital.

In [None]:
#Menampilkan sampel dari jumlah kategori = 5
df_items_cat5 = pd.concat(g for _, g in df_items.groupby(['itemId']) if len(g) == 5)
print(df_items_cat5.category.value_counts(), '\n')
df_items_cat5.head()

Berdasarkan sampel dan sebaran brand name dari df_items dengan jumlah kategori = 5 di atas, kita mendapatkan gambaran bahwa nama dan brand item memiliki keterkaitan dengan kategori beli-laptop daripada kategori lainnya.

Selanjutnya, kita akan mengeliminasi baris yang memiliki nilai duplikat yang disaring berdasarkan kategorinya, dengan hasil yang diinginkan berupa setiap item hanya memiliki satu kategori spesifik berdasarkan dataframe yang sudah dibagi berdasarkan jumlah kategorinya.

In [None]:
#Kategori 2
df_items_cat2 = df_items_cat2[df_items_cat2['category'] == 'jual-flash-drives']

#Kategori 3
df_items_cat3 = df_items_cat3[df_items_cat3['category'] == 'beli-smart-tv']

#Kategori 4
df_items_cat4 = df_items_cat4[df_items_cat4['category'] == 'shop-televisi-digital']

#Kategori 5
df_items_cat5 = df_items_cat5[df_items_cat5['category'] == 'beli-laptop']

print(df_items_cat1.category.value_counts(),'\n')
print(df_items_cat2.category.value_counts(),'\n')
print(df_items_cat3.category.value_counts(),'\n')
print(df_items_cat4.category.value_counts(),'\n')
print(df_items_cat5.category.value_counts())

Setiap dataframe yang sebelumnya terdiri dari lebih dari satu kategori, sekarang sudah bersifat unik, yang artinya setiap item hanya memiliki satu kategori. Proses ini dilakukan untuk menyederhanakan dataset karena duplikasi tersebut mempengaruhi jumlah baris dataset dan output yang nantinya akan cari. Duplikasi ini akan dijelaskan ketika kita sampai pada proses cleaning data dalam dataframe reviews.
Tahapan selanjutnya adalah menggabungkan kelima dataframe unik tersebut ke dalam sebuah dataframe baru, dan mengeliminasi kolom retrieveDate.

In [None]:
#Menggabungkan dataframe
df_items_clean = pd.concat([df_items_cat1, df_items_cat2, df_items_cat3, df_items_cat4, df_items_cat5],
                          axis = 0)
df_items_clean.reset_index(drop= True, inplace = True)
print(df_items_clean.info(), '\n')
print(df_items_clean.category.value_counts())

In [None]:
#Menampilkan baris dengan brandName null
df_items_clean[df_items_clean['brandName'].isnull()]

#Mengganti brandName yang null menjadi WD
df_items_clean.brandName.fillna('WD', inplace = True)

#Menghapus kolom retrievedDate
df_items_clean = df_items_clean.drop('retrievedDate', axis = 1)

print(df_items_clean.info(), '\n')
print(df_items_clean.category.value_counts(), '\n')
df_items_clean.head()

Dari proses di atas, kita sudah melakukan cleaning data pada dataframe df_items dan disimpan ke object df_items_clean. Selanjutnya pindah ke dataframe reviews. Prosesnya kurang lebih akan sama dengan df_items.

##### 2. df_reviews (Dataframe reviews)

In [None]:
#menampilkan 5 baris teratas dari df_reviews
df_reviews.head()


In [None]:
#Mengambil 1 item sebagai sampel untuk dicermati
df_reviews[df_reviews['itemId'] == 100002528]

Dari salah satu item yang dijadikan sampel di atas, kita dapat melihat karakteristik df_reviews sama seperti df_items, yakni duplikasi berdasarkan kategori, sehingga setiap barisnya sama, hanya dibedakan pada kategorinya saja, sehingga perlu dilakukan eliminasi duplikasi tersebut.

In [None]:
df_reviews_clean = df_reviews[df_reviews.set_index(['itemId', 'category']).index.isin(df_items_clean.set_index(['itemId', 'category']).index)]
print(df_reviews_clean.shape, '\n')
df_reviews_clean.head()

In [None]:
x = df_items_clean[df_items_clean['itemId'] == 100002528]
print(len(df_reviews_clean[df_reviews_clean['itemId'] == 100002528]))
y = df_reviews_clean[df_reviews_clean['itemId'] == 100002528]

#Mengecek apakah total review dari salah satu item sesuai dengan jumlah baris reviewnya
if x.totalReviews.item() == len(y):
    print(True)
else:
    print(False)

Setelah membandingkan nilai kolom totalReviews pada df_items dengan jumlah baris di df_reviews berdasarkan itemId dan bernilai True, maka kedua dataframe sudah relevan. Selanjutnya kita akan mengeliminasi kolom yang tidak diperlukan, seperti retrieveDate, originalRating.

In [None]:
#Mengecek apakah kolom likeCount dan upVotes memiliki nilai yang sama
print(df_reviews_clean.likeCount.equals(df_reviews_clean.upVotes))

In [None]:
#Mengeliminasi kolom originalRating, likeCount, retrievedDate
df_reviews_clean = df_reviews_clean.drop(columns=['originalRating', 'likeCount', 'retrievedDate'])
df_reviews_clean.head()

In [None]:
print('Jumlah NaN value pada reviewTitle : ', len(df_reviews_clean[df_reviews_clean.reviewTitle.isna() == True]))

#Mengganti nilai NaN
df_reviews_clean.reviewTitle.fillna('Tanpa Judul', inplace = True)
print('Jumlah NaN value pada reviewTitle : ', len(df_reviews_clean[df_reviews_clean.reviewTitle.isna() == True]))

In [None]:
df_reviews_clean[df_reviews_clean.boughtDate.isna() == True].head()

Keterbatasan saya selain pada pemilihan kategori df_items dan df_reviews yang secara manual, juga adanya nilai NaN pada kolom boughtDate karena akan berpengaruh pada Time-series analysis seandainya analisis tersebut dilakukan. Namun, keterbatasan tersebut dapat diperbaiki menggunakan analisis terhadap reviewContent yang akhirnya menentukan seseorang atau membeli atau tidak meskipun tanpa adanya boughtDate yang tercatat. Nah, saya masih dalam proses mempelajari. Untuk sementara, langkah selanjutnya adalah menggabungkan kedua dataframe menjadi satu untuk analisis yang lebih lanjut.

##### 3. df_merged (Merged Dataframe)

In [None]:
df_merged = pd.merge(df_items_clean, df_reviews_clean, left_on='itemId', right_on='itemId')\
                    .drop(['category_y', 'helpful', 'url'], axis = 1)\
                    .rename(columns = {'name_y' : 'reviewer',
                                       'name_x' : 'name',
                                       'category_x' : 'category'})
                                       
print(df_merged.shape)
df_merged.head()

#### III. Visualisasi Data

Jumlah tiap kategori dalam df_items_clean dan df_reviews_clean

In [None]:
fig, ax = plt.subplots(2, 1, figsize = (15, 10))
fig.tight_layout(pad = 5)

for ax, i, title in zip(ax.flatten(), [df_items_clean, df_reviews_clean], ['Items', 'Reviews']):
    #count = i.category.value_counts()
    index = i.category.value_counts().index
    
    sns.countplot(ax = ax, data = i, x = i.category, order = index)
    ax.set_title('Jumlah Tiap Kategori {}'.format(title), fontsize = 20)
    ax.set_ylabel('Total', fontsize = 16)
    ax.set_xticklabels(i.category.value_counts().index, fontsize = 16)
    ax.set_yticklabels(ax.get_yticks(), fontsize = 16)
    ax.set_xlabel('')
plt.show()

10 brand dengan jumlah items tertinggi dari setiap kategori pada df_items_clean

In [None]:
catlist = df_items_clean.category.unique()


fig, ax = plt.subplots(len(catlist), figsize = (15, 20))
fig.tight_layout(pad = 6)

for ax, i in zip(ax.flatten(), catlist):
    index = df_items_clean[df_items_clean['category'] == i]['brandName'].value_counts()
    
    sns.set_style('whitegrid')
    sns.countplot(ax = ax, data = df_items_clean, x = df_items_clean[df_items_clean['category'] == i]['brandName'], 
                  order = index.sort_values(ascending = False).index[:10])
    ax.set_title('10 Brand dengan Jumlah Tertinggi berdasarkan Kategori {}'.format(i), fontsize = 20)
    ax.set_ylabel('Total', fontsize = 16)
    ax.set_xticklabels(index.sort_values(ascending = False).index[:10], fontsize = 16)
    ax.set_yticklabels(ax.get_yticks(), fontsize = 16)
    ax.set_xlabel('')
plt.show()

Visualisasi clientType

In [None]:
fig, ax = plt.subplots(figsize = (8, 6))

index = df_merged.clientType.value_counts().sort_values(ascending = False).index
sns.countplot(data = df_merged, x = 'clientType', order = index)
ax.set_title('Komposisi Platform yang Digunakan oleh Reviewer', fontsize = 18)
ax.set_ylabel('')
ax.set_xticklabels(index, fontsize = 16)
ax.set_yticklabels(ax.get_yticks(), fontsize = 16)
plt.show()

Fungsi untuk mengganti tick yang bernilai sangat besar (ribu, juta, miliar) menjadi K, M dan B

In [None]:
#Format nilai besar
def large_tick_format(tick_value, pos):
    '''
    Mengubah tick yang memiliki nilai sangat besar(Miliar, Juta, Ribu) menjadi 
    B, M, K
    '''
    if tick_value >= 1000000000:
        value = round(tick_value/1000000000, 1)
        new_tick_format = '{:}B'.format(value)
    elif tick_value >= 1000000:
        value = round(tick_value/1000000, 1)
        new_tick_format = '{:}M'.format(value)
    elif tick_value >= 1000:
        new_tick_format = '{:}K'.format(value)
    elif tick_value < 1000:
        new_tick_format = round(tick_value, 1)
    else:
        new_tick_format = tick_value
    
    #Mengubah new_tick_format sebagai string
    new_tick_format = str(new_tick_format)
    
    #Mengubah contoh nilai 5.0 M agar menjadi 5 M
    decimal = new_tick_format.find('.')
    
    if decimal != -1:
        value_after_decimal = new_tick_format[decimal + 1]
        if value_after_decimal == '0':
            #menghapus 0 setelah desimal
            new_tick_format = new_tick_format[0:decimal] + new_tick_format[decimal + 2:]
    
    return new_tick_format

Sebaran harga 10 Brand dengan jumlah tertinggi berdasarkan tiap kategori

In [None]:
dfcat_list = [df_items_cat1, df_items_cat2, df_items_cat3, df_items_cat4, df_items_cat5]
cat = df_items_clean.category.unique()

fig, ax = plt.subplots(len(dfcat_list), figsize = (18, 30))
fig.tight_layout(pad = 5)
sns.set(font_scale = 1)

for ax, i in zip(ax.flatten(), dfcat_list):
    value = i.brandName.value_counts().sort_values(ascending = False).index[:10]
    x_data = i[i['brandName'].isin(value)]
    
    sns.swarmplot(ax = ax, data = x_data, x = x_data['brandName'], y = x_data['price'],
                order = value)
    ax.set_title('10 Produk dengan Jumlah Tertinggi dalam Kategori {} beserta Sebaran Harga'.format(i.category.unique()), fontsize = 20)
    ax.set_ylabel('Harga', fontsize = 16)
    ax.set_xlabel('')
    ax.set_xticklabels(value, size = 16)
    ax.set_yticklabels(ax.get_yticks(), size = 16)
    ax.yaxis.set_major_formatter(tick.FuncFormatter(large_tick_format))
    
plt.show()

### Analisis Deret Waktu

Analisis deret waktu ini dilakukan untuk mendapatkan wawasan tentang tren pembelian dalam kurun waktu tertentu, baik berdasarkan kuantitas transaksi, maupun dari nilai total transaksi.

In [None]:
#Mengubah kolom boughtDate pada df_merged menjadi tipe data datetime
month = {'Jan': '01', 'Feb' : '02', 'Mar' : '03', 'Apr' : '04', 'Mei' : '05',
            'Jun' : '06', 'Jul' : '07', 'Agu' : '08', 'Sep' : '09', 'Okt' : '10', 'Nov' : '11', 'Des' : '12', ' ' : '-'}

df_merged.boughtDate.replace(month, regex = True, inplace = True)
df_merged.boughtDate = pd.to_datetime(df_merged.boughtDate, format='%d-%m-%Y')
df_merged.head()

Selanjutnya membersihkan boughtDate yang bernilai NaN

In [None]:
df_merged = df_merged.dropna(subset = ['boughtDate'], axis = 0)
df_merged[df_merged['boughtDate'].isna()]

Tahapan selanjutnya adalah mengambil kolom yang perlu dalam dianalisis deret waktu, yakni boughtDate,dan price.

In [None]:
#Membuat dataframe baru dengan kolom yang sudah dipilih

df_merged_ts = df_merged[['boughtDate', 'price']]
df_merged_ts = df_merged_ts.set_index('boughtDate')
df_merged_ts.sort_index(inplace = True)
df_merged_ts.head()

In [None]:
#Membuat kolom baru = count
df_merged_ts.insert(column = 'count', value = 1, loc = 1)
print(df_merged_ts.shape)
df_merged_ts.head()

In [None]:
#Detail dateseries
df_merged_ts['year'] = df_merged_ts.index.year
df_merged_ts['month'] = df_merged_ts.index.month
df_merged_ts['dayname'] = df_merged_ts.index.day_name()

df_merged_ts.head()

Histogram Jumlah Transaksi

In [None]:
#Histogram count
plt.figure(figsize = (12, 8))

plt.hist(df_merged_ts.index, bins = 48, alpha = 0.6)
plt.title('Frekuensi Jumlah Transaksi', size = 18)
#plt.xlim('2014', '2019')
plt.xlabel('Jumlah Transaksi')
plt.ylabel('Frekuensi')
plt.show()

Berdasarkan plot di atas, terdapat kenaikan jumlah transaksi yang tinggi pada rentang waktu mendekati akhir tahun, sejak tahun 2017. Selanjutnya kita akan visualisasikan dataframe lebih detail.

In [None]:
fig, ax = plt.subplots(3, 1, figsize = (12, 18))
fig.tight_layout(pad = 8)

sns.countplot(data = df_merged_ts, x = 'year', ax = ax[0])
ax[0].set_title('Jumlah Transaksi berdasarkan Tahun', size = 18)
ax[0].set_ylabel('')
ax[0].set_xlabel('Tahun')

sns.countplot(data = df_merged_ts, x = 'month', ax = ax[1])
ax[1].set_title('Jumlah Transaksi berdasarkan Bulan', size = 18)
ax[1].set_ylabel('')
ax[1].set_xlabel('Bulan')

sns.countplot(data = df_merged_ts, x = 'dayname', ax = ax[2], 
              order = [ "Monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday", "Sunday"])
ax[2].set_title('Jumlah Transaksi berdasarkan Hari', size = 18)
ax[2].set_ylabel('')
ax[2].set_xlabel('Hari')

plt.show()

Kita akan melakukan plotting lebih detail lagi, yakni membandingkan plot setiap tahunnya

In [None]:
df_resampled = df_merged[['boughtDate']]
df_resampled.insert(column = 'count', value = 1, loc = 1)
df_resampled.head()
df_resampled = df_resampled.groupby('boughtDate').count()

In [None]:
year_list = ['2014', '2015', '2016', '2017', '2018', '2019']

fig, ax = plt.subplots(6,1, figsize = (15, 27))
fig.tight_layout(pad = 8)

for axis, i in zip(ax.flatten(), year_list):
        axis.plot(df_resampled.loc[i, 'count'], linewidth = 0.8, marker = '.', alpha = 0.7)
        axis.set_title('Pergerakan Transaksi Pada Tahun {}'.format(i), size = 16)
        axis.set_xlabel('')
        axis.set_ylabel('')

plt.show()

#### Resampling

In [None]:
#dataframe resampling jumlah transaksi
resampled_yearly = df_resampled.resample('Y').sum()
resampled_monthly = df_resampled.resample('M').sum()
resampled_weekly = df_resampled.resample('W').sum()

#datframe resampling untuk nilai transaksi
df_price_resample = df_merged_ts[['price']]
value_weekly = df_price_resample.resample('W').sum()
value_monthly = df_price_resample.resample('M').sum()
value_yearly = df_price_resample.resample('Y').sum()
value_daily = df_price_resample.resample('D').sum()
yearly_mean = df_price_resample.resample('Y').mean()

In [None]:
fig, ax = plt.subplots(figsize = (8, 6))

ax.plot(resampled_monthly, marker = '.', linewidth = 0.5)
ax.set_title('Grafik Resample Bulanan dari Jumlah Transaksi', size = 16)
plt.show()

##### Berdasarkan nilai transaksi dan jumlah transaksi 
Kita akan visualisasikan nilai transaksi berdasarkan deret waktu sehingga kita dapat mengetahui pergerakan nilai transaksi dalam waktu waktu tertentu

In [None]:
sns.set_style('white')
fig, ax = plt.subplots(figsize = (8, 6))

ax.plot(resampled_yearly, marker = '.', linewidth = 0.8, label = 'Jumlah', color = 'b')
ax.set_title('Grafik Jumlah dan Nilai Transaksi dari Tahun 2014-2019', size = 16)
ax.set_ylabel('Jumlah', color = 'b')
ax.tick_params(axis = 'y', labelcolor = 'b')
ax.legend(bbox_to_anchor = [0.19, 0.998])

ax1 = ax.twinx()
ax1.plot(value_yearly, linewidth = 0.8, marker = '.', color = 'r', linestyle = '--', label = 'Nilai')
ax1.set_ylabel('Nilai', color = 'r')
ax1.tick_params(axis = 'y', labelcolor = 'r')
ax1.yaxis.set_major_formatter(tick.FuncFormatter(large_tick_format))
ax1.legend(bbox_to_anchor = [0.158, 0.94])
plt.show()

plt.show()

In [None]:
fig, ax = plt.subplots(figsize = (8, 6))

ax.plot(resampled_monthly, marker = '.', linewidth = 0.8, label = 'Jumlah', color = 'b')
ax.set_title('Grafik Jumlah dan Nilai Transaksi Bulanan dari Tahun 2014-2019', size = 16)
ax.set_ylabel('Jumlah', color = 'b')
ax.legend(bbox_to_anchor = [0.19, 0.998])
ax.tick_params(axis = 'y', labelcolor = 'b')

ax1 = ax.twinx()
ax1.plot(value_monthly, linewidth = 0.8, marker = '.', color = 'r', linestyle = '--', label = 'Nilai')
ax1.set_ylabel('Nilai', color = 'r')
ax1.tick_params(axis = 'y', labelcolor = 'r')
ax1.legend(bbox_to_anchor = [0.158, 0.94])
ax1.yaxis.set_major_formatter(tick.FuncFormatter(large_tick_format))
plt.show()

###### Mengambil sampel 3 bulan : 2018-06 sampai 2018-09
###### Weekly resampling & rolling mean 7, 30 hari : jumlah transaksi

In [None]:
fig, ax = plt.subplots(figsize = (12, 8))

ax.plot(df_resampled.loc['2018-06' : '2018-09', 'count'], linewidth = 0.6, marker = '.', label = 'Transaksi Harian')
ax.plot(df_resampled.resample('W').mean().loc['2018-06' : '2018-09', 'count'], color = 'r', marker = 'o',
        label = 'Weekly Mean Resample')
ax.plot(df_resampled.rolling(7, center = True).mean().loc['2018-06' : '2018-09', 'count'], 
        label = '7D-Rolling Mean', color = 'g')
ax.plot(df_resampled.rolling(30, center = True).mean().loc['2018-06' : '2018-09', 'count'], 
        label = '30D-Rolling Mean', color = 'black', linewidth = 2.5)
ax.set_ylabel('Jumlah')
ax.legend()
ax.set_title('Grafik Resampling dan Rolling Windows Jumlah Transaksi Harian', size = 16)
plt.show()

###### Weekly resampling & rolling mean 7, 30 hari : nilai transaksi

In [None]:
df_price_resample_ = df_price_resample.groupby(df_price_resample.index)[['price']].sum()

fig, ax = plt.subplots(figsize = (12, 8))

ax.plot(df_price_resample_.loc['2018-06' : '2018-09', 'price'], linestyle = '-', 
        marker = '.', label = 'Transaksi Harian', markersize = 4)
ax.plot(df_price_resample_.resample('W').mean().loc['2018-06' : '2018-09', 'price'], color = 'r', marker = 'o',
        label = 'Weekly Mean Resample')
ax.plot(df_price_resample_.rolling(7, center = True).mean().loc['2018-06' : '2018-09', 'price'], 
        label = '7D-Rolling Mean', color = 'g')
ax.plot(df_price_resample_.rolling(30, center = True).mean().loc['2018-06' : '2018-09', 'price'], 
        label = '30D-Rolling Mean', color = 'black', linewidth = 2.5)
ax.set_ylabel('Jumlah')
ax.yaxis.set_major_formatter(tick.FuncFormatter(large_tick_format))
ax.set_title('Grafik Resampling dan Rolling Windows Nilai Transaksi Periode Juli-September 2018', size = 16)
ax.legend()
plt.show()

In [None]:
df_merged_ts = df_merged_ts.groupby(df_merged_ts.index)[['price', 'count']].sum()

plt.figure(figsize = (6, 6))

sns.heatmap(cbar = True, annot = True, data = df_merged_ts.corr(), cmap = 'coolwarm')
plt.title('Tabel Korelasi Jumlah Transaksi Harian dan Nilai Transaksinya', size = 16, pad = 20)
plt.show()

Berdasarkan visualisasi resampling tersebut, pergerakan data antara jumlah transaksi dan nilai transaksi hampir sama. Keduanya
sama-sama naik dengan sangat signifikan menjelang tahun 2019. Ketika kita melakukan visualisasi secara mendetail pada sampel periode Juli-September 2018, keduanya sama-sama memiliki tren yang menyerupai. Selanjutnya kita mencoba korelasikan kolom count dan price, dan menghasilkan korelasi sebesar 0.96 yang berarti memiliki korelasi positif yang sangat kuat.<br>
Terima kasih atas perhatiannya. Kritik, koreksi, dan saran sangat berarti agar bisa terus berkembang, seperti penambahan forecasting, ataupun klasifikasi dalam penentuan kategori yang cocok, karena kategori di atas ditentukan secara manual (feeling saya sendiri)