In [1]:
# Mengimpor pustaka Pandas, NumPy, Matplotlib, dan Seaborn untuk manipulasi data, visualisasi, dan analisis
import pandas as pd  # Pandas digunakan untuk memanipulasi dan menganalisis data, terutama dalam bentuk DataFrame
import numpy as np  # NumPy digunakan untuk komputasi numerik dan operasi array
import matplotlib.pyplot as plt  # Matplotlib digunakan untuk membuat berbagai visualisasi seperti grafik dan plot
import seaborn as sns  # Seaborn digunakan untuk membuat visualisasi statistik yang lebih menarik berdasarkan Matplotlib

# Mengatur tema default untuk semua plot yang dibuat dengan Seaborn
sns.set()  # Mengaktifkan tampilan default Seaborn, memberikan gaya yang lebih bersih dan estetis untuk plot

# Mengimpor pustaka warnings untuk menangani peringatan yang mungkin muncul selama runtime
import warnings  # Warnings digunakan untuk mengontrol dan memfilter peringatan saat menjalankan kode

# Menonaktifkan semua peringatan agar output lebih bersih dan tidak terganggu oleh pesan peringatan yang tidak diperlukan
warnings.filterwarnings('ignore')  # Mengabaikan semua peringatan, agar kode tetap berjalan tanpa menampilkan pesan peringatan yang mungkin tidak penting

In [5]:
# Membaca file CSV bernama 'SampleSuperstore.csv' menggunakan Pandas dan menyimpannya ke dalam variabel 'data'
data = pd.read_csv('../rawdata/SampleSuperstore.csv')  # Fungsi pd.read_csv digunakan untuk membaca file CSV dan mengonversinya menjadi DataFrame

# Menampilkan data yang telah dibaca untuk memeriksa apakah file berhasil dimuat dan untuk melihat sekilas isinya
data  # Menampilkan DataFrame 'data' yang memuat informasi dari file 'SampleSuperstore.csv'

Unnamed: 0,Ship Mode,Segment,Country,City,State,Postal Code,Region,Category,Sub-Category,Sales,Quantity,Discount,Profit
0,Second Class,Consumer,United States,Henderson,Kentucky,42420,South,Furniture,Bookcases,261.9600,2,0.00,41.9136
1,Second Class,Consumer,United States,Henderson,Kentucky,42420,South,Furniture,Chairs,731.9400,3,0.00,219.5820
2,Second Class,Corporate,United States,Los Angeles,California,90036,West,Office Supplies,Labels,14.6200,2,0.00,6.8714
3,Standard Class,Consumer,United States,Fort Lauderdale,Florida,33311,South,Furniture,Tables,957.5775,5,0.45,-383.0310
4,Standard Class,Consumer,United States,Fort Lauderdale,Florida,33311,South,Office Supplies,Storage,22.3680,2,0.20,2.5164
...,...,...,...,...,...,...,...,...,...,...,...,...,...
9988,Standard Class,Corporate,United States,Athens,Georgia,30605,South,Technology,Phones,206.1000,5,0.00,55.6470
9989,Second Class,Consumer,United States,Miami,Florida,33180,South,Furniture,Furnishings,25.2480,3,0.20,4.1028
9990,Standard Class,Consumer,United States,Costa Mesa,California,92627,West,Furniture,Furnishings,91.9600,2,0.00,15.6332
9991,Standard Class,Consumer,United States,Costa Mesa,California,92627,West,Technology,Phones,258.5760,2,0.20,19.3932


In [None]:
# Menghasilkan ringkasan statistik deskriptif untuk semua kolom dalam DataFrame 'data'
# `include='all'` memastikan bahwa statistik disertakan untuk kolom dengan berbagai tipe data, termasuk numerik dan non-numerik
data.describe(include='all')  # Menampilkan statistik deskriptif yang mencakup jumlah nilai, rata-rata dan statistik lainnya untuk semua kolom

In [None]:
# Membuat histogram untuk setiap kolom numerik dalam DataFrame 'data'
# `bins=10` menentukan jumlah interval untuk histogram
# `figsize=(18,10)` mengatur ukuran figure menjadi 18 inci x 10 inci untuk tampilan yang lebih besar dan jelas
data.hist(bins=10, figsize=(18,10))  # Menampilkan histogram dengan 10 bins untuk setiap kolom numerik dalam DataFrame

In [None]:
# Mengatur ukuran figure untuk heatmap
plt.figure(figsize=(4, 4))  # Ukuran figure diatur menjadi 4 inci x 4 inci

# Menghasilkan heatmap dari matriks korelasi untuk kolom-kolom numerik dalam DataFrame 'numerical_data'
# `annot=True` menambahkan nilai korelasi di setiap sel untuk memudahkan interpretasi
sns.heatmap(numerical_data.corr(), annot=True)  # Menampilkan heatmap dengan nilai korelasi untuk analisis hubungan antar variabel numerik

In [None]:
# Menghasilkan pairplot untuk DataFrame 'data', dengan pewarnaan berdasarkan kolom 'Ship Mode'
# `hue='Ship Mode'` memungkinkan visualisasi perbedaan berdasarkan kategori Ship Mode dengan warna yang berbeda
sns.pairplot(data, hue='Ship Mode')  # Menampilkan pairplot untuk menganalisis hubungan antar variabel berdasarkan kategori Ship Mode

In [None]:
# Membuat grafik batang untuk kolom 'Ship Mode' dalam DataFrame 'data'
# `x='Ship Mode'` menentukan sumbu x grafik berdasarkan kategori Ship Mode
# `data=data` menyediakan data yang akan dianalisis
# `palette='tab10'` menggunakan palet warna tab10 yang memberikan 10 warna berbeda untuk batang
sns.countplot(x='Ship Mode', data=data, palette='tab10')  # Menampilkan countplot untuk melihat jumlah frekuensi dari setiap kategori Ship Mode

In [None]:
# Mengelompokkan data berdasarkan kolom 'Ship Mode' dan menghitung rata-rata dari kolom 'Sales', 'Profit', dan 'Discount' untuk setiap grup
data_shipmode = data.groupby(['Ship Mode'])[['Sales', 'Profit', 'Discount']].mean()  # Menyimpan hasil rata-rata dalam DataFrame baru 'data_shipmode'
data_shipmode

In [None]:
colors_4 = ['magenta','yellow','orange','red']
colors_3 = ['green', 'blue','cyan']

In [None]:
# Membuat pie chart untuk kolom 'Sales', 'Profit', dan 'Discount' berdasarkan mode pengiriman ('Ship Mode')
# Mengatur label, ukuran, dan efek visual
# Menampilkan pie chart
data_shipmode.plot.pie(subplots=True, figsize=(20,10), labels=data_shipmode.index, autopct='%1.1f%%', explode=(0.01,0.01,0.01,0.01), colors=colors_4)
plt.show()

In [None]:
# Mengurutkan data berdasarkan kolom 'Profit' dalam urutan menaik dan memilih kolom 'Profit' dan 'Sales' untuk diplot
data_shipmode.sort_values('Profit')[['Profit', 'Sales']].plot(kind='bar', figsize=(10,7))

# Menampilkan bar chart
plt.show()

In [None]:
data_shipmode.sum(axis=0)

In [None]:
# Membuat kolom baru 'Sales%' yang menghitung persentase penjualan berdasarkan pembagi 9.285
data_shipmode['Sales%'] = data_shipmode['Sales'] / 9.285

# Membuat kolom baru 'Profit%' yang menghitung persentase profit berdasarkan pembagi 1.181
data_shipmode['Profit%'] = data_shipmode['Profit'] / 1.181

In [None]:
data_shipmode.sort_values('Profit%')

In [None]:
#Analys based on segment
sns.pairplot(data, hue='Segment')# Melakukan analisis hubungan antar variabel berdasarkan segmen

In [None]:
# Membuat bar plot untuk menghitung jumlah kategori dalam kolom 'Segment'
sns.countplot(x='Segment', data=data, palette='tab10')

In [None]:
# Mengelompokkan data berdasarkan kolom 'Segment' dan menghitung nilai rata-rata untuk kolom 'Sales', 'Profit', dan 'Discount'
data_segment = data.groupby(['Segment'])[['Sales', 'Profit', 'Discount']].mean()

In [None]:
data_segment.plot.pie(subplots=True, figsize=(20,10), labels=data_segment.index, autopct='%1.1f%%', colors=colors_3)

In [None]:
# Mengurutkan data_segment berdasarkan nilai 'Profit' dalam urutan menaik
# Kemudian membuat bar plot untuk kolom 'Profit' dan 'Sales' setelah pengurutan

In [None]:
data_segment.sum(axis=0)

In [None]:
data_segment['Sales%'] = data_segment['Sales']/6.985
data_segment['Profit%'] = data_segment['Profit']/0.9011

In [None]:
data_segment.sort_values('Profit')

In [None]:
#Analysis based on State
plt.figure(figsize=(18,10))
sns.countplot(data['State'])
plt.xticks(rotation=90)

In [None]:
data_state = data.groupby(['State'])[['Sales','Profit','Discount']].mean()

In [None]:
data_state1 = data_state.sort_values('Profit')

In [None]:
data_state2 = data_state.sort_values('Sales')

In [None]:
data_state2['Sales'].plot(kind='bar', figsize=(15,7)) # Membuat bar plot untuk kolom 'Sales' dari DataFrame 'data_state2'

In [None]:
data_state1['Profit'].plot(kind='bar', figsize=(15,7))

In [None]:
# Mengurutkan DataFrame 'data_state' berdasarkan kolom 'Profit' dalam urutan menaik
# Kemudian membuat bar plot untuk kolom 'Profit' setelah pengurutan
data_state.sort_values('Profit')['Profit'].plot(kind='bar', figsize=(15,7))


In [None]:
# Sorted by Profits
data_state.sort_values('Profit')[['Profit','Sales']].plot(kind='bar', figsize=(18,8))

In [None]:
# Mengurutkan DataFrame 'data_state' berdasarkan kolom 'Sales' dalam urutan menaik
# Kemudian membuat bar plot untuk kolom 'Profit' dan 'Sales' setelah pengurutan
data_state.sort_values('Sales')[['Profit', 'Sales']].plot(kind='bar', figsize=(18,8))


In [None]:
data_state.sum(axis=0)

In [None]:
data_state['Sales%'] = data_state['Sales']/135.454
data_state['Profit%'] = data_state['Profit']/26.483

In [None]:
data_state.sort_values('Profit%')

In [None]:
# Membuat count plot untuk kolom 'Region' dalam DataFrame 'data'
sns.countplot(data['Region'], palette='tab10')


In [None]:
data_region2 = data.groupby(['Region'])[['Sales','Profit']].mean()

In [None]:
data_region2

In [None]:
# Membuat pie chart untuk data yang dikelompokkan berdasarkan region
data_region2.plot.pie(subplots=True, figsize=(15,7), autopct='%1.1f%%', label=data_region2.index.values, colors=colors_4)


In [None]:
data_region2.sum(axis=0)

In [None]:
data_region2['Sales%'] = data_region2['Sales']/9.224
data_region2['Profit%'] = data_region2['Profit']/1.119

In [None]:
data_region2.sort_values('Profit')

In [None]:
# Membuat count plot untuk kolom 'Sub-Category' dalam DataFrame 'data'
plt.figure(figsize=(15,7))  # Mengatur ukuran figure untuk plot menjadi 15x7 inci
sns.countplot(data['Sub-Category'])  # Membuat count plot untuk kolom 'Sub-Category'
plt.xticks(rotation=90)  # Memutar label sumbu-x sebanyak 90 derajat agar lebih mudah dibaca


In [None]:
# Mengelompokkan data berdasarkan 'Sub-Category' dan menghitung rata-rata 'Sales' dan 'Profit'
data_subcat = data.groupby(['Sub-Category'])[['Sales','Profit']].mean() 

In [None]:
# Mengatur ukuran figure untuk pie chart menjadi 15x18 inci
plt.figure(figsize=(15,18))

# Membuat pie chart untuk rata-rata 'Sales' berdasarkan 'Sub-Category'
plt.pie(data_subcat['Sales'], labels=data_subcat.index, autopct='%1.1f%%')

# Menampilkan pie chart
plt.show()

In [None]:
# Mengurutkan data berdasarkan 'Profit' secara ascending
# Kemudian memilih kolom 'Profit' dan 'Sales' untuk ditampilkan dalam bentuk bar plot
data_subcat.sort_values('Profit')[['Profit', 'Sales']].plot(kind='bar', figsize=(15,10))


In [None]:
data_subcat.sum(axis=0)

In [None]:
# Menghitung persentase penjualan ('Sales') dan keuntungan ('Profit') dengan membaginya
# dengan nilai total yang sesuai untuk normalisasi.
data_subcat['Sales%'] = data_subcat['Sales'] / 72.915
data_subcat['Profit%'] = data_subcat['Profit'] / 10.952


In [None]:
data_subcat.sort_values('Sales')