## Business Understanding

### Konteks Bisnis
Saat ini, seblak sedang menjadi topik yang sering dibicarakan di media sosial. Banyak food influencer di Instagram, TikTok, dan YouTube membuat konten tentang seblak. Sebagai calon penjual yang ingin memanfaatkan tren ini, saya mempertimbangkan untuk menjual seblak di Tokopedia dengan sistem dropship agar tidak perlu menyiapkan stok barang. Namun, saya menyadari bahwa viral di media sosial bukan berarti laris di marketplace seperti Tokopedia. Bisa saja tren tersebut hanya ramai dibicarakan, tetapi tidak diikuti oleh pembelian yang signifikan. Untuk memastikannya, saya mengumpulkan dan menganalisis data penjualan seblak di Tokopedia. Tujuannya adalah memahami seberapa besar potensi pasar, termasuk tren harga, jumlah terjual, ulasan pelanggan, serta merek yang mendominasi pasar.

### Defining the Problem Statements

Using SMART framework:

1. **Specific**: Menentukan kelayakan bisnis dropship seblak di Tokopedia.

2. **Measurable**: Mengumpulkan data minimal 1 halaman dan menghitung rata-rata harga, penjualan, dan rating.

3. **Achievable**: Melakukan analisis menggunakan data hasil web scraping yang telah dibersihkan dan diolah dengan Python dalam waktu 4 hari.

4. **Relevant**: Mendukung keputusan apakah seblak layak dijadikan produk awal dropship untuk memaksimalkan modal promosi.

5. **Time-Bound**: Diselesaikan dalam 4 waktu hari agar strategi dapat dijalankan saat tren masih berlangsung.

Problem statement:  

Tujuannya adalah untuk menentukan kelayakan penjualan seblak melalui model dropship di Tokopedia dalam waktu 4 hari, dengan menganalisis minimal 1 halaman data dari Tokopedia untuk menilai rata-rata harga, jumlah penjualan, rating produk, dan merek terlaris. Analisis ini dilakukan menggunakan data hasil web scraping yang telah dibersihkan dan diolah dengan tools Python, sehingga dapat menghasilkan keputusan yang tepat mengenai kelayakan produk dan strategi promosi yang efektif selagi tren seblak masih berlangsung.

### Breaking Down the Problem
The 5W + 1H:
- Who: Calon penjual seblak di Tokopedia.
- What: Analisis kelayakan bisnis dropship seblak.
- Where: Marketplace Tokopedia.
- When: Dilakukan dalam 4 hari.
- Why: Memastikan tren seblak di media sosial berdampak pada penjualan.
- How: Web scraping data, olah dengan Python, analisis harga, penjualan, rating, dan merek terlaris.

## Analysis

In [1]:
import pandas as pd      # Untuk olah data tabel (DataFrame)
from scipy import stats  # Untuk analisis statistik
import numpy as np       # Untuk perhitungan numerik & array

In [None]:
data = pd.read_csv('data_Penjualan_Seblak_Clean.csv', index_col=0) # Untuk membaca file csv
data # Untuk melihat seluruh isi data

In [3]:
# Pilih kolom yang ingin dianalisis
cols_to_analyze = ["Harga Produk", "Banyaknya Terjual", "Rating Produk"]

# Hitung mean, median, std
stat = data[cols_to_analyze].agg(['mean', 'median', 'std']).T

# Hitung skewness dan kurtosis
stat['skewness'] = data[cols_to_analyze].skew()
stat['kurtosis'] = data[cols_to_analyze].kurtosis()

# Tampilkan hasil
print(stat)

                           mean   median           std  skewness  kurtosis
Harga Produk       29204.608696  22000.0  15905.387363  0.871031 -0.421207
Banyaknya Terjual  13391.304348   5000.0  23037.004087  2.983342  9.273372
Rating Produk          4.786957      4.8      0.091970  0.277271  0.162894


### Interpretasi
1. Harga Produk
Rata-rata harga sekitar Rp 29 ribu dan nilai median Rp 22 ribu, artinya distribusi data agak condong ke kanan (skewness positif) yang berarti ada sebagian produk dengan harga jauh lebih tinggi. Kurtosis negatif (-0.42), artinya data lebih tersebar merata dengan sedikit nilai ekstrem.

2. Banyaknya Terjual
Rata-rata penjualan seblak sebanyak 13 ribu produk/bulan, tetapi mediannya hanya 5 ribu, artinya ada outlier penjualan yang sangat tinggi. Skewness tinggi (2.98) dan kurtosis sangat tinggi (9.27) menandakan distribusi sangat miring ke kanan dengan beberapa produk yang penjualannya jauh di atas rata-rata.

3. Rating Produk
Nilai rata-rata hampir sempurna (4.79 dari 5) dengan deviasi standar sangat kecil (0.09), artinya hampir semua produk mendapat rating tinggi. Distribusi simetris (skewness 0.28) dan kurtosis mendekati 0 menunjukkan rating relatif stabil dan tidak ekstrem.

In [None]:
# Membuat kolom baru dengan nama pendapatan dan isi kolomnya yaitu harga produk dikali jumlah terjual
data['Pendapatan'] = data['Harga Produk'] * data['Banyaknya Terjual']
# Untuk menampilkan semua data
data

In [5]:
# Ambil data pendapatan
pendapatan = data['Pendapatan']

# Hitung parameter dasar
avg = pendapatan.mean()
std = pendapatan.std()
n = len(pendapatan)

# Hitung standard error
std_err = std / np.sqrt(n)

# Confidence Interval 95% (pakai t-distribution)
conf_level = 0.95
low_bound, up_bound = stats.t.interval(conf_level, df=n-1, loc=avg, scale=std_err)

# Output
print(f'Rata-rata Pendapatan: {avg:,.2f}')
print(f'Standar Deviasi Pendapatan: {std:,.2f}')
print(f'Lower Bound (95%): {low_bound:,.2f}')
print(f'Upper Bound (95%): {up_bound:,.2f}')

Rata-rata Pendapatan: 366,135,869.57
Standar Deviasi Pendapatan: 668,444,727.40
Lower Bound (95%): 77,078,693.39
Upper Bound (95%): 655,193,045.74


### Interpretasi
Rata-rata pendapatan sebesar Rp366 juta dengan standar deviasi Rp668 juta, menunjukkan variasi pendapatan sangat tinggi. Berdasarkan perhitungan dengan Confidence Interval 95%, rata-rata pendapatan perbulan sebenarnya diperkirakan berada pada kisaran Rp77 juta/bulan hingga Rp655 juta/bulan, yang berarti terdapat ketidakpastian cukup besar terhadap estimasi ini. Lebarnya interval dan tingginya standar deviasi mengindikasikan adanya penyebaran data yang luas, kemungkinan dipengaruhi oleh outlier.

Selanjutnya kita ingin mengetahui apakah harga barang di Jabodetabek dan luar Jabodetabek berbeda mengingat harga bahan baku di kedua lokasi berbeda. Untuk mengetahuinya kita perlu menggunakan uji hipotesis.

## Uji Hipotesis
1. Rumusan Hipotesis
- H0: Rata-rata harga di Jabodetabek = rata-rata harga di luar Jabodetabek (tidak ada perbedaan).
- H1: Rata-rata harga di Jabodetabek ≠ rata-rata harga di luar Jabodetabek (ada perbedaan).

2. Tingkat sifnifikansi(alpha): 0.05

3. Jenis uji: Two-tailed independent t-test

In [None]:
# 1. Daftar kata kunci kota di Jabodetabek
jabodetabek_list = ['Jakarta', 'Bogor', 'Depok', 'Tangerang', 'Bekasi']

# 2. Buat kolom Lokasi berdasarkan kecocokan substring kolom Kota Toko
data['Lokasi'] = data['Kota Toko'].apply(lambda x: 'Jabodetabek' if any(kota in x for kota in jabodetabek_list) else 'Luar Jabodetabek')
data

In [8]:
# Pisahkan data harga berdasarkan lokasi
harga_jabodetabek = data[data['Lokasi'] == 'Jabodetabek']['Harga Produk']
harga_luar = data[data['Lokasi'] == 'Luar Jabodetabek']['Harga Produk']

# Uji t (karena data kecil)
t_stat, p_value = stats.ttest_ind(harga_jabodetabek, harga_luar, equal_var=False)

print(f"T-statistic: {t_stat:.4f}")
print(f"P-value: {p_value:.4f}")

T-statistic: -1.5368
P-value: 0.2290


### Interpretasi
Karena p-value lebih besar dari tingkat signifikansi (0,05), maka terima H0. Artinya, dengan tingkat kepercayaan 95%, tidak terdapat perbedaan yang signifikan antara harga produk di Jabodetabek dan luar Jabodetabek.


Kemudian kita ingin menetahui apakah orang cenderung lebih suka dengan produk yang harganya murah. Untuk mengetahuinya kita akan mencari korelasi antar kolom Harga Produk dan Rating Produk.

In [9]:
# Pilih data yang akan diuji
harga = data['Harga Produk']
rating = data['Rating Produk']

# Pearson correlation (asumsi data berdistribusi normal)
corr_r, pval_p = stats.pearsonr(harga, rating)

# Output hasil
print(f"r-correlation (Pearson): {corr_r:.2f}, p-value: {pval_p:.4f}")


r-correlation (Pearson): -0.08, p-value: 0.7050


### Interpretasi
Berdasarkan uji korelasi Pearson, nilai r sebesar -0.08 menunjukkan hubungan yang sangat lemah dan bersifat negatif antara harga produk dan rating produk. Kemudian nilai p-value sebesar 0.7050 (>0.05) menandakan tidak terdapat hubungan yang signifikan secara statistik, sehingga tidak ada bukti kuat bahwa harga produk memengaruhi rating yang diberikan pembeli.

## Conclusion
Berdasarkan analisis, harga seblak di Tokopedia tidak berpengaruh signifikan terhadap rating produk. Ini memberi peluang bagi dropshipper untuk menaikkan harga jual demi mendapatkan margin keuntungan lebih besar, asalkan kualitas produk dari supplier tetap terjaga dan pelayanan ke pembeli cepat serta ramah. Sebagai dropshipper, fokus utama sebaiknya pada memilih supplier terpercaya, memberikan deskripsi produk yang jelas, dan memaksimalkan promosi, sehingga penjualan meningkat tanpa mengorbankan kepuasan pembeli.