# TDSP Stage 1 – Business Understanding

## Proyek: Segmentasi Pelanggan Online Retail Berbasis RFM (Spark)

Notebook ini merupakan bagian dari implementasi **Team Data Science Process (TDSP)** menggunakan **Apache Spark (PySpark)**.

Stage 1 berfokus pada pemahaman konteks bisnis, perumusan masalah, dan tujuan analitik sebelum masuk ke tahap data dan modeling.

## 1.1 Latar Belakang Bisnis

Industri **online retail** menghasilkan data transaksi dalam jumlah besar yang mencerminkan perilaku belanja pelanggan secara detail.
Namun, banyak perusahaan (khususnya skala kecil dan menengah) belum memanfaatkan data tersebut secara optimal untuk mendukung **customer-centric marketing**.

Tanpa segmentasi pelanggan yang jelas, perusahaan cenderung:
- Memberikan promosi yang sama ke semua pelanggan
- Tidak mampu mengidentifikasi pelanggan paling bernilai
- Kesulitan mendeteksi pelanggan yang berpotensi churn

Pendekatan **RFM (Recency, Frequency, Monetary)** merupakan metode klasik namun sangat efektif untuk memahami nilai pelanggan berdasarkan histori transaksi.

## 1.2 Problem Statement

Berdasarkan konteks bisnis di atas, permasalahan utama yang ingin dijawab adalah:

**"Bagaimana cara mengelompokkan pelanggan online retail menjadi segmen-segmen yang bermakna berdasarkan perilaku transaksi mereka, sehingga perusahaan dapat menerapkan strategi pemasaran yang lebih tepat sasaran?"**

Permasalahan turunan yang relevan:
- Siapa pelanggan paling bernilai bagi bisnis?
- Segmen pelanggan mana yang berisiko rendah dan tinggi terhadap churn?
- Berapa proporsi kontribusi revenue dari tiap segmen pelanggan?

## 1.3 Tujuan Analitik (Analytical Goals)

Tujuan analitik dari proyek ini adalah:

1. Menghitung metrik **Recency, Frequency, dan Monetary (RFM)** untuk setiap pelanggan menggunakan data transaksi historis.
2. Melakukan **segmentasi pelanggan** menggunakan algoritma clustering berbasis Spark.
3. Mengidentifikasi karakteristik utama dari setiap segmen pelanggan.
4. Menghasilkan insight yang dapat ditindaklanjuti (*actionable insights*) untuk mendukung strategi customer-centric marketing.

Analisis ini bersifat **descriptive dan exploratory**, sebagai fondasi untuk pengembangan analitik lanjutan (predictive / prescriptive).

## 1.4 Ruang Lingkup Proyek

Ruang lingkup proyek ini dibatasi sebagai berikut:

- Data yang digunakan adalah **data transaksi online retail** dalam format **Parquet**.
- Analisis dilakukan pada level **pelanggan** (customer-level aggregation).
- Segmentasi pelanggan menggunakan pendekatan **unsupervised learning**.
- Fokus utama pada metrik RFM, tidak mencakup data clickstream atau web behavior.

Hal-hal di luar cakupan (out of scope):
- Model prediksi churn atau customer lifetime value (CLV)
- Analisis rekomendasi produk
- Integrasi real-time streaming data

## 1.5 Kriteria Keberhasilan (Success Criteria)

Stage Business Understanding dianggap berhasil apabila:

- Permasalahan bisnis terdefinisi dengan jelas
- Tujuan analitik selaras dengan kebutuhan bisnis
- Pendekatan RFM dan clustering dapat dipetakan secara logis ke masalah bisnis
- Stakeholder dapat memahami *value* dari hasil segmentasi pelanggan

Hasil dari stage ini akan menjadi dasar untuk **TDSP Stage 2 – Data Acquisition & Understanding**.