# **Bisnis Understanding**

## **1. Tujuan Bisnis**

Proyek ini dirancang untuk mencapai beberapa tujuan bisnis strategis berikut:

1.  **Peningkatan Efisiensi:** Mengurangi waktu yang dibutuhkan untuk identifikasi spesies Iris hingga 90% dibandingkan dengan metode manual konvensional.
2.  **Peningkatan Akurasi:** Mencapai tingkat akurasi klasifikasi spesies di atas 90%, sehingga meminimalkan kesalahan identifikasi yang dapat berdampak pada penelitian dan keputusan agronomi.
3.  **Pengembangan Produk Inovatif:** Menghasilkan sebuah prototipe model klasifikasi yang dapat diintegrasikan.
4.  **Pengurangan Biaya:** Meminimalisir kebutuhan akan pelatihan ekstensif bagi para ahli botani junior dalam hal identifikasi spesies.

## **2. Kriteria Keberhasilan**

Keberhasilan proyek ini akan diukur berdasarkan kriteria kuantitatif dan kualitatif berikut:

* **Kuantitatif:**
    * Model klasifikasi yang dihasilkan harus mencapai akurasi prediksi minimal 90% pada data uji.
    * Waktu yang dibutuhkan untuk memproses dan mengklasifikasikan satu sampel data baru tidak boleh melebihi 0.5 detik.
    * Tingkat kesalahan klasifikasi (misalnya, *misclassification rate*) untuk setiap spesies Iris harus di bawah 10%.

* **Kualitatif:**
    * Model yang dikembangkan harus dapat diinterpretasikan, artinya kita dapat memahami faktor-faktor morfologis apa yang paling berpengaruh dalam membedakan antar spesies.
    * Prototipe visualisasi data yang dihasilkan (menggunakan Power BI dan Python) harus memberikan wawasan yang intuitif dan mudah dipahami oleh para pemangku kepentingan non-teknis.
    * Dokumentasi proyek yang komprehensif (Jupyter Book) harus dapat direproduksi oleh pelaku sains data lainnya.

## **3. Sumber Daya, Risiko, dan Rencana**

* **Sumber Daya:**
    * **Dataset:** Dataset Iris klasik dari repositori Kaggle akan digunakan, yang terdiri dari 150 sampel dengan 4 fitur (panjang sepal, lebar sepal, panjang petal, lebar petal) dan 1 variabel target (spesies). [sumber](https://www.kaggle.com/datasets/uciml/iris)
    * **Tim:** Proyek ini dilakukan oleh saya sendiri seorang mahasiswa teknik informatika dengan bimbingan dari dosen.
    * ***Tools*:** Komputasi akan dilakukan pada lingkungan lokal ataupun cloud dengan spesifikasi yang memadai. Perangkat lunak yang akan digunakan meliputi:
        * **Python (dengan pustaka seperti Pandas, Scikit-learn, Matplotlib, Seaborn):** Untuk pemrosesan data, pemodelan, dan evaluasi.
        * **Jupyter Book:** Untuk dokumentasi interaktif dan pelaporan hasil.
        * **Power BI:** Untuk pembuatan dasbor dan visualisasi hasil akhir yang interaktif bagi pemangku kepentingan bisnis.
        * **Orange Data Mining:** Untuk eksplorasi data awal dan pemodelan cepat tanpa kode.
        * **Exploratory:** Sebagai alat bantu untuk analisis data eksplorasi (EDA) yang lebih mendalam.
        * **Aiven**: Sebuah platform database online untuk menyimpan dataset iris.
        * **Dbeaver**: Database client untuk mengelola dataset iris.
        * **Github**: Sebuah repository online untuk menyimpan dokumentasi proyek ini dan publikasi berbasis web statis.

* **Risiko dan Rencana Solusi:**
    * **Risiko:** Keterbatasan dataset Iris (ukuran kecil dan data yang "bersih") mungkin tidak merepresentasikan kompleksitas data di dunia nyata.
      * **Solusi:** Hasil dari proyek ini akan dianggap sebagai *baseline*. Langkah selanjutnya akan melibatkan pengujian model pada dataset yang lebih besar dan lebih kompleks.
    * **Risiko:** Keterbatasan waktu dalam jadwal proyek.
      * **Solusi:** Menggunakan metodologi CRISP-DM yang terstruktur dan melakukan iterasi cepat pada setiap fase untuk memastikan proyek berjalan sesuai jadwal. Pemanfaatan *tools* seperti Orange dan Exploratory diharapkan dapat mempercepat fase eksplorasi.
    * **Risiko:** Model yang dihasilkan mungkin bersifat "kotak hitam" (*black box*).
      * **Solusi:** Fokus pada model yang dapat diinterpretasikan seperti *Decision Trees* atau *Logistic Regression*, dan menggunakan teknik seperti SHAP (*SHapley Additive exPlanations*) jika model yang lebih kompleks (misalnya, *Random Forest*) dipilih.

## **4. Tujuan Penambangan Data**

Dari perspektif teknis, tujuan penambangan data adalah:

1.  **Klasifikasi:** Mengembangkan model klasifikasi supervised learning yang mampu memprediksi spesies Iris (*Setosa, Versicolor, Virginica*) berdasarkan empat fitur morfologis yang diberikan.
2.  **Deskripsi:** Menganalisis dan mengidentifikasi pola-pola serta hubungan antar fitur yang paling signifikan dalam membedakan ketiga spesies Iris.

## **5. Rencana Proyek**

Proyek ini akan mengikuti fase-fase dalam metodologi CRISP-DM. Fase pertama, **Business Understanding**, telah diuraikan dalam dokumen ini. Rencana selanjutnya adalah sebagai berikut:

1.  ***Data Understanding:*** Melakukan analisis data eksplorasi (EDA) untuk memahami distribusi data, mengidentifikasi korelasi antar variabel, dan mendeteksi adanya *outlier*.
2.  ***Data Preparation:*** Membersihkan data (jika diperlukan), melakukan transformasi data (misalnya, normalisasi atau standardisasi), dan membagi dataset menjadi data latih dan data uji.
3.  ***Modeling:*** Membangun beberapa model klasifikasi (misalnya, *K-Nearest Neighbors, Support Vector Machines, Decision Trees*) dan melakukan *hyperparameter tuning* untuk mendapatkan performa terbaik.
4.  ***Evaluation:*** Mengevaluasi performa model menggunakan metrik yang relevan (akurasi, presisi, *recall*, F1-*score*, dan *confusion matrix*) dan membandingkannya dengan kriteria keberhasilan yang telah ditetapkan.
5.  ***Deployment:*** Menyiapkan laporan akhir dalam bentuk Jupyter Book dan publikasikan model berbasis web seperti streamlit.

