# **TugasPertemuan-1**
Membuat WEB Statis
## **Konsep Dasar Data Mining**  
Data mining adalah proses menemukan pola atau informasi tersembunyi dalam dataset besar dengan menggunakan teknik statistik, pembelajaran mesin (**machine learning**), dan basis data.

## **1.Pengertian Data Mining**  
Data mining sering disebut sebagai **Knowledge Discovery in Databases (KDD)**, yaitu teknik untuk mengekstrak informasi dari data besar agar bisa digunakan untuk pengambilan keputusan.

### **1.1. Perbedaan Data Mining dengan Teknik Lain**  
| Konsep | Tujuan | Contoh |
|--------|--------|--------|
| **Database** | Menyimpan dan mengelola data | SQL Query untuk menampilkan data pelanggan |
| **Big Data** | Menangani data dalam jumlah besar dan kompleks | Hadoop untuk memproses jutaan transaksi dalam sehari |
| **Machine Learning** | Mengajarkan komputer untuk belajar dari data | Model AI yang memprediksi harga saham |
| **Data Mining** | Menemukan pola dan wawasan dari data | Menemukan pola pembelian pelanggan di e-commerce |



## **2️.Jenis Data dalam Data Mining**  
1. **Data Terstruktur**  
   - Data dalam tabel atau database (misalnya: MySQL, PostgreSQL).
   - Contoh: **Data pelanggan (ID, nama, usia, pembelian terakhir).**
  
2. **Data Semi-Terstruktur**  
   - Data dalam format XML, JSON.
   - Contoh: **Log file, data API.**

3. **Data Tidak Terstruktur**  
   - Data berupa teks, gambar, video, atau audio.
   - Contoh: **Tweet pengguna, rekaman suara layanan pelanggan.**



## **3️.Teknik-Teknik Utama dalam Data Mining**  
Berikut adalah teknik utama dalam data mining beserta algoritma yang sering digunakan:

### **3.1. Classification (Klasifikasi)**
🔹 **Definisi**: Mengelompokkan data ke dalam kategori berdasarkan label yang telah diketahui.  
🔹 **Contoh**:  
   - **Spam Detection**: Mengklasifikasikan email sebagai **spam** atau **bukan spam**.  
   - **Fraud Detection**: Memprediksi transaksi kartu kredit yang mencurigakan.  
🔹 **Algoritma Populer**:  
   - **Decision Tree (C4.5, CART)**
   - **Naïve Bayes**
   - **Support Vector Machine (SVM)**
   - **Neural Network (Deep Learning)**  

### **3.2.Clustering (Pengelompokan)**
🔹 **Definisi**: Mengelompokkan data yang tidak memiliki label berdasarkan kesamaan karakteristik.  
🔹 **Contoh**:  
   - **Segmentasi pelanggan**: Mengelompokkan pelanggan berdasarkan pola belanja.  
   - **Grouping Dokumen**: Mengelompokkan berita berdasarkan topik.  
🔹 **Algoritma Populer**:  
   - **K-Means Clustering**  
   - **DBSCAN (Density-Based Spatial Clustering)**  
   - **Hierarchical Clustering**  

### **3.3.Association Rule Learning (Aturan Asosiasi)**
🔹 **Definisi**: Mencari hubungan atau pola yang sering muncul dalam dataset.  
🔹 **Contoh**:  
   - **Market Basket Analysis**: Jika seseorang membeli **roti**, kemungkinan besar ia juga akan membeli **selai**.  
🔹 **Algoritma Populer**:  
   - **Apriori Algorithm**  
   - **FP-Growth Algorithm**  

### **3.4.Regression (Regresi)**
🔹 **Definisi**: Memprediksi nilai kontinu berdasarkan hubungan antar variabel.  
🔹 **Contoh**:  
   - **Prediksi harga rumah** berdasarkan ukuran dan lokasi.  
   - **Estimasi pendapatan seseorang** berdasarkan tingkat pendidikan.  
🔹 **Algoritma Populer**:  
   - **Linear Regression**  
   - **Polynomial Regression**  
   - **Random Forest Regression**  

### **3.5.Anomaly Detection (Deteksi Anomali)**
🔹 **Definisi**: Mendeteksi data yang menyimpang dari pola normal.  
🔹 **Contoh**:  
   - **Mendeteksi transaksi kartu kredit palsu.**  
   - **Menemukan kesalahan sensor dalam sistem IoT.**  
🔹 **Algoritma Populer**:  
   - **Isolation Forest**  
   - **Local Outlier Factor (LOF)**  
   - **One-Class SVM**  



## **4️. Proses Data Mining (CRISP-DM Model)**
Model **CRISP-DM (Cross-Industry Standard Process for Data Mining)** adalah framework standar untuk melakukan data mining.

### **Tahapan dalam CRISP-DM**:
   **1.Business Understanding**  
   - Memahami tujuan bisnis dan masalah yang ingin diselesaikan.  
   - Contoh: **Menentukan apakah pelanggan akan berhenti berlangganan layanan.**  

   **2.Data Understanding**  
   - Mengumpulkan dan mengeksplorasi dataset.  
   - Contoh: **Menganalisis pola pembelian pelanggan dalam e-commerce.**  

   **3.Data Preparation**  
   - Membersihkan data dari nilai yang hilang, duplikasi, dan anomali.  
   - Contoh: **Menghapus data yang tidak lengkap atau menangani missing values.**  

   **4.Modeling**  
   - Memilih dan menerapkan algoritma data mining yang sesuai.  
   - Contoh: **Menggunakan Decision Tree untuk klasifikasi pelanggan.**  

   **5.Evaluation**  
   - Mengukur kinerja model dengan metrik seperti akurasi, precision, recall.  
   - Contoh: **Menilai apakah model fraud detection cukup baik.**  

   **6.Deployment**  
   - Mengimplementasikan model ke dalam sistem produksi.  
   - Contoh: **Menggunakan model dalam website untuk rekomendasi produk.**  

### **Data Understanding dalam Data Mining**  
**Data Understanding** adalah salah satu tahap penting dalam proses **Knowledge Discovery in Databases (KDD)** atau **Data Mining**. Ini merupakan langkah awal yang bertujuan untuk memahami data secara mendalam sebelum melakukan analisis lebih lanjut. Pemahaman data yang baik sangat krusial karena akan memengaruhi keberhasilan seluruh proses data mining.

### **Apa itu Data Understanding?**  

Proses eksplorasi, investigasi, dan analisis awal terhadap dataset untuk:  
- Memahami struktur, isi, dan karakteristik data.  
- Mengidentifikasi pola, tren, anomali, atau masalah dalam data.  
- Menentukan apakah data tersebut sesuai dengan tujuan analisis atau perlu dilakukan preprocessing tambahan.  

Tahap ini sering dianggap sebagai fondasi dari keseluruhan proses data mining karena hasilnya akan memandu langkah-langkah berikutnya, seperti **data preparation, modeling,** dan **evaluation.**

### **Tujuan Data Understanding**  

Tujuan utama dari data understanding adalah:  

- **Memahami Konteks Data:**  
  Mengetahui dari mana data berasal, apa arti setiap variabel, dan bagaimana hubungan antarvariabel.  

- **Mendeteksi Masalah Data:**  
  Mengidentifikasi *missing values*, *outliers*, *noise*, atau inkonsistensi dalam data.  

- **Menilai Kualitas Data:**  
  Memastikan bahwa data cukup berkualitas untuk digunakan dalam analisis. Hal ini meliputi pemeriksaan akurasi, kelengkapan, dan relevansi data.  

- **Menentukan Arah Analisis:**  
  Berdasarkan pemahaman awal, peneliti dapat merumuskan hipotesis atau menentukan teknik *data mining* yang tepat.

### **Langkah-Langkah dalam Data Understanding**  

**Pengumpulan Data**  
- Mengumpulkan data dari berbagai sumber, seperti database, file CSV, API, atau sensor.  
- Memastikan bahwa semua data yang relevan telah dikumpulkan sesuai tujuan analisis.

**Sampling**  
- Jika dataset sangat besar, sampling dapat digunakan untuk memahami subset data tanpa harus memproses seluruh dataset.  

**Profiling Data**  
- Membuat ringkasan tentang setiap variabel dalam dataset, termasuk tipe data (numerik, kategorikal, ordinal), rentang nilai, dan frekuensi kemunculan.  
- Memahami hubungan antarvariabel menggunakan korelasi atau analisis asosiasi.   

**Visualisasi Data**  
- **Histogram**: Untuk melihat distribusi data numerik.  
- **Box Plot**: Untuk mendeteksi outliers.  
- **Scatter Plot**: Untuk melihat hubungan antara dua variabel numerik.  
- **Bar Chart/Pie Chart**: Untuk memvisualisasikan proporsi variabel kategorikal.

**Korelasi dan Asosiasi**  
- Menghitung koefisien korelasi (misalnya Pearson, Spearman) untuk melihat hubungan linier antar variabel.  
- Menggunakan teknik asosiasi untuk menemukan pola hubungan antara variabel kategorikal.

**Identifikasi Masalah Data**  
- **Missing Values:** Menemukan data yang hilang atau tidak lengkap.  
- **Outliers:** Mendeteksi nilai-nilai ekstrem yang mungkin merupakan kesalahan atau anomali.  
- **Duplikasi Data:** Mengidentifikasi baris atau entri yang duplikat.  
- **Inkonsistensi:** Memeriksa apakah ada ketidaksesuaian dalam format atau nilai data.

**Validasi Data**  
- Memastikan bahwa data sesuai dengan domain atau konteks bisnis.  
- Memverifikasi apakah data mencerminkan realitas atau fenomena yang ingin dipelajari.  

### **Contoh Kasus: Data Understanding dalam Praktik**  
Misalkan Anda sedang menganalisis dataset penjualan produk di sebuah toko online. Berikut adalah contoh aktivitas data understanding:  

1. **Eksplorasi Awal:**  
   - Dataset berisi kolom: `ID_Produk`, `Nama_Produk`, `Harga`, `Jumlah_Terjual`, `Tanggal_Penjualan`.  
   - Menghitung statistik deskriptif untuk kolom numerik (`Harga` dan `Jumlah_Terjual`).  

2. **Identifikasi Masalah:**  
   - Menemukan beberapa baris dengan nilai `Harga = 0` (mungkin kesalahan input).  
   - Ada tanggal penjualan yang tidak valid (misalnya, 31 Februari).  

3. **Visualisasi:**  
   - Membuat histogram untuk melihat distribusi harga produk.  
   - Membuat scatter plot antara `Harga` dan `Jumlah_Terjual` untuk melihat apakah ada hubungan.  

4. **Profiling Data:**  
   - Kolom `Nama_Produk` memiliki 100 kategori unik.  
   - Rata-rata harga produk adalah Rp500.000, dengan standar deviasi Rp200.000.  

### **Manfaat Data Understanding**  
- **Meningkatkan Kualitas Data:** Dengan memahami masalah data, kita dapat melakukan preprocessing yang lebih efektif.  
- **Menghemat Waktu dan Biaya:** Menghindari kesalahan analisis yang disebabkan oleh data buruk.  
- **Mendukung Pengambilan Keputusan:** Memberikan wawasan awal yang berguna untuk merumuskan strategi analisis.  
- **Mengurangi Risiko Kesalahan Model:** Data yang dipahami dengan baik akan menghasilkan model prediktif yang lebih akurat.  

### **. Kesimpulan**  
Data understanding adalah langkah kritis dalam data mining yang membantu memastikan bahwa data yang digunakan berkualitas dan relevan. Dengan melakukan eksplorasi dan analisis awal, kita dapat mengidentifikasi masalah, memahami pola, dan menentukan arah analisis yang tepat. Tanpa pemahaman data yang baik, hasil dari proses data mining mungkin tidak akurat atau bahkan menyesatkan.

### **Untuk memahami Data Understanding perlu library**  
1. Bahasa pemrograman misal Python (Pandas, Matplotlib, Seaborn) atau tools visualisasi seperti Tableau/Power BI.  
2. Mencatat semua temuan selama eksplorasi data untuk referensi di tahap selanjutnya.  
3. Libatkan domain expert jika data berkaitan dengan bidang spesifik (misalnya medis, keuangan).
