# 💎 Estimasi Nilai Wajar Harga Berlian Berbasis 4C
## Analisis Pengaruh, Sensitivitas, dan Interaksi (Regression)

**Nama Mahasiswa:** Rifai Firdaus  
**Mata Kuliah:** Praktikum Penambangan Data  
**Topik:** Regression - Prediksi Harga Berlian  
**Dataset:** Diamonds (Kaggle - Valid & Terdokumentasi)

---

### 🎯 **Tujuan Proyek:**
1. Membangun model regresi untuk memprediksi harga berlian berdasarkan 4C (Carat, Cut, Color, Clarity)
2. Menganalisis pengaruh dan sensitivitas setiap fitur terhadap harga
3. Memberikan estimasi nilai wajar untuk mendukung keputusan pricing yang transparan

### 📊 **Problem Statement:**
Bagaimana memperkirakan harga wajar berlian dari atribut fisik (4C) dan menjelaskan kontribusi setiap fitur?

## 📚 1. Import Libraries dan Setup

In [None]:
# Import libraries utama
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Libraries untuk machine learning
from sklearn.model_selection import train_test_split, cross_val_score, KFold
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.pipeline import Pipeline

# Libraries tambahan untuk visualisasi
try:
    import plotly.express as px
    import plotly.graph_objects as go
    from plotly.subplots import make_subplots
    PLOTLY_AVAILABLE = True
except ImportError:
    PLOTLY_AVAILABLE = False
    print("Plotly tidak tersedia, menggunakan matplotlib saja")

# Setting untuk tampilan
plt.style.use('default')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

# Set random state untuk reproducibility
np.random.seed(42)

print("✅ Libraries berhasil dimuat!")
print(f"📊 Pandas version: {{pd.__version__}}")
print(f"🔢 NumPy version: {{np.__version__}}")

try:
    import sklearn
    print(f"🤖 Scikit-learn version: {{sklearn.__version__}}")
except:
    print("🤖 Scikit-learn tersedia")

## 📂 2. Load Dataset dan Validasi

In [None]:
# Load dataset dari GitHub repository
url = "https://raw.githubusercontent.com/rifaifirdaus/UTS_Praktikum_Penambangan_Data/refs/heads/main/diamonds.csv"

try:
    df = pd.read_csv(url)
    print("✅ Dataset berhasil dimuat dari GitHub repository!")
except Exception as e:
    print(f"❌ Error loading dataset: {{e}}")
    # Fallback: load dataset alternatif
    try:
        df = sns.load_dataset('diamonds')
        print("✅ Dataset dimuat dari seaborn (fallback)!")
    except:
        print("❌ Gagal memuat dataset. Silakan upload file diamonds.csv manual.")
        df = None

if df is not None:
    # Informasi dasar dataset
    print(f"
📊 **INFORMASI DATASET:**")
    print(f"• Shape: {{df.shape[0]:,}} baris × {{df.shape[1]}} kolom")
    print(f"• Memory usage: {{df.memory_usage(deep=True).sum() / 1024**2:.2f}} MB")
    print(f"• Kolom: {{list(df.columns)}}")
    
    # Tampilkan sample data
    print(f"
👀 **SAMPLE DATA (5 baris pertama):**")
    display(df.head())
    
    print(f"
📋 **INFO DATASET:**")
    df.info()
else:
    print("⚠️ Dataset tidak berhasil dimuat. Silakan periksa koneksi internet atau upload file manual.")

### 2.1 Validasi Dataset

In [None]:
if df is not None:
    print("🔍 **VALIDASI DATASET:**")
    print("
📖 **Sumber Dataset:**")
    print("• Nama: Diamonds Dataset")
    print("• Sumber Publik: Kaggle (shivam2503), ggplot2 (R package)")
    print("• URL Kaggle: https://www.kaggle.com/datasets/shivam2503/diamonds")
    print("• URL ggplot2: https://ggplot2.tidyverse.org/reference/diamonds.html")
    print("• Status: Valid - Widely used in academic research and ML competitions")
    
    print("
📊 **Deskripsi Fitur:**")
    feature_descriptions = {
        'carat': 'Berat berlian dalam karat (0.2-5.01)',
        'cut': 'Kualitas potongan (Fair, Good, Very Good, Premium, Ideal)',
        'color': 'Warna berlian (J=worst hingga D=best)',
        'clarity': 'Kejernihan (I1=worst hingga IF=best)',
        'depth': 'Persentase kedalaman total (43-79)',
        'table': 'Lebar bagian atas berlian relatif terhadap titik terlebar (43-95)',
        'price': 'Harga dalam dolar AS ($326-$18,823) - TARGET VARIABLE',
        'x': 'Panjang dalam mm (0-10.74)',
        'y': 'Lebar dalam mm (0-58.9)',
        'z': 'Kedalaman dalam mm (0-31.8)'
    }
    
    for feature, desc in feature_descriptions.items():
        if feature in df.columns:
            print(f"• {{feature}}: {{desc}}")
    
    print("
✅ Dataset ini telah divalidasi dan sering digunakan dalam penelitian!")