# 13. Regresi Multiple (Multiple Linear Regression)

## Tujuan Pembelajaran
- Memahami konsep regresi linear berganda
- Membuat model regresi dengan beberapa variabel independen
- Menginterpretasikan koefisien regresi
- Mengevaluasi kualitas model regresi
- Memahami multikolinearitas dan cara mengatasinya
- Menerapkan regresi multiple dalam analisis data
- Memahami regularisasi dan feature selection

## Materi
1. Pengertian Regresi Multiple (Multiple Linear Regression)
2. Asumsi Regresi Multiple (Multiple Regression Assumptions)
3. Interpretasi Koefisien (Coefficient Interpretation)
4. Evaluasi Model (Model Evaluation)
5. Multikolinearitas (Multicollinearity)
6. Feature Selection dan Regularisasi
7. Diagnostik Model (Model Diagnostics)
8. Aplikasi Praktis Regresi Multiple
9. Best Practices dan Troubleshooting


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from scipy import stats
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
from sklearn.preprocessing import StandardScaler
from statsmodels.stats.outliers_influence import variance_inflation_factor
import warnings
warnings.filterwarnings('ignore')

# Set up plotting
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print("Libraries imported successfully!")
print("NumPy version:", np.__version__)


## 1. Pengertian Regresi Multiple (Multiple Linear Regression)

### 1.1 Definisi Regresi Multiple

**Regresi Multiple** adalah perluasan dari regresi linear sederhana yang melibatkan dua atau lebih variabel independen untuk memprediksi satu variabel dependen. Metode ini memungkinkan kita untuk memodelkan hubungan linear antara variabel dependen dan beberapa variabel independen secara bersamaan.

### 1.2 Model Regresi Multiple

#### 1.2.1 Persamaan Regresi
```
Y = β₀ + β₁X₁ + β₂X₂ + ... + βₖXₖ + ε
```

Dimana:
- **Y**: Variabel dependen (response variable)
- **X₁, X₂, ..., Xₖ**: Variabel independen (predictor variables)
- **β₀**: Intercept (konstanta)
- **β₁, β₂, ..., βₖ**: Koefisien regresi (slopes)
- **ε**: Error term (residual)

#### 1.2.2 Persamaan Prediksi
```
Ŷ = b₀ + b₁X₁ + b₂X₂ + ... + bₖXₖ
```

Dimana:
- **Ŷ**: Prediksi nilai Y
- **b₀, b₁, b₂, ..., bₖ**: Estimasi parameter β₀, β₁, β₂, ..., βₖ

### 1.3 Keunggulan Regresi Multiple

1. **Kontrol Confounding**: Mengontrol efek variabel lain
2. **Prediksi Lebih Akurat**: Menggunakan informasi dari semua variabel
3. **Identifikasi Faktor Penting**: Menentukan variabel mana yang paling berpengaruh
4. **Model Komprehensif**: Memodelkan hubungan yang kompleks
5. **Efisiensi Statistik**: Lebih powerful daripada analisis terpisah

### 1.4 Keterbatasan Regresi Multiple

1. **Multikolinearitas**: Korelasi tinggi antar variabel independen
2. **Overfitting**: Model terlalu kompleks untuk data
3. **Asumsi Kompleks**: Lebih banyak asumsi yang harus dipenuhi
4. **Interpretasi Sulit**: Sulit menginterpretasikan koefisien
5. **Sample Size**: Membutuhkan sample size yang lebih besar

### 1.5 Aplikasi Regresi Multiple

1. **Penelitian Medis**: Prediksi risiko penyakit berdasarkan faktor risiko
2. **Penelitian Ekonomi**: Model permintaan dengan beberapa variabel
3. **Penelitian Psikologi**: Prediksi perilaku berdasarkan faktor psikologis
4. **Penelitian Bisnis**: Prediksi penjualan berdasarkan faktor pemasaran
5. **Penelitian Pendidikan**: Prediksi prestasi berdasarkan faktor input
6. **Penelitian Teknologi**: Prediksi performa sistem berdasarkan parameter


## 2. Asumsi Regresi Multiple (Multiple Regression Assumptions)

### 2.1 Asumsi Utama

#### 2.1.1 Linear Relationship
- **Definisi**: Hubungan antara variabel dependen dan independen harus linear
- **Pengecekan**: Scatter plot, residual plot
- **Solusi**: Transformasi data, polynomial regression

#### 2.1.2 Independence
- **Definisi**: Observasi harus independen satu sama lain
- **Pengecekan**: Durbin-Watson test, residual plot
- **Solusi**: Time series models, mixed-effects models

#### 2.1.3 Normality
- **Definisi**: Residuals harus berdistribusi normal
- **Pengecekan**: Q-Q plot, Shapiro-Wilk test
- **Solusi**: Transformasi data, robust regression

#### 2.1.4 Homoscedasticity
- **Definisi**: Varian residuals harus konstan
- **Pengecekan**: Residual plot, Breusch-Pagan test
- **Solusi**: Transformasi data, weighted regression

#### 2.1.5 No Multicollinearity
- **Definisi**: Tidak ada korelasi tinggi antar variabel independen
- **Pengecekan**: VIF, correlation matrix
- **Solusi**: Feature selection, regularization

### 2.2 Asumsi Tambahan

#### 2.2.1 Sample Size
- **Aturan**: Minimal 10-15 observasi per variabel independen
- **Rumus**: n ≥ 10k (k = jumlah variabel independen)
- **Pengecekan**: Power analysis

#### 2.2.2 No Outliers
- **Definisi**: Tidak ada observasi yang ekstrem
- **Pengecekan**: Studentized residuals, Cook's distance
- **Solusi**: Hapus outlier, robust regression

#### 2.2.3 No Missing Data
- **Definisi**: Data lengkap untuk semua variabel
- **Pengecekan**: Missing data analysis
- **Solusi**: Imputation, complete case analysis

### 2.3 Pengecekan Asumsi

#### 2.3.1 Visual Inspection
- **Scatter Plot Matrix**: Cek hubungan antar variabel
- **Residual Plot**: Cek homoscedasticity
- **Q-Q Plot**: Cek normalitas residuals
- **Leverage Plot**: Cek outliers

#### 2.3.2 Statistical Tests
- **Durbin-Watson**: Cek independence
- **Shapiro-Wilk**: Cek normalitas
- **Breusch-Pagan**: Cek homoscedasticity
- **VIF**: Cek multicollinearity

### 2.4 Pelanggaran Asumsi

#### 2.4.1 Non-linearity
- **Gejala**: Residual plot menunjukkan pola non-linear
- **Solusi**: Transformasi data, polynomial terms
- **Contoh**: Log transformation, square root

#### 2.4.2 Heteroscedasticity
- **Gejala**: Residual plot menunjukkan pola funnel
- **Solusi**: Transformasi data, weighted regression
- **Contoh**: Log transformation, Box-Cox

#### 2.4.3 Non-normality
- **Gejala**: Q-Q plot tidak mengikuti garis lurus
- **Solusi**: Transformasi data, robust regression
- **Contoh**: Log transformation, square root

#### 2.4.4 Multicollinearity
- **Gejala**: VIF > 10, korelasi tinggi antar variabel
- **Solusi**: Feature selection, regularization
- **Contoh**: Ridge regression, Lasso

### 2.5 Robustness

#### 2.5.1 Robust Regression
- **M-estimators**: Huber, Tukey, Hampel
- **L-estimators**: Least absolute deviation
- **R-estimators**: Rank-based methods

#### 2.5.2 Bootstrap
- **Bootstrap Regression**: Estimasi parameter dengan resampling
- **Bootstrap Confidence Interval**: CI untuk parameter
- **Bootstrap Prediction**: Interval prediksi

### 2.6 Model Selection

#### 2.6.1 Information Criteria
- **AIC**: Akaike Information Criterion
- **BIC**: Bayesian Information Criterion
- **AICc**: Corrected AIC untuk sample kecil

#### 2.6.2 Cross-validation
- **k-fold CV**: Validasi dengan k-fold
- **Leave-one-out CV**: Validasi dengan LOO
- **Holdout**: Validasi dengan data terpisah


In [None]:
# Demonstrasi Regresi Multiple
print("=== DEMONSTRASI REGRESI MULTIPLE ===")

# Data untuk demonstrasi regresi multiple
np.random.seed(42)

# 1. Data dengan 3 variabel independen
print("1. DATA DENGAN 3 VARIABEL INDEPENDEN:")

# Simulasi data
n = 100
X1 = np.random.normal(50, 15, n)  # Variabel independen 1
X2 = np.random.normal(30, 10, n)  # Variabel independen 2
X3 = np.random.normal(20, 8, n)   # Variabel independen 3

# Variabel dependen dengan hubungan linear
Y = 2 * X1 + 1.5 * X2 - 0.8 * X3 + 10 + np.random.normal(0, 5, n)

# Buat DataFrame
df = pd.DataFrame({
    'Y': Y,
    'X1': X1,
    'X2': X2,
    'X3': X3
})

print("Data untuk Regresi Multiple:")
print(df.head())
print(f"\nUkuran data: {df.shape}")
print(f"Statistik deskriptif:")
print(df.describe())

# 2. Regresi Multiple dengan sklearn
print("\n2. REGRESI MULTIPLE DENGAN SKLEARN:")

# Siapkan data
X = df[['X1', 'X2', 'X3']]
y = df['Y']

# Buat model
model = LinearRegression()
model.fit(X, y)

# Prediksi
y_pred = model.predict(X)

# Koefisien
intercept = model.intercept_
coefficients = model.coef_

print(f"Intercept: {intercept:.4f}")
print(f"Koefisien X1: {coefficients[0]:.4f}")
print(f"Koefisien X2: {coefficients[1]:.4f}")
print(f"Koefisien X3: {coefficients[2]:.4f}")

# Persamaan regresi
print(f"\nPersamaan regresi:")
print(f"Y = {intercept:.4f} + {coefficients[0]:.4f}X1 + {coefficients[1]:.4f}X2 + {coefficients[2]:.4f}X3")

# 3. Evaluasi Model
print("\n3. EVALUASI MODEL:")

# R-squared
r2 = r2_score(y, y_pred)
print(f"R-squared: {r2:.4f}")

# Adjusted R-squared
n = len(y)
k = len(coefficients)
adj_r2 = 1 - (1 - r2) * (n - 1) / (n - k - 1)
print(f"Adjusted R-squared: {adj_r2:.4f}")

# RMSE
rmse = np.sqrt(mean_squared_error(y, y_pred))
print(f"RMSE: {rmse:.4f}")

# MAE
mae = mean_absolute_error(y, y_pred)
print(f"MAE: {mae:.4f}")

# 4. Korelasi antar variabel
print("\n4. KORELASI ANTAR VARIABEL:")

correlation_matrix = df.corr()
print("Matriks Korelasi:")
print(correlation_matrix)

# 5. Multikolinearitas (VIF)
print("\n5. MULTIKOLINEARITAS (VIF):")

# Hitung VIF
vif_data = pd.DataFrame()
vif_data["Variable"] = X.columns
vif_data["VIF"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
print("Variance Inflation Factor (VIF):")
print(vif_data)

# Interpretasi VIF
print("\nInterpretasi VIF:")
for i, vif in enumerate(vif_data["VIF"]):
    if vif < 5:
        interpretation = "Tidak ada multikolinearitas"
    elif vif < 10:
        interpretation = "Multikolinearitas sedang"
    else:
        interpretation = "Multikolinearitas tinggi"
    print(f"  {vif_data['Variable'][i]}: {vif:.2f} - {interpretation}")

# 6. Visualisasi Regresi Multiple
plt.figure(figsize=(20, 15))

# Plot 1: Scatter plot matrix
plt.subplot(3, 4, 1)
pd.plotting.scatter_matrix(df, alpha=0.7, figsize=(8, 8), ax=plt.gca())
plt.title('Scatter Plot Matrix')
plt.tight_layout()

# Plot 2: Correlation heatmap
plt.subplot(3, 4, 2)
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, 
            square=True, fmt='.3f', ax=plt.gca())
plt.title('Correlation Heatmap')

# Plot 3: Prediksi vs Aktual
plt.subplot(3, 4, 3)
plt.scatter(y, y_pred, alpha=0.7, color='blue')
plt.plot([y.min(), y.max()], [y.min(), y.max()], 'r--', linewidth=2)
plt.xlabel('Actual Values')
plt.ylabel('Predicted Values')
plt.title('Predicted vs Actual')
plt.grid(True, alpha=0.3)

# Plot 4: Residuals vs Fitted
plt.subplot(3, 4, 4)
residuals = y - y_pred
plt.scatter(y_pred, residuals, alpha=0.7, color='green')
plt.axhline(0, color='red', linestyle='--')
plt.xlabel('Fitted Values')
plt.ylabel('Residuals')
plt.title('Residuals vs Fitted')
plt.grid(True, alpha=0.3)

# Plot 5: Q-Q plot untuk normalitas residuals
plt.subplot(3, 4, 5)
stats.probplot(residuals, dist="norm", plot=plt)
plt.title('Q-Q Plot Residuals')
plt.grid(True, alpha=0.3)

# Plot 6: Histogram residuals
plt.subplot(3, 4, 6)
plt.hist(residuals, bins=20, alpha=0.7, color='purple', edgecolor='black')
plt.xlabel('Residuals')
plt.ylabel('Frequency')
plt.title('Histogram Residuals')
plt.grid(True, alpha=0.3)

# Plot 7: VIF bar chart
plt.subplot(3, 4, 7)
plt.bar(vif_data['Variable'], vif_data['VIF'], alpha=0.7, color=['blue', 'green', 'red'])
plt.axhline(5, color='orange', linestyle='--', label='VIF = 5')
plt.axhline(10, color='red', linestyle='--', label='VIF = 10')
plt.ylabel('VIF')
plt.title('Variance Inflation Factor')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 8: Coefficients
plt.subplot(3, 4, 8)
variables = ['Intercept', 'X1', 'X2', 'X3']
coeffs = [intercept] + list(coefficients)
plt.bar(variables, coeffs, alpha=0.7, color=['purple', 'blue', 'green', 'red'])
plt.ylabel('Coefficient Value')
plt.title('Regression Coefficients')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

# Plot 9: Residuals vs X1
plt.subplot(3, 4, 9)
plt.scatter(X1, residuals, alpha=0.7, color='blue')
plt.axhline(0, color='red', linestyle='--')
plt.xlabel('X1')
plt.ylabel('Residuals')
plt.title('Residuals vs X1')
plt.grid(True, alpha=0.3)

# Plot 10: Residuals vs X2
plt.subplot(3, 4, 10)
plt.scatter(X2, residuals, alpha=0.7, color='green')
plt.axhline(0, color='red', linestyle='--')
plt.xlabel('X2')
plt.ylabel('Residuals')
plt.title('Residuals vs X2')
plt.grid(True, alpha=0.3)

# Plot 11: Residuals vs X3
plt.subplot(3, 4, 11)
plt.scatter(X3, residuals, alpha=0.7, color='red')
plt.axhline(0, color='red', linestyle='--')
plt.xlabel('X3')
plt.ylabel('Residuals')
plt.title('Residuals vs X3')
plt.grid(True, alpha=0.3)

# Plot 12: Model summary
plt.subplot(3, 4, 12)
plt.axis('off')
summary_text = f"""
REGRESI MULTIPLE SUMMARY

Model:
Y = {intercept:.4f} + {coefficients[0]:.4f}X1 + {coefficients[1]:.4f}X2 + {coefficients[2]:.4f}X3

Goodness of Fit:
R² = {r2:.4f}
Adjusted R² = {adj_r2:.4f}
RMSE = {rmse:.4f}
MAE = {mae:.4f}

Multikolinearitas:
X1 VIF = {vif_data['VIF'][0]:.2f}
X2 VIF = {vif_data['VIF'][1]:.2f}
X3 VIF = {vif_data['VIF'][2]:.2f}

Interpretasi:
- R²: {r2*100:.1f}% varians Y dijelaskan oleh model
- RMSE: Rata-rata error prediksi = {rmse:.2f}
- VIF < 5: Tidak ada multikolinearitas
"""
plt.text(0.1, 0.9, summary_text, transform=plt.gca().transAxes, fontsize=8, 
         verticalalignment='top', fontfamily='monospace')

plt.tight_layout()
plt.show()

# 7. Interpretasi Hasil
print("\n7. INTERPRETASI HASIL:")

print(f"\nModel Regresi Multiple:")
print(f"  - Intercept: {intercept:.4f}")
print(f"    Interpretasi: Nilai Y ketika semua X = 0")
print(f"  - Koefisien X1: {coefficients[0]:.4f}")
print(f"    Interpretasi: Setiap peningkatan 1 unit X1, Y meningkat {coefficients[0]:.4f} unit (mengontrol X2 dan X3)")
print(f"  - Koefisien X2: {coefficients[1]:.4f}")
print(f"    Interpretasi: Setiap peningkatan 1 unit X2, Y meningkat {coefficients[1]:.4f} unit (mengontrol X1 dan X3)")
print(f"  - Koefisien X3: {coefficients[2]:.4f}")
print(f"    Interpretasi: Setiap peningkatan 1 unit X3, Y menurun {abs(coefficients[2]):.4f} unit (mengontrol X1 dan X2)")

print(f"\nGoodness of Fit:")
print(f"  - R²: {r2:.4f} ({r2*100:.1f}% varians Y dijelaskan oleh model)")
print(f"  - Adjusted R²: {adj_r2:.4f} (R² yang disesuaikan untuk jumlah variabel)")
print(f"  - RMSE: {rmse:.4f} (Rata-rata error prediksi)")
print(f"  - MAE: {mae:.4f} (Rata-rata absolute error)")

print(f"\nMultikolinearitas:")
for i, vif in enumerate(vif_data["VIF"]):
    if vif < 5:
        interpretation = "Tidak ada multikolinearitas"
    elif vif < 10:
        interpretation = "Multikolinearitas sedang"
    else:
        interpretation = "Multikolinearitas tinggi"
    print(f"  - {vif_data['Variable'][i]}: VIF = {vif:.2f} - {interpretation}")

# 8. Kesimpulan dan Rekomendasi
print("\n8. KESIMPULAN DAN REKOMENDASI:")
print("   - Regresi Multiple: Model hubungan linear dengan beberapa variabel independen")
print("   - Koefisien: Interpretasi dengan mengontrol variabel lain")
print("   - R²: Proporsi varians yang dijelaskan oleh model")
print("   - VIF: Ukuran multikolinearitas (VIF < 5 ideal)")
print("   - Asumsi: Linear relationship, normality, homoscedasticity, independence")
print("   - Diagnostik: Periksa residuals, multikolinearitas, outliers")
print("   - Aplikasi: Prediksi, kontrol, penjelasan, optimasi")
print("   - Best practice: Validasi model, periksa asumsi, hindari overfitting")


## 6. Feature Selection dan Regularisasi

### 6.1 Feature Selection

#### 6.1.1 Forward Selection
- **Prinsip**: Mulai dengan model kosong, tambahkan variabel satu per satu
- **Kriteria**: Pilih variabel yang memberikan peningkatan terbesar pada R²
- **Keunggulan**: Sederhana, mudah diimplementasikan
- **Kekurangan**: Tidak mempertimbangkan interaksi antar variabel

#### 6.1.2 Backward Elimination
- **Prinsip**: Mulai dengan semua variabel, hapus variabel satu per satu
- **Kriteria**: Hapus variabel yang memberikan penurunan terkecil pada R²
- **Keunggulan**: Mempertimbangkan semua variabel awal
- **Kekurangan**: Dapat menghapus variabel penting

#### 6.1.3 Stepwise Selection
- **Prinsip**: Kombinasi forward dan backward selection
- **Kriteria**: Tambahkan variabel yang signifikan, hapus yang tidak signifikan
- **Keunggulan**: Lebih komprehensif
- **Kekurangan**: Dapat overfit

#### 6.1.4 Best Subset Selection
- **Prinsip**: Evaluasi semua kombinasi variabel
- **Kriteria**: Pilih model dengan AIC/BIC terbaik
- **Keunggulan**: Optimal secara teoritis
- **Kekurangan**: Computationally expensive

### 6.2 Regularisasi

#### 6.2.1 Ridge Regression (L2)
- **Prinsip**: Menambahkan penalty pada sum of squared coefficients
- **Rumus**: min(SSR + λΣβᵢ²)
- **Efek**: Menyusutkan koefisien menuju 0
- **Keunggulan**: Mengurangi overfitting, menangani multikolinearitas
- **Kekurangan**: Tidak melakukan feature selection

#### 6.2.2 Lasso Regression (L1)
- **Prinsip**: Menambahkan penalty pada sum of absolute coefficients
- **Rumus**: min(SSR + λΣ|βᵢ|)
- **Efek**: Menyusutkan koefisien ke 0 (feature selection)
- **Keunggulan**: Feature selection otomatis
- **Kekurangan**: Dapat menghapus variabel penting

#### 6.2.3 Elastic Net
- **Prinsip**: Kombinasi Ridge dan Lasso
- **Rumus**: min(SSR + λ₁Σ|βᵢ| + λ₂Σβᵢ²)
- **Efek**: Kombinasi feature selection dan shrinkage
- **Keunggulan**: Mengatasi keterbatasan Ridge dan Lasso
- **Kekurangan**: Lebih kompleks

### 6.3 Cross-Validation

#### 6.3.1 k-Fold Cross-Validation
- **Prinsip**: Bagi data menjadi k subset, train pada k-1 subset, test pada 1 subset
- **Kriteria**: Pilih k = 5 atau 10
- **Keunggulan**: Mengurangi bias, estimasi yang lebih stabil
- **Kekurangan**: Computationally expensive

#### 6.3.2 Leave-One-Out Cross-Validation
- **Prinsip**: Train pada n-1 observasi, test pada 1 observasi
- **Kriteria**: Ulangi untuk semua observasi
- **Keunggulan**: Menggunakan semua data untuk training
- **Kekurangan**: Computationally expensive untuk data besar

#### 6.3.3 Holdout Validation
- **Prinsip**: Bagi data menjadi training dan testing set
- **Kriteria**: 70-80% training, 20-30% testing
- **Keunggulan**: Sederhana, cepat
- **Kekurangan**: Dapat bias jika data tidak representatif

### 6.4 Model Selection Criteria

#### 6.4.1 AIC (Akaike Information Criterion)
- **Rumus**: AIC = 2k - 2ln(L)
- **Prinsip**: Balance antara goodness of fit dan complexity
- **Interpretasi**: Semakin kecil semakin baik
- **Keterbatasan**: Tidak mempertimbangkan sample size

#### 6.4.2 BIC (Bayesian Information Criterion)
- **Rumus**: BIC = k*ln(n) - 2ln(L)
- **Prinsip**: Lebih konservatif daripada AIC
- **Interpretasi**: Semakin kecil semakin baik
- **Keunggulan**: Mempertimbangkan sample size

#### 6.4.3 AICc (Corrected AIC)
- **Rumus**: AICc = AIC + 2k(k+1)/(n-k-1)
- **Prinsip**: Koreksi AIC untuk sample kecil
- **Interpretasi**: Semakin kecil semakin baik
- **Aplikasi**: Sample size kecil (n/k < 40)

### 6.5 Feature Engineering

#### 6.5.1 Polynomial Features
- **Prinsip**: Tambahkan pangkat variabel (X², X³, ...)
- **Aplikasi**: Hubungan non-linear
- **Keunggulan**: Menangkap non-linearity
- **Kekurangan**: Dapat overfit

#### 6.5.2 Interaction Terms
- **Prinsip**: Tambahkan perkalian variabel (X1*X2, X1*X3, ...)
- **Aplikasi**: Efek interaksi antar variabel
- **Keunggulan**: Menangkap interaksi
- **Kekurangan**: Dapat overfit

#### 6.5.3 Dummy Variables
- **Prinsip**: Konversi variabel kategoris menjadi dummy variables
- **Aplikasi**: Variabel kategoris
- **Keunggulan**: Dapat menggunakan variabel kategoris
- **Kekurangan**: Dapat multikolinearitas

### 6.6 Dimensionality Reduction

#### 6.6.1 Principal Component Analysis (PCA)
- **Prinsip**: Transformasi variabel menjadi komponen utama
- **Aplikasi**: Mengurangi dimensi, menghilangkan multikolinearitas
- **Keunggulan**: Menghilangkan multikolinearitas
- **Kekurangan**: Sulit diinterpretasikan

#### 6.6.2 Partial Least Squares (PLS)
- **Prinsip**: Kombinasi PCA dan regression
- **Aplikasi**: Prediksi dengan variabel banyak
- **Keunggulan**: Menangani multikolinearitas
- **Kekurangan**: Sulit diinterpretasikan


In [None]:
# Demonstrasi Feature Selection dan Regularisasi
print("=== DEMONSTRASI FEATURE SELECTION DAN REGULARISASI ===")

# Data untuk demonstrasi feature selection dan regularisasi
np.random.seed(42)

# 1. Data dengan banyak variabel (untuk demonstrasi feature selection)
print("1. DATA DENGAN BANYAK VARIABEL:")

# Simulasi data dengan 10 variabel independen
n = 200
X = np.random.normal(0, 1, (n, 10))
# Hanya 5 variabel pertama yang berpengaruh
y = 2 * X[:, 0] + 1.5 * X[:, 1] - 0.8 * X[:, 2] + 0.5 * X[:, 3] - 0.3 * X[:, 4] + np.random.normal(0, 0.5, n)

# Buat DataFrame
feature_names = [f'X{i+1}' for i in range(10)]
df = pd.DataFrame(X, columns=feature_names)
df['Y'] = y

print("Data untuk Feature Selection:")
print(df.head())
print(f"\nUkuran data: {df.shape}")

# 2. Forward Selection
print("\n2. FORWARD SELECTION:")

from sklearn.feature_selection import f_regression
from sklearn.linear_model import LinearRegression

# Hitung F-statistik untuk setiap variabel
f_scores, p_values = f_regression(X, y)

# Urutkan berdasarkan F-statistik
feature_ranking = pd.DataFrame({
    'Feature': feature_names,
    'F_Score': f_scores,
    'P_Value': p_values
}).sort_values('F_Score', ascending=False)

print("Ranking variabel berdasarkan F-statistik:")
print(feature_ranking)

# Forward selection manual
selected_features = []
remaining_features = feature_names.copy()
best_r2 = 0

print("\nForward Selection Process:")
for i in range(min(5, len(remaining_features))):  # Pilih 5 variabel terbaik
    best_feature = None
    best_r2_increase = 0
    
    for feature in remaining_features:
        # Test menambahkan feature ini
        test_features = selected_features + [feature]
        X_test = df[test_features]
        
        model = LinearRegression()
        model.fit(X_test, y)
        y_pred = model.predict(X_test)
        r2 = r2_score(y, y_pred)
        
        r2_increase = r2 - best_r2
        if r2_increase > best_r2_increase:
            best_r2_increase = r2_increase
            best_feature = feature
            best_r2 = r2
    
    if best_feature:
        selected_features.append(best_feature)
        remaining_features.remove(best_feature)
        print(f"  Step {i+1}: Tambahkan {best_feature}, R² = {best_r2:.4f}")

print(f"\nVariabel terpilih: {selected_features}")

# 3. Backward Elimination
print("\n3. BACKWARD ELIMINATION:")

# Mulai dengan semua variabel
all_features = feature_names.copy()
current_features = all_features.copy()

print("Backward Elimination Process:")
for i in range(len(all_features) - 5):  # Hapus sampai 5 variabel tersisa
    worst_feature = None
    best_r2_after_removal = 0
    
    for feature in current_features:
        # Test menghapus feature ini
        test_features = [f for f in current_features if f != feature]
        X_test = df[test_features]
        
        model = LinearRegression()
        model.fit(X_test, y)
        y_pred = model.predict(X_test)
        r2 = r2_score(y, y_pred)
        
        if r2 > best_r2_after_removal:
            best_r2_after_removal = r2
            worst_feature = feature
    
    if worst_feature:
        current_features.remove(worst_feature)
        print(f"  Step {i+1}: Hapus {worst_feature}, R² = {best_r2_after_removal:.4f}")

print(f"\nVariabel tersisa: {current_features}")

# 4. Regularisasi (Ridge, Lasso, Elastic Net)
print("\n4. REGULARISASI:")

from sklearn.linear_model import Ridge, Lasso, ElasticNet
from sklearn.model_selection import cross_val_score

# Ridge Regression
ridge = Ridge(alpha=1.0)
ridge.fit(X, y)
ridge_coef = ridge.coef_

# Lasso Regression
lasso = Lasso(alpha=0.1)
lasso.fit(X, y)
lasso_coef = lasso.coef_

# Elastic Net
elastic = ElasticNet(alpha=0.1, l1_ratio=0.5)
elastic.fit(X, y)
elastic_coef = elastic.coef_

# Bandingkan koefisien
coef_comparison = pd.DataFrame({
    'Feature': feature_names,
    'True': [2, 1.5, -0.8, 0.5, -0.3, 0, 0, 0, 0, 0],
    'Ridge': ridge_coef,
    'Lasso': lasso_coef,
    'Elastic': elastic_coef
})

print("Perbandingan Koefisien:")
print(coef_comparison)

# 5. Cross-Validation
print("\n5. CROSS-VALIDATION:")

from sklearn.model_selection import cross_val_score, KFold

# K-Fold Cross-Validation
kfold = KFold(n_splits=5, shuffle=True, random_state=42)

# Linear Regression
lr_scores = cross_val_score(LinearRegression(), X, y, cv=kfold, scoring='r2')
print(f"Linear Regression - R² CV: {lr_scores.mean():.4f} (+/- {lr_scores.std() * 2:.4f})")

# Ridge Regression
ridge_scores = cross_val_score(Ridge(alpha=1.0), X, y, cv=kfold, scoring='r2')
print(f"Ridge Regression - R² CV: {ridge_scores.mean():.4f} (+/- {ridge_scores.std() * 2:.4f})")

# Lasso Regression
lasso_scores = cross_val_score(Lasso(alpha=0.1), X, y, cv=kfold, scoring='r2')
print(f"Lasso Regression - R² CV: {lasso_scores.mean():.4f} (+/- {lasso_scores.std() * 2:.4f})")

# Elastic Net
elastic_scores = cross_val_score(ElasticNet(alpha=0.1, l1_ratio=0.5), X, y, cv=kfold, scoring='r2')
print(f"Elastic Net - R² CV: {elastic_scores.mean():.4f} (+/- {elastic_scores.std() * 2:.4f})")

# 6. Model Selection dengan AIC/BIC
print("\n6. MODEL SELECTION DENGAN AIC/BIC:")

from sklearn.metrics import mean_squared_error

def calculate_aic_bic(model, X, y):
    y_pred = model.predict(X)
    mse = mean_squared_error(y, y_pred)
    n = len(y)
    k = X.shape[1] + 1  # +1 untuk intercept
    
    # AIC
    aic = n * np.log(mse) + 2 * k
    
    # BIC
    bic = n * np.log(mse) + k * np.log(n)
    
    return aic, bic

# Hitung AIC/BIC untuk model yang berbeda
models = {
    'Linear': LinearRegression(),
    'Ridge': Ridge(alpha=1.0),
    'Lasso': Lasso(alpha=0.1),
    'Elastic': ElasticNet(alpha=0.1, l1_ratio=0.5)
}

model_scores = pd.DataFrame(columns=['Model', 'AIC', 'BIC', 'R²'])

for name, model in models.items():
    model.fit(X, y)
    aic, bic = calculate_aic_bic(model, X, y)
    r2 = r2_score(y, model.predict(X))
    
    model_scores = pd.concat([model_scores, pd.DataFrame({
        'Model': [name],
        'AIC': [aic],
        'BIC': [bic],
        'R²': [r2]
    })], ignore_index=True)

print("Perbandingan Model:")
print(model_scores)

# 7. Visualisasi Feature Selection dan Regularisasi
plt.figure(figsize=(20, 15))

# Plot 1: F-statistik untuk feature selection
plt.subplot(3, 4, 1)
plt.bar(feature_ranking['Feature'], feature_ranking['F_Score'], alpha=0.7, color='blue')
plt.xlabel('Features')
plt.ylabel('F-Score')
plt.title('F-Score untuk Feature Selection')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

# Plot 2: P-values untuk feature selection
plt.subplot(3, 4, 2)
plt.bar(feature_ranking['Feature'], feature_ranking['P_Value'], alpha=0.7, color='red')
plt.axhline(0.05, color='orange', linestyle='--', label='α = 0.05')
plt.xlabel('Features')
plt.ylabel('P-Value')
plt.title('P-Values untuk Feature Selection')
plt.xticks(rotation=45)
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 3: Perbandingan koefisien
plt.subplot(3, 4, 3)
x_pos = np.arange(len(feature_names))
width = 0.2

plt.bar(x_pos - width, coef_comparison['True'], width, label='True', alpha=0.7)
plt.bar(x_pos, coef_comparison['Ridge'], width, label='Ridge', alpha=0.7)
plt.bar(x_pos + width, coef_comparison['Lasso'], width, label='Lasso', alpha=0.7)
plt.bar(x_pos + 2*width, coef_comparison['Elastic'], width, label='Elastic', alpha=0.7)

plt.xlabel('Features')
plt.ylabel('Coefficient Value')
plt.title('Perbandingan Koefisien')
plt.xticks(x_pos, feature_names, rotation=45)
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 4: Cross-validation scores
plt.subplot(3, 4, 4)
cv_scores = [lr_scores.mean(), ridge_scores.mean(), lasso_scores.mean(), elastic_scores.mean()]
cv_errors = [lr_scores.std(), ridge_scores.std(), lasso_scores.std(), elastic_scores.std()]
model_names = ['Linear', 'Ridge', 'Lasso', 'Elastic']

plt.bar(model_names, cv_scores, alpha=0.7, color=['blue', 'green', 'red', 'purple'])
plt.errorbar(model_names, cv_scores, yerr=cv_errors, fmt='none', color='black', capsize=5)
plt.ylabel('R² CV Score')
plt.title('Cross-Validation Scores')
plt.grid(True, alpha=0.3)

# Plot 5: AIC comparison
plt.subplot(3, 4, 5)
plt.bar(model_scores['Model'], model_scores['AIC'], alpha=0.7, color='blue')
plt.ylabel('AIC')
plt.title('AIC Comparison')
plt.grid(True, alpha=0.3)

# Plot 6: BIC comparison
plt.subplot(3, 4, 6)
plt.bar(model_scores['Model'], model_scores['BIC'], alpha=0.7, color='green')
plt.ylabel('BIC')
plt.title('BIC Comparison')
plt.grid(True, alpha=0.3)

# Plot 7: R² comparison
plt.subplot(3, 4, 7)
plt.bar(model_scores['Model'], model_scores['R²'], alpha=0.7, color='red')
plt.ylabel('R²')
plt.title('R² Comparison')
plt.grid(True, alpha=0.3)

# Plot 8: Feature importance (Lasso)
plt.subplot(3, 4, 8)
lasso_importance = np.abs(lasso_coef)
plt.bar(feature_names, lasso_importance, alpha=0.7, color='orange')
plt.xlabel('Features')
plt.ylabel('|Coefficient|')
plt.title('Feature Importance (Lasso)')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

# Plot 9: Regularization path (Lasso)
plt.subplot(3, 4, 9)
alphas = np.logspace(-4, 1, 50)
lasso_path = []

for alpha in alphas:
    lasso_temp = Lasso(alpha=alpha)
    lasso_temp.fit(X, y)
    lasso_path.append(lasso_temp.coef_)

lasso_path = np.array(lasso_path)

for i in range(len(feature_names)):
    plt.plot(alphas, lasso_path[:, i], label=f'X{i+1}', alpha=0.7)

plt.xscale('log')
plt.xlabel('Alpha')
plt.ylabel('Coefficient Value')
plt.title('Lasso Regularization Path')
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, alpha=0.3)

# Plot 10: Regularization path (Ridge)
plt.subplot(3, 4, 10)
ridge_path = []

for alpha in alphas:
    ridge_temp = Ridge(alpha=alpha)
    ridge_temp.fit(X, y)
    ridge_path.append(ridge_temp.coef_)

ridge_path = np.array(ridge_path)

for i in range(len(feature_names)):
    plt.plot(alphas, ridge_path[:, i], label=f'X{i+1}', alpha=0.7)

plt.xscale('log')
plt.xlabel('Alpha')
plt.ylabel('Coefficient Value')
plt.title('Ridge Regularization Path')
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, alpha=0.3)

# Plot 11: Model complexity vs performance
plt.subplot(3, 4, 11)
complexity = [1, 2, 3, 4, 5]  # Jumlah fitur
performance = []

for i in range(1, 6):
    features = selected_features[:i]
    X_subset = df[features]
    model = LinearRegression()
    model.fit(X_subset, y)
    y_pred = model.predict(X_subset)
    r2 = r2_score(y, y_pred)
    performance.append(r2)

plt.plot(complexity, performance, 'bo-', linewidth=2, markersize=8)
plt.xlabel('Number of Features')
plt.ylabel('R²')
plt.title('Model Complexity vs Performance')
plt.grid(True, alpha=0.3)

# Plot 12: Summary
plt.subplot(3, 4, 12)
plt.axis('off')
summary_text = f"""
FEATURE SELECTION & REGULARIZATION SUMMARY

Forward Selection:
Selected: {selected_features}

Backward Elimination:
Remaining: {current_features}

Regularization:
Ridge: R² = {ridge_scores.mean():.4f}
Lasso: R² = {lasso_scores.mean():.4f}
Elastic: R² = {elastic_scores.mean():.4f}

Model Selection:
Best AIC: {model_scores.loc[model_scores['AIC'].idxmin(), 'Model']}
Best BIC: {model_scores.loc[model_scores['BIC'].idxmin(), 'Model']}
Best R²: {model_scores.loc[model_scores['R²'].idxmax(), 'Model']}

Recommendations:
- Use forward selection for feature selection
- Use Ridge for multicollinearity
- Use Lasso for feature selection
- Use Elastic Net for balanced approach
"""
plt.text(0.1, 0.9, summary_text, transform=plt.gca().transAxes, fontsize=8, 
         verticalalignment='top', fontfamily='monospace')

plt.tight_layout()
plt.show()

# 8. Interpretasi Hasil
print("\n8. INTERPRETASI HASIL:")

print(f"\nFeature Selection:")
print(f"  - Forward Selection: {selected_features}")
print(f"  - Backward Elimination: {current_features}")
print(f"  - F-statistik: Variabel dengan F-score tertinggi paling penting")

print(f"\nRegularisasi:")
print(f"  - Ridge: Menyusutkan koefisien, tidak menghapus variabel")
print(f"  - Lasso: Menyusutkan koefisien ke 0, melakukan feature selection")
print(f"  - Elastic Net: Kombinasi Ridge dan Lasso")

print(f"\nCross-Validation:")
print(f"  - Linear Regression: R² = {lr_scores.mean():.4f}")
print(f"  - Ridge Regression: R² = {ridge_scores.mean():.4f}")
print(f"  - Lasso Regression: R² = {lasso_scores.mean():.4f}")
print(f"  - Elastic Net: R² = {elastic_scores.mean():.4f}")

print(f"\nModel Selection:")
print(f"  - AIC: {model_scores.loc[model_scores['AIC'].idxmin(), 'Model']} (terbaik)")
print(f"  - BIC: {model_scores.loc[model_scores['BIC'].idxmin(), 'Model']} (terbaik)")
print(f"  - R²: {model_scores.loc[model_scores['R²'].idxmax(), 'Model']} (terbaik)")

# 9. Kesimpulan dan Rekomendasi
print("\n9. KESIMPULAN DAN REKOMENDASI:")
print("   - Feature Selection: Pilih variabel yang paling berpengaruh")
print("   - Regularisasi: Gunakan untuk mengatasi overfitting")
print("   - Cross-Validation: Validasi model dengan data independen")
print("   - Model Selection: Gunakan AIC/BIC untuk memilih model terbaik")
print("   - Ridge: Untuk multikolinearitas")
print("   - Lasso: Untuk feature selection")
print("   - Elastic Net: Untuk pendekatan seimbang")
print("   - Best practice: Kombinasi feature selection dan regularisasi")


## 3. Interpretasi Koefisien (Coefficient Interpretation)

### 3.1 Interpretasi Koefisien Regresi

#### 3.1.1 Koefisien Parsial
- **Definisi**: Koefisien regresi mengukur perubahan rata-rata dalam variabel dependen untuk setiap unit perubahan dalam variabel independen, sambil mengontrol variabel independen lainnya
- **Rumus**: βᵢ = ∂Y/∂Xᵢ (holding other variables constant)
- **Interpretasi**: "Mengontrol variabel lain, setiap peningkatan 1 unit Xᵢ akan mengubah Y sebesar βᵢ unit"

#### 3.1.2 Intercept (β₀)
- **Definisi**: Nilai prediksi Y ketika semua variabel independen = 0
- **Interpretasi**: "Ketika semua X = 0, nilai prediksi Y adalah β₀"
- **Catatan**: Mungkin tidak bermakna praktis jika X tidak bisa = 0

#### 3.1.3 Slope Coefficients (β₁, β₂, ..., βₖ)
- **Definisi**: Perubahan Y per unit perubahan Xᵢ
- **Interpretasi**: "Mengontrol variabel lain, setiap peningkatan 1 unit Xᵢ akan mengubah Y sebesar βᵢ unit"
- **Arah**: Positif = peningkatan Y, Negatif = penurunan Y

### 3.2 Standardized Coefficients

#### 3.2.1 Beta Coefficients
- **Rumus**: βᵢ_std = βᵢ × (σXᵢ / σY)
- **Interpretasi**: Perubahan standar deviasi Y per perubahan standar deviasi Xᵢ
- **Keunggulan**: Dapat membandingkan pengaruh relatif antar variabel
- **Aplikasi**: Variabel dengan skala berbeda

#### 3.2.2 Perbandingan Pengaruh
- **Prinsip**: Koefisien terstandarisasi yang lebih besar menunjukkan pengaruh yang lebih kuat
- **Contoh**: β₁_std = 0.5, β₂_std = 0.3 → X₁ memiliki pengaruh lebih kuat
- **Keterbatasan**: Tidak mengukur signifikansi statistik

### 3.3 Confidence Intervals

#### 3.3.1 Confidence Interval untuk Koefisien
- **Rumus**: CI = βᵢ ± t(α/2, n-k-1) × SE(βᵢ)
- **Interpretasi**: Interval yang mengandung nilai sebenarnya dengan probabilitas (1-α)
- **Aplikasi**: Estimasi ketidakpastian parameter

#### 3.3.2 Significance Testing
- **Hipotesis**: H₀: βᵢ = 0 vs H₁: βᵢ ≠ 0
- **Statistik**: t = βᵢ / SE(βᵢ)
- **Keputusan**: Tolak H₀ jika |t| > t_critical atau p-value < α

### 3.4 Interaction Effects

#### 3.4.1 Interaction Terms
- **Definisi**: Perkalian antar variabel independen (X₁ × X₂)
- **Interpretasi**: Pengaruh X₁ bergantung pada nilai X₂
- **Rumus**: Y = β₀ + β₁X₁ + β₂X₂ + β₃(X₁ × X₂) + ε

#### 3.4.2 Interpretasi Interaction
- **Koefisien X₁**: Pengaruh X₁ ketika X₂ = 0
- **Koefisien X₂**: Pengaruh X₂ ketika X₁ = 0
- **Koefisien Interaction**: Perubahan pengaruh X₁ per unit X₂

### 3.5 Dummy Variables

#### 3.5.1 Dummy Variable Coding
- **Binary**: 0 dan 1 untuk dua kategori
- **Multiple Categories**: k-1 dummy variables untuk k kategori
- **Reference Category**: Kategori yang tidak memiliki dummy variable

#### 3.5.2 Interpretasi Dummy Variables
- **Koefisien**: Perbedaan rata-rata antara kategori dan reference category
- **Contoh**: β = 5 → Kategori ini 5 unit lebih tinggi dari reference category
- **Catatan**: Mengontrol variabel lain

### 3.6 Non-linear Effects

#### 3.6.1 Polynomial Terms
- **Quadratic**: X² untuk efek kuadratik
- **Cubic**: X³ untuk efek kubik
- **Interpretasi**: Perubahan pengaruh X pada Y

#### 3.6.2 Log Transformations
- **Log-Log**: ln(Y) = β₀ + β₁ln(X₁) + β₂ln(X₂) + ε
- **Interpretasi**: βᵢ = elastisitas Y terhadap Xᵢ
- **Aplikasi**: Hubungan proporsional

### 3.7 Common Pitfalls

#### 3.7.1 Simpson's Paradox
- **Definisi**: Arah hubungan berubah ketika variabel kontrol ditambahkan
- **Penyebab**: Confounding variables
- **Solusi**: Analisis multivariat yang tepat

#### 3.7.2 Ecological Fallacy
- **Definisi**: Menyimpulkan hubungan individual dari data agregat
- **Contoh**: Korelasi tingkat negara ≠ korelasi individual
- **Solusi**: Gunakan data individual

#### 3.7.3 Omitted Variable Bias
- **Definisi**: Mengabaikan variabel penting yang berkorelasi dengan variabel independen
- **Efek**: Koefisien bias
- **Solusi**: Masukkan semua variabel relevan

### 3.8 Practical Guidelines

#### 3.8.1 Interpretasi yang Benar
- **Konteks**: Pertimbangkan konteks penelitian
- **Magnitude**: Perhatikan besaran koefisien
- **Significance**: Perhatikan signifikansi statistik
- **Confidence**: Gunakan confidence interval

#### 3.8.2 Komunikasi Hasil
- **Bahasa Sederhana**: Gunakan bahasa yang mudah dipahami
- **Angka Konkret**: Berikan contoh numerik
- **Keterbatasan**: Diskusikan keterbatasan interpretasi
- **Implikasi**: Jelaskan implikasi praktis


## 4. Evaluasi Model (Model Evaluation)

### 4.1 Goodness of Fit Measures

#### 4.1.1 R-squared (R²)
- **Definisi**: Proporsi varians dalam Y yang dijelaskan oleh model
- **Rumus**: R² = 1 - (SSR / SST) = SSReg / SST
- **Range**: 0 ≤ R² ≤ 1
- **Interpretasi**: Semakin tinggi semakin baik
- **Keterbatasan**: Tidak mempertimbangkan jumlah variabel

#### 4.1.2 Adjusted R-squared (R²adj)
- **Definisi**: R² yang disesuaikan untuk jumlah variabel independen
- **Rumus**: R²adj = 1 - [(1 - R²)(n - 1)] / (n - k - 1)
- **Keunggulan**: Mempertimbangkan kompleksitas model
- **Interpretasi**: Lebih akurat untuk perbandingan model

#### 4.1.3 Multiple R
- **Definisi**: Korelasi antara nilai aktual dan prediksi
- **Rumus**: R = √(R²)
- **Interpretasi**: Kekuatan hubungan linear
- **Aplikasi**: Ukuran korelasi model

### 4.2 Error Measures

#### 4.2.1 Mean Squared Error (MSE)
- **Definisi**: Rata-rata kuadrat error
- **Rumus**: MSE = Σ(Yi - Ŷi)² / n
- **Unit**: Kuadrat unit Y
- **Interpretasi**: Semakin kecil semakin baik

#### 4.2.2 Root Mean Squared Error (RMSE)
- **Definisi**: Akar kuadrat MSE
- **Rumus**: RMSE = √(MSE)
- **Unit**: Sama dengan unit Y
- **Interpretasi**: Rata-rata error prediksi

#### 4.2.3 Mean Absolute Error (MAE)
- **Definisi**: Rata-rata absolute error
- **Rumus**: MAE = Σ|Yi - Ŷi| / n
- **Unit**: Sama dengan unit Y
- **Interpretasi**: Rata-rata absolute error

#### 4.2.4 Mean Absolute Percentage Error (MAPE)
- **Definisi**: Rata-rata persentase error
- **Rumus**: MAPE = (100/n) × Σ|Yi - Ŷi| / |Yi|
- **Unit**: Persentase
- **Interpretasi**: Persentase error rata-rata

### 4.3 Information Criteria

#### 4.3.1 Akaike Information Criterion (AIC)
- **Definisi**: Balance antara goodness of fit dan kompleksitas
- **Rumus**: AIC = 2k - 2ln(L) = n × ln(MSE) + 2k
- **Prinsip**: Semakin kecil semakin baik
- **Aplikasi**: Model selection

#### 4.3.2 Bayesian Information Criterion (BIC)
- **Definisi**: Lebih konservatif daripada AIC
- **Rumus**: BIC = k × ln(n) - 2ln(L) = n × ln(MSE) + k × ln(n)
- **Prinsip**: Semakin kecil semakin baik
- **Keunggulan**: Mempertimbangkan sample size

#### 4.3.3 Corrected AIC (AICc)
- **Definisi**: Koreksi AIC untuk sample kecil
- **Rumus**: AICc = AIC + 2k(k+1)/(n-k-1)
- **Aplikasi**: Sample size kecil (n/k < 40)
- **Interpretasi**: Lebih akurat untuk sample kecil

### 4.4 Cross-Validation

#### 4.4.1 k-Fold Cross-Validation
- **Prinsip**: Bagi data menjadi k subset
- **Proses**: Train pada k-1 subset, test pada 1 subset
- **Kriteria**: k = 5 atau 10
- **Keunggulan**: Mengurangi bias, estimasi stabil

#### 4.4.2 Leave-One-Out Cross-Validation (LOOCV)
- **Prinsip**: Train pada n-1 observasi, test pada 1 observasi
- **Proses**: Ulangi untuk semua observasi
- **Keunggulan**: Menggunakan semua data
- **Kekurangan**: Computationally expensive

#### 4.4.3 Holdout Validation
- **Prinsip**: Bagi data menjadi training dan testing
- **Proporsi**: 70-80% training, 20-30% testing
- **Keunggulan**: Sederhana, cepat
- **Kekurangan**: Dapat bias

### 4.5 Residual Analysis

#### 4.5.1 Residual Plots
- **Residuals vs Fitted**: Cek homoscedasticity
- **Residuals vs Predictors**: Cek linearity
- **Q-Q Plot**: Cek normalitas
- **Leverage Plot**: Cek outliers

#### 4.5.2 Residual Statistics
- **Mean Residual**: Harus mendekati 0
- **Standard Deviation**: Ukuran variabilitas
- **Skewness**: Asimetri distribusi
- **Kurtosis**: Ketajaman distribusi

### 4.6 Outlier Detection

#### 4.6.1 Studentized Residuals
- **Definisi**: Residuals yang distandarisasi
- **Rumus**: rᵢ = eᵢ / (s × √(1 - hᵢᵢ))
- **Threshold**: |rᵢ| > 2 atau 3
- **Interpretasi**: Outlier jika |rᵢ| > threshold

#### 4.6.2 Cook's Distance
- **Definisi**: Pengaruh observasi pada model
- **Rumus**: Dᵢ = (eᵢ² / (k × MSE)) × (hᵢᵢ / (1 - hᵢᵢ)²)
- **Threshold**: Dᵢ > 4/n
- **Interpretasi**: Influential jika Dᵢ > threshold

#### 4.6.3 Leverage
- **Definisi**: Pengaruh observasi pada prediksi
- **Rumus**: hᵢᵢ = Xᵢ(X'X)⁻¹Xᵢ'
- **Threshold**: hᵢᵢ > 2(k+1)/n
- **Interpretasi**: High leverage jika hᵢᵢ > threshold

### 4.7 Model Comparison

#### 4.7.1 Nested Models
- **Definisi**: Model yang satu subset dari yang lain
- **Testing**: F-test untuk perbedaan R²
- **Rumus**: F = [(R²₁ - R²₀) / (k₁ - k₀)] / [(1 - R²₁) / (n - k₁ - 1)]
- **Interpretasi**: Model yang lebih kompleks signifikan lebih baik

#### 4.7.2 Non-nested Models
- **Definisi**: Model yang tidak subset satu sama lain
- **Testing**: AIC, BIC, atau cross-validation
- **Prinsip**: Pilih model dengan kriteria terbaik
- **Aplikasi**: Model dengan variabel berbeda

### 4.8 Prediction Intervals

#### 4.8.1 Confidence Interval
- **Definisi**: Interval untuk mean prediksi
- **Rumus**: CI = Ŷ ± t(α/2, n-k-1) × SE(Ŷ)
- **Interpretasi**: Interval untuk rata-rata Y
- **Aplikasi**: Estimasi parameter

#### 4.8.2 Prediction Interval
- **Definisi**: Interval untuk prediksi individual
- **Rumus**: PI = Ŷ ± t(α/2, n-k-1) × SE(Ŷ + ε)
- **Interpretasi**: Interval untuk Y individual
- **Aplikasi**: Prediksi individual

### 4.9 Model Validation

#### 4.9.1 In-sample Validation
- **Definisi**: Validasi pada data yang sama
- **Ukuran**: R², RMSE, MAE
- **Keterbatasan**: Dapat overfit
- **Aplikasi**: Initial assessment

#### 4.9.2 Out-of-sample Validation
- **Definisi**: Validasi pada data baru
- **Ukuran**: R², RMSE, MAE
- **Keunggulan**: Estimasi yang lebih akurat
- **Aplikasi**: Final assessment

### 4.10 Practical Guidelines

#### 4.10.1 Model Selection
- **Multiple Criteria**: Gunakan beberapa ukuran
- **Cross-validation**: Validasi dengan data independen
- **Domain Knowledge**: Pertimbangkan teori
- **Simplicity**: Pilih model yang sederhana

#### 4.10.2 Reporting Results
- **Transparency**: Laporkan semua ukuran
- **Confidence**: Gunakan confidence interval
- **Limitations**: Diskusikan keterbatasan
- **Recommendations**: Berikan rekomendasi


## 5. Multikolinearitas (Multicollinearity)

### 5.1 Pengertian Multikolinearitas

#### 5.1.1 Definisi
- **Multikolinearitas**: Korelasi tinggi antar variabel independen
- **Perfect Multicollinearity**: Korelasi sempurna (r = 1)
- **Near Multicollinearity**: Korelasi tinggi (r > 0.8)
- **Problem**: Sulit mengisolasi efek individual variabel

#### 5.1.2 Jenis Multikolinearitas
- **Structural**: Variabel yang secara alami berkorelasi
- **Data-based**: Korelasi karena sampling
- **Dummy Variable Trap**: Multikolinearitas karena dummy variables
- **Polynomial**: Multikolinearitas karena polynomial terms

### 5.2 Dampak Multikolinearitas

#### 5.2.1 Dampak pada Koefisien
- **Variance Inflation**: Meningkatkan varians koefisien
- **Instability**: Koefisien tidak stabil
- **Significance**: Menurunkan signifikansi statistik
- **Interpretation**: Sulit menginterpretasikan koefisien

#### 5.2.2 Dampak pada Model
- **R²**: Tidak terpengaruh
- **F-test**: Tidak terpengaruh
- **Prediction**: Tidak terpengaruh
- **Confidence Interval**: Lebih lebar

#### 5.2.3 Dampak pada Estimasi
- **Bias**: Koefisien tetap unbiased
- **Efficiency**: Koefisien kurang efficient
- **Consistency**: Koefisien tetap consistent
- **Asymptotic**: Tidak terpengaruh secara asimtotik

### 5.3 Deteksi Multikolinearitas

#### 5.3.1 Correlation Matrix
- **Method**: Hitung korelasi antar variabel independen
- **Threshold**: |r| > 0.8 atau 0.9
- **Keunggulan**: Sederhana, mudah diinterpretasikan
- **Kekurangan**: Hanya mendeteksi pairwise correlation

#### 5.3.2 Variance Inflation Factor (VIF)
- **Definisi**: VIFᵢ = 1 / (1 - R²ᵢ)
- **Interpretasi**: VIF > 10 menunjukkan multikolinearitas
- **Threshold**: VIF > 5 (moderate), VIF > 10 (high)
- **Keunggulan**: Mendeteksi multikolinearitas multiple

#### 5.3.3 Tolerance
- **Definisi**: Toleranceᵢ = 1 - R²ᵢ = 1 / VIFᵢ
- **Interpretasi**: Tolerance < 0.1 menunjukkan multikolinearitas
- **Threshold**: Tolerance < 0.2 (moderate), Tolerance < 0.1 (high)
- **Keunggulan**: Interpretasi yang lebih intuitif

#### 5.3.4 Condition Index
- **Definisi**: CI = √(λmax / λmin)
- **Interpretasi**: CI > 30 menunjukkan multikolinearitas
- **Threshold**: CI > 10 (moderate), CI > 30 (high)
- **Keunggulan**: Mendeteksi multikolinearitas kompleks

### 5.4 Solusi Multikolinearitas

#### 5.4.1 Data Collection
- **More Data**: Kumpulkan data lebih banyak
- **Different Sample**: Gunakan sample yang berbeda
- **Experimental Design**: Desain eksperimen yang tepat
- **Randomization**: Randomisasi variabel

#### 5.4.2 Variable Selection
- **Remove Variables**: Hapus variabel yang redundan
- **Combine Variables**: Gabungkan variabel yang berkorelasi
- **Principal Components**: Gunakan PCA
- **Factor Analysis**: Gunakan analisis faktor

#### 5.4.3 Regularization
- **Ridge Regression**: Menyusutkan koefisien
- **Lasso Regression**: Menyusutkan koefisien ke 0
- **Elastic Net**: Kombinasi Ridge dan Lasso
- **Bayesian Methods**: Metode Bayesian

#### 5.4.4 Transformation
- **Centering**: Kurangi mean variabel
- **Scaling**: Bagi dengan standar deviasi
- **Log Transformation**: Transformasi log
- **Box-Cox**: Transformasi Box-Cox

### 5.5 Ridge Regression

#### 5.5.1 Prinsip
- **Penalty**: Menambahkan penalty pada sum of squared coefficients
- **Rumus**: min(SSR + λΣβᵢ²)
- **Effect**: Menyusutkan koefisien menuju 0
- **Bias-Variance**: Trade-off bias dan variance

#### 5.5.2 Parameter Tuning
- **Lambda (α)**: Parameter regularisasi
- **Cross-validation**: Pilih lambda optimal
- **Grid Search**: Cari lambda terbaik
- **Validation Curve**: Plot performa vs lambda

#### 5.5.3 Interpretasi
- **Coefficients**: Koefisien yang disusutkan
- **Prediction**: Prediksi yang lebih stabil
- **Variance**: Mengurangi varians koefisien
- **Bias**: Menambah bias koefisien

### 5.6 Lasso Regression

#### 5.6.1 Prinsip
- **Penalty**: Menambahkan penalty pada sum of absolute coefficients
- **Rumus**: min(SSR + λΣ|βᵢ|)
- **Effect**: Menyusutkan koefisien ke 0
- **Feature Selection**: Otomatis melakukan feature selection

#### 5.6.2 Parameter Tuning
- **Lambda (α)**: Parameter regularisasi
- **Cross-validation**: Pilih lambda optimal
- **Path Algorithm**: Hitung path koefisien
- **Validation Curve**: Plot performa vs lambda

#### 5.6.3 Interpretasi
- **Coefficients**: Koefisien yang disusutkan
- **Feature Selection**: Variabel yang dipilih
- **Sparsity**: Model yang sparse
- **Interpretability**: Model yang mudah diinterpretasikan

### 5.7 Elastic Net

#### 5.7.1 Prinsip
- **Penalty**: Kombinasi L1 dan L2 penalty
- **Rumus**: min(SSR + λ₁Σ|βᵢ| + λ₂Σβᵢ²)
- **Effect**: Kombinasi feature selection dan shrinkage
- **Balance**: Balance antara Ridge dan Lasso

#### 5.7.2 Parameter Tuning
- **Alpha**: Parameter regularisasi total
- **L1 Ratio**: Proporsi L1 penalty
- **Cross-validation**: Pilih parameter optimal
- **Grid Search**: Cari parameter terbaik

#### 5.7.3 Interpretasi
- **Coefficients**: Koefisien yang disusutkan
- **Feature Selection**: Variabel yang dipilih
- **Stability**: Lebih stabil daripada Lasso
- **Grouping**: Menangani variabel yang berkorelasi

### 5.8 Principal Component Regression (PCR)

#### 5.8.1 Prinsip
- **PCA**: Transformasi variabel menjadi komponen utama
- **Regression**: Regresi pada komponen utama
- **Dimensionality**: Mengurangi dimensi
- **Multicollinearity**: Menghilangkan multikolinearitas

#### 5.8.2 Implementasi
- **Standardization**: Standarisasi variabel
- **PCA**: Hitung komponen utama
- **Selection**: Pilih komponen yang signifikan
- **Regression**: Regresi pada komponen terpilih

#### 5.8.3 Interpretasi
- **Components**: Komponen utama yang tidak berkorelasi
- **Variance**: Proporsi varians yang dijelaskan
- **Coefficients**: Koefisien pada komponen utama
- **Prediction**: Prediksi yang stabil

### 5.9 Partial Least Squares (PLS)

#### 5.9.1 Prinsip
- **Supervised**: Menggunakan informasi Y
- **Components**: Komponen yang memaksimalkan kovarians
- **Regression**: Regresi pada komponen PLS
- **Multicollinearity**: Menangani multikolinearitas

#### 5.9.2 Implementasi
- **Standardization**: Standarisasi variabel
- **PLS**: Hitung komponen PLS
- **Selection**: Pilih komponen yang signifikan
- **Regression**: Regresi pada komponen PLS

#### 5.9.3 Interpretasi
- **Components**: Komponen PLS yang tidak berkorelasi
- **Variance**: Proporsi varians yang dijelaskan
- **Coefficients**: Koefisien pada komponen PLS
- **Prediction**: Prediksi yang optimal

### 5.10 Practical Guidelines

#### 5.10.1 Deteksi
- **Multiple Methods**: Gunakan beberapa metode deteksi
- **Threshold**: Gunakan threshold yang konsisten
- **Context**: Pertimbangkan konteks penelitian
- **Domain Knowledge**: Gunakan pengetahuan domain

#### 5.10.2 Solusi
- **Data First**: Coba solusi data terlebih dahulu
- **Regularization**: Gunakan regularisasi jika perlu
- **Validation**: Validasi solusi dengan data independen
- **Interpretation**: Pertimbangkan interpretabilitas

#### 5.10.3 Reporting
- **Transparency**: Laporkan deteksi multikolinearitas
- **Solutions**: Jelaskan solusi yang digunakan
- **Limitations**: Diskusikan keterbatasan
- **Recommendations**: Berikan rekomendasi


In [None]:
# Demonstrasi Interpretasi Koefisien dan Evaluasi Model
print("=== DEMONSTRASI INTERPRETASI KOEFISIEN DAN EVALUASI MODEL ===")

# Data untuk demonstrasi interpretasi koefisien dan evaluasi model
np.random.seed(42)

# 1. Data dengan variabel yang berbeda skala
print("1. DATA DENGAN VARIABEL BERBEDA SKALA:")

# Simulasi data
n = 100
X1 = np.random.normal(50, 15, n)  # Skala 0-100
X2 = np.random.normal(5, 2, n)    # Skala 0-10
X3 = np.random.normal(1000, 200, n)  # Skala 0-2000

# Variabel dependen
Y = 2 * X1 + 10 * X2 + 0.001 * X3 + 50 + np.random.normal(0, 10, n)

# Buat DataFrame
df = pd.DataFrame({
    'Y': Y,
    'X1': X1,
    'X2': X2,
    'X3': X3
})

print("Data untuk Interpretasi Koefisien:")
print(df.head())
print(f"\nStatistik deskriptif:")
print(df.describe())

# 2. Regresi Multiple dengan sklearn
print("\n2. REGRESI MULTIPLE:")

# Siapkan data
X = df[['X1', 'X2', 'X3']]
y = df['Y']

# Buat model
model = LinearRegression()
model.fit(X, y)

# Prediksi
y_pred = model.predict(X)

# Koefisien
intercept = model.intercept_
coefficients = model.coef_

print(f"Intercept: {intercept:.4f}")
print(f"Koefisien X1: {coefficients[0]:.4f}")
print(f"Koefisien X2: {coefficients[1]:.4f}")
print(f"Koefisien X3: {coefficients[2]:.4f}")

# 3. Standardized Coefficients
print("\n3. STANDARDIZED COEFFICIENTS:")

# Hitung standardized coefficients
y_std = np.std(y)
x1_std = np.std(X1)
x2_std = np.std(X2)
x3_std = np.std(X3)

beta1_std = coefficients[0] * (x1_std / y_std)
beta2_std = coefficients[1] * (x2_std / y_std)
beta3_std = coefficients[2] * (x3_std / y_std)

print(f"Standardized coefficient X1: {beta1_std:.4f}")
print(f"Standardized coefficient X2: {beta2_std:.4f}")
print(f"Standardized coefficient X3: {beta3_std:.4f}")

# Interpretasi standardized coefficients
print("\nInterpretasi Standardized Coefficients:")
print(f"  - X1: Perubahan 1 SD X1 mengubah Y sebesar {beta1_std:.4f} SD")
print(f"  - X2: Perubahan 1 SD X2 mengubah Y sebesar {beta2_std:.4f} SD")
print(f"  - X3: Perubahan 1 SD X3 mengubah Y sebesar {beta3_std:.4f} SD")

# 4. Confidence Intervals
print("\n4. CONFIDENCE INTERVALS:")

# Hitung standard errors (approximation)
mse = np.sum((y - y_pred)**2) / (n - len(coefficients) - 1)
x_matrix = np.column_stack([np.ones(n), X1, X2, X3])
xtx_inv = np.linalg.inv(x_matrix.T @ x_matrix)
se_coeffs = np.sqrt(np.diag(xtx_inv) * mse)

# Confidence intervals
alpha = 0.05
t_critical = stats.t.ppf(1 - alpha/2, n - len(coefficients) - 1)

ci_intercept = [intercept - t_critical * se_coeffs[0], intercept + t_critical * se_coeffs[0]]
ci_x1 = [coefficients[0] - t_critical * se_coeffs[1], coefficients[0] + t_critical * se_coeffs[1]]
ci_x2 = [coefficients[1] - t_critical * se_coeffs[2], coefficients[1] + t_critical * se_coeffs[2]]
ci_x3 = [coefficients[2] - t_critical * se_coeffs[3], coefficients[2] + t_critical * se_coeffs[3]]

print(f"95% Confidence Intervals:")
print(f"  Intercept: [{ci_intercept[0]:.4f}, {ci_intercept[1]:.4f}]")
print(f"  X1: [{ci_x1[0]:.4f}, {ci_x1[1]:.4f}]")
print(f"  X2: [{ci_x2[0]:.4f}, {ci_x2[1]:.4f}]")
print(f"  X3: [{ci_x3[0]:.4f}, {ci_x3[1]:.4f}]")

# 5. Model Evaluation
print("\n5. MODEL EVALUATION:")

# R-squared
r2 = r2_score(y, y_pred)
print(f"R-squared: {r2:.4f}")

# Adjusted R-squared
k = len(coefficients)
adj_r2 = 1 - (1 - r2) * (n - 1) / (n - k - 1)
print(f"Adjusted R-squared: {adj_r2:.4f}")

# RMSE
rmse = np.sqrt(mean_squared_error(y, y_pred))
print(f"RMSE: {rmse:.4f}")

# MAE
mae = mean_absolute_error(y, y_pred)
print(f"MAE: {mae:.4f}")

# MAPE
mape = np.mean(np.abs((y - y_pred) / y)) * 100
print(f"MAPE: {mape:.4f}%")

# 6. Information Criteria
print("\n6. INFORMATION CRITERIA:")

# AIC
aic = n * np.log(mse) + 2 * (k + 1)
print(f"AIC: {aic:.4f}")

# BIC
bic = n * np.log(mse) + (k + 1) * np.log(n)
print(f"BIC: {bic:.4f}")

# AICc
aicc = aic + 2 * (k + 1) * (k + 2) / (n - k - 2)
print(f"AICc: {aicc:.4f}")

# 7. Residual Analysis
print("\n7. RESIDUAL ANALYSIS:")

# Residuals
residuals = y - y_pred

# Residual statistics
mean_residual = np.mean(residuals)
std_residual = np.std(residuals, ddof=1)
skewness = stats.skew(residuals)
kurtosis = stats.kurtosis(residuals)

print(f"Mean Residual: {mean_residual:.4f}")
print(f"Std Residual: {std_residual:.4f}")
print(f"Skewness: {skewness:.4f}")
print(f"Kurtosis: {kurtosis:.4f}")

# 8. Outlier Detection
print("\n8. OUTLIER DETECTION:")

# Studentized residuals
mse_residual = np.sum(residuals**2) / (n - k - 1)
h_matrix = x_matrix @ xtx_inv @ x_matrix.T
h_diag = np.diag(h_matrix)
studentized_residuals = residuals / (np.sqrt(mse_residual) * np.sqrt(1 - h_diag))

# Cook's distance
cooks_d = (residuals**2 / (k * mse_residual)) * (h_diag / (1 - h_diag)**2)

# Leverage
leverage = h_diag

# Outlier detection
outliers_studentized = np.abs(studentized_residuals) > 2
outliers_cooks = cooks_d > 4/n
outliers_leverage = leverage > 2*(k+1)/n

print(f"Outliers (Studentized |r| > 2): {np.sum(outliers_studentized)}")
print(f"Outliers (Cook's D > 4/n): {np.sum(outliers_cooks)}")
print(f"Outliers (Leverage > 2(k+1)/n): {np.sum(outliers_leverage)}")

# 9. Cross-Validation
print("\n9. CROSS-VALIDATION:")

from sklearn.model_selection import cross_val_score, KFold

# K-Fold Cross-Validation
kfold = KFold(n_splits=5, shuffle=True, random_state=42)
cv_scores = cross_val_score(LinearRegression(), X, y, cv=kfold, scoring='r2')

print(f"5-Fold CV R²: {cv_scores.mean():.4f} (+/- {cv_scores.std() * 2:.4f})")

# 10. Visualisasi Interpretasi Koefisien dan Evaluasi Model
plt.figure(figsize=(20, 15))

# Plot 1: Koefisien asli vs standardized
plt.subplot(3, 4, 1)
variables = ['X1', 'X2', 'X3']
coeffs_original = coefficients
coeffs_std = [beta1_std, beta2_std, beta3_std]

x_pos = np.arange(len(variables))
width = 0.35

plt.bar(x_pos - width/2, coeffs_original, width, label='Original', alpha=0.7)
plt.bar(x_pos + width/2, coeffs_std, width, label='Standardized', alpha=0.7)
plt.xlabel('Variables')
plt.ylabel('Coefficient Value')
plt.title('Original vs Standardized Coefficients')
plt.xticks(x_pos, variables)
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 2: Confidence intervals
plt.subplot(3, 4, 2)
coeffs = [intercept] + list(coefficients)
ci_lower = [ci_intercept[0]] + [ci_x1[0], ci_x2[0], ci_x3[0]]
ci_upper = [ci_intercept[1]] + [ci_x1[1], ci_x2[1], ci_x3[1]]
variables_ci = ['Intercept', 'X1', 'X2', 'X3']

plt.errorbar(variables_ci, coeffs, yerr=[np.array(coeffs) - np.array(ci_lower), 
                                         np.array(ci_upper) - np.array(coeffs)], 
             fmt='o', capsize=5, capthick=2)
plt.xlabel('Variables')
plt.ylabel('Coefficient Value')
plt.title('Coefficients with 95% CI')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

# Plot 3: Model evaluation metrics
plt.subplot(3, 4, 3)
metrics = ['R²', 'Adj R²', 'RMSE', 'MAE', 'MAPE']
values = [r2, adj_r2, rmse, mae, mape/100]  # Normalize MAPE
colors = ['blue', 'green', 'red', 'orange', 'purple']

plt.bar(metrics, values, color=colors, alpha=0.7)
plt.xlabel('Metrics')
plt.ylabel('Value')
plt.title('Model Evaluation Metrics')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

# Plot 4: Information criteria
plt.subplot(3, 4, 4)
criteria = ['AIC', 'BIC', 'AICc']
values_criteria = [aic, bic, aicc]

plt.bar(criteria, values_criteria, color=['blue', 'green', 'red'], alpha=0.7)
plt.xlabel('Criteria')
plt.ylabel('Value')
plt.title('Information Criteria')
plt.grid(True, alpha=0.3)

# Plot 5: Residuals vs Fitted
plt.subplot(3, 4, 5)
plt.scatter(y_pred, residuals, alpha=0.7, color='blue')
plt.axhline(0, color='red', linestyle='--')
plt.xlabel('Fitted Values')
plt.ylabel('Residuals')
plt.title('Residuals vs Fitted')
plt.grid(True, alpha=0.3)

# Plot 6: Q-Q plot residuals
plt.subplot(3, 4, 6)
stats.probplot(residuals, dist="norm", plot=plt)
plt.title('Q-Q Plot Residuals')
plt.grid(True, alpha=0.3)

# Plot 7: Studentized residuals
plt.subplot(3, 4, 7)
plt.scatter(y_pred, studentized_residuals, alpha=0.7, color='blue')
plt.axhline(2, color='red', linestyle='--', label='Threshold = 2')
plt.axhline(-2, color='red', linestyle='--')
plt.xlabel('Fitted Values')
plt.ylabel('Studentized Residuals')
plt.title('Studentized Residuals')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 8: Cook's distance
plt.subplot(3, 4, 8)
plt.scatter(range(len(cooks_d)), cooks_d, alpha=0.7, color='green')
plt.axhline(4/n, color='red', linestyle='--', label=f'Threshold = {4/n:.3f}')
plt.xlabel('Observation')
plt.ylabel("Cook's Distance")
plt.title("Cook's Distance")
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 9: Leverage
plt.subplot(3, 4, 9)
plt.scatter(range(len(leverage)), leverage, alpha=0.7, color='orange')
plt.axhline(2*(k+1)/n, color='red', linestyle='--', label=f'Threshold = {2*(k+1)/n:.3f}')
plt.xlabel('Observation')
plt.ylabel('Leverage')
plt.title('Leverage')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 10: Predicted vs Actual
plt.subplot(3, 4, 10)
plt.scatter(y, y_pred, alpha=0.7, color='blue')
plt.plot([y.min(), y.max()], [y.min(), y.max()], 'r--', linewidth=2)
plt.xlabel('Actual Values')
plt.ylabel('Predicted Values')
plt.title('Predicted vs Actual')
plt.grid(True, alpha=0.3)

# Plot 11: Cross-validation scores
plt.subplot(3, 4, 11)
plt.bar(range(1, 6), cv_scores, alpha=0.7, color='purple')
plt.axhline(cv_scores.mean(), color='red', linestyle='--', label=f'Mean = {cv_scores.mean():.3f}')
plt.xlabel('Fold')
plt.ylabel('R² Score')
plt.title('Cross-Validation Scores')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 12: Summary
plt.subplot(3, 4, 12)
plt.axis('off')
summary_text = f"""
INTERPRETASI KOEFISIEN & EVALUASI MODEL

Koefisien Asli:
X1: {coefficients[0]:.4f}
X2: {coefficients[1]:.4f}
X3: {coefficients[2]:.4f}

Koefisien Standardized:
X1: {beta1_std:.4f}
X2: {beta2_std:.4f}
X3: {beta3_std:.4f}

Model Evaluation:
R² = {r2:.4f}
Adj R² = {adj_r2:.4f}
RMSE = {rmse:.4f}
MAE = {mae:.4f}
MAPE = {mape:.2f}%

Information Criteria:
AIC = {aic:.2f}
BIC = {bic:.2f}
AICc = {aicc:.2f}

Cross-Validation:
CV R² = {cv_scores.mean():.4f} ± {cv_scores.std():.4f}

Outliers:
Studentized: {np.sum(outliers_studentized)}
Cook's D: {np.sum(outliers_cooks)}
Leverage: {np.sum(outliers_leverage)}
"""
plt.text(0.1, 0.9, summary_text, transform=plt.gca().transAxes, fontsize=8, 
         verticalalignment='top', fontfamily='monospace')

plt.tight_layout()
plt.show()

# 11. Interpretasi Hasil
print("\n11. INTERPRETASI HASIL:")

print(f"\nKoefisien Regresi:")
print(f"  - X1: {coefficients[0]:.4f}")
print(f"    Interpretasi: Mengontrol X2 dan X3, setiap peningkatan 1 unit X1 mengubah Y sebesar {coefficients[0]:.4f} unit")
print(f"  - X2: {coefficients[1]:.4f}")
print(f"    Interpretasi: Mengontrol X1 dan X3, setiap peningkatan 1 unit X2 mengubah Y sebesar {coefficients[1]:.4f} unit")
print(f"  - X3: {coefficients[2]:.4f}")
print(f"    Interpretasi: Mengontrol X1 dan X2, setiap peningkatan 1 unit X3 mengubah Y sebesar {coefficients[2]:.4f} unit")

print(f"\nStandardized Coefficients:")
print(f"  - X1: {beta1_std:.4f} (pengaruh terkuat)")
print(f"  - X2: {beta2_std:.4f}")
print(f"  - X3: {beta3_std:.4f} (pengaruh terlemah)")

print(f"\nModel Performance:")
print(f"  - R²: {r2:.4f} ({r2*100:.1f}% varians Y dijelaskan oleh model)")
print(f"  - Adjusted R²: {adj_r2:.4f} (R² yang disesuaikan untuk jumlah variabel)")
print(f"  - RMSE: {rmse:.4f} (Rata-rata error prediksi)")
print(f"  - MAE: {mae:.4f} (Rata-rata absolute error)")
print(f"  - MAPE: {mape:.2f}% (Rata-rata persentase error)")

print(f"\nModel Quality:")
print(f"  - AIC: {aic:.2f} (Semakin kecil semakin baik)")
print(f"  - BIC: {bic:.2f} (Semakin kecil semakin baik)")
print(f"  - AICc: {aicc:.2f} (Untuk sample kecil)")

print(f"\nCross-Validation:")
print(f"  - CV R²: {cv_scores.mean():.4f} ± {cv_scores.std():.4f}")
print(f"  - Interpretasi: Model stabil dan generalizable")

print(f"\nOutlier Detection:")
print(f"  - Studentized residuals: {np.sum(outliers_studentized)} outliers")
print(f"  - Cook's distance: {np.sum(outliers_cooks)} influential points")
print(f"  - Leverage: {np.sum(outliers_leverage)} high leverage points")

# 12. Kesimpulan dan Rekomendasi
print("\n12. KESIMPULAN DAN REKOMENDASI:")
print("   - Interpretasi Koefisien: Pertimbangkan skala variabel")
print("   - Standardized Coefficients: Untuk perbandingan pengaruh relatif")
print("   - Confidence Intervals: Estimasi ketidakpastian parameter")
print("   - Model Evaluation: Gunakan multiple metrics")
print("   - Information Criteria: Untuk model selection")
print("   - Cross-Validation: Untuk validasi model")
print("   - Outlier Detection: Identifikasi observasi yang berpengaruh")
print("   - Best practice: Kombinasi interpretasi dan evaluasi")


## 8. Aplikasi Praktis Regresi Multiple

### 8.1 Penelitian Medis

#### 8.1.1 Prediksi Risiko Penyakit
- **Variabel Dependen**: Risiko penyakit (skor, probabilitas)
- **Variabel Independen**: Usia, BMI, tekanan darah, kolesterol, riwayat keluarga
- **Contoh**: Model prediksi diabetes berdasarkan faktor risiko
- **Interpretasi**: Kontribusi relatif setiap faktor risiko

#### 8.1.2 Analisis Efektivitas Pengobatan
- **Variabel Dependen**: Respons pengobatan (skor, waktu sembuh)
- **Variabel Independen**: Dosis obat, usia, berat badan, jenis kelamin
- **Contoh**: Efektivitas antibiotik berdasarkan dosis dan karakteristik pasien
- **Interpretasi**: Dosis optimal untuk kelompok pasien tertentu

#### 8.1.3 Quality of Life Assessment
- **Variabel Dependen**: Skor kualitas hidup
- **Variabel Independen**: Gejala, usia, jenis kelamin, status sosial ekonomi
- **Contoh**: Faktor yang mempengaruhi kualitas hidup pasien kanker
- **Interpretasi**: Faktor protektif dan risiko

### 8.2 Penelitian Ekonomi

#### 8.2.1 Demand Forecasting
- **Variabel Dependen**: Permintaan produk
- **Variabel Independen**: Harga, pendapatan, harga produk substitusi, iklan
- **Contoh**: Prediksi penjualan smartphone berdasarkan faktor ekonomi
- **Interpretasi**: Elastisitas permintaan terhadap berbagai faktor

#### 8.2.2 Price Elasticity Analysis
- **Variabel Dependen**: Kuantitas yang diminta
- **Variabel Independen**: Harga, pendapatan, harga produk lain
- **Contoh**: Elastisitas harga minyak terhadap permintaan
- **Interpretasi**: Sensitivitas permintaan terhadap perubahan harga

#### 8.2.3 Economic Growth Modeling
- **Variabel Dependen**: Pertumbuhan ekonomi (GDP growth)
- **Variabel Independen**: Investasi, tenaga kerja, teknologi, kebijakan
- **Contoh**: Faktor yang mempengaruhi pertumbuhan ekonomi negara
- **Interpretasi**: Kontribusi relatif setiap faktor pertumbuhan

### 8.3 Penelitian Psikologi

#### 8.3.1 Behavior Prediction
- **Variabel Dependen**: Perilaku (skor, frekuensi)
- **Variabel Independen**: Kepribadian, motivasi, lingkungan, demografi
- **Contoh**: Prediksi perilaku konsumen berdasarkan faktor psikologis
- **Interpretasi**: Faktor psikologis yang paling berpengaruh

#### 8.3.2 Therapy Effectiveness
- **Variabel Dependen**: Perbaikan gejala (skor, rating)
- **Variabel Independen**: Jenis terapi, durasi, karakteristik pasien
- **Contoh**: Efektivitas terapi kognitif-behavioral untuk depresi
- **Interpretasi**: Faktor yang mempengaruhi keberhasilan terapi

#### 8.3.3 Academic Performance
- **Variabel Dependen**: Prestasi akademik (nilai, skor)
- **Variabel Independen**: IQ, motivasi, dukungan keluarga, metode belajar
- **Contoh**: Faktor yang mempengaruhi prestasi siswa
- **Interpretasi**: Faktor yang paling penting untuk sukses akademik

### 8.4 Penelitian Bisnis

#### 8.4.1 Sales Forecasting
- **Variabel Dependen**: Penjualan (volume, revenue)
- **Variabel Independen**: Harga, iklan, musim, kompetitor, ekonomi
- **Contoh**: Prediksi penjualan produk berdasarkan strategi pemasaran
- **Interpretasi**: ROI dari berbagai strategi pemasaran

#### 8.4.2 Customer Lifetime Value
- **Variabel Dependen**: Nilai pelanggan seumur hidup
- **Variabel Independen**: Demografi, perilaku, interaksi, produk
- **Contoh**: Prediksi nilai pelanggan berdasarkan karakteristik
- **Interpretasi**: Faktor yang meningkatkan nilai pelanggan

#### 8.4.3 Employee Performance
- **Variabel Dependen**: Performa karyawan (rating, output)
- **Variabel Independen**: Pengalaman, pendidikan, pelatihan, motivasi
- **Contoh**: Faktor yang mempengaruhi produktivitas karyawan
- **Interpretasi**: Faktor yang paling penting untuk performa

### 8.5 Penelitian Pendidikan

#### 8.5.1 Student Achievement
- **Variabel Dependen**: Prestasi siswa (nilai, skor)
- **Variabel Independen**: IQ, motivasi, dukungan keluarga, metode mengajar
- **Contoh**: Faktor yang mempengaruhi prestasi siswa
- **Interpretasi**: Faktor yang paling penting untuk sukses akademik

#### 8.5.2 Teacher Effectiveness
- **Variabel Dependen**: Efektivitas guru (rating, hasil siswa)
- **Variabel Independen**: Pengalaman, pendidikan, pelatihan, motivasi
- **Contoh**: Faktor yang mempengaruhi efektivitas mengajar
- **Interpretasi**: Faktor yang paling penting untuk efektivitas

#### 8.5.3 School Performance
- **Variabel Dependen**: Performa sekolah (skor, rating)
- **Variabel Independen**: Sumber daya, kepemimpinan, kurikulum, lingkungan
- **Contoh**: Faktor yang mempengaruhi performa sekolah
- **Interpretasi**: Faktor yang paling penting untuk sukses sekolah

### 8.6 Penelitian Teknologi

#### 8.6.1 System Performance
- **Variabel Dependen**: Performa sistem (waktu, throughput)
- **Variabel Independen**: Hardware, software, konfigurasi, beban
- **Contoh**: Faktor yang mempengaruhi performa database
- **Interpretasi**: Faktor yang paling penting untuk optimasi

#### 8.6.2 User Engagement
- **Variabel Dependen**: Engagement pengguna (waktu, interaksi)
- **Variabel Independen**: Fitur, desain, konten, demografi
- **Contoh**: Faktor yang mempengaruhi engagement aplikasi
- **Interpretasi**: Faktor yang paling penting untuk retention

#### 8.6.3 Software Quality
- **Variabel Dependen**: Kualitas software (bug, maintainability)
- **Variabel Independen**: Kompleksitas, tim, proses, tools
- **Contoh**: Faktor yang mempengaruhi kualitas kode
- **Interpretasi**: Faktor yang paling penting untuk kualitas

### 8.7 Penelitian Lingkungan

#### 8.7.1 Climate Modeling
- **Variabel Dependen**: Perubahan iklim (suhu, curah hujan)
- **Variabel Independen**: Emisi, deforestasi, urbanisasi, aktivitas manusia
- **Contoh**: Faktor yang mempengaruhi perubahan iklim
- **Interpretasi**: Kontribusi relatif setiap faktor

#### 8.7.2 Pollution Prediction
- **Variabel Dependen**: Tingkat polusi (PM2.5, NOx, SOx)
- **Variabel Independen**: Emisi, cuaca, lalu lintas, industri
- **Contoh**: Prediksi polusi udara berdasarkan faktor lingkungan
- **Interpretasi**: Faktor yang paling berpengaruh pada polusi

#### 8.7.3 Ecosystem Health
- **Variabel Dependen**: Kesehatan ekosistem (biodiversity, productivity)
- **Variabel Independen**: Suhu, curah hujan, polusi, aktivitas manusia
- **Contoh**: Faktor yang mempengaruhi kesehatan hutan
- **Interpretasi**: Faktor yang paling penting untuk konservasi

### 8.8 Penelitian Sosial

#### 8.8.1 Social Behavior
- **Variabel Dependen**: Perilaku sosial (partisipasi, voting)
- **Variabel Independen**: Demografi, pendidikan, pendapatan, budaya
- **Contoh**: Faktor yang mempengaruhi partisipasi politik
- **Interpretasi**: Faktor yang paling penting untuk engagement

#### 8.8.2 Policy Impact
- **Variabel Dependen**: Dampak kebijakan (outcome, satisfaction)
- **Variabel Independen**: Jenis kebijakan, implementasi, konteks
- **Contoh**: Efektivitas program bantuan sosial
- **Interpretasi**: Faktor yang paling penting untuk keberhasilan

#### 8.8.3 Community Development
- **Variabel Dependen**: Perkembangan komunitas (indeks, rating)
- **Variabel Independen**: Sumber daya, kepemimpinan, partisipasi
- **Contoh**: Faktor yang mempengaruhi perkembangan desa
- **Interpretasi**: Faktor yang paling penting untuk pembangunan

### 8.9 Best Practices untuk Aplikasi

#### 8.9.1 Data Quality
- **Completeness**: Data lengkap untuk semua variabel
- **Accuracy**: Data akurat dan valid
- **Consistency**: Data konsisten antar sumber
- **Timeliness**: Data terkini dan relevan

#### 8.9.2 Model Selection
- **Theoretical**: Berdasarkan teori yang ada
- **Empirical**: Berdasarkan data yang tersedia
- **Practical**: Mempertimbangkan implementasi
- **Validation**: Validasi dengan data independen

#### 8.9.3 Interpretation
- **Context**: Interpretasi dalam konteks penelitian
- **Limitations**: Diskusikan keterbatasan model
- **Implications**: Jelaskan implikasi praktis
- **Recommendations**: Berikan rekomendasi tindakan

#### 8.9.4 Communication
- **Audience**: Sesuaikan dengan audiens
- **Visualization**: Gunakan grafik yang jelas
- **Language**: Gunakan bahasa yang mudah dipahami
- **Evidence**: Dukung dengan bukti yang kuat


## 9. Best Practices dan Troubleshooting

### 9.1 Best Practices untuk Regresi Multiple

#### 9.1.1 Persiapan Data
- **Data Quality**: Pastikan data lengkap, akurat, dan konsisten
- **Missing Values**: Handle missing values dengan tepat (imputation, deletion)
- **Outliers**: Identifikasi dan handle outliers dengan hati-hati
- **Data Types**: Pastikan tipe data sesuai (numeric, categorical)
- **Data Distribution**: Periksa distribusi data untuk setiap variabel

#### 9.1.2 Pemilihan Variabel
- **Theoretical Foundation**: Berdasarkan teori yang ada
- **Data Availability**: Pastikan data tersedia untuk semua variabel
- **Relevance**: Variabel harus relevan dengan penelitian
- **Independence**: Hindari variabel yang terlalu berkorelasi
- **Sample Size**: Pastikan sample size cukup untuk jumlah variabel

#### 9.1.3 Model Building
- **Start Simple**: Mulai dengan model sederhana
- **Add Variables**: Tambahkan variabel secara bertahap
- **Test Assumptions**: Periksa asumsi model
- **Validate Model**: Validasi dengan data independen
- **Compare Models**: Bandingkan beberapa model

#### 9.1.4 Model Evaluation
- **Multiple Metrics**: Gunakan berbagai metrik evaluasi
- **Cross-Validation**: Gunakan cross-validation untuk validasi
- **Residual Analysis**: Analisis residual untuk diagnosis
- **Outlier Detection**: Deteksi dan analisis outlier
- **Model Stability**: Periksa stabilitas model

#### 9.1.5 Interpretation
- **Context**: Interpretasi dalam konteks penelitian
- **Limitations**: Diskusikan keterbatasan model
- **Implications**: Jelaskan implikasi praktis
- **Recommendations**: Berikan rekomendasi tindakan
- **Uncertainty**: Diskusikan ketidakpastian hasil

### 9.2 Troubleshooting Common Problems

#### 9.2.1 Data Problems

##### Missing Values
- **Problem**: Data tidak lengkap untuk beberapa variabel
- **Symptoms**: Error saat fitting model, hasil yang tidak konsisten
- **Solutions**:
  - **Listwise Deletion**: Hapus observasi dengan missing values
  - **Pairwise Deletion**: Gunakan data yang tersedia
  - **Imputation**: Isi missing values dengan nilai yang masuk akal
  - **Multiple Imputation**: Gunakan multiple imputation untuk ketidakpastian

##### Outliers
- **Problem**: Data ekstrem yang mempengaruhi model
- **Symptoms**: Residual yang besar, model yang tidak stabil
- **Solutions**:
  - **Identify**: Gunakan box plot, scatter plot, atau statistical tests
  - **Investigate**: Periksa apakah outlier adalah error atau data valid
  - **Handle**: Hapus, transform, atau gunakan robust methods
  - **Document**: Catat keputusan dan alasan

##### Non-normal Distribution
- **Problem**: Data tidak berdistribusi normal
- **Symptoms**: Residual tidak normal, model tidak valid
- **Solutions**:
  - **Transform**: Gunakan log, square root, atau Box-Cox transformation
  - **Robust Methods**: Gunakan metode yang robust terhadap non-normality
  - **Non-parametric**: Gunakan metode non-parametrik
  - **Bootstrap**: Gunakan bootstrap untuk inference

#### 9.2.2 Model Problems

##### Multicollinearity
- **Problem**: Variabel independen berkorelasi tinggi
- **Symptoms**: VIF tinggi, koefisien tidak stabil, standard error besar
- **Solutions**:
  - **Remove Variables**: Hapus variabel yang redundan
  - **Combine Variables**: Gabungkan variabel yang berkorelasi
  - **Regularization**: Gunakan Ridge, Lasso, atau Elastic Net
  - **Principal Components**: Gunakan PCA untuk mengurangi dimensi

##### Heteroscedasticity
- **Problem**: Varians residual tidak konstan
- **Symptoms**: Residual plot menunjukkan pola, Breusch-Pagan test signifikan
- **Solutions**:
  - **Transform**: Transform variabel dependen atau independen
  - **Weighted Regression**: Gunakan weighted least squares
  - **Robust Standard Errors**: Gunakan robust standard errors
  - **Heteroscedasticity-consistent**: Gunakan HC standard errors

##### Autocorrelation
- **Problem**: Residual berkorelasi dengan residual lain
- **Symptoms**: Durbin-Watson test signifikan, residual plot menunjukkan pola
- **Solutions**:
  - **Time Series Methods**: Gunakan metode time series
  - **Lagged Variables**: Tambahkan variabel lag
  - **ARIMA**: Gunakan ARIMA untuk time series
  - **Cochrane-Orcutt**: Gunakan Cochrane-Orcutt procedure

##### Non-linearity
- **Problem**: Hubungan tidak linear antara variabel
- **Symptoms**: Residual plot menunjukkan pola non-linear
- **Solutions**:
  - **Polynomial Terms**: Tambahkan polynomial terms
  - **Interaction Terms**: Tambahkan interaction terms
  - **Spline Regression**: Gunakan spline regression
  - **Non-linear Models**: Gunakan model non-linear

#### 9.2.3 Statistical Problems

##### Low R-squared
- **Problem**: Model menjelaskan sedikit varians
- **Symptoms**: R-squared rendah, model tidak prediktif
- **Solutions**:
  - **Add Variables**: Tambahkan variabel yang relevan
  - **Transform Variables**: Transform variabel untuk meningkatkan hubungan
  - **Interaction Terms**: Tambahkan interaction terms
  - **Non-linear Terms**: Tambahkan non-linear terms

##### Non-significant Coefficients
- **Problem**: Koefisien tidak signifikan secara statistik
- **Symptoms**: P-value tinggi, confidence interval lebar
- **Solutions**:
  - **Increase Sample Size**: Tingkatkan ukuran sample
  - **Reduce Multicollinearity**: Kurangi multikolinearitas
  - **Transform Variables**: Transform variabel untuk meningkatkan hubungan
  - **Check Assumptions**: Periksa asumsi model

##### Overfitting
- **Problem**: Model terlalu kompleks, performa buruk pada data baru
- **Symptoms**: R-squared tinggi pada training, rendah pada validation
- **Solutions**:
  - **Cross-validation**: Gunakan cross-validation untuk evaluasi
  - **Regularization**: Gunakan Ridge, Lasso, atau Elastic Net
  - **Feature Selection**: Pilih fitur yang paling penting
  - **Simplify Model**: Sederhanakan model

### 9.3 Common Mistakes

#### 9.3.1 Data Mistakes
- **Ignoring Missing Values**: Tidak menangani missing values dengan tepat
- **Not Checking Data Quality**: Tidak memeriksa kualitas data
- **Using Wrong Data Types**: Menggunakan tipe data yang salah
- **Not Handling Outliers**: Tidak menangani outlier dengan tepat
- **Not Checking Assumptions**: Tidak memeriksa asumsi model

#### 9.3.2 Model Mistakes
- **Overfitting**: Model terlalu kompleks
- **Underfitting**: Model terlalu sederhana
- **Ignoring Multicollinearity**: Tidak menangani multikolinearitas
- **Not Validating Model**: Tidak memvalidasi model
- **Not Checking Residuals**: Tidak memeriksa residual

#### 9.3.3 Interpretation Mistakes
- **Confusing Correlation with Causation**: Mengacaukan korelasi dengan kausalitas
- **Ignoring Context**: Tidak mempertimbangkan konteks
- **Overinterpreting Results**: Terlalu berlebihan dalam interpretasi
- **Not Discussing Limitations**: Tidak membahas keterbatasan
- **Not Considering Uncertainty**: Tidak mempertimbangkan ketidakpastian

### 9.4 Software dan Tools

#### 9.4.1 Python
- **scikit-learn**: Machine learning library
- **statsmodels**: Statistical models
- **pandas**: Data manipulation
- **numpy**: Numerical computing
- **matplotlib/seaborn**: Visualization

#### 9.4.2 R
- **lm()**: Linear regression
- **glm()**: Generalized linear models
- **car**: Companion to Applied Regression
- **MASS**: Modern Applied Statistics
- **ggplot2**: Visualization

#### 9.4.3 SPSS
- **Linear Regression**: Built-in regression analysis
- **Multiple Regression**: Advanced regression options
- **Model Selection**: Stepwise, forward, backward
- **Diagnostics**: Residual analysis, outlier detection

#### 9.4.4 SAS
- **PROC REG**: Regression analysis
- **PROC GLM**: General linear models
- **PROC LOGISTIC**: Logistic regression
- **PROC MIXED**: Mixed models

### 9.5 Reporting Guidelines

#### 9.5.1 Model Description
- **Variables**: Jelaskan semua variabel yang digunakan
- **Sample Size**: Berikan ukuran sample dan power analysis
- **Method**: Jelaskan metode yang digunakan
- **Assumptions**: Diskusikan asumsi dan validasi
- **Limitations**: Jelaskan keterbatasan model

#### 9.5.2 Results Presentation
- **Tables**: Gunakan tabel yang jelas dan informatif
- **Figures**: Gunakan grafik yang mendukung interpretasi
- **Statistics**: Berikan statistik yang relevan
- **Effect Sizes**: Diskusikan effect sizes, bukan hanya p-values
- **Confidence Intervals**: Berikan confidence intervals

#### 9.5.3 Interpretation
- **Context**: Interpretasi dalam konteks penelitian
- **Practical Significance**: Diskusikan signifikansi praktis
- **Implications**: Jelaskan implikasi untuk praktik
- **Recommendations**: Berikan rekomendasi tindakan
- **Future Research**: Saran untuk penelitian selanjutnya

### 9.6 Analysis Checklist

#### 9.6.1 Pre-analysis
- [ ] Data quality check
- [ ] Missing values analysis
- [ ] Outlier detection
- [ ] Data distribution check
- [ ] Variable selection
- [ ] Sample size adequacy

#### 9.6.2 Analysis
- [ ] Model fitting
- [ ] Assumption checking
- [ ] Multicollinearity check
- [ ] Residual analysis
- [ ] Outlier detection
- [ ] Model validation

#### 9.6.3 Post-analysis
- [ ] Results interpretation
- [ ] Effect size calculation
- [ ] Confidence intervals
- [ ] Model comparison
- [ ] Sensitivity analysis
- [ ] Reporting

### 9.7 Summary

Regresi multiple adalah teknik statistik yang powerful untuk analisis multivariat, tetapi memerlukan perhatian khusus pada:

1. **Data Quality**: Pastikan data berkualitas tinggi
2. **Assumptions**: Periksa dan validasi asumsi model
3. **Multicollinearity**: Tangani multikolinearitas dengan tepat
4. **Validation**: Validasi model dengan data independen
5. **Interpretation**: Interpretasi yang hati-hati dan kontekstual
6. **Reporting**: Pelaporan yang komprehensif dan transparan

Dengan mengikuti best practices dan menghindari common mistakes, regresi multiple dapat memberikan insights yang valuable untuk penelitian dan pengambilan keputusan.


## 10. Kesimpulan

### 10.1 Ringkasan Materi

Regresi multiple adalah teknik statistik yang powerful untuk analisis multivariat yang memungkinkan kita untuk:

1. **Memahami Hubungan Kompleks**: Menganalisis hubungan antara satu variabel dependen dengan beberapa variabel independen
2. **Membuat Prediksi**: Memprediksi nilai variabel dependen berdasarkan nilai variabel independen
3. **Mengontrol Variabel**: Mengontrol pengaruh variabel lain saat menganalisis hubungan
4. **Mengidentifikasi Faktor Penting**: Menentukan variabel mana yang paling berpengaruh
5. **Mengukur Efek Parsial**: Mengukur efek unik setiap variabel independen

### 10.2 Konsep Kunci

#### 10.2.1 Model Regresi Multiple
- **Persamaan**: Y = β₀ + β₁X₁ + β₂X₂ + ... + βₖXₖ + ε
- **Koefisien**: βᵢ menunjukkan perubahan Y per unit perubahan Xᵢ
- **Intercept**: β₀ adalah nilai Y ketika semua X = 0
- **Error**: ε adalah error term yang tidak dapat dijelaskan

#### 10.2.2 Interpretasi Koefisien
- **Partial Effect**: Efek Xᵢ pada Y dengan mengontrol variabel lain
- **Standardized**: Koefisien yang distandarisasi untuk perbandingan
- **Confidence Interval**: Rentang nilai yang mungkin untuk koefisien
- **Significance**: Apakah koefisien berbeda dari nol secara statistik

#### 10.2.3 Evaluasi Model
- **R-squared**: Proporsi varians yang dijelaskan model
- **Adjusted R-squared**: R-squared yang disesuaikan untuk jumlah variabel
- **RMSE**: Root Mean Square Error untuk mengukur akurasi prediksi
- **AIC/BIC**: Information criteria untuk perbandingan model

#### 10.2.4 Asumsi Model
- **Linearity**: Hubungan linear antara variabel
- **Independence**: Observasi independen satu sama lain
- **Homoscedasticity**: Varians error konstan
- **Normality**: Error berdistribusi normal
- **No Multicollinearity**: Variabel independen tidak berkorelasi tinggi

### 10.3 Aplikasi Praktis

Regresi multiple memiliki aplikasi yang luas di berbagai bidang:

1. **Penelitian Medis**: Prediksi risiko penyakit, analisis efektivitas pengobatan
2. **Penelitian Ekonomi**: Forecasting permintaan, analisis elastisitas harga
3. **Penelitian Psikologi**: Prediksi perilaku, analisis efektivitas terapi
4. **Penelitian Bisnis**: Forecasting penjualan, analisis nilai pelanggan
5. **Penelitian Pendidikan**: Analisis prestasi siswa, efektivitas mengajar
6. **Penelitian Teknologi**: Analisis performa sistem, user engagement
7. **Penelitian Lingkungan**: Modeling iklim, prediksi polusi
8. **Penelitian Sosial**: Analisis perilaku sosial, dampak kebijakan

### 10.4 Best Practices

#### 10.4.1 Persiapan Data
- Pastikan data berkualitas tinggi
- Handle missing values dengan tepat
- Identifikasi dan handle outliers
- Periksa distribusi data

#### 10.4.2 Model Building
- Mulai dengan model sederhana
- Tambahkan variabel secara bertahap
- Periksa asumsi model
- Validasi dengan data independen

#### 10.4.3 Interpretasi
- Interpretasi dalam konteks penelitian
- Diskusikan keterbatasan model
- Jelaskan implikasi praktis
- Berikan rekomendasi tindakan

### 10.5 Keterbatasan

#### 10.5.1 Asumsi Model
- Model mengasumsikan hubungan linear
- Error harus berdistribusi normal
- Tidak ada multikolinearitas
- Observasi harus independen

#### 10.5.2 Interpretasi
- Korelasi bukan kausalitas
- Model hanya menjelaskan, tidak memprediksi
- Hasil bergantung pada data yang digunakan
- Tidak dapat menangani hubungan non-linear

#### 10.5.3 Praktis
- Memerlukan data berkualitas tinggi
- Interpretasi bisa kompleks
- Memerlukan pengetahuan statistik
- Tidak selalu memberikan jawaban yang jelas

### 10.6 Rekomendasi

#### 10.6.1 Untuk Peneliti
- Pahami asumsi model sebelum menggunakan
- Validasi model dengan data independen
- Diskusikan keterbatasan dalam laporan
- Gunakan multiple methods untuk validasi

#### 10.6.2 Untuk Praktisi
- Pastikan data berkualitas tinggi
- Gunakan software yang tepat
- Interpretasi hasil dengan hati-hati
- Konsultasi dengan ahli statistik jika perlu

#### 10.6.3 Untuk Pembelajar
- Pahami konsep dasar sebelum praktik
- Latihan dengan data nyata
- Pelajari berbagai metode
- Jangan takut bertanya

### 10.7 Penutup

Regresi multiple adalah teknik statistik yang powerful dan versatile yang dapat memberikan insights yang valuable untuk penelitian dan pengambilan keputusan. Namun, teknik ini memerlukan pemahaman yang baik tentang asumsi, keterbatasan, dan interpretasi yang tepat.

Dengan mengikuti best practices dan menghindari common mistakes, regresi multiple dapat menjadi alat yang sangat berguna untuk analisis data multivariat. Ingatlah bahwa statistik adalah alat untuk membantu pemahaman, bukan untuk menggantikan pemikiran kritis dan konteks penelitian.

Selamat belajar dan semoga sukses dalam penerapan regresi multiple dalam penelitian Anda!
