<a href="https://colab.research.google.com/github/KrituneX/Hands-on-Machine-Learning-with-Scikit-Learn-Keras-TensorFlow/blob/main/Chapter_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ringkasan Chapter 4: Training Models
## Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (2nd Ed.)

### 1. Linear Regression
- Model sederhana yang memprediksi nilai dengan fungsi linear.
- Rumus:
  $$y = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + ... + \theta_n x_n$$
- Dalam bentuk vektor:
  $$y = h_\theta(x) = \theta \cdot x$$
- **Contoh**: Jika kita ingin memprediksi harga rumah berdasarkan luas dan lokasi, kita bisa menggunakan model ini.

In [None]:
import numpy as np

# Contoh data
X = np.array([[1], [2], [3]])
y = np.array([[1], [2], [3]])

### 2. Cost Function
- MSE (Mean Squared Error):
  $$MSE(\theta) = \frac{1}{m} \sum_{i=1}^{m} (h_\theta(x_i) - y_i)^2$$
- **Tujuan**: Menemukan parameter yang meminimalkan MSE.
- **Interpretasi**: MSE mengukur seberapa baik model memprediksi nilai yang sebenarnya.

In [None]:
def compute_mse(theta, X, y):
    m = len(y)
    predictions = X.dot(theta)
    return (1/m) * np.sum((predictions - y) ** 2)

### 3. Normal Equation
- Solusi tertutup untuk menemukan parameter terbaik:
  $$\theta = (X^T X)^{-1} X^T y$$
- **Kelebihan**: Dapat menghitung parameter secara langsung tanpa iterasi.
- **Kekurangan**: Tidak efisien untuk dataset besar.

In [None]:
def normal_equation(X, y):
    return np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)

### 4. Gradient Descent
- Metode iteratif untuk meminimalkan fungsi biaya.
- Langkah:
  $$\theta_{next} = \theta - \eta \nabla J(\theta)$$
- **Learning Rate**: Menentukan seberapa besar langkah yang diambil.
- **Kelebihan**: Efisien untuk dataset besar dan dapat digunakan untuk berbagai model.

In [None]:
def gradient_descent(X, y, theta, learning_rate, n_iterations):
    m = len(y)
    for _ in range(n_iterations):
        gradients = (2/m) * X.T.dot(X.dot(theta) - y)
        theta = theta - learning_rate * gradients
    return theta

### 5. Polynomial Regression
- Menambahkan derajat polinomial untuk menangkap hubungan non-linear.
- Contoh:
  $$y = 0.5 x^2 + x + 2 + noise$$
- **Transformasi**: Menggunakan `PolynomialFeatures` untuk menambah fitur.

In [None]:
from sklearn.preprocessing import PolynomialFeatures

poly_features = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly_features.fit_transform(X)

### 6. Learning Curves
- Memvisualisasikan performa model terhadap ukuran data pelatihan.
- Membantu mendeteksi overfitting dan underfitting.
- **Contoh**: Menggunakan fungsi untuk menggambar learning curves.

In [None]:
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

def plot_learning_curves(model, X, y):
    X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2)
    train_errors, val_errors = [], []
    for m in range(1, len(X_train)):
        model.fit(X_train[:m], y_train[:m])
        y_train_predict = model.predict(X_train[:m])
        y_val_predict = model.predict(X_val)
        train_errors.append(mean_squared_error(y_train[:m], y_train_predict))
        val_errors.append(mean_squared_error(y_val, y_val_predict))
    plt.plot(np.sqrt(train_errors), 'r-', label='train')
    plt.plot(np.sqrt(val_errors), 'b-', label='val')
    plt.xlabel('Training Set Size')
    plt.ylabel('RMSE')
    plt.legend()
    plt.show()

### 7. Bias/Variance Trade-off
- Generalisasi error = Bias + Variance + Irreducible Error
- Bias: Kesalahan karena asumsi yang salah (underfitting)
- Variance: Sensitivitas terhadap variasi kecil dalam data (overfitting)
- **Tujuan**: Menemukan keseimbangan antara bias dan variance.

### 8. Regularized Linear Models
- **Ridge Regression**: Menambahkan penalti L2 ke fungsi biaya.
- **Lasso Regression**: Menambahkan penalti L1 ke fungsi biaya.
- **Elastic Net**: Kombinasi dari Ridge dan Lasso.

In [None]:
from sklearn.linear_model import Ridge, Lasso, ElasticNet

ridge_reg = Ridge(alpha=1)
lasso_reg = Lasso(alpha=1)
elastic_net_reg = ElasticNet(alpha=1, l1_ratio=0.5)
ridge_reg.fit(X, y)
lasso_reg.fit(X, y)
elastic_net_reg.fit(X, y)

### 9. Evaluasi Model
- Menggunakan cross-validation untuk mengevaluasi model.
- Memeriksa performa model dengan metrik seperti RMSE, MAE, dan R-squared.

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.metrics import mean_squared_error

scores = cross_val_score(ridge_reg, X, y, scoring='neg_mean_squared_error', cv=5)
ridge_rmse_scores = np.sqrt(-scores)
print('Ridge RMSE:', ridge_rmse_scores.mean())