# 📐 **Chapter 4 - Training Models**

# Excercises

## 1. Which Linear Regression training algorithm can you use if you have a training set with millions of features?

> Jutaan fitur dapat ditangani menggunakan ***Gradient Descent*** atau variannya (*Stochaastic* atau *Mini-batch* GD). <br>

> Apabila menggunakan selain *Gradient Descent*, seperti *Normal Equation* atau SVD, model dapat memiliki kompleksitas yang meningkat secara drastis seiring bertambahnya gitur dan membuat algoritma menjadi lambat. <br>

## 2. Suppose the features in your training set have very different scales. Which algorithms might suffer from this, and how? What can you do about it?

> - Algoritma *Gradient Descent* beserta semua variannya akan menderita karena mereka sensitif terhadap skala fitur
> - Solusi untuk *Gradient Descent* dapat melakukan *feature scaling* menggunakan *StandardScaler* dari *Scikit-Learn*

> - *Normal Equation* atau SVD akan memberi hasil yang sub-optimal tanpa *feature scaling*. 

## 3. Can Gradient Descent get stuck in a local minimum when training a Logistic Regression model?

> *Gradient Descent* memiliki fungsi *cost* yang cembung. Fungsi yang cembung berciri memiliki global minimum dan tidak memiliki lokal minimum sehingga **mustahil** Algoritma GD mengalami *stuck*. <br>

## 4. Do all Gradient Descent algorithms lead to the same model, provided you let them run long enough?

> Semua algoritma GD akan menghasilkan model yang sedikit berbeda : <br>

> - *Batch Gradient Descent* akan konvergen ke solusi optimal. <br>
> - *Stochastic GD* dan *Mini-batch* jika menggunakan *learning rate* dengan nilai yang tetap, mereka akan menghasilkan model yang tidak konvergen, tetapi memantul di sekitar minimum. Jika *Stochastic* dan *Mini-batch* menggunakan nilai *learning rate* yang kecil secara bertahap, penerapan ini dapat menghasilkan model yang menetap di global minimum. <br>

## 5. Suppose you use Batch Gradient Descent and you plot the validation error at every epoch. If you notice that the validation error consistently goes up, what is likely going on? How can you fix this?

> - Model kemungkinan memiliki *learning rate* terlalu tinggi sehingga menghasilkan fungsi yang tidak konvergen. <br>
> - Kemungkinan kedua adalah model mengalami *overfitting* pada data training. Model dapat menggunakan *early stopping* ketika error pada *validation* mulai mengalami kenaikan dari *epoch* sebelumnya. <br>

## 6. Is it a good idea to stop Mini-batch Gradient Descent immediately when the validation error goes up?

> Karena sifatnya yang *stochastic* (acak), menghentikan pelatihan model adalah **ide yang buruk**. Sangat wajar jika pelatihan yang sifatnya acak akan memiliki error yang tidak mulus.

## 7. Which Gradient Descent algorithm (among those we discussed) will reach the vicinity of the optimal solution the fastest? Which will actually converge? How can you make the others converge as well?

> - *Stochastic Gradient Descent* akan mencapai daerah optimal global terlebih dahulu akibat algoritmanya yang memproses satu *instance* per epoch model mengambil langkah training lebih frekuens. <br>
> - *Mini-batch Gradient* juga bisa dengan cepat mencapai daerah global optimal jika *batch*nya kecil. <br>
> - Untuk *Stochastic* dan *Mini-batch* dapat konvergen jika melakukan penerapan *learning rate* yang dikurangi secara bertahap. <br>

## 8. Suppose you are using Polynomial Regression. You plot the learning curves and you notice that there is a large gap between the training error and the validation error. What is happening? What are three ways to solve this?

> Model mengalami *overfitting*. <br>


> - Dapat menambah lebih banyak data training. <br>
> - Menerapkan regularisasi pada model. <br>
> - Mengurangi kompleksitas model. <br>

## 9. Suppose you are using Ridge Regression and you notice that the training error and the validation error are almost equal and fairly high. Would you say that the model suffers from high bias or high variance? Should you increase the regularization hyperparameter α or reduce it?

> Model mengalami *high bias* (*underfitting*). <br>
> Ini diakibatkan oleh nilai α yang tinggi. Memaksa model menjadi lebih sederhana dan meningkatkan *bias*. <br>
> Model perlu dibuat fit dengan mengurangi nilai α. <br>

## 10. Why would you want to use:


### a. Ridge Regression instead of plain Linear Regression (i.e., without any regularization)?


> Selalu utamakan *Ridge Regression* daripada *Linear Regression*. <br>
> Regulariasi (seperti menggunakan *Ridge*) lebih baik digunakan walau sedikit taripada tidak ada regularisasi sama sekali. <br>

### b. Lasso instead of Ridge Regression?

> *Lasso* mengurangi bobot dari fitur yang dianggap tidak penting menjadi nol. <br
> Gunakan *Lasso* ketika Anda curiga bahwa hanya terdapat sedikit fitur yang penting untuk model. <br>

### c. Elastic Net instead of Lasso?

> *Elastic Net* digunakan untuk mencapai kestabilan ketika fitur-fitur berjumlah banyak dan saling berkorelasi kuat. <br>
> Jika jumlah *instance* training lebih kecil dari jumlah fitur, *Lasso* akan tidak stabil, sedangkan *Elastic Net* stabil. <br>

## 11. Suppose you want to classify pictures as outdoor/indoor and daytime/nighttime. Should you implement two Logistic Regression classifiers or one Softmax Regression classifier?

> - *Softmac Regression* digunakan untuk kelas yang saling eksklusif. Model hanya bisa memilih satu kelas dari banyak label. <br>
> - ***Logistic Regression* cocok untuk permasalahan ini** karena masing masing klasifikasi dapat dibagi menjadi dua tugas *binary*. Digit biner pertama untuk *outdoor/indoor* dan digit kedua untuk *daytime/nighttime*. <br>

## 12. Implement Batch Gradient Descent with early stopping for Softmax Regression (without using Scikit-Learn).

In [1]:
import numpy as np
from sklearn import datasets

iris = datasets.load_iris()
X = iris["data"]
y = iris["target"]

X_with_bias = np.c_[np.ones([len(X), 1]), X]

def to_one_hot(y):
    n_classes = y.max() + 1
    m = len(y)
    Y_one_hot = np.zeros((m, n_classes))
    Y_one_hot[np.arange(m), y] = 1
    return Y_one_hot

Y_one_hot = to_one_hot(y)

test_ratio = 0.33
validation_size = int(len(X_with_bias) * test_ratio)
train_size = len(X_with_bias) - validation_size

np.random.seed(42)
shuffled_indices = np.random.permutation(len(X_with_bias))

X_train = X_with_bias[shuffled_indices[:train_size]]
Y_train = Y_one_hot[shuffled_indices[:train_size]]
X_val = X_with_bias[shuffled_indices[train_size:]]
Y_val = Y_one_hot[shuffled_indices[train_size:]]

def softmax(logits):
    exps = np.exp(logits)
    exp_sums = np.sum(exps, axis=1, keepdims=True)
    return exps / exp_sums

def cross_entropy_loss(Y_proba, Y_target):
    m = len(Y_target)
    epsilon = 1e-7
    log_likelihood = -np.log(Y_proba[range(m), Y_target.argmax(axis=1)] + epsilon)
    return np.sum(log_likelihood) / m

n_inputs = X_train.shape[1]
n_outputs = Y_train.shape[1]

Theta = np.random.randn(n_inputs, n_outputs)

eta = 0.01
n_epochs = 5001
m = len(X_train)

patience = 50
best_loss = np.inf
epochs_without_improvement = 0
best_theta = None

print("Memulai training...")
for epoch in range(n_epochs):
    logits = X_train.dot(Theta)
    Y_proba = softmax(logits)

    error = Y_proba - Y_train
    gradients = (1/m) * X_train.T.dot(error)
    
    Theta = Theta - eta * gradients
    
    val_logits = X_val.dot(Theta)
    val_proba = softmax(val_logits)
    val_loss = cross_entropy_loss(val_proba, Y_val)
    
    if epoch % 500 == 0:
        print(f"Epoch: {epoch}, Validation Loss: {val_loss:.4f}")

    if val_loss < best_loss:
        best_loss = val_loss
        best_theta = Theta.copy()
        epochs_without_improvement = 0
    else:
        epochs_without_improvement += 1
        
    if epochs_without_improvement >= patience:
        print(f"Early stopping di epoch {epoch}")
        break

print("\nTraining selesai.")
print(f"Loss validasi terbaik: {best_loss:.4f}")

Memulai training...
Epoch: 0, Validation Loss: 4.6320
Epoch: 500, Validation Loss: 0.5574
Epoch: 1000, Validation Loss: 0.4403
Epoch: 1500, Validation Loss: 0.3687
Epoch: 2000, Validation Loss: 0.3193
Epoch: 2500, Validation Loss: 0.2831
Epoch: 3000, Validation Loss: 0.2556
Epoch: 3500, Validation Loss: 0.2339
Epoch: 4000, Validation Loss: 0.2165
Epoch: 4500, Validation Loss: 0.2021
Epoch: 5000, Validation Loss: 0.1901

Training selesai.
Loss validasi terbaik: 0.1901
