# Unit 2 Model Training and Prediction Functions in ML Pipelines

# Building a Reusable Pipeline Functions

Selamat datang kembali di pelajaran 2 dari "Membangun Fungsi Pipeline yang Dapat Digunakan Kembali"\! Di pelajaran sebelumnya, kita telah belajar cara membuat fungsi-fungsi modular yang dapat digunakan kembali untuk memuat dan memproses data, yang merupakan langkah-langkah awal yang sangat penting dalam pipeline ML kita. Sekarang setelah data kita disiapkan dengan benar, kita siap untuk beralih ke komponen penting berikutnya: fungsi pelatihan model dan prediksi.

Sepanjang pelajaran ini, kita akan membangun di atas fondasi yang telah kita bangun dengan fungsi pemrosesan data kita dan membuat fungsi-fungsi yang sama kuatnya untuk melatih model-model *machine learning* dan menghasilkan prediksi. Sama seperti pemrosesan data, mengikuti **prinsip-prinsip desain yang baik** untuk fungsi-fungsi ini akan membantu memastikan sistem ML kita mudah dipelihara, fleksibel, dan siap produksi.

Pada akhir pelajaran ini, Anda akan memahami cara membuat fungsi pelatihan model yang dapat beradaptasi dengan pendekatan pemodelan yang berbeda sambil tetap mempertahankan antarmuka yang konsisten—sebuah **keterampilan utama untuk membangun sistem ML produksi** yang dapat berkembang seiring waktu.

## Memahami Fungsi Model dalam Pipeline ML

Sebelum kita masuk ke dalam kode, mari kita diskusikan mengapa fungsi pelatihan model yang dirancang dengan baik **sangat penting** dalam sebuah pipeline ML:

  * **Konsistensi**: Antarmuka standar untuk pelatihan dan prediksi model memastikan bahwa model-model yang berbeda dapat dengan mudah ditukar tanpa mengubah kode di sekitarnya.
  * **Eksperimen**: Fungsi-fungsi model yang terstruktur dengan baik membuatnya lebih mudah untuk bereksperimen dengan algoritma dan *hyperparameter* yang berbeda.
  * **Pemeliharaan**: Mengisolasi logika model dalam fungsi-fungsi khusus membuat kode lebih mudah dipahami dan diperbarui.
  * **Reproduksibilitas**: Fungsi-fungsi yang dirancang dengan baik dengan penanganan parameter yang tepat memastikan hasil pelatihan dapat direproduksi dengan andal.

Saat membangun fungsi-fungsi model untuk produksi, kita perlu mempertimbangkan **persyaratan saat ini dan masa depan**. Meskipun kita mungkin mulai dengan satu jenis model, pipeline kita harus cukup fleksibel untuk mengakomodasi pendekatan yang berbeda seiring dengan berkembangnya proyek kita. **Desain yang berwawasan ke depan** ini adalah ciri khas sistem ML tingkat produksi.

## Merancang Antarmuka Pelatihan Model yang Fleksibel

Mari kita mulai dengan merancang antarmuka untuk fungsi pelatihan model kita. Antarmuka yang baik harus intuitif dan fleksibel, mengakomodasi berbagai jenis model sambil mempertahankan struktur yang konsisten:

```python
def train_model(X_train, y_train, model_type="random_forest", **model_params):
    """
    Train a machine learning model on the preprocessed data.
    
    Args:
        X_train (array-like): Preprocessed training features
        y_train (array-like): Training target values
        model_type (str): Type of model to train ('random_forest' or 'linear')
        **model_params: Additional parameters to pass to the model constructor
        
    Returns:
        object: Trained model
    """
    print(f"Training a {model_type} model...")
    
    # Model selection and training logic will go here
    
    print("Model training completed!")
    return model
```

Tanda tangan fungsi ini menunjukkan beberapa prinsip desain penting:

  * **Parameter wajib** (`X_train`, `y_train`) untuk data pelatihan.
  * **Jenis model *default*** ("random\_forest") yang memberikan pilihan *default* yang masuk akal.
  * **Penerusan parameter yang fleksibel** menggunakan `**model_params` untuk menerima sejumlah parameter khusus model.
  * ***Docstring* yang jelas** yang menjelaskan apa yang dilakukan fungsi tersebut, parameter-parameternya, dan nilai kembaliannya.

## Mengimplementasikan Logika Pemilihan Model

Sekarang mari kita tambahkan logika untuk memilih dan melatih berbagai jenis model:

```python
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression

def train_model(X_train, y_train, model_type="random_forest", **model_params):
    """
    Train a machine learning model on the preprocessed data.
    
    Args:
        X_train (array-like): Preprocessed training features
        y_train (array-like): Training target values
        model_type (str): Type of model to train ('random_forest' or 'linear')
        **model_params: Additional parameters to pass to the model constructor
        
    Returns:
        object: Trained model
    """
    print(f"Training a {model_type} model...")
    
    if model_type == "random_forest":
        # Default parameters if not specified
        if 'n_estimators' not in model_params:
            model_params['n_estimators'] = 10  # Using a sensible default
        if 'random_state' not in model_params:
            model_params['random_state'] = 42  # For reproducibility
            
        model = RandomForestRegressor(**model_params)
    elif model_type == "linear":
        model = LinearRegression(**model_params)
    else:
        raise ValueError(f"Unsupported model type: {model_type}")
        
    # Train the model
    model.fit(X_train, y_train)
    
    print("Model training completed!")
    return model
```

Kode ini mendefinisikan fungsi untuk melatih berbagai jenis model *machine learning*:

  * Ia menerima data pelatihan dan jenis model sebagai masukan.
  * Ia memilih model berdasarkan parameter `model_type`.
  * Untuk model "random\_forest", ia menetapkan nilai *default* untuk `n_estimators` dan `random_state` jika tidak disediakan.
  * Ia akan menimbulkan *error* jika jenis model yang tidak didukung ditentukan.
  * Ia melatih model yang dipilih menggunakan data yang disediakan dengan `model.fit(X_train, y_train)` dan mengembalikan model yang telah dilatih.

## Membuat Fungsi Prediksi

Pipeline ML yang baik tidak hanya membutuhkan fungsi untuk melatih model, tetapi juga untuk membuat prediksi dengan model-model tersebut. Mari kita terapkan fungsi prediksi yang berfungsi dengan model mana pun yang telah kita latih:

```python
def predict_with_model(model, X):
    """
    Make predictions using a trained model.
    
    Args:
        model (object): Trained model
        X (array-like): Preprocessed features
        
    Returns:
        array: Predictions
    """
    return model.predict(X)
```

Fungsi ini sengaja dibuat sederhana, namun kesederhanaan tersebut adalah sebuah **kekuatan**. Dengan membuat fungsi khusus untuk prediksi:

  * Kita menciptakan **antarmuka yang konsisten** untuk menghasilkan prediksi, terlepas dari jenis model dasarnya.
  * Kita menetapkan **satu titik modifikasi** jika kita perlu mengubah cara prediksi dihasilkan.
  * Kita mengikuti **prinsip tanggung jawab tunggal** dengan memisahkan logika pelatihan dari logika prediksi.

Meskipun saat ini sederhana, fungsi ini dapat berkembang untuk menyertakan fungsionalitas tambahan seperti validasi input, penanganan kesalahan, pasca-pemrosesan prediksi, pencatatan, dan pemantauan. Dengan mengisolasi prediksi dalam fungsinya sendiri, kita membuatnya **lebih mudah untuk menambahkan kemampuan ini** di masa depan tanpa mengganggu bagian lain dari pipeline kita.

## Mengintegrasikan Pelatihan Model ke dalam Pipeline

Terakhir, mari kita lihat bagaimana fungsi pelatihan dan prediksi model kita berintegrasi ke dalam pipeline yang lengkap:

```python
def main():
    """Main function to demonstrate the model training pipeline."""
    # Step 1: Load the data
    print("Loading diamonds dataset...")
    data_path = "diamonds.csv"
    diamonds_df = load_diamonds_data(data_path)
    print(f"Dataset loaded with shape: {diamonds_df.shape}")
    
    # Step 2: Preprocess the dataset
    print("\nPreprocessing the dataset...")
    X_train, X_test, y_train, _, _ = preprocess_diamonds_data(diamonds_df)
    print(f"Preprocessing complete.")
    print(f"Training set size: {X_train.shape[0]}, Test set size: {X_test.shape[0]}")
    
    # Step 3: Train a Random Forest model with custom parameters
    print("\n--- Training Random Forest Model ---")
    rf_model = train_model(
        X_train,
        y_train,
        model_type="random_forest",
        n_estimators=10,
        max_depth=5,
        random_state=42
    )
    
    # Step 4: Generate predictions with the trained model
    y_pred_rf = predict_with_model(rf_model, X_test)
    print(f"Generated {len(y_pred_rf)} predictions")
```

Fungsi utama ini menunjukkan alur kerja yang lengkap, mulai dari pemuatan data hingga prediksi:

  * Kita memuat dataset menggunakan fungsi kita dari Pelajaran 1.
  * Kita memproses data menggunakan fungsi pra-pemrosesan kita, juga dari Pelajaran 1.
  * Kita melatih **model *Random Forest*** dengan *hyperparameter* spesifik menggunakan fungsi `train_model` yang baru.
  * Kita menghasilkan prediksi pada set pengujian menggunakan fungsi `predict_with_model` kita.

Perhatikan bagaimana setiap langkah dibangun di atas langkah sebelumnya, menciptakan **alur kerja yang jelas dan linier**. Pendekatan terorganisir ini membuat kode mudah dipahami dan dimodifikasi. Ini juga mengilustrasikan manfaat nyata dari desain modular kita: kita dapat dengan mudah menukar model yang berbeda atau mengubah *hyperparameter* tanpa mengganggu struktur pipeline secara keseluruhan.

## Kesimpulan dan Langkah Selanjutnya

Di pelajaran kedua ini, kita telah memperluas pipeline ML kita dengan membuat **fungsi-fungsi yang kuat dan fleksibel** untuk pelatihan dan prediksi model. Fungsi-fungsi ini mengikuti prinsip-prinsip desain yang sama yang kita tetapkan dalam modul pemrosesan data kita: modularitas, fleksibilitas, dan antarmuka yang jelas. Kita telah merancang sebuah sistem yang dapat mengakomodasi berbagai jenis model, menangani beragam parameter, dan menyediakan kemampuan prediksi yang konsisten—semuanya sambil mempertahankan basis kode yang bersih dan mudah dibaca yang mengikuti praktik terbaik rekayasa perangkat lunak.

Saat Anda beralih ke latihan praktik, Anda akan memiliki kesempatan untuk bereksperimen dengan fungsi-fungsi ini secara langsung. Pengalaman langsung ini akan memperkuat konsep-konsep yang telah kita bahas dan membantu Anda mengembangkan keterampilan yang dibutuhkan untuk membangun pipeline ML berkualitas produksi dalam proyek Anda sendiri. Selamat *coding*\!

## Setting Default Hyperparameters in Models

Welcome to your first hands-on practice with model training functions! In our previous lesson, we explored how to design flexible model training interfaces. Now, it's time to put that knowledge into action.

In this exercise, you'll enhance the flexibility of our train_model function by ensuring it sets sensible default hyperparameters for a Random Forest model. Here's what you need to do:

Ensure that n_estimators is set to 10 if not specified in model_params.
Ensure that random_state is set to 42 if not specified in model_params.
Happy coding!

```python
"""
Model Training Module for ML Pipeline

This module provides functions for training machine learning models
on the preprocessed diamonds dataset.
"""

import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score


def train_model(X_train, y_train, model_type="random_forest", **model_params):
    """
    Train a machine learning model on the preprocessed data.
    
    Args:
        X_train (array-like): Preprocessed training features
        y_train (array-like): Training target values
        model_type (str): Type of model to train ('random_forest' or 'linear')
        **model_params: Additional parameters to pass to the model constructor
        
    Returns:
        object: Trained model
    """
    print(f"Training a {model_type} model...")
    
    if model_type == "random_forest":
        # Default parameters if not specified
        # TODO: Add code to set default value for 'n_estimators' to 10 if not provided in model_params
        
        # TODO: Add code to set default value for 'random_state' to 42 if not provided in model_params
            
        model = RandomForestRegressor(**model_params)
    
    elif model_type == "linear":
        model = LinearRegression(**model_params)
    
    else:
        raise ValueError(f"Unsupported model type: {model_type}")
    
    # Train the model
    model.fit(X_train, y_train)
    
    print("Model training completed!")
    return model


def predict_with_model(model, X):
    """
    Make predictions using a trained model.
    
    Args:
        model (object): Trained model
        X (array-like): Preprocessed features
        
    Returns:
        array: Predictions
    """
    return model.predict(X)

```

```python
"""
Model Training Module for ML Pipeline

This module provides functions for training machine learning models
on the preprocessed diamonds dataset.
"""

import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score


def train_model(X_train, y_train, model_type="random_forest", **model_params):
    """
    Train a machine learning model on the preprocessed data.
    
    Args:
        X_train (array-like): Preprocessed training features
        y_train (array-like): Training target values
        model_type (str): Type of model to train ('random_forest' or 'linear')
        **model_params: Additional parameters to pass to the model constructor
        
    Returns:
        object: Trained model
    """
    print(f"Training a {model_type} model...")
    
    if model_type == "random_forest":
        # Default parameters if not specified
        # Add code to set default value for 'n_estimators' to 10 if not provided in model_params
        if 'n_estimators' not in model_params:
            model_params['n_estimators'] = 10 # Using a sensible default 
        
        # Add code to set default value for 'random_state' to 42 if not provided in model_params
        if 'random_state' not in model_params:
            model_params['random_state'] = 42 # For reproducibility 
            
        model = RandomForestRegressor(**model_params)
    
    elif model_type == "linear":
        model = LinearRegression(**model_params)
    
    else:
        raise ValueError(f"Unsupported model type: {model_type}")
    
    # Train the model
    model.fit(X_train, y_train)
    
    print("Model training completed!")
    return model


def predict_with_model(model, X):
    """
    Make predictions using a trained model.
    
    Args:
        model (object): Trained model
        X (array-like): Preprocessed features
        
    Returns:
        array: Predictions
    """
    return model.predict(X)

```

## Linear Regression Model Training

## Consistent Model Predictions

## Enhance Prediction Function Reliability

## Building a Complete ML Pipeline